Arcane

Aus IAO-Wiki

Konfigurierbare Web-Datenextraktion und automatisierte Auswertung für Marktpreisermittlungen

Die Fraunhofer-Methodik ermöglicht es, Daten aus dem Internet automatisiert zu erheben und auszuwerten. Die Arcane-Technologie wurde entwickelt, um beliebig strukturierte Daten aus dem Internet zu ermitteln, seien es Veranstaltungen, Dienstleistungsangebote, Produktbeschreibungen oder Preisdaten. Sie bietet damit beispielsweise die Möglichkeit, schnell und einfach Marktanalysen zu erstellen. Eine Besonderheit von Arcane liegt in der einfachen Bedienung durch die intuitive Benutzeroberfläche, die in einen Webbrowser eingebettet ist.

Datenerhebungsprozess

Abbildung 1: Datenextraktionsprozess
Abbildung 1: Datenextraktionsprozess


Die Datenerhebung und -auswertung erfolgt in fünf Schritten:

1. Konfiguration der Datenerhebung In diesem Schritt legt der Benutzer die für die Datenerhebung notwendigen Navigations- und Extraktionsschritte in der Benutzeroberfläche fest. Hierzu dient ein Webbrowser-Plugin, mit dessen Hilfe der Benutzer die Navigationsschritte zur Webseite mit den zu extrahierenden Daten und die zu extrahierenden Daten angibt. Dies geschieht anhand von Benutzeraktionen wie z.B. das Anklicken von Links oder die Angaben von Daten für die Befüllung von Webformularen direkt im Webbrowser. Arcane zeichnet die einzelnen Schritte auf, erkennt alle Links einer Gruppe und die dazugehörigen Datensätze (z.B. Bewertungen zu einem Produkt), die zu einem ausgewählten Datensatz gehören, automatisch. Das Ergebnis der Konfiguration ist ein Modell des Extraktionsprozesses (JSON-Datei), das dem Extraktionsserver als Beschreibung der zu verrichtenden Extraktionsschritte dient.

2. Automatische Datenextraktion aus dem Internet Für die automatische Datenextraktion muss dem Extrasktionsserver ein Extraktionsmodell (die im ersten Schritt erstellte JSON-Datei) angegeben werden. Zudem benötigt er eine Zeitangabe, die ihm mitteilt, wann genau die Extraktion erfolgen soll. Dies kann der Benutzer auf die Minute genau in einem digitalen Extraktionskalender (Scheduler) angeben. Anschließend extrahiert der Extraktionsserver die Daten automatisch am angegebenen Termin.

3. Speicherung der extrahierten Daten Nach der automatischen Datenextraktion werden die Daten in einer Datenbank (SQL oder auch NOSQL möglich) für die Weiterverarbeitung zwischengespeichert.

4. Datenaufbereitung Bei der Datenaufbereitung werden die Daten sowohl harmonisiert als auch unvollständige Datensätze gelöscht und mit Stammdaten abgeglichen.

5. Statistische Auswertung der bereinigten Daten Die statistische Auswertung erfolgt automatisch nach einem vom Benutzer hinterlegten Modell. Hierbei gibt der Benutzer die Dimensionen (z.B. Zeitraum, Produktklasse, etc.) und die Fakten (z.B. Mittelwertberechung, Standardabweichung, etc.) für die Berechungen an.

Systemarchitektur

Arcane besteht aus fünf Modulen für die Datenextraktion und -analyse sowie einem Monitoring-Modul zur Überwachung der Extraktions- und Bereinigungsschritte.

Abbildung 2: Arcane Systemarchitektur
Abbildung 2: Arcane Systemarchitektur



Die Datenextraktion erfolgt mithilfe der dieser Module:

  • Arcane Wand:

Benutzerschnittstelle in Form eines Webbrowser-Plugins.

  • Arcane Academy:

Extraktionsserver, der die Daten nach einem in Arcane Wand erstellten Modell und einem hinterlegten Extraktionsplan (Scheduler) automatisch extrahiert.

Modul für die Datenbereinigung:

  • Arcane Clean:

Hier erfolgt die Bereinigung und Harmonisierung der Daten sowie die Zusammenführung und der Abgleich mit vorhandenen Stammdaten bzw. mit Daten aus anderen Erhebungen.

Module für die Datenauswertung:

  • Arcane BI:

BI-Modul für die Erstellung der Dimensionen und Fakten der Datenanalyse.

  • Arcane Analyse:

Erstellung der Ergebnisdateien wie beispielsweise PDF, Excel-Sheet, SQL-Datei oder Access-Datenbank.

Benutzeroberfläche für die Datenextraktion

In der Benutzeroberfläche (Webbrowser-Plugin) erstellt der Benutzer das Modell für die Datenerhebung. Im unteren Teil des Webbrowsers werden die einzelnen Prozessschritte der Datenextraktion wie z.B. das Ausfüllen und Absenden eines Online-Formulars, das Verfolgen von Links oder das Sammeln bestimmter Daten festgelegt. Im oberen Teil kann er durch Anklicken auswählen, welche konkreten Links der Webseite bzw. welche Formularfelder gemeint sind und welche Daten der Webseite extrahiert werden sollen.