Skip to content
Permalink
Branch: master
Find file Copy path
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
63 lines (48 sloc) 5.27 KB

Was ist OpenRefine?

  • "powerful tool for working with messy data": Bereinigung, (Format-)Transformation & Aggregation von Daten
  • Source code & kollaborative Entwicklung via GitHub (BSD-3-Clause-Lizenz)
  • Aktuelle Version 3.1 (Download für Windows, Mac OS, Linux)
  • primär GUI-gestützt; diverse Client libraries zur Automatisierung (z.B. Python, R, ruby)
  • Kein Webservice! Desktop-Anwendung (Java-basiert): Bearbeitung im Browser (Aufruf via http://127.0.0.1:3333/ oder http://localhost:3333/); Daten & Bearbeitungshistorie werden lokal gespeichert

Was kann OpenRefine?

  • Datenexploration: Filter & Facetten (verschiedene Datentypen), Clustering, Dubletten
  • Transformation: auf Ebenen Zellen, Zeilen oder Spalten; Standardfunktionen (Zellen aufteilen oder verketten, Leerzeichen entfernen, Datentyp ändern, Groß-/Kleinschreibung ändern, ...); Mini-Skripte mit Google Refine Expression Language (GREL), Python/Jython oder Clojure
  • History: Undo auch für ausgewählte (frühere) Schritte; kann exportiert werden, um gleiche Operationen auf andere Datensets anzuwenden
  • Aggregation: mit Daten aus anderen OR-Projekten; Webschnittstellen abfragen + Daten parsen (JSON, XML, HTML); Reconciliation Services (z.B. Wikidata, GND via LOBID, VIAF) bzw. Extensions (z.B. GoKB)
  • Bearbeitung der Daten in tabellarischer Form (Achtung mit row/record-Modus) -> diverse Import- und Exportoptionen 😄
  • Import: TSV, CSV, *SV, XLS(X), JSON, XML, RDF as XML, Google Data documents; andere Formate via OpenRefine Extensions
  • Export: Standardformate (CSV, TSV, XLS(X), HTML table, ...); custom Templating z.B. für XML

Was kann OpenRefine nicht?

  • Manuelles Editieren von Zellen möglich aber mühselig
  • Manuelles Hinzufügen neuer Zeilen
  • Statistische Auswertung oder Plotten (Diagramme, Grafiken) -- aber bestens geeignet für Vorbereitung der Daten für weitere Verwendung in Excel (Pivot) oder R, Python o.Ä.
  • Rechteverwaltung für verschiedene Nutzer*innen, die an gleichem Projekt arbeiten
  • Performance Probleme bei sehr großen Datensets

Wie kann ich mehr über OpenRefine lernen?

Anwendungsbeispiele

Beispiel Libreas

  • Ziel: Nachnutzung von OAI-DC-Metadaten und deren Aufbereitung als XML für Import in DOAJ
  • Anleitung Workflow im Libreas-Wiki
  • Vorgehen am Beispiel für Ausgabe 34:
    • edoc-Collection für Ausgabe aufrufen – Collection Identifier identifizieren
    • OAI-Abfrage ListIdentifiers (view source!) - XML kopieren
    • neues Projekt in OpenRefine (via Clipboard) - XML einfügen - in Vorschau Bereich <ListIdentifiers> auswählen
    • OpenRefine-Skript einlesen via Undo/Redo: json für Bearbeitungsschritte 1.2–3.6
    • (manuelle Nacharbeiten Schritt 3.8)
    • XML-Datei exportieren: Export -> Templating
  • finale XML-Datei für Import DOAJ
You can’t perform that action at this time.