# Extraktion von Textdaten aus Dokumenten


## *Apache Tika* beherrscht interschiedliche Dokumenttypen

Oft findest du Dokumente im HTML-Format - das ist allerdings bei weitem nicht immer der Fall.

Mit [Apache Tika](http://tika.apache.org/) steht dir ein leistungsfähiges Tool zur Verfügung, das aus fast alle bekannten Dateiformaten den Textcontent extrahieren kann. Obwohl Tika in Java geschrieben ist, kannst du es as Python gut ansprechen. Das Paket selbst kümmert sich darum, alles notwendig zu installieren und einen Java-basierten Tika-Server zu starten, an den es dann die Anfragen schickt.

Evtl. musst du `tika` zuerst mit `pip install tika` installieren, dann kannst du es direkt ausprobieren:

In [None]:
!pip install tika

In [None]:
import tika

Nun startest du den Java-basierten Server und importierst den Parser:

In [None]:
tika.initVM()
from tika import parser

Jetzt kannst du alle von Tika unterstützen Dateiformat in Text wandeln

## PDF-Dokumente

Wenn du mit gescannten Dokumenten arbeitest, wird die oft das PDF- oder TIFF-Format begegnen. Dabei ist keineswegs gesichert, dass der Text dort überhaupt schon als solcher erkannt wurde. Häufig hast du es dann mit reinen Grafikdateien zu tun und eine Texterkennung (*OCR* - Optical Character Recognition) wurde noch gar nicht durchgeführt. Das OCR fehlerfrei durchzuführen ist eine ganz eigene Kunst, dazu kannst du Tools wie [Tesseract](https://github.com/tesseract-ocr) nutzen, die das übrigens auch mithilfe von Machine Learning erledigen.

Wir gehen im Folgenden davon aus, dass deine PDF-Dokumente Text enthalten. Als Beispiel verwenden wir ein PDF-Dokument über die [Technische Architektur von GAIA-X](https://www.heise.de/downloads/18/2/9/0/6/1/1/7/gaia-x-technical-architecture.pdf), das wir zunächst herunterladen:

In [None]:
import requests

pdf_filename = "gaia-x-technical-architecture.pdf"
r = requests.get(f"https://www.heise.de/downloads/18/2/9/0/6/1/1/7/{pdf_filename}")
open(pdf_filename, 'wb').write(r.content)

Versuche nun, aus diesem PDF-Dokument mithilfe von Tika den Text zu extrahieren (es kann sein, dass das einen Augenblick dauert, weil zuerst der Tika-Server gestartet werden muss):

In [None]:
pdf_parsed = parser.from_file(pdf_filename)
print(pdf_parsed["content"])

Der Text wird sehr gut aus dem Dokument herausgelöst, auch die Spalten werden korrekt erkannt. Allerdings findest du noch viele Formatierungsanweisungen wie Trennstriche, Absätze, Kopf- und Fußzeilen, Seitenzahlen etc. Diese lassen sich nur heuristisch entfernen.

PDF-Dokumente haben meistens den Vorteil, dass du sie relativ einfach extrahieren kannst. Dafür musst du dir Mühe geben, den Text wieder richtig zusammenzusetzen.

Tika stellt dir auch Metadaten bereit:

In [None]:
pdf_parsed["metadata"]

Wie wir später sehen werden, spielen Metadaten in vielen Analysen eine große Rolle. Wenn du dich dafür interessiert, wie das Dokument erstellt wurde, findest du das in den Metadaten im Schlüssel `pdf:docinfo:creator_tool`. Besonders spannend sind aber auch die Zeitstempel wie `Creation-Date` oder der `Author`.

## Office-Dokumente

Genau wie PDF-Dokumente kannst du auch Office-Dokumente mit Tika verarbeiten. Als Beispiel nutzen wir eine Vorlage für eine Seminararbeit der Uni Regensburg:

In [None]:
doc_filename = "vorlage_sa.docx"
r = requests.get(f"https://www.uni-regensburg.de/wirtschaftswissenschaften/wi-leist/medien/vorlagen/{doc_filename}")
open(doc_filename, 'wb').write(r.content)

Das API ist 

In [None]:
doc_parsed = parser.from_file(doc_filename)
print(doc_parsed["content"])

In [None]:
doc_parsed["metadata"]

## E-Mails

Der Vollständigkeit halber solltest du wissen, dass sich mit Tika auch E-Mails extrahieren lassen, z.B. aus EML-Dateien. Das funktioniert sogar sehr gut, wir werden es hier allerdings nicht weiter betrachten, weil es durch die unterschiedlichen Arten des *Quotings* nahezu unmöglich ist, den "reinen" Text der E-Mail zu extrahieren.

## Apache Tika kann noch mehr

Apache Tika kann noch weit mehr Dateiformate verarbeiten, teilweise bis weit zurück in die 1990er-Jahre oder sogar noch früher. Selbst Microsoft nutzt Tika zum Einlesen von Word-Dokumenten, die die neuen Word-Versionen nicht mehr verstehen.