# Analyse von PDF-Dokumenten

Viele Dokumente liegen als PDF-Dateien vor. Auch diese lassen sich mit Python analysieren.

In [None]:
import re
from tika import parser

raw = parser.from_file('dnh3.pdf')
text = raw['content']
text[0:1000]

## Inhaltliche Analyse mit `spacy`

Wir wollen Personen und Organisationen im Text erkennen und verwenden dazu das Paket `spacy`, das passende Modelle u.a. auch für Deutsch bereitstellt.

Als Beispiel suchen wir in der Zeitschrift "Die Neue Hochschule" nach der Fachhochschule Südwestfalen und in diesem Zusammenhang auftretende Personen.

In [None]:
import spacy
from spacy import displacy
import de_core_news_md
nlp = de_core_news_md.load()

In [None]:
doc = nlp(text)
print([(X.text, X.label_) for X in doc.ents])

orgs = [ X for X in doc.ents if X.label_ == 'ORG']
personen = [ X for X in doc.ents if X.label_ == 'PER']
personen

In [None]:
fh_swf = []

for org in orgs:
    if org.text.find("Südwestfalen") >= 0:
        print(f"{org} {org.start} {org.end}")
        fh_swf.append(org)

In [None]:
def dist(x, y):
    mx = (x.start + x.end) / 2
    my = (y.start + y.end) / 2
    return (mx - my) * (mx - my)

In [None]:
for x in fh_swf:
    for p in sorted(personen, key = lambda p:  dist(p, x))[:3]:
        print(f"{x} {p} {dist(p, x)}")
    print()