## 1. Jupiter Notebook zum NerDH Tutorial


[Zurück zum Web-Tutorial](https://easyh.github.io/NerDH/tut/)

### 1.1 Erste Schritte mit spaCy

Bevor wir nun mit der Erkennung von Named Entities und deren Visualisierung beginnen, lernen wir zunächts ein paar grundlegende Objekte und Funktionen von spacy kennen. Bis auf den ersten Codeteil sind die anderen NLP-Funktionen für unsere NER-Aufgabe nicht wichtig, sollen aber dennoch kurz vorgestellt werden, da sie wichtige Grundlagen für Textanalysen sind.

In [None]:
#zuerst importieren wir spaCy
import spacy

#in der Variable text ist der Text gespeichert, der analysiert werden soll.
text = "Mia Müller wohnt in Trier und studiert an der Universität Trier. Aufgewachsen ist sie in München mit ihrem Bruder Tom."

#Als nächstes müssen wir ein Modellobjekt laden. 
#Hierfür verwenden wir die Funktion spacy.load(). 
#Diese nimmt ein Argument entgegen, nämlich das Modell, das wir laden möchten.
#Wir werden das mittlere deutsche Modell verwenden.
nlp = spacy.load("de_core_news_sm")

#Nachdem wir das nlp-Objekt erstellt haben, können wir es verwenden, um einen Text zu analysieren.
#Zu diesem Zweck erstellen wir ein doc-Objekt.
#Dieses Objekt wird eine Menge Daten über den Text enthalten.
doc = nlp(text)

#Wir testen, ob das doc-Objekt unseren Text übernommen hat.
print(doc)

In [None]:
#hier verwenden wir den Sentence-Tokenizer, um einen Text in einzelne Sätze zu unterteilen. 
for sent in doc.sents:
    print(sent)

In [None]:
#hier verwenden wir das Part-of-Speech Tagging
for token in doc: 
    print(token.text, token.pos_)

In [None]:
#hiermit extrahieren wir Substantive und Substantiv-Bausteine.
for chunk in doc.noun_chunks:
    print(chunk.text)

In [None]:
#hiermit können wir Verben in einem Text ermitteln.
#Verben sind im POS-TAg als "VERB" oder "AUX" definiert, daher iterieren wir über alle POS-TAGS, die übereinstimmen.
verbs = ["VERB", "AUX"]
for token in doc:
    if token.pos_ in verbs:
        print (token.text, token.pos_)


In [None]:
#lemmatisierung
for token in doc:
    print(token.text, token.lemma_)

---

### 1.2 Entitäten erkennen 

Der Code um Named Entities in einem Dokument zu erkennen ist ähnlich simpel wie der Code der anderen Funktionen. Wir iterieren erneut über unser `doc-Objekt` mit der Funktion `.ents`.

In [None]:
#named entity recognition(ner)
for ent in doc.ents:
    print(ent.text,ent.label_)

Um beispielsweise nur die benannten Entitäten zu extrahieren, die als PERSON identifiziert wurden, können wir eine einfache if-Anweisung in den Mix einfügen.

In [None]:
for ent in doc.ents:
    if ent.label_ == "PER":
       print(ent)

Wir können uns zusätzlich noch ausgeben lassen, an welcher Stelle im Text die Named Entities zu finden sind.

In [None]:
#ner mit mehr Informationsausgabe
for ent in doc.ents:
        print(ent.text, ent.start_char, ent.end_char, ent.label_)

---

### 1.3 NER visualisieren

`spaCy` hat eine eingebaute Funktion zur Visualisierung der Entitäten namens `displacy`. Der schnellste Weg, ein `doc-Objekt` zu visualisieren ist `displacy.serve`. Dadurch wird ein einfacher Webserver gestartet und das Ergebnis kann im Browser betrachtet werden. Da wir innerhalb eines Jupyter Notebooks arbeiten, verwenden wir die Funktion `displacy.render`. Dazu müssen wir zunächst noch `displacy` importieren.

In [None]:
from spacy import displacy 

displacy.render(doc, style="ent")


Hier können wir jetzt noch eigene Anpassungen wie die Auswahl der Entitäten oder auch die Farbe ausführen. Die individuellen Farben geben wir für alle vier Entitätstypen an, allerdings wollen wir uns hier nur die Personen (`PER`) und Orte (`LOC`) ausgeben lassen.   

In [None]:
colors = {"PER": "#fdec3e", "LOC": "#7e56c2", "ORG": "#209485" , "MISC": "#eb4034"}
options = {"ents": ["PER", "LOC"], "colors": colors}

displacy.render(doc, style="ent", options=options)

---

Da wir es hier mit einem vergleichsweise sehr simplen Beispieltext zu tun haben, ist das sehr gute Ergebnis nicht wirklich überraschend. Daher wollen wir an dieser Stelle kurz zeigen, wie das Standardmodell mit einem Satz aus dem frühneuhochdeutschen abschneidet. Der Satz ist aus unserem Trainingstext [**München 1611**](https://hainhofer.hab.de/reiseberichte/muenchen1611?v={%22view%22:%22info%22}).

In [None]:
#Standardmodell testen mit frühneuhochdeutschen Beispieltext 
text_fnhd = "Aines mörders Conterfett, genant Christoff Froschhammer von Vlingingen, der Hat 345 mörd, mit seiner aignen hand, vnd 400 mord in gesellschafft anderer, gethan, ist Anno 1578 zu Welß in Steÿrmarck gerichtet worden, vnd auß dem stifft Saltzburg gebürtig gewesen."
nlp = spacy.load("de_core_news_sm")
doc_fnhd = nlp(text_fnhd)
for ent in doc_fnhd.ents:
    print(ent.text,ent.label_)

In [None]:
colors = {"PER": "#fdec3e", "LOC": "#7e56c2", "ORG": "#209485" , "MISC": "#eb4034"}
options = {"ents": ["PER", "LOC", "ORG", "MISC"], "colors": colors}

displacy.render(doc_fnhd, style="ent", options=options)
