## 2. Jupiter Notebook zum NerDH Tutorial


[Zurück zum Web-Tutorial](https://easyh.github.io/NerDH/tut/)

## 2.1 Textpreprocessing

Da wir unser eigenes Modell mit `spaCy` erstellen möchten, müssen unsere Daten mit Goldstandard Anspruch ins richtige Format gebracht werden. Folgendes Beispiel zeigt, wie unsere Daten aussehen müssen. 

```
TRAIN_DATA = ["TEXT AS A STRING",{"entities:"[(START,END,LABEL)]}]
```

Es gibt zahlreiche Auszeichnungstools, die für Anwendungen des maschinellen Lernens entwickelt wurden und bei der Annotation von Texten helfen. Wir erstellen unseren Goldstandard mit dem [NER-Annotator](https://tecoholic.github.io/ner-annotator/). Hier kann ein Text im `TXT`-Format importiert, annotiert und dann anschließend im `JSON`-Format exportiert werden. Die `JSON`-Datei enthält dann die annotierten Daten, die in dem für `spaCy` geeigneten Format vorliegen. Die `JSON`-Dateien müssen dann nochmal in `spaCy`-Dateien umgewandelt werden. Das werden wir allerdings erst im nächsten Kapitel machen. 

**Unser Ziel hier ist es erstmal die Daten zu annotieren, sodass wir eine `JSON`-Datei erhalten.**

<br>

---

<br>

Bevor wir allerdings mit der Annotation des Goldstandards beginnen wollen wir unseren Text erst noch etwas kennenlernen und vorbereiten. 

Unsere Texte [**München 1611**](https://hainhofer.hab.de/reiseberichte/muenchen1611?v={%22view%22:%22info%22}) & [**München 1603**](https://hainhofer.hab.de/reiseberichte/muenchen1603) haben wir im `TXT`-Format vorliegen und lesen diese ersteinmal ein und zählen die Zeichen. Wir führen das für jeden Text nacheinander aus. In diesem Notebook wird dies für den Text **München 1611** gemacht.


In [None]:
with open ("../data/texte/Mue1611.txt",'r', encoding='utf-8') as file: 
    text = file.read()

#da uns um Text viele / aufgefallen sind, entfernen wir diese durch nichts
text = text.replace("/", " ")

print("Anzahl Zeichen im Text: " + str(len(text)))

Jetzt verwenden wir zwei der `spaCy`-Funktionen, die wir schon kennengelernt haben. Einmal um die Sätze und einmal um die Tokens zu zählen.

In [None]:
import spacy

nlp = spacy.load("de_core_news_sm")
doc = nlp(text)
print(doc)

In [None]:
#Anzahl der Tokens ermitteln
tokens = []
for token in doc: 
    tokens.append(token)

print("Anzahl Tokens im Text: " + str(len(tokens)))

In [None]:
#Anzahl der Sätze ermitteln
sentences = []
for sent in doc.sents: 
    sentences.append(sent)

print("Anzahl Sätze im Text: " + str(len(sentences)))

Was wir jetzt noch machen, ist den Text in ein neues Dokument zu speichern. In der ursprünglichen `TXT`-Datei hat unser Text 544 Zeileneinträge, das ist für die Anzahl an hier ermittelten Sätzen ziemlich wenig. Mit Blick auf den nächsten Schritt, in welchem wir das annotierte Datenset in die Datensets anhand der Einträge aufteilen möchten, macht es Sinn, die Anzahl der Einträge zu erhöhen, um eine gleichmäßigere Verteilung zu erhalten. Komplett gleich werden wir hier nicht erreichen, da die Sätze unterschiedliche Längen haben. 

In [None]:
with open('../data/texte/Mue1611_sentences.txt', 'w', encoding='utf-8') as f:
    for s in sentences: 
        if str(s).endswith('.'):
            f.write(str(s) + '\n')
        else:
             f.write(str(s) + ' ')



In [None]:
with open ("../data/texte/Mue1611_sentences.txt",'r', encoding='utf-8') as file: 
    text = file.readlines()

newtext = []
for l in text: 
    if l.startswith(" "):
        newl = l.lstrip()
        newtext.append(newl)
    else: 
        newtext.append(l)


with open('../data/texte/Mue1611_sentences_final.txt', 'w', encoding='utf-8') as f:
    for i in newtext:
        f.write(i)


Jetzt haben wir in unserem Textdokument 1600 Einträge anstatt 544. 1600 ist auch die Anzahl unserer Sätze. Wirft man einmal einen Blick in die Liste `sentences´ rein, erkennt man schnell, dass viele leere Einträge mit dabei sind. Daher ist unsere Anzahl an Sätzen geringer.

Jetzt können wir unsere Datei `Mue1611_sentences_final.txt` bzw. `Mue1603_sentences_final.txt`im [NER-Annotator](https://tecoholic.github.io/ner-annotator/) hochladen und mit der Annotation beginnen.