# Teil 2

## Spacy Linguistic I

Dieses Notebook enthält Aufgaben zum essentiellen Umgang mit SpaCy, wobei einige Grundlagen aus Python zur Anwendung kommen.

Lernziele:  
* Was brauche ich, um SpaCy zu starten?
* Wie nutze ich ein Langauge Model?
* Was steckt in dem "Doc"-Objekt?
* Wie arbeite ich mit dem "Doc"-Objekt?

Besuchen Sie https://spacy.io/ und machen Sie sich mit der Website vertraut.  
Schauen Sie sich vor allem https://spacy.io/usage/linguistic-features an, um zu verstehen, was die grundlegenden linguistischen Fähigkeiten von SpaCy sind.  

Die folgende Zelle können Sie unangetastet lassen. Sie sorgt nur dafür, dass wir bei der Nutzung von SpaCy nicht mit zu vielen Warnungen von Tensorflow belästigt werden.

In [103]:
# Diese Zelle bleibt stehen
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' 

### Aufgabe 1

Installieren Sie, sofern noch nicht geschehen, SpaCy in Ihrer Notebook Umgebung.  
Nutzten Sie dazu [Pip](https://pip.pypa.io/en/stable/), den Python Package Manager.  
Das Installieren von Packages über den Package Manager benötigt i.d.R. ein Terminal, auch [Shell](https://wiki.ubuntuusers.de/Shell/) genannt.  
Einige Befehle lassen sich jedoch auch über Notebooks ausführen, wenn man ein `!` voranstellt.

Öffnen Sie entweder ein Terminal und führen den Befehl aus oder schreiben Sie den Befehl in die folgende Zelle.

In [104]:
# !pip install spacy

### Aufgabe 2

Laden Sie nun ein passendes SpaCy Language Model herunter.  
Für unsere Zwecke eignet sich das Modell "de_core_news_md".  
Sie finden alle Models unter https://spacy.io/models/de

Beachten Sie, dass Sie auch hier wieder ein `!` voranstellen müssen, da es sich um einen Terminalbefehl handelt.  

In [105]:
# !python -m spacy download de_core_news_md

### Aufgabe 2b (optional)

Falls Sie in den oberen Zellen die Befehle mit dem vorangestellten `!` genutzt haben, kommentieren Sie sie bitte aus, um sie nicht bei jedem Durchlauf des Notebooks erneut auszuführen.  
Sie können zudem unter "Edit" oder der rechten Maustaste die Funktion "Clear Outputs" / "Clear All Outputs" nutzen, um das Notebook weiterhin übersichtlich zu halten.

### Aufgabe 3

Importieren Sie nun Spacy in Ihr Notebook, um es direkt nutzen zu können.  

In [106]:
import spacy

### Aufgabe 4

Laden Sie nun das Modell, indem Sie `spacy.load()` verwenden.  
Als Argument übergeben Sie den spezifischen Namen des Modells, in unserem Fall `de_core_news_md`.  
Speichern Sie dies in der Variablen `nlp`.

Hinweis: Sie können den Namen frei wählen, jedoch hat sich `nlp` als Konvention herausgebildet.

In [107]:
nlp = spacy.load("de_core_news_md")

### Aufgabe 5

Schreiben Sie nun in eine Variable einen kurzen Text ihrer Wahl.  
**Bitte beachten Sie**: Der Texte sollte mindestens drei Sätze enthalten, die nach den deutschen Rechtschreibregeln verfasst sind.  
Übergeben Sie diese Variable dann der Funktion `nlp()`, die Ihnen nun nach dem Import von SpaCy zur Verfügung steht.  

Speichern Sie dies in einer neuen Variablen namens `doc` und geben Sie diese Variable aus.  

In [108]:
text = 'Hallo, wie geht es Ihnen? Ich hatte versucht, sie zu kontaktieren. Haben Sie heute Zeit?'
doc = nlp(text)
print(doc)

Hallo, wie geht es Ihnen? Ich hatte versucht, sie zu kontaktieren. Haben Sie heute Zeit?


### Aufgabe 6

Schreiben Sie eine Schleife, bei der sie über alle Elemnte in `doc` iterieren.  
Geben Sie für jedes Element die Attribute `text`, `lemma_`, `pos_` und `tag_` aus.  
Beachten Sie die Unterstriche bei einigen Attributen!

In [109]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_)

Hallo Hallo PROPN NE
, -- PUNCT $,
wie wie ADV PWAV
geht gehen VERB VVFIN
es es PRON PPER
Ihnen ihnen PRON PPER
? -- PUNCT $.
Ich ich PRON PPER
hatte haben AUX VAFIN
versucht versuchen VERB VVPP
, -- PUNCT $,
sie sie PRON PPER
zu zu PART PTKZU
kontaktieren kontaktieren VERB VVINF
. -- PUNCT $.
Haben haben AUX VAFIN
Sie sie PRON PPER
heute heute ADV ADV
Zeit Zeit NOUN NN
? -- PUNCT $.


### Aufgabe 6b (optional)

Die Unterstriche markieren menschenlesbare Werte in den Attributen. Sie können testweise die Unterstriche entfernen, um zu sehen, mit welchen Werten SpaCy intern arbeitet.

In [110]:
for token in doc:
    print(token.text, token.lemma, token.pos, token.tag)

Hallo 3417224389557524992 96 17274946937384965927
, 10501404726543969396 97 12261388825712162116
wie 18390846335711919857 86 17857398595722964141
geht 13851756645724982237 100 10675845091474465339
es 10343076919720641053 95 9330139752921481772
Ihnen 17004602374843522149 95 9330139752921481772
? 10501404726543969396 97 17404231807887051932
Ich 5864527961345014045 95 9330139752921481772
hatte 2479014303761381782 87 16459489951230957934
versucht 1566322786737128024 100 10223029614809230375
, 10501404726543969396 97 12261388825712162116
sie 13323500956662843128 95 9330139752921481772
zu 12508082737821923009 94 6713802014480007934
kontaktieren 13476839463918806121 100 17015325344306543250
. 10501404726543969396 97 17404231807887051932
Haben 2479014303761381782 87 16459489951230957934
Sie 13323500956662843128 95 9330139752921481772
heute 5100113844489031760 86 86
Zeit 5345283004344663008 92 15308085513773655218
? 10501404726543969396 97 17404231807887051932


### Aufgabe 7

Erweitern Sie, falls nicht bereits geschehen, Ihren Text um mehrere Sätze.   
Wir werden nun versuchen, die Verben aus dem Text herauszufiltern.  

Schreiben Sie dazu eine Schleife, bei der Sie erneut über alle Elemente in `doc` iterieren.  
Prüfen Sie in der Schleife dann mittels eine Bedingung, ob sich im Attribut `pos_` der Wert `VERB` befindet.  
Falls dem so ist, geben Sie das Element aus, indem Sie das Attribut `lemma_` nutzen.  

In [111]:
for token in doc:
    if token.pos_ == "VERB":
        print(token.lemma_)

gehen
versuchen
kontaktieren


### Aufgabe 7b (optional)

Ändern Sie den Code so, dass Sie die Verben nicht ausgeben, sondern in eine Liste speichern.  
Geben Sie anschließend die Liste aus.

Hinweis: Sie können sich aussuchen, ob Sie die Lemmata in einer Liste speichern, oder die gesamten Token-Objekte.  
Falls Sie sich für Letzteres entscheiden: Wie können Sie dann alle Lemmata wieder ausgeben?

In [112]:
verbs = [] 

for token in doc:
    if token.pos_ == "VERB":
        verbs.append(token.lemma_)

print(verbs)

# ALTERNATIVE
# verbs = [] 

# for token in doc:
#     if token.pos_ == "VERB":
#         verbs.append(token)

# print([token.pos_ for token in verbs])

['gehen', 'versuchen', 'kontaktieren']


### Aufgabe 8

Geben Sie nun alle Sätze aus dem Dokument aus, indem Sie über alle Sätze iterieren.  

Optional: Ändern Sie den Text und ersetzen Sie die Satzzeichen durch andere Zeichen (die ggf. im Netzjargon oft vorkommen).  
Was beobachten Sie?

In [113]:
for i, sent in enumerate(doc.sents):
    print(i, sent)    
    
# OPTIONAL
# text = 'Hallo, wie geht es Ihnen.. Ich hatte versucht, sie zu kontaktieren - Haben Sie heute Zeit?'
# doc = nlp(text)

# for sent in doc.sents:
#     print(sent)

0 Hallo, wie geht es Ihnen?
1 Ich hatte versucht, sie zu kontaktieren.
2 Haben Sie heute Zeit?


### Aufgabe 9

Schreiben Sie nun eine doppelte for-Schleife, in der Sie einmal über die Sätze und einmal über die darin enthaltenen Tokens iterieren.  
Speichern Sie alle Tokens in einer Liste und speichern Sie anschließend diese Liste in einer übergeordneten Liste mit Namen "custom_doc".  

Geben Sie dann das POS-Tag des zweiten Wortes aus dem zweiten Satz aus.

In [114]:
custom_doc = []
for sent in doc.sents:
    sentence_tokens = []
    for token in sent:
        sentence_tokens.append(token)
    custom_doc.append(sentence_tokens)

print(custom_doc[1][1].pos_)

AUX


### Aufgabe 10 - Abschlussaufgabe

Lesen Sie den Text in der Datei `/data/bpb.txt` ein und wenden sie die nlp-Methode von SpaCy darauf an.  
Extrahieren Sie anschließend alle Jahreszahlen aus dem Text.  

Tipp: Nutzen Sie dazu die Attribute von `token`. Eine Übersicht finde Sie hier:  
https://spacy.io/api/token  

Geben Sie anschließend alle Jahreszahlen nacheinander aus.  

Optional: Überlegen Sie sich, wie Sie Kriterien entwickeln können, um Jahreszahlen von anderen vierstelligen Zahlen zu unterscheiden?  

In [115]:
with open ('../data/bpb.txt') as f:
    txt = f.read()
doc = nlp(txt)

for token in doc:
    if token.shape_ == 'dddd':
        print(token)

2016
2015
2015
1000
2007
2016
