# Teil 2

## Spacy Linguistic II

Dieses Notebook enthält Aufgaben zur Vertiefung von SpaCy, vor allem in Bezug auf Visualisierungen und NER.

Lernziele:  
* Was sind POS Tags? Was ist ein Dependency Tree?
* Wie kann ich Satzstrukturen visualisieren?
* Wie kann man NER einsetzen? 
* Wie kann man strukturierte Daten speichern?
* Was ist Entity Linking?

### Aufgabe 1

Vertiefen Sie Ihr Wissen, indem Sie folgende Fragen beantworten:  

* Was sind POS Tags? Wie gibt man diese in SpaCy aus?
* Was ist der Dependency Tree? Wie gibt man Dependency Tags in SpaCy aus?
* Was ist der Unterschied zwischen einem Tagger und einem Parser?
* Was macht die SpaCy Pipeline?

Nutzen Sie dazu folgende Links oder recherchieren Sie frei im Netz:  
https://universaldependencies.org/u/pos/  
https://spacy.io/usage/processing-pipelines

Lassen Sie sich anschließend mit SpaCy ein Tag mittels der Methode `explain()` erklären. 

In [None]:
import spacy

In [6]:
spacy.explain('sb')

'subject'

### Aufgabe 2 

Laden Sie noch einmal den Text aus dem letzten Notebook ein (`../data/bpb.txt`).  
Gehen Sie wie folgt vor: Importieren Sie SpaCy, laden Sie das Sprachmodell, öffnen Sie die Textdatei und laden Sie den Text ein und verarbeiten Sie den Text mit der `nlp()` Methode von SpaCy.  

Hinweis: Sie haben alle diese Schritte bereits gemacht. Wenn Sie möchten, können Sie einfach copy+paste nutzen. Es empfiehlt sich jedoch, die Zeilen nochmal von Hand zu schreiben, um diese wiederkehrenden wichtigen Funktionen zu memorisieren.

In [52]:
nlp = spacy.load("de_core_news_md")

with open ('../Daten/bpb.txt') as f:
    txt = f.read()
doc = nlp(txt)

### Aufgabe 3  

Wir wollen uns nun auf den dritten Satz konzentrieren.  
Sie sehen unten eine Möglichkeit, einen Satz in SpaCy anhand seiner Nummerierung zu extrahieren.  

Erstellen Sie darunter nun eine leere Liste und fügen Sie dieser Liste für jedes Token aus dem Satz eine neue Liste mit folgenden Elementen hinzu:  
`token, token.tag_, spacy.explain(token.tag_), token.dep_, spacy.explain(token.dep_)`

Wie Sie sehen, wollen wir uns in dieser Liste auch immer die Tags und Dependencies von SpaCy erläutern lassen. 

In [53]:
# Diese Zelle wird NICHT bearbeitet
sent = list(doc.sents)[2]

In [54]:
tokens = []
for token in sent:
    tokens.append([token, token.tag_, spacy.explain(token.tag_), token.dep_, spacy.explain(token.dep_)])

### Aufgabe 4

Zur besseren Visualisierung von Tabellen nutzen wir die Python Library [Pandas](https://pandas.pydata.org/).  
Sie können sich Pandas vorstellen, wie Excel für Entwickler. Pandas hat in etwa den Funktionalitäten einer Tabellenkalkulation, kann aber auch Daten analysieren und exportieren.  

Wir beschränken uns hier auf die simplesten Pandas Funktionen.

Installieren Sie Pandas mit dem Befehl `!pip install pandas` und importieren Sie es dann mit `import pandas as pd`.  
(Die abkürzende Schreibweise "pd" hat sich etabliert, sie werden Sie daher in vielen Notebooks wiedererkennen).

Rufen Sie dann die Funktion `DataFrame()` auf dem Objekt `pd` auf, übergeben Sie dieser Funktion ihre Liste mit Tokens und speichern Sie dies in einer Variablen.  
Lassen Sie sich die Variable ausgeben.  

Hinweis: Wenn Sie beim Ausgeben nicht die `print()` Funktionen nutzen, können Sie das verbesserte Rendering von Pandas in Jupyter einsetzen!  

In [55]:
#!pip install pandas
import pandas as pd
df = pd.DataFrame(tokens)
df

Unnamed: 0,0,1,2,3,4
0,Lehrer,NN,"noun, singular or mass",sb,subject
1,Tom,NE,proper noun,pnc,proper noun component
2,Mittelbach,NE,proper noun,nk,noun kernel element
3,wagt,VVFIN,"finite verb, full",ROOT,root
4,in,APPR,preposition; circumposition left,mo,modifier
5,seinem,PPOSAT,attributive possessive pronoun,nk,noun kernel element
6,Community-Beitrag,NN,"noun, singular or mass",nk,noun kernel element
7,ein,ART,definite or indefinite article,nk,noun kernel element
8,Gedankenspiel,NN,"noun, singular or mass",oa,accusative object
9,über,APPR,preposition; circumposition left,mnr,postnominal modifier


### Aufgabe 5

Um einen Überblick über die Satzstruktur zu erhalten, hilft es, sich den Dependency Tree graphisch anzeigen zu lassen.  
Spacy besitzt eigene Visualizer, die dies ermöglichen.  

Importieren Sie das Modul "displacy" und nutzen Sie die Methode `render()` um den Tree anzeigen zu lassen.  
Alle Infos dazu finden Sie auf: https://spacy.io/usage/visualizers#jupyter

Optional:  
Vergleichen Sie den Dependency Parser ihres SpaCy Sprachmodells mit dem von https://pub.cl.uzh.ch/demo/parzu/.  
Was fällt Ihnen auf?  

In [56]:
from spacy import displacy
displacy.render(sent, style="dep")

### Aufgabe 6

Lassen Sie sich nun mittels des Attributs `ents` die verschienden Entities des Textes ausgeben, die SpaCy mit dem Modell gefunden hat.  

In [57]:
ents= []
for ent in doc.ents:
    ents.append([ent.text, ent.start_char, ent.end_char, ent.label_])
    
# example is using pandas for table view
import pandas as pd
df = pd.DataFrame(ents)
df

Unnamed: 0,0,1,2,3
0,Tom Mittelbach,203,217,PER
1,Community-Beitrag,233,250,MISC
2,Computern,348,357,MISC
3,Tages,469,474,MISC
4,Englischen AI/Artificial Intelligence,586,623,MISC
...,...,...,...,...
62,Zeit,10642,10646,MISC
63,KI,11030,11032,MISC
64,soziale,11103,11110,MISC
65,deutschen,11153,11162,MISC


### Aufgabe 7

Nutzen Sie noch einmal den Renderer von SpaCy um sich entweder die Named Entities des gesamten Dokuments oder nur die aus dem Satz `sent` anzeigen zu lassen. Sie können dafür wieder die Methode `render()` verwenden, müssen jedoch dem Parameter `style` den String "ent" übergeben, um Entities anzuzeigen.

In [58]:
displacy.render(sent, style="ent")

### Aufgabe 8

Ihr Dataframe mit den Entites können Sie mit dem simplen Aufruf von `to_csv()` unter der Angabe eines Dateinamens in eine CSV-Datei exportieren.  

In [59]:
df.to_csv('entities.csv')

### Abschlussaufgabe

In vielen Fällen ist es sinnvoll, die gefundenen Entities mit Normdaten zu verknüpfen.  
Dazu werden die gefundenen Strings mit einer Knowledge Base, etwa Wikidata, abgeglichen.  

Wir nutzen in diesem Fall eine simplere Schnittstelle namens Lobid, um die Normdaten zu holen.  

Im folgenden sehen Sie zwei Funktionen, die Sie nutzen können.  
Die Funktionen rufen eine URL aus dem Netz auf. In dieser URL steckt ein String aus ihrer Entity-Liste, hier "query" genannt.  
Unter Angabe dieser Query gibt Lobid die Treffer im JSON Format zurück.  

Rufen Sie Funktion `show_lobid()` mit einer passenden Query auf, etwa dem Namen einer Person oder eines Ortes aus ihrer Liste.

Optional: Holen Sie diese Daten automatisch aus ihrer Liste aus Entities.  
Optionaler: Verarbeiten Sie ALLE ihre Entities mittels einer Schleife und lassen Sie sich die JSON Ergebnisse anzeigen.  

Hinweis: Sie machen in diesem Fall echte(!) Anfragen über das Internet an eine Schnittstelle. In der Regel sollten Sie es hierbei nicht übertreiben. Viele Schnittstellen haben Timeouts oder erwarten sogenannte Zugriffstokens, um sich vor zu vielen Anfragen zu schützen. 

In [60]:
# Diese Zelle wird NICHT bearbeitet
import requests
from IPython.display import JSON, display

def get_lobid(query):
    url = f'https://lobid.org/gnd/search?q={query}&format=json'
    response = requests.get(url)
    return response.json()

def show_lobid(query):
    data = get_lobid(query)
    display(JSON(data))

In [62]:
show_lobid('Tom Mittelbach ')

<IPython.core.display.JSON object>