# Programmieren für Geisteswissenschaftler - Workshop II
# Tag 2

## Natural Language Processing mit Spacy

Dieses Notebook enthält Aufgaben zum essentiellen Umgang mit SpaCy, wobei einige Grundlagen aus Python zur Anwendung kommen.

Lernziele:  
* Was brauche ich, um SpaCy zu starten?
* Wie nutze ich ein Language Model?
* Was steckt in dem "Doc"-Objekt?
* Wie arbeite ich mit dem "Doc"-Objekt?
* Was sind POS Tags? Was ist ein Dependency Tree?
* Wie kann ich Satzstrukturen visualisieren?
* Wie kann man NER einsetzen? 
* Wie kann man strukturierte Daten speichern?
* Was ist Entity Linking?

Besuchen Sie https://spacy.io/ und machen Sie sich mit der Website vertraut.  
Schauen Sie sich vor allem https://spacy.io/usage/linguistic-features an, um zu verstehen, was die grundlegenden linguistischen Fähigkeiten von SpaCy sind.  

### Aufgabe 1

Installieren Sie, sofern noch nicht geschehen, SpaCy in Ihrer Notebook Umgebung.  

In [79]:
# !pip install spacy

### Aufgabe 2

Laden Sie nun ein passendes SpaCy Language Model herunter.  
Für unsere Zwecke eignet sich das Modell "de_core_news_md".  
Sie finden alle Models unter https://spacy.io/models/de

Beachten Sie, dass Sie auch hier wieder ein `!` voranstellen müssen, da es sich um einen Terminalbefehl handelt.  

Hinweis: Denken Sie daran, dass Sie Terminalbefehle nach dem einmaligen Durchlaufen wieder ausklammern, um die Laufzeit des Notebooks nicht unnötig in die Länge zu ziehen.

In [80]:
# !python -m spacy download de_core_news_md

### Aufgabe 3

Importieren Sie nun Spacy in Ihr Notebook, um es direkt nutzen zu können.  

In [81]:
import spacy

### Aufgabe 4

Laden Sie nun das Modell, indem Sie `spacy.load()` verwenden.  
Als Argument übergeben Sie den spezifischen Namen des Modells, in unserem Fall `de_core_news_md`.  
Speichern Sie dies in der Variablen `nlp`.

Hinweis: Sie können den Namen frei wählen, jedoch hat sich `nlp` als Konvention herausgebildet.

In [82]:
nlp = spacy.load("de_core_news_md")

### Aufgabe 5

Wir werden nun, im Gegensatz zum den ersten Aufgaben, SpaCy verwenden, um unsere Sätze zu bearbeite und analysieren.

Verwenden Sie bitte für die folgenden Aufgaben den Text in der Variable `text`.  
Er ist ein Zitat aus unserem Artikel "Digitale Tools können Menschen eine Stimme geben, die politisch wenig gehört werden."
 
Übergeben Sie die Variable `text` der Funktion `nlp()` als Parameter, welche Ihnen von SpaCy zur Verfügung gestellt wird.   
Speichern Sie dies in einer neuen Variablen namens `doc` und geben Sie diese Variable aus.   

In [83]:
text = 'Digitale Tools sind kein Allheilmittel. Sie können aber dabei helfen, Themen zu adressieren, die in der Politik keine oder wenig Beachtung finden.'

doc = nlp(text)
print(doc)

Digitale Tools sind kein Allheilmittel. Sie können aber dabei helfen, Themen zu adressieren, die in der Politik keine oder wenig Beachtung finden.


### Aufgabe 6

Schreiben Sie eine Schleife, bei der sie über alle Elemente in `doc` iterieren.  
Geben Sie für jedes Element die Attribute `text`, `lemma_`, `pos_` und `tag_` aus.  
Beachten Sie die Unterstriche bei einigen Attributen!

Optional: Die Unterstriche markieren menschenlesbare Werte in den Attributen. Sie können testweise die Unterstriche entfernen, um zu sehen, mit welchen Werten SpaCy intern arbeitet.Die Unterstriche markieren menschenlesbare Werte in den Attributen. Sie können testweise die Unterstriche entfernen, um zu sehen, mit welchen Werten SpaCy intern arbeitet.

In [84]:
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_)

# OPTIONAL
# for token in doc:
#     print(token.text, token.lemma, token.pos, token.tag)

Digitale digital ADJ ADJA
Tools Tools NOUN NN
sind sein AUX VAFIN
kein kein DET PIAT
Allheilmittel Allheilmittel NOUN NN
. -- PUNCT $.
Sie sie PRON PPER
können können AUX VMFIN
aber aber ADV ADV
dabei dabei ADV PROAV
helfen helfen VERB VVINF
, -- PUNCT $,
Themen Thema NOUN NN
zu zu PART PTKZU
adressieren adressieren VERB VVINF
, -- PUNCT $,
die der PRON PRELS
in in ADP APPR
der der DET ART
Politik Politik NOUN NN
keine kein DET PIAT
oder oder CCONJ KON
wenig wenig DET PIAT
Beachtung Beachtung NOUN NN
finden finden VERB VVINF
. -- PUNCT $.


### Aufgabe 7

Wir werden nun versuchen, die Verben aus dem Text herauszufiltern.  

Schreiben Sie dazu eine Schleife, bei der Sie erneut über alle Elemente in `doc` iterieren.  
Prüfen Sie in der Schleife dann mittels einer Bedingung, ob sich im Attribut `pos_` der Wert `VERB` befindet.  
Falls dem so ist, geben Sie das Element aus, indem Sie das Attribut `lemma_` nutzen.  

Optional:
Ändern Sie den Code so, dass Sie die Verben nicht ausgeben, sondern in eine Liste speichern.  
Geben Sie anschließend die Liste aus.

Hinweis: Sie können sich aussuchen, ob Sie die Lemmata in einer Liste speichern, oder die gesamten Token-Objekte.  
Falls Sie sich für Letzteres entscheiden: Wie können Sie dann alle Lemmata wieder ausgeben?

In [85]:
for token in doc:
    if token.pos_ == "VERB":
        print(token.lemma_)
        
# OPTIONAL
# verbs = [] 
# for token in doc:
#     if token.pos_ == "VERB":
#         verbs.append(token.lemma_)
# print(verbs)

# ALTERNATIVE
# verbs = [] 

# for token in doc:
#     if token.pos_ == "VERB":
#         verbs.append(token)

# print([token.pos_ for token in verbs])

helfen
adressieren
finden


### Aufgabe 8

Geben Sie nun alle Sätze aus dem Dokument aus, indem Sie über alle Sätze iterieren.  

Ändern Sie anschließend den Text um, indem Sie die Satzzeichen entfernen.  
Kann SpaCy weiterhin die Sätze erkennen?  

Hinweis: Jupyter Notebooks werden nicht zwingend wie Python Scripte benutzt. Während ein Python Script immer von oben nach unten arbeitet, kann man bei Notebooks die Code-Zellen einzeln ausführen. Das führt für Anfänger oft zu verwirrenden Zuständen. Ein Indiz für die Ausführung sind die kleinen Zahlren links oben neben der Zelle. Sollten Sie einmal nicht weiterwissen hilft auch: "Run" -> "Restart Kernel and Run all Cells"

In [86]:
for sent in doc.sents:
    print(sent)

Digitale Tools sind kein Allheilmittel.
Sie können aber dabei helfen, Themen zu adressieren, die in der Politik keine oder wenig Beachtung finden.


### Aufgabe 9

In SpaCy sind POS-Tags (Part-of-Speech Tags) Annotationsmarkierungen, die jedem Wort in einem Text die entsprechende Wortart (z.B. Nomen, Verb, Adjektiv) zuweisen. Diese Tags helfen dabei, die grammatische Struktur und Funktion der Wörter im Text zu analysieren und zu verstehen. Jede Sprache hat andere POS mit anderen Bezeichnungen.

Mehr Infos zu POS-Tags finden Sie unter: https://universaldependencies.org/u/pos/  

Lassen Sie sich mit SpaCy ein Tag mittels der Methode `explain()` erklären. 

In [87]:
spacy.explain('sb')

'subject'

### Aufgabe 10  

SpaCys `Doc`-Objekt ist sehr elaboriert. Sie finden unter dem Attribut `sents` keine Liste von Sätzen, sondern einen sog. Generator. Dieser liefert erst auf Anfrage Daten zurück. Er "generiert" sie. Schauen Sie in das Infomaterial und versuchen Sie zu verstehen, wie Sie den ersten Satz unseres Textes zurückbekommen. Speichern Sie den Satz in einer Variablen.

Hinweis: Sie haben dann keinen Satz, also keinen String, gespeichert, sondern eine Datenstruktur.

Wir wollen nun bestimmte Informationen zu bestimmten Token des Satzes sammeln.  
Dazu erstellen wir uns eine leere Liste, in der wir diese Daten sammeln.  

Iterieren Sie nun mit einer for-Schleife über die Elemente des Satzes und fügen folgende Liste in Ihre Liste hinzu:  
`[token, token.tag_, spacy.explain(token.tag_), token.dep_, spacy.explain(token.dep_)]`  
Anschließend haben wir also eine Liste voller Listen.  

Wie Sie sehen, wollen wir uns in dieser Liste auch immer die Tags und Dependencies von SpaCy erläutern lassen. 

In [88]:
tokens = []
for token in sent:
    tokens.append([token, token.tag_, spacy.explain(token.tag_), token.dep_, spacy.explain(token.dep_)])

from pprint import pprint
pprint(tokens)

[[Sie, 'PPER', 'non-reflexive personal pronoun', 'sb', 'subject'],
 [können, 'VMFIN', 'finite verb, modal', 'ROOT', 'root'],
 [aber, 'ADV', 'adverb', 'mo', 'modifier'],
 [dabei, 'PROAV', 'pronominal adverb', 'mo', 'modifier'],
 [helfen, 'VVINF', 'infinitive, full', 'oc', 'clausal object'],
 [,, '$,', 'comma', 'punct', 'punctuation'],
 [Themen, 'NN', 'noun, singular or mass', 'oa', 'accusative object'],
 [zu, 'PTKZU', '"zu" before infinitive', 'pm', 'morphological particle'],
 [adressieren, 'VVINF', 'infinitive, full', 'oc', 'clausal object'],
 [,, '$,', 'comma', 'punct', 'punctuation'],
 [die, 'PRELS', 'substituting relative pronoun', 'sb', 'subject'],
 [in, 'APPR', 'preposition; circumposition left', 'mo', 'modifier'],
 [der, 'ART', 'definite or indefinite article', 'nk', 'noun kernel element'],
 [Politik, 'NN', 'noun, singular or mass', 'nk', 'noun kernel element'],
 [keine,
  'PIAT',
  'attributive indefinite pronoun without determiner',
  'nk',
  'noun kernel element'],
 [oder, 'KO

### Aufgabe 11 


Da wir nun eine Liste von Listen haben, haben wir zugleich auch so etwas wie eine Tabelle.  
(Jedes Element in der Liste ist eine Spalte und die Elemente dieser Liste sind die Einträge der jeweiligen Zeilen)

Wir können daher wieder Pandas benutzen, um diese Daten zu strukturieren, filtern und zu speichern.  

In diesem Fall wollen wir es dabei belassen, die Daten übersichtlicher zu präsentieren.

Importieren Sie dazu in diesem Notebook Pandas mit `import pandas as pd`.  

Rufen Sie dann die Funktion `DataFrame()` auf dem Objekt `pd` auf, übergeben Sie dieser Funktion ihre Liste mit Tokens und speichern Sie dies in einer Variablen.  
Lassen Sie sich die Variable ausgeben.  

Hinweis: Wenn Sie beim Ausgeben nicht die `print()` oder `pprint()` Funktionen nutzen, können Sie das verbesserte Rendering von Pandas in Jupyter einsetzen!  

In [89]:
import pandas as pd

df = pd.DataFrame(tokens)
df

Unnamed: 0,0,1,2,3,4
0,Sie,PPER,non-reflexive personal pronoun,sb,subject
1,können,VMFIN,"finite verb, modal",ROOT,root
2,aber,ADV,adverb,mo,modifier
3,dabei,PROAV,pronominal adverb,mo,modifier
4,helfen,VVINF,"infinitive, full",oc,clausal object
5,",","$,",comma,punct,punctuation
6,Themen,NN,"noun, singular or mass",oa,accusative object
7,zu,PTKZU,"""zu"" before infinitive",pm,morphological particle
8,adressieren,VVINF,"infinitive, full",oc,clausal object
9,",","$,",comma,punct,punctuation


### Aufgabe 12

Um einen Überblick über die Satzstruktur zu erhalten, hilft es, sich den Dependency Tree graphisch anzeigen zu lassen.  
Spacy besitzt einen Visualizer, der dies ermöglicht.  

Importieren Sie das Modul `displacy` und nutzen Sie die Methode `render()` um den Tree anzeigen zu lassen.  
Alle Infos dazu finden Sie auf: https://spacy.io/usage/visualizers#jupyter

Optional:  
Vergleichen Sie den Dependency Parser ihres SpaCy Sprachmodells mit dem von https://pub.cl.uzh.ch/demo/parzu/.  
Was fällt Ihnen auf?  

In [90]:
from spacy import displacy
displacy.render(sent, style="dep")

### Aufgabe 13

Da wir uns nun der Entity Recognition widmen, brauchen wir einen längeren Text.  
Laden Sie entweder aus ihrer CSV Datei aus dem letzten Notebook den Text "Ideen zur Rolle von künstlicher Intelligenz im Klassenzimmer der Zukunft" , sofern Sie den vollständigen Fließtext dort mitgespeichert haben.

Alternativ können Sie auch noch einmal direkt die Datei einlesen, die sie unter `/data` finden.

Wiederholen Sie auch alle Schritte, um aus dem Text mittels der `nlp()` Methode von SpaCy ein SpaCy `doc` zu erstellen.
Lassen Sie sich dann mittels des Attributs `ents` von `doc` die verschienden Entities des Textes ausgeben, die SpaCy mit dem Modell gefunden hat.  

In [91]:
with open("../data/bpb_text_ki_im_klassenzimmer.txt") as f:
        text = f.read()

doc = nlp(text)

ents= []
for ent in doc.ents:
    ents.append([ent.text, ent.start_char, ent.end_char, ent.label_])

import pandas as pd
df = pd.DataFrame(ents)
df

Unnamed: 0,0,1,2,3
0,KI,0,2,MISC
1,Tom Mittelbach,111,125,PER
2,Tom Mittelbach,256,270,PER
3,Community-Beitrag,286,303,MISC
4,Computern,519,528,MISC
...,...,...,...,...
69,Zeit,10794,10798,MISC
70,KI,11182,11184,MISC
71,soziale,11255,11262,MISC
72,deutschen,11305,11314,MISC


### Aufgabe 14

Nutzen Sie noch einmal den Renderer von SpaCy um sich entweder die Named Entities des gesamten Dokuments oder nur die aus dem Satz `sent` anzeigen zu lassen. Sie können dafür wieder die Methode `render()` verwenden, müssen jedoch dem Parameter `style` den String "ent" übergeben, um Entities anzuzeigen.

In [92]:
displacy.render(doc, style="ent")

### Abschlussaufgabe

In vielen Fällen ist es sinnvoll, die gefundenen Entities mit Normdaten zu verknüpfen.  
Dazu werden die gefundenen Strings mit einer Knowledge Base, etwa [Wikidata](https://de.wikipedia.org/wiki/Wikidata), abgeglichen.  

Wir nutzen in diesem Fall eine simplere Schnittstelle namens [Lobid](https://lobid.org/resources/api), um die Normdaten zu holen.  

Im folgenden sehen Sie zwei Funktionen, die Sie nutzen können.  
Die Funktionen rufen eine URL aus dem Netz auf. In dieser URL steckt ein String aus ihrer Entity-Liste, hier `query` genannt.  
Unter Angabe dieser Query gibt Lobid die Treffer im JSON Format zurück.  

A) Versuchen Sie, die Funktionen nachzuvollziehen und rufen Sie `show_lobid`  mit einer passenden Entity auf.
B) Iterieren Sie über alle Named Entities und falls diese im Label ein `PER` stehen hat, rufen Sie `show_lobid` damit auf.
C) Optional: Finden Sie heraus, wie sie den von Ihnen erstellten DataFrame filtern können, um an die Personennamen zu kommen.

Rufen Sie Funktion `show_lobid()` mit einer passenden Query auf, etwa dem Namen einer Person oder eines Ortes aus ihrer Liste.

Optional: Holen Sie diese Daten automatisch aus ihrer Liste aus Entities.  
Optionaler: Verarbeiten Sie ALLE ihre Entities mittels einer Schleife und lassen Sie sich die JSON Ergebnisse anzeigen.  

Hinweis: Sie machen in diesem Fall echte(!) Anfragen über das Internet an eine Schnittstelle. In der Regel sollten Sie es hierbei nicht übertreiben. Viele Schnittstellen haben Timeouts oder erwarten sogenannte Zugriffstokens, um sich vor zu vielen Anfragen zu schützen. 

In [93]:
# Diese Zelle wird NICHT bearbeitet
import requests
from IPython.display import JSON, display

def get_lobid(query):
    url = f'https://lobid.org/gnd/search?q={query}&format=json'
    response = requests.get(url)
    return response.json()

def show_lobid(query):
    data = get_lobid(query)
    display(JSON(data))

In [94]:
show_lobid('Tom Mittelbach ')

# for ent in doc.ents:
#    if ent.label_ == 'PER':
#         show_lobid(ent)

# Filter the DataFrame by Column '3' if cell value contains 'PER'
# filtered_df = df[df[3].str.contains('PER')][0]
# for ent in list(filtered_df):
#     show_lobid(ent)

<IPython.core.display.JSON object>