# PRAKTIKUM Natural Language Processing

----------
## **Thema: Dependency Parsing**

Dependency Parsing ist eine Methode der linguistischen Textanalyse, die den wenigsten von Ihnen bisher vertraut sein dürfte. Ziel dieser Praktikumseinheit ist es daher, sich zum einen etwas tiefer in das Konzept des Dependency Parsings einzuarbeiten und zum anderen zu verstehen, wie diese - zunächst einmal theoretische Sprachanalyse - uns als Informatikern bei der Verarbeitung eines Textes mit dem Computer hilft.   
Die zentrale Aufgabe dieses Praktikums besteht in der Konzeptierung und Implementierung einer (kleinen) Teilkomponente eines Flugbuchungssystems. 

### Lernziele: 
* einen Dependency Parse Tree interpretieren können
* einen mit ``spaCy`` generierten Dependency Parse Tree navigieren können
* Dependency Parsing zur Lösung einer konkreten Textanalyse-Aufgabe einsetzen können

### Lernkontrolle:
* Abgabe des Codes Ihrer Teilkomponente des Flugbuchungssystems. Unten finden Sie weitere Informationen zur Aufgabe sowie zur zu bedienenden Schnittstelle. Die Bewertung findet auf Basis von 10 der 12 vorgegebenen Beispielsätze, sowie 4 weiteren von mir gewählten Sätzen mit ähnlichem Aufbau statt. Achtung: Wenn die 12 Beispielsätze das korrekte Ergebnis liefern ist noch nicht zwingend gesagt, dass die 4 weiteren Sätze ebenfalls das richtige Ergebnis liefern werden! Überlegen Sie daher gut, welche Spezialfälle auftreten könnten und versuchen Sie diese in Ihrer Lösung mit abzudecken!
* Präsentation Ihrer Ergebnisse im nächsten Praktikum: Ich werde im nächsten Praktikum einige Personen bitten, kurz Ihren gewählten Ansatz im Plenum vorzustellen.

-----------
## **Lernmaterial**


1. Die Vorlesungsunterlagen 
2. Übungsaufgaben, die Ihnen helfen sollen, den Einstieg in das Dependency Parsing mit spaCy zu finden (und allgemein zu einem vertieften Verständnis von Dependency Parsing führen können)
3. Weitere Informationen zum Zugriff / der Navigation des Dependency Parsing-Ergebnisses von ``spaCy`` finden sich beispielsweise hier: https://spacy.io/usage/linguistic-features#navigating

------------
### Vorbereitende Übungsaufgaben 

#### **Aufgabe 1: Übung des Umgangs mit dem Dependency Parser (Warm up)**

**Teil 1: Von einzelnen Wörtern und ihren Relationen zum Parse Tree**  
Unten sehen Sie eine Tabelle mit den Informationen, die man von ``spaCy`` nach dem Parsen eines Satzes erhält. Zeichnen Sie (auf einem Blatt Papier, basierend auf dem unten gezeigten Parsing-Ergebnis) den Parse Tree zu dem Satz "African wild animals run quickly.". 

<img src="./img/ParsingResult.jpg" width = 400>

**Teil 2: Erzeugen und Ausgeben eines Dependency Parsings mit spaCy**  
Verarbeiten Sie nun die beiden unten gezeigten Sätze in spaCy. Verwenden Sie zur Darstellung des Ergebnisses ``displacy``. (Tipp: Anschließend können Sie kontrollieren, ob Ihre Arbeit in Teil 1 richtig war.)

In [1]:
import spacy

In [2]:
sent = "African wild animals run quickly."
sent2 = "I would like to fly from Berlin to Munich."

In [3]:
nlp = spacy.load("en_core_web_sm")

In [4]:
doc = nlp(sent+sent2)

In [5]:
spacy.displacy.render(doc, style='dep')

**Teil 3: Interpretation**  
Interpretieren Sie den Dependency Parse des Satzes "African wild animals run quickly." (d.h. sagen Sie in Ihren eigenen Wortern, wie der Dependency Tree dieses spezifischen Satzes gelesen werden kann.)  
Tipp: Wenn Sie bei einer Relation nicht wissen, was Sie bedeutet, können Sie ``spacy.explain()`` mit dem Relationsnamen aufrufen. Alternativ können die Bedeutungen hier nachgeschlagen werden: https://github.com/explosion/spaCy/blob/master/spacy/glossary.py#L202

In [6]:
spacy.explain("nsubj")

'nominal subject'

African wild bewchreiben beide animals.<br>
Animals ist das Subject was beschrieben wird / um was es geht.<br>
Run ist das was das Subject tut (animals).
Und quickly ist beschreibt wie das Subject es tut.

-----
## **Aufgabe** <span style="color:red"> (Abgabe) </span>

Stellen Sie sich vor, Sie müssten Code für einen Chatbot eines Flugbuchungssystems schreiben. Wir werden in dieser Aufgabe nur einen kleinen Teilaspekt des Problems betrachten, nämlich die Extraktion des gewünschten Reiseziels aus einem Gesprächsverlauf. Dabei sind 3 mögliche Fälle zu unterscheiden: 
1. Das Reiseziel XY wird eindeutig benannt. In diesem Fall antwortet der Chatbot mit "When do you have to be in XY?", um die nächste benötigte Information abzufragen. 
2. Es wird zwar ein Ort im Text genannt, es ist aber von der Art der Formulierung her nicht 100% klar, ob es sich wirklich um das Ziel des Fluges handelt. In diesem Fall antwortet der Chatbot mit "You want a ticket to XY, right?". 
3. Das Reiseziel wird gar nicht genannt. In diesem Fall frägt der Chatbot nochmals gezielt danach mit "Which city do you want to fly to?"

Unten sehen Sie eine Liste von Beispielsätzen. Alle diese Sätze sollten anschließend von Ihrem System korrekt verarbeitbar sein. Überlegen Sie sich zunächst, wie Sie mit Hilfe von Dependency Parsing (und ggf. weiteren linguistischen Attributen, die spaCy Ihnen anbietet) die gewünschte Information extrahieren können. Implementieren Sie anschließend Ihren Ansatz. Erweitern Sie dabei die unten eingefügte Methode so, dass Sie für einen der unten gelisteten Sätze (und natürlich auch für weitere Sätze mit vergleichbarem Aufbau) die korrekte Antwort liefert. Rufen Sie die Methode anschließend für alle Beispielsätze auf und demonstrieren Sie durch die Ausgabe die Korrektheit Ihres Systems. 
(Tipp: Überlegen Sie sich weitere Beispielsätze, um Ihr System zu testen!)

**Beispielsätze:**

|ID |Satz          | Reiseziel   | Fall-ID |
|---|--------------|-------------|-------|
|1  |I would like to fly to Munich. | Munich | 1 |
|2  |Can I book a flight from Berlin to Munich, please? | Munich | 1 |
|3  |I am going to Washington next week. Can I book an air ticket, please? | Washington |1 |
|4  |My wife and I would like to travel to Beijing next month and need a flight. |Beijing  |1 |
|5  |I live in Offenburg. I would like to go to vacation. Can I book a flight, please? |Offenburg?  | 2 |
|6  |I would like to head back home from Munich on Friday. |Munich? | 2 |
|7  |I am attending a meeting in Berlin and would like to book a flight |Berlin?  |  2 |
|8  |My wife and I would like to go on our honeymoon in Stockholm next month |Stockholm?  | 2 |
|9  |I want to book a ticket on a direct flight without landing in Madrid. |Madrid?  | 2 |
|10 |I have to go on a business trip and would like to book a flight. | ? | 3 |
|11 |I would like to book a flight to the Olympic games. | ? | 3 |
|12 |Our family would like to travel to the wedding celebrations of my niece.|? | 3 |


Mein Ansatz:<br>
Ich schaue mir die Entitäten in dem Satz an habe dann 3 Fälle.<br>


1. Es sind 2 Entitäten enthalten<br>
-> Prüfe mit Depencies<br>
<br>
2. Es ist eine Entität enthalten<br>
-> Do you want to fly to ...?<br>
<br>
3. Es ist keine Entität enthalten<br>
-> Where do you want to fly?<br>
<br>
<br>
**Probleme:**
- City wird nicht erkannt
    - muss mit depency überprüft werden
    
- Sätze mit einer Entität (GPE) ohne das das der Zielort ist (aktuell mit bestätigungsfrage abgecheckt)

- Mehrere Fluganträge auf einmal

- Verneinung

In [7]:
# Zu bedienende Schnittstelle
def generate_response(user_statement):
    result = "I don't understand the sentence. Please try again."
    
    nlp = spacy.load("en_core_web_sm")
    doc = nlp(user_statement)
    # get Entities
    ents = []
    ents_idx = []
    cur_ent = ""
    sentence = []
    for token in doc:
        if token.ent_iob_ == "O" and len(cur_ent) != 0:
            ents += [cur_ent]
            ents_idx += [len(sentence)]
            sentence += [cur_ent]
            cur_ent = ""
            # add new value
            sentence += [token.text]
        elif token.ent_iob_ == "O":
            sentence += [token.text]
        elif token.ent_iob_ == "B" and len(cur_ent) != 0:
            ents += [cur_ent]
            ents_idx += [len(sentence)]
            sentence += [cur_ent]
            cur_ent = ""
            # add new value
            if token.ent_iob_ == "B" and token.ent_type_ == "GPE":
                cur_ent = token.text
            else:
                sentence += [cur_ent]
        elif token.ent_iob_ == "B" and token.ent_type_ == "GPE":
            cur_ent = token.text
        elif token.ent_iob_ == "B":
            sentence += [cur_ent]
        elif token.ent_iob_ == "I" and token.ent_type_ == "GPE":
            cur_ent += " " + token.text
        elif token.ent_iob_ == "I":
            sentence += [cur_ent]
    
    #print(ents)
    #print(ents_idx)
    #print(sentence)
    
    # Analyze the results
    if len(ents) == 0:
        result = "Where do you want to fly?"
    elif len(ents) == 1:
        result = f"Do you want to fly to {ents[0]}?"
    elif len(ents) == 2:
        # check if to between the two values
        if 'to' in sentence[ents_idx[0]:ents_idx[1]]:
            result = f"Do you want to fly to {ents[1]}?"
    
    
    if result == "I don't understand the sentence. Please try again.":
        pass
        
    return result

In [8]:
# Die 12 Beispielsätze als Strings
text1 = "I would like to fly to Munich."
text2 = "Can I book a flight from Berlin to Munich, please?"
text3 = "I am going to Washington next week. Can I book an air ticket, please?"
text4 = "My wife and I would like to travel to Beijing next month and need a flight."
text5 = "I live in Offenburg. I would like to go to vacation. Can I book a flight, please?" 
text6 = "I would like to head back home from Munich on Friday." 
text7 = "I am attending a meeting in Berlin and would like to book a flight"
text8 = "My wife and I would like to go on our honeymoon in Stockholm next month"
text9 = "I want to book a ticket on a direct flight without landing in Madrid."
text10 = "I have to go on a business trip and would like to book a flight."
text11 = "I would like to book a flight to the Olympic games."
text12 = "Our family would like to travel to the wedding celebrations of my niece."

# Aufruf der Schnittstelle mit allen Beispielsätzen
input1 = [text1, text2, text3, text4, text5, text6, text7, text8, text9, text10, text11, text12]
for statement in input1: 
    print(generate_response(statement))

Do you want to fly to Munich?
Do you want to fly to Munich?
Do you want to fly to Washington?
Do you want to fly to Beijing?
Do you want to fly to Offenburg?
Do you want to fly to Munich?
Do you want to fly to Berlin?
Do you want to fly to Stockholm?
Do you want to fly to Madrid?
Where do you want to fly?
Where do you want to fly?
Where do you want to fly?


### Try outs
Leider hatte ich nicht genug Zeit um daraus ein Konzept zu entwickeln. Eigentlich wollte ich den Dependency-Parser verwenden. 

In [9]:
spacy.explain("pobj")

'object of preposition'

In [10]:
# try out
nlp = spacy.load("en_core_web_sm")
text21 = "I want to book not a fly to berlin." 
doc = nlp(text2)

root = None
noun = None
for token in doc:
    if token.dep_ == "ROOT":
        root = token
        #print(list(token.subtree))
        
    if root == None:
        continue
        
for sub in root.subtree:
    print(sub.text)
    print(sub.dep_)
    print(list(sub.subtree))
    print("")
    
    
spacy.displacy.render(doc, style='dep', options={'compact':True})

Can
aux
[Can]

I
nsubj
[I]

book
ROOT
[Can, I, book, a, flight, from, Berlin, to, Munich, ,, please, ?]

a
det
[a]

flight
dobj
[a, flight, from, Berlin, to, Munich]

from
prep
[from, Berlin]

Berlin
pobj
[Berlin]

to
prep
[to, Munich]

Munich
pobj
[Munich]

,
punct
[,]

please
intj
[please]

?
punct
[?]



**Verschiedene Formulierungen:**
- book a flight to ...
- fly to ...
- make a vacation / make a trip to ...

-> many variations possible

-> lemmatize the verb -> no timeform problems

In [11]:
list(doc.noun_chunks)

[I, a flight, Berlin, Munich]

In [12]:
nlp = spacy.load("en_core_web_sm")
doc = nlp(text8)
for token in doc:
    print(token.text, token.tag_, token.dep_, token.ent_type_, token.ent_iob_)
    
spacy.displacy.render(doc, style='dep', options={'compact':True})

My PRP$ poss  O
wife NN nsubj  O
and CC cc  O
I PRP conj  O
would MD aux  O
like VB ROOT  O
to TO aux  O
go VB xcomp  O
on IN prep  O
our PRP$ poss  O
honeymoon NN pobj  O
in IN prep  O
Stockholm NNP pobj GPE B
next JJ amod DATE B
month NN npadvmod DATE I
