# Die NLP-Pipeline

Vom Text zur Wissen

<center><img src="nlp_pipeline.png"></center>

## Korpora
<span style="color:blue">*raw text*</span>
- Sammlung von (natürlichsprachigen) Texten
- Wichtigster 'Rohstoff' in der Computerlinguistik
- Oft für bestimmte Aufgaben zusammengestellt
  - Machine Translation, Sentiment Analysis, Genre Identification, ...
- Oft aus bestimmten Quellen zusammengestellt
  - Newswire, Movie Reviews, Tweets, Emails, ...

Beispiele:
- Brown (Nur Text)
- CoNLL2002 (Named Entity Recognition)
- Reuters (Dokumentenklassifikation)
- IMDB Reviews (Sentiment-Analyse)

## Einlesen von Korpora mit NLTK

```python
from nltk.corpus import gutenberg
```

nltk.corpus enthält viele bekannte Korpora und stellt viele Dinge sofort zur Verfügung:

In [None]:
import nltk
from nltk.corpus import gutenberg
print(gutenberg.fileids())

In [None]:
emma = gutenberg.raw('austen-emma.txt')
print("Emma:",emma[:190],"[...]\n")
print("Characters:",len(emma))

### Stopwort - Korpora

Welches Wort enthält mehr Bedeutung?

-> Welches Wort enthält mehr Information über den Inhalt und Kontext

> 1) Der \
> 2) Kapitän




**2) Kapitän** 


In [None]:
stopwords = nltk.corpus.stopwords.words('english')
print(stopwords[:20],"\n")
print("Is 'and' in 'stopwords'?","and" in stopwords)

## Segmentierung und Tokenisierung *(Chunking)*

<span style="color:blue">*tokenized sentences*</span>

Unser Text ist bislang ein einziger, langer String.

```xml
"Emma Woodhouse, handsome, clever, and rich, [...]"
``` 

Wir wollen wissen, wo Untereinheiten ('Chunks') beginnen und enden:
- Sätze
- Wörter
- Phrasen
- ...

Wir wollen wissen, wo Untereinheiten ('Chunks') beginnen und enden:
- Sätze
- Wörter
- Phrasen
- ...

> Ideen?

### Methoden
- Regelbasiert
    - *Wenn* <span style="background-color: #ffffff">.</span>*, dann Satzende.*
    - Benötigt Experten
- Statistisch
    - <span style="background-color: #ffffff">. A</span> *ist wahrscheinlich Satzende.*
    - Benötigt Trainingsdaten
- Neuronal
    - Benötigt Trainingsdaten und viel Rechenleistung

### Tokenisierung in NLTK

NLTK stellt Standard-Implementierungen zur Verfügung:

```python
from nltk.tokenize import word_tokenize, sent_tokenize
```

In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize
emma_sents =  # TODO
emma_words =  # TODO
print(emma_sents[0:1])
print(emma_words[58:75])
print("Number of Sentences:",) #TODO
print("Number of Words:",) # TODO

> Aufgabe: Tokenisiere den Emma-Text als Liste von Sätzen, wobei jeder Satz eine Liste von Wörtern ist.

```xml
[[..][..][..][..],...]
```

In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize
text = emma

tokenized_sents =  # TODO

print(tokenized_sents[1:3])

### Stopwort - Entfernung mit NLTK

Für viele Aufgaben sind die Stoppwörter unwichtig, oder sogar hinderlich (Rauschen, Datenmenge, ...) \
Dann wird als Vorverarbeitungsschritt und als Teil der NLP-Pipeline eine Stopwort-Entfernung durchgeführt.


In [None]:
emma_filtered =  # Together
remaining_fraction = len(emma_filtered) / len(emma)
stopword_fraction = round(100 -(fraction*100))
guess = None # TODO 0% - 100%
print("Stopword fraction guess:",guess,"%")
print("Actual Emma Stopword fraction:",stopword_fraction,"%")
print("Wow, very accurate!" if (abs(stopword_fraction - guess) < 5) else "Almost. Surprising, isn't it?")

<center><img src="nlp_pipeline.png"></center>

## Part-of-Speech Tagging

Typischerweise der zweite Schritt der NLP-Pipeline

> Was ist ein Part-of-Speech Tag?

refuse

they refuse

**VB**

the refuse permit

**NN**

### Part-of-Speech Tagging mit NLTK

```python
from nltk import pos_tag
```

In [None]:
text = word_tokenize("They refuse to permit us to obtain the refuse permit")
pos_tagged_text =  # TODO
print(pos_tagged_text)

In [None]:
type(pos_tagged_text[0])

> Aufgabe: Tagge den tokenisierten Emma-Text mit seinen Part-of-Speech Labels.

```xml
[[(word,pos),(word,pos),...][..][..][..],...]
```

NOTE: Als optionale Aufgabe am Ende: Finde andere Tagger und vergleiche die Performance

In [None]:
from nltk import pos_tag
text = tokenized_sents

pos_tagged_sents =  # TODO

print(tokenized_sents[1:2])

## Named Entity Recognition


<center><img src="nlp_pipeline.png"></center>

Reportedly, last Saturday, Santa was sighted flying directly above the headquarters of Denver-Sled Inc. in Denver, Colorado.



    

Reportedly, last <span style="color:blue">**Saturday**</span>, <span style="color:red">**Santa**</span> was sighted flying directly above the headquarters of <span style="color:green">**Denver-Sled Inc.**</span> in <span style="color:purple">**Denver**</span>, <span style="color:purple">**Colorado**</span>.

Reportedly, <span style="color:blue">**last Saturday**</span>, <span style="color:red">**Santa**</span> was sighted flying directly above the headquarters of <span style="color:green">**Denver-Sled Inc.**</span> in <span style="color:purple">**Denver, Colorado**</span>.

Discuss: Wich of the above is better?

### Named Entity Types

- Können sehr allgemein oder sehr genau sein - **Location** vs. **City-District**
- Immer dem Task angepasst
- Generell: Je spezifischer, desto mehr Fehler

Häufig z.B.:
![ne_types](NE_types.png)

**NER** kann in zwei Unteraufgaben unterteilt werden:

 1. NE-Grenzen erkennen: "*wo*"
 2. NEs klassifizieren: "*was*"

--> Ein Klassifikator setzt nur B-I-O Marker in den Text

Beginning / Inside / Outside

```
     O        B      I       B    O     O   
Reportedly, last Saturday, Santa was sighted```

--> Ein zweiter Klassifikator klassifiziert jetzt die Markierten Named Entities

```
     /          DATE        PER   /     /   
Reportedly, last Saturday, Santa was sighted```

Moderne, vor allem neuronale, Ansätze versuchen auch schon, beides auf einmal zu machen.

### NER mit NLTK

```python
from nltk import ne_chunk
```



In [None]:
sent = "Reportedly, last Saturday, Santa was sighted flying directly above the headquarters of Denver-Sled Inc. in Denver, Colorado."
split_sent = sent.split()
tagged_sent = pos_tag(sent.split())
print(tagged_sent)

In [None]:
# nltk.download('maxent_ne_chunker')
# nltk.download('words')

ne_tagged_sent = nltk.ne_chunk(tagged_sent)
print(ne_tagged_sent)

In [None]:
ne_tagged_sent

<center><img src="nlp_pipeline.png"></center>