# Die NLP-Pipeline

Vom Text zur Wissen

<center><img src="nlp_pipeline.png"></center>

## Korpora
<span style="color:blue">*raw text*</span>
- Sammlung von (natürlichsprachigen) Texten
- Wichtigster 'Rohstoff' in der Computerlinguistik
- Oft für bestimmte Aufgaben zusammengestellt
  - Machine Translation, Sentiment Analysis, Genre Identification, ...
- Oft aus bestimmten Quellen zusammengestellt
  - Newswire, Movie Reviews, Tweets, Emails, ...

Beispiele:
- Brown (Nur Text)
- CoNLL2002 (Named Entity Recognition)
- Reuters (Dokumentenklassifikation)
- IMDB Reviews (Sentiment-Analyse)

## Einlesen von Korpora mit NLTK

```python
from nltk.corpus import gutenberg
```

nltk.corpus enthält viele bekannte Korpora und stellt viele Dinge sofort zur Verfügung:

In [106]:
from nltk.corpus import gutenberg
print(gutenberg.fileids())

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt', 'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt', 'whitman-leaves.txt']


In [107]:
emma = gutenberg.raw('austen-emma.txt')
print("Emma:",emma[:190],"[...]\n")
print("Characters:",len(emma))

Emma: [Emma by Jane Austen 1816]

VOLUME I

CHAPTER I


Emma Woodhouse, handsome, clever, and rich, with a comfortable home
and happy disposition, seemed to unite some of the best blessings
of exi [...]

Characters: 887071


### Stopwort - Korpora

Welches Wort enthält mehr Bedeutung?

-> Welches Wort enthält mehr Information über den Inhalt und Kontext

> 1) Der \
> 2) Kapitän




**2) Kapitän** 


In [108]:
stopwords = nltk.corpus.stopwords.words('english')
print(stopwords[:20],"\n")
print("Is 'and' in 'stopwords'?","and" in stopwords)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his'] 

Is 'and' in 'stopwords'? True


## Segmentierung und Tokenisierung *(Chunking)*

<span style="color:blue">*tokenized sentences*</span>

Unser Text ist bislang ein einziger, langer String.

```xml
"Emma Woodhouse, handsome, clever, and rich, [...]"
``` 

Wir wollen wissen, wo Untereinheiten ('Chunks') beginnen und enden:
- Sätze
- Wörter
- Phrasen
- ...

Wir wollen wissen, wo Untereinheiten ('Chunks') beginnen und enden:
- Sätze
- Wörter
- Phrasen
- ...

> Ideen?

### Methoden
- Regelbasiert
    - *Wenn* <span style="background-color: #ffffff">.</span>*, dann Satzende.*
    - Benötigt Experten
- Statistisch
    - <span style="background-color: #ffffff">. A</span> *ist wahrscheinlich Satzende.*
    - Benötigt Trainingsdaten
- Neuronal
    - Benötigt Trainingsdaten und viel Rechenleistung

### Tokenisierung in NLTK

NLTK stellt Standard-Implementierungen zur Verfügung:

```python
from nltk.tokenize import word_tokenize, sent_tokenize
```

In [109]:
from nltk.tokenize import word_tokenize, sent_tokenize
emma_sents = sent_tokenize(emma) # TODO
emma_words = word_tokenize(emma) # TODO
print(emma_sents[0:1])
print(emma_words[58:75])
print("Number of Sentences:",len(emma_sents)) #TODO
print("Number of Words:",len(emma_words)) # TODO

['[Emma by Jane Austen 1816]\n\nVOLUME I\n\nCHAPTER I\n\n\nEmma Woodhouse, handsome, clever, and rich, with a comfortable home\nand happy disposition, seemed to unite some of the best blessings\nof existence; and had lived nearly twenty-one years in the world\nwith very little to distress or vex her.']
['She', 'was', 'the', 'youngest', 'of', 'the', 'two', 'daughters', 'of', 'a', 'most', 'affectionate', ',', 'indulgent', 'father', ';', 'and']
Number of Sentences: 7493
Number of Words: 191785


> Aufgabe: Tokenisiere den Emma-Text als Liste von Sätzen, wobei jeder Satz eine Liste von Wörtern ist.

```xml
[[..][..][..][..],...]
```

In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize
text = emma

tokenized_sents = None # TODO

print(tokenized_sents[1:3])

### Stopwort - Entfernung mit NLTK

Für viele Aufgaben sind die Stoppwörter unwichtig, oder sogar hinderlich (Rauschen, Datenmenge, ...) \
Dann wird als Vorverarbeitungsschritt und als Teil der NLP-Pipeline eine Stopwort-Entfernung durchgeführt.


In [110]:
emma_filtered = [w for w in emma if w.lower() not in stopwords] # Together
remaining_fraction = len(emma_filtered) / len(emma)
stopword_fraction = round(100 -(fraction*100))
guess =  32 # TODO 0% - 100%
print("Stopword fraction guess:",guess,"%")
print("Actual Emma Stopword fraction:",stopword_fraction,"%")
print("Wow, very accurate!" if (abs(stopword_fraction - guess) < 5) else "Almost. Surprising, isn't it?")

Stopword fraction guess: 32 %
Actual Emma Stopword fraction: 36 %
Wow, very accurate!


## Part-of-Speech Tagging

Typischerweise der zweite Schritt der NLP-Pipeline

> Was ist ein Part-of-Speech Tag?

refuse

they refuse

**VB**

the refuse permit

**NN**

### Part-of-Speech Tagging mit NLTK

```python
from nltk import pos_tag
```

In [111]:
text = word_tokenize("They refuse to permit us to obtain the refuse permit")
pos_tagged_text = nltk.pos_tag(text) # TODO
print(pos_tagged_text)

[('They', 'PRP'), ('refuse', 'VBP'), ('to', 'TO'), ('permit', 'VB'), ('us', 'PRP'), ('to', 'TO'), ('obtain', 'VB'), ('the', 'DT'), ('refuse', 'NN'), ('permit', 'NN')]


In [112]:
type(pos_tagged_text[0])

tuple

> Aufgabe: Tagge den tokenisierten Emma-Text mit seinen Part-of-Speech Labels.

```xml
[[(word,pos),(word,pos),...][..][..][..],...]
```

NOTE: Als Aufgabe am Ende: Finde andere Tagger und vergleiche die Performance

In [None]:
from nltk import pos_tag
text = tokenized_sents

pos_tagged_sents = None # TODO

print(tokenized_sents[1:2])