<span style="color:red">Abgegeben von (Name, Vorname):</span> 
Goxhufi, Driton

# Über NLTK

NLTK (Natural Language Toolkit) ist eine Open-Source-Bibliothek für Python, die eine einheitliche Schnittstelle zu einer Reihe von Sprachressourcen (Korpora, Modelle) und eine Sammlung von Methoden bereit stellt, mit denen diese Ressourcen ausgelesen und weiterverarbeitet werden können. 

- Website: https://www.nltk.org/
- Buch: https://www.nltk.org/book/
- Module: https://www.nltk.org/py-modindex.html
- Beispiele: http://www.nltk.org/howto/

Alternativen: [spaCy](https://spacy.io/), [Stanford CoreNLP](https://stanfordnlp.github.io/CoreNLP/), ...

# Installation

1. Zunächst muss das NLTK-Paket installiert werden:

   `pip install nltk`
    
    Jetzt kann das Paket `nltk` importiert werden, was die Voraussetzung dafür ist, Methoden und Ressourcen aus NLTK zu verwenden.

In [1]:
import nltk

2. NLTK stellt eine Reihe von Sprachressourcen zur Verfügung, die mit `nltk.download()` heruntergeladen werden können.

In [2]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

Als nächstes erscheint in einem separaten Fenster der NLTK-Downloader: 

![NLTK%20Downloader%201.PNG](attachment:NLTK%20Downloader%201.PNG)

Man kann hier natürlich "all" installieren, aber das dürfte aufgrund der Größe (> 3GB) ein paar Minuten dauern.

Für den Anfang reicht die Sammlung "book". Bitte herunterladen!

# Grundlagen

Auf die Methoden und Ressourcen kann mit verschiedenen Submodulen zugegriffen werden, z.B.:

  - `nltk.corpus`: Korpus-Ressourcen auslesen, z.B. `nltk.corpus.words()`
  - `nltk.metrics`: verschiedene Evaluationsmetriken (Edit Distance, Inter Annotator Agreement, Assoziationsmaße, Spearman Rank Correlation, ...)
  - `nltk.tag`: Part-of-Speech Tagging
  - `nltk.parse`: syntaktische Satzanalyse
  - `nltk.translate`: maschinelle Übersetzung
  - `nltk.chat`: Chat Bots
  - usw.
  
Eine Übersicht gibt es hier: https://www.nltk.org/py-modindex.html

## Beispiel: Auslesen eines Korpus

Als Einstiegsbeispiel nehmen wir uns das [Brown Corpus](https://en.wikipedia.org/wiki/Brown_Corpus) vor, ein relativ altes und trotzdem in der Computerlinguistik immer noch sehr populäres Textkorpus für das Englische. 

**Bemerkung:** Vieles von dem, was wir im Folgendem sehen werden, wird in den Übungen zu Korpora nochmals genauer eingeführt. 

1. Zunächst müssen wir das Brown Corpus importieren:


In [4]:
from nltk.corpus import brown

2. Dann stehen uns eine Reihe von Methoden zur Verfügung, um auf unterschiedliche Informationen (oder "Annotationsebenen") im Korpus zuzugreifen.

  - `categories()`: Liste von Textkategorien
  - `raw()`: das "rohe" Korpus
  - `words()`: Liste von Worttoken
  - `tagged_words()`: Liste von Paaren aus Worttoken und POS-Tag
  - `sents()`: Liste der Sätze
  - `tagged_sents()`: Liste der Sätze mit getaggten Worttoken
  
  Zum Beispiel können wir folgendermaßen die Liste der Textkategorien, die im Brown Corpus enthalten sind, ausgeben:
 

In [5]:
print(brown.categories())

['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies', 'humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance', 'science_fiction']


Und so geben wir dann alle Worttoken der Textkategeorie "romance" aus. 

In [6]:
print(brown.words(categories=["romance"]))

['They', 'neither', 'liked', 'nor', 'disliked', 'the', ...]


Die Worttoken haben sogenannte [Part-of-Speech Tags](https://de.wikipedia.org/wiki/Part-of-speech-Tagging) (POS Tags, Wortarten-Etikette), die ungefähr den Kategorien Nomen, Verb, Adjektiv etc. entsprechen. Dazu in einer späteren Sitzung mehr.

In [7]:
print(brown.tagged_words())
print(brown.tagged_sents())

[('The', 'AT'), ('Fulton', 'NP-TL'), ...]
[[('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ('Grand', 'JJ-TL'), ('Jury', 'NN-TL'), ('said', 'VBD'), ('Friday', 'NR'), ('an', 'AT'), ('investigation', 'NN'), ('of', 'IN'), ("Atlanta's", 'NP$'), ('recent', 'JJ'), ('primary', 'NN'), ('election', 'NN'), ('produced', 'VBD'), ('``', '``'), ('no', 'AT'), ('evidence', 'NN'), ("''", "''"), ('that', 'CS'), ('any', 'DTI'), ('irregularities', 'NNS'), ('took', 'VBD'), ('place', 'NN'), ('.', '.')], [('The', 'AT'), ('jury', 'NN'), ('further', 'RBR'), ('said', 'VBD'), ('in', 'IN'), ('term-end', 'NN'), ('presentments', 'NNS'), ('that', 'CS'), ('the', 'AT'), ('City', 'NN-TL'), ('Executive', 'JJ-TL'), ('Committee', 'NN-TL'), (',', ','), ('which', 'WDT'), ('had', 'HVD'), ('over-all', 'JJ'), ('charge', 'NN'), ('of', 'IN'), ('the', 'AT'), ('election', 'NN'), (',', ','), ('``', '``'), ('deserves', 'VBZ'), ('the', 'AT'), ('praise', 'NN'), ('and', 'CC'), ('thanks', 'NNS'), ('of', 'IN'), ('the', 'AT'), ('

## <span style="color:red">Aufgaben</span>

Mit diesen wenigen Methoden (und den üblichen Python-Methoden) können Sie schon ein paar statistische Kennzahlen für das Brown Corpus ermitteln:

  <span style="color:red">A1:</span> Geben Sie die längste Wortform und den längsten Satz im Brown Corpus aus.

In [19]:
print(max(brown.words(), key=len))

nnuolapertar-it-vuh-karti-birifw-


In [23]:
print(max(brown.sents(), key=len))

['and', '(', 'C', ')', 'to', 'finance', ',', 'for', 'not', 'more', 'than', 'three', 'years', 'beyond', 'the', 'end', 'of', 'said', 'period', ',', 'such', 'activities', 'as', 'are', 'required', 'to', 'correlate', ',', 'coordinate', ',', 'and', 'round', 'out', 'the', 'results', 'of', 'studies', 'and', 'research', 'undertaken', 'pursuant', 'to', 'this', 'Act', ':', 'Provided', ',', 'That', 'funds', 'available', 'in', 'any', 'one', 'year', 'for', 'research', 'and', 'development', 'may', ',', 'subject', 'to', 'the', 'approval', 'of', 'the', 'Secretary', 'of', 'State', 'to', 'assure', 'that', 'such', 'activities', 'are', 'consistent', 'with', 'the', 'foreign', 'policy', 'objectives', 'of', 'the', 'United', 'States', ',', 'be', 'expended', 'in', 'cooperation', 'with', 'public', 'or', 'private', 'agencies', 'in', 'foreign', 'countries', 'in', 'the', 'development', 'of', 'processes', 'useful', 'to', 'the', 'program', 'in', 'the', 'United', 'States', ':', 'And', 'provided', 'further', ',', 'That

  <span style="color:red">A2:</span> Wie unterscheiden sich hier die Textkategorien? Geben Sie deren jeweiligen Maxima aus.

In [42]:
cats = brown.categories()
for i in cats:
    print(max(brown.words(categories=[i]), key=len))

hundred-and-eighty-degree
social-political-economical
Braddock-against-the-Indians
whisky-on-the-rocks
pressure-volume-temperature
let's-make-your-house-our-club
nnuolapertar-it-vuh-karti-birifw-
tris(hydroxymethyl)-aminometha
linguist-anthropologist
grandfather-father-to-son
Scotch-Irish-Scandinavian
Preparation-Inquirers'
Rundfunk-Sinfonie-Orchester
yielding-Mediterranian-woman-
delicate-beyond-description


In [43]:
cats = brown.categories()
for i in cats:
    print(max(brown.words(categories=[i])))

zing
zur
zoo
zoo
zinc
zooms
zounds
{0,T}
zorrillas
zombie
zone
zealously
zooming
zoooop
zone


<span style="color:red">A3:</span> Was ist die Durchschnittslänge der Worte und Sätze im Brown Corpus?

In [39]:
words = brown.words()
sentences = brown.sents()

average_word_length = sum( map(len, words) ) / len(words)
average_sentences_length = sum( map(len, sentences) ) / len(sentences)

In [40]:
print(average_word_length)
print(average_sentences_length)

4.276538246904905
20.250994070456922


<span style="color:red">A4:</span> Was ist die häufigste Wortform und das häufigst POS-Tag im Brown Corpus?

In [None]:
# dazu bin ich nicht mehr gekommen... schade!

## Appendix: Frequenzverteilung

Die Verteilung der Frequenzen im Brown Corpus ist sehr typisch: Wenige Wortformen treten sehr häufig auf, die allermeisten Wortformen aber nur sehr selten. 

Man kann dies mit `mathplot` graphisch darstellen.

In [45]:
%matplotlib notebook
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(1,100,100)
f = 1/x * 200
plt.plot(x,f, 'r')

plt.plot(list(reversed(sorted(WordFreqDict.values()))))
plt.ylabel('frequency')
plt.xlabel('nth most frequent')
plt.show()

<IPython.core.display.Javascript object>

NameError: name 'WordFreqDict' is not defined

Man nennt dies eine [**Zipf'sche Verteilung**](https://de.wikipedia.org/wiki/Zipfsches_Gesetz#Einfache_Zipfverteilung) -- und die ist typisch für Sprachdaten.


                     
                     
                     