# Vorverarbeitung von Texten mit Python und NLTK


Für viele Aufgaben müssen Texte immer auf der gleichen Art analysiert werden. Für eine Aufgabe wie die Sprachidentifikation können wir einen Text als eine lange Zeichenkette betrachten. Meistens brauchen wir aber eine Liste von Wörtern, mit denen wir weiter arbeiten können. 

Wenn wir erstmal den Text haben (was oft nicht einfach ist, wenn der Text z.B. aus einer Webseite extrahiert werden muss), teilen wir den Text zuerst in Sätze und die Sätze anschließend in Wörtern auf. In vielen Fällen führen wir die Wörter dann noch auf ihren Grundform zurück, und bestimmen die Wortart für jedes Wort, da diese oft wichtige Informationen für die wietere Verarbeitung gibt. Eventuell folgen dann Schritte, wie das Nachschlagen der Wörter in einem Thesaurus oder das Erkennen von sogenannten _Named Entities_: Namen von Personen, Institutionen, Produkte, usw.

![Typische Verarbeitungsschritte bei der Textanalyse](http://textmining.wp.hs-hannover.de/img/pipeline.jpg)

Für die Analyse von Englischen Texten sind weitaus mehr Werkzeuge verfügbar als für das Deutsche. Die Verarbeitung von englischen Texten ist daher etwas einfacher. Das wir außerdem auch of englische Texte analysieren müssen, schauen wir uns die Standardverarbeitung zunächst für das Englische an. 

## Englische Texte

Wenn wir mit Python Texte analysieren wollen, ist das Paket NLTK der Stanford University unverzichtbar. Dieses Paket umfasst State-of-the-Art Implementierungen für so gut wie alle wichtige Algorithmen aus der Sprachverarbeitung und ist in den meisten Python-Distributionen enthalten.

NLTK enthält auch eine große Menge Ressourcen, die Sie nutzen können, oder die manche der bereitgestellten Algorithmen brauchen. Diese sind meistens noch nicht installiert. Das nachinstallieren dieser Ressourcen ist ganz einfach.

In [None]:
pip install nltk

In [None]:
import nltk #natural language toolkit
nltk.download()

Es sollte jetz ein Fernster geöffnet werden. Wählen Sie alles aus dem NLTK-Buch zum installieren aus.

### Satzerkennung und Tokenization 

Mit der Python-Funktion _Split()_ können wir einen Text leicht aufteilen. In vielen Fällen machen wir dann aber Fehler. Es fängt schon damit an, dass Satzzeichen am vorangehenden Wort geschrieben werden, aber nicht dazu gehören, es sei denn, das Wort ist eine Abkürzung oder eine Ordinalzahl, aber letzteres nur im Deutschen. Statt uns über alle Ausnahmen Gedanken zu machen, nutzen wir hierfür einfach eine Funktion aus NLTK. Diese Funktion ist übrigens nicht auf Regeln basiert, sondern wurde aus vielen Beispielen gelernt. 

Im nächsten Beispiel sehen wir, wie man mit Python und NLTK eine Zeichenkette in eine Liste von Wörtern aufteilen kann. Wir finden nicht nur Wörter, sondern auch Satzzeichen, Zahlen und Symbole. Der Sammelbegriff für diese Einheiten ist _Token_. Das Zerlegen einer Zeichenkette in Tokens wird daher Tokenisierung oder auf Englisch _Tokenization_ genannt.

In [None]:
import nltk

sentence= "At eight o'clock on Thursday morning... Arthur didn't feel very good."
tokens = nltk.word_tokenize(sentence, language='english') #'german'
print(tokens)

In vielen Fällen ist es wichtig zu wissen, wo die Satzgrenzen sind: Die Wörter in einem Satz haben eine viel engere Beziehung zueinander, als Wörter in verscheidenen Sätzen. Zum Beispiel stehen Begriffe, die aus mehreren Wörtern bestehen, wie "Bundesministerium für Gesundheit" immer innerhalb eines Satzes.

Die Frage ist nun, ob wir den Text erst in Wörter aufteilen und dann in Sätzen oder umgekehrt. Um zu entscheiden, ob ein Punkt ein Satzende markiert, muss man unter anderem Wissen, ob das Wort vor dem Punkt eine Abkürzung ist. Man muss das Wort also schon mal in der langen Zeichenkette erkannt haben. Der _Sentence Splitter_ von NLTK arbeitet aber trotzdem auf ganzen Texten und braucht keine vorangehende Zerlegung in Tokens. 

Zum Ausprobieren, lesen wir einen kurzen englischen Text ein. Den hier genutzten Beispieltext finden Sie hier: http://textmining.wp.hs-hannover.de/texte/hanover.txt . Der Text ist der Wikipediaseite http://en.wikipedia.org/wiki/Hanover.html entnommen.

In [None]:
l=[1,2,3,4,5,6]
# for e in l:
#     if e%2==0:
#         print(e)
gerade=[e for e in l if e==3]
print(gerade)

In [2]:
import nltk
import codecs

textfile = codecs.open("texte/hanover.txt", "r", "utf-8-sig")
text = textfile.read()
textfile.close()

sentences = nltk.sent_tokenize(text,language='english') #Liste Sätze

#print(sentences)

tokenized_text = [nltk.word_tokenize(sent, language='english') for sent in sentences]
#tokenized_text=[]
#for sent in sentences:
#    words=nltk.word_tokenize(sent,language='english')
 #   tokenized_text.append(words)


print(tokenized_text[0:3])
#print(tokenized_text[5]

[['Hanover', 'or', 'Hannover', '(', '/ˈhænoʊvər/', ';', 'German', ':', 'Hannover', ',', 'pronounced', '[', 'haˈnoːfɐ', ']', '(', 'About', 'this', 'sound', 'listen', ')', ')', ',', 'on', 'the', 'River', 'Leine', ',', 'is', 'the', 'capital', 'and', 'largest', 'city', 'of', 'the', 'German', 'state', 'of', 'Lower', 'Saxony', '(', 'Niedersachsen', ')', ',', 'and', 'was', 'once', 'by', 'personal', 'union', 'the', 'family', 'seat', 'of', 'the', 'Hanoverian', 'Kings', 'of', 'the', 'United', 'Kingdom', 'of', 'Great', 'Britain', 'and', 'Ireland', ',', 'under', 'their', 'title', 'as', 'the', 'dukes', 'of', 'Brunswick-Lüneburg', '(', 'later', 'described', 'as', 'the', 'Elector', 'of', 'Hanover', ')', '.'], ['At', 'the', 'end', 'of', 'the', 'Napoleonic', 'Wars', ',', 'the', 'Electorate', 'was', 'enlarged', 'to', 'become', 'a', 'Kingdom', 'with', 'Hanover', 'as', 'its', 'capital', '.'], ['From', '1868', 'to', '1946', 'Hanover', 'was', 'the', 'capital', 'of', 'the', 'Prussian', 'Province', 'of', 'Han

### Wortarterkennung (Part-of-Speech Tagging)

Die Wortart eines Wortes gibt oft wichtige Informationen. Den Hauptinhalt eines Textes erkennen wir beispielsweise schon an den benutzten Substantiven und Verben, während Adjektive und Adverbien wenig beitragen, und Artikel, Präpositionen und Hilfsverben hierzu überhaupt keine nützliche Information liefern. 

Wortarten werden im Englischen _Part of Speech_ genannt, ein Programm, dass die Wortarten zuweist, daher _Part of speaach tagger_ oder einfach _POS tagger_. Der NLTK enthält einen guten (statistischen) POS Tagger.

Die Wortklassen, die dieser Tagger zuweist, sind nicht genau die, die Sie in der Schule gelernt haben. Manche Klassen sind unterteilt, es gibt Tags, die neben der Wortklasse weitere Informationen, wie z.B. 3. Person Singular enthalten und es gibt Klassen für Wörter, die oft schwierig einzuteilen sind. Die Tags, die im folgenden Beispiel genutzt werden, sind die aus dem sogenannten Pennsylvenia Treebank Tagset. Eine Beschreibung der Tags sowie Beispiel dafür bekommen Sie mit der help Funktion:

In [None]:
nltk.help.upenn_tagset()

Jetzt aber ein Beispiel für den Tagger:

In [3]:
tags = nltk.pos_tag(tokenized_text[0])

for (word,tag) in tags:
    if tag=='NN':
        print(word)

haˈnoːfɐ
sound
capital
city
state
union
family
seat
title


### Lemmatisierung

In vielen Sprachen, wie auch im Deutschen und Englischen, können Wörter in verschiedenen Formen auftreten. (Es gibt auch Sprachen, in denen das nicht der Fall ist. Diese Sprachen werden isolierende Sprachen genannt. Beispiele hierfür sind Mandarin (Chinesisch) und Vietnamesisch)). Oft ist es wichtig, den Grundfom eines Wortes, das im Text in flektierter Form vorkommt, zu bestimmen. Es ist wichtig, dass wir hier drei Begriffe klar trennen:
* Lemma - Die Form des Wortes, wie sie in einem Wörterbuch steht. Z.B.: Haus, laufen, begründen
* Stamm - Das Wort ohne Flexionsendungen (Prefixe und Suffixe). Z.B.: Haus, lauf, begründ
* Wurzel - Kern des Wortes, von dem das Wort ggf. durch Derivation abgeleitet wurde. Z.B.: Haus, lauf, Grund

Wir unterscheiden jetzt _Stemmer_, Programme, die den Stamm eines Wortes suchen, und _Lemmatisierer_, die das Lemma für jedes Wort suchen. Manche Stemmer trennen auch produktive Derivationssuffixe ab, und geben in vielen Fällen nicht den Stamm, sondern den Wurzel eines Wortes. Es wird oft davon ausgegangen, dass dies für Information Retrieval von Vorteil ist. Wenn man beispielsweise nach _analysieren_ sucht, möchte man wahrscheinlich nicht nur Ergebnisse mit _analysiere_, _analysiert_ , _analysierende_, usw. haben, sondern vermutlich auch welche, in denen nur das Wort _Analyse_ vorkommt. Man kann aber genau so Negativbeispiele finden. Ob diese Art von Stemming wirklich nützlich ist für Information Retrieval, ist nicht eindeutig gekärt (vgl. z.B.:  _BRANTS, Thorsten. Natural Language Processing in Information Retrieval. In: CLIN. 2003._).

Ein guter Lemmatizer, der im NLTK enthalten ist, ist der WordNet-Stemmer, der die Vollformen einfach im online-Wörterbuch WordNet nachschlägt. Da ein Wort im Englischen oft zu mehreren Klassen gehören kann, braucht der Wordnet-Lemmatizer auch die Wortklasse. Wir brauchen jetzt ein paar Zeilen Code, um die Penn Treebank Tags in Wordnet-Klassen zu übersetzen:

In [4]:
from nltk.corpus import wordnet as wn
lemmatizer = nltk.WordNetLemmatizer()
#treetagger
def wntag(pttag):
    if pttag in ['JJ', 'JJR', 'JJS']:
        return wn.ADJ
    elif pttag in ['NN', 'NNS', 'NNP', 'NNPS']:
        return wn.NOUN
    elif pttag in ['RB', 'RBR', 'RBS']:
        return wn.ADV
    elif pttag in ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']:
        return wn.VERB
    return None

def lemmatize(lemmatizer,word,pos):
    if pos == None:
        return word
    else:
        return lemmatizer.lemmatize(word,pos)

lemmata = [lemmatize(lemmatizer,word,wntag(pos)) for (word,pos) in tags]
print(lemmata)

['Hanover', 'or', 'Hannover', '(', '/ˈhænoʊvər/', ';', 'German', ':', 'Hannover', ',', 'pronounce', '[', 'haˈnoːfɐ', ']', '(', 'About', 'this', 'sound', 'listen', ')', ')', ',', 'on', 'the', 'River', 'Leine', ',', 'be', 'the', 'capital', 'and', 'large', 'city', 'of', 'the', 'German', 'state', 'of', 'Lower', 'Saxony', '(', 'Niedersachsen', ')', ',', 'and', 'be', 'once', 'by', 'personal', 'union', 'the', 'family', 'seat', 'of', 'the', 'Hanoverian', 'Kings', 'of', 'the', 'United', 'Kingdom', 'of', 'Great', 'Britain', 'and', 'Ireland', ',', 'under', 'their', 'title', 'as', 'the', 'duke', 'of', 'Brunswick-Lüneburg', '(', 'later', 'describe', 'as', 'the', 'Elector', 'of', 'Hanover', ')', '.']


Etwas einfacher ist der sogenannt _Porter Stemmer_. Der Porterstemmer benutzt kein Wörterbuch sondern hat nur eine Liste von Suffixen, die abgetrennt oder ersetzt werden. Dies führt in vielen Fällen zu unsinnigen Ergebnisse. Oft ist das aber unproblematisch, so lange verschiedene Formen eines Wortes auf dem gleichen eindeutigen Stamm zurückgeführt werden. Neben dem Porter Stemmer enthält NLTK den Lancaster Stemmer, der nach dem gleichen Prinzip arbeitet. Schauen Sie sich die Ergebnisse genau an und vergleichen die Sie die STämme mit den Lemmata des Wordnet-Stemmers!

In [None]:
porter = nltk.PorterStemmer()
lancaster = nltk.LancasterStemmer()

print("Porter Stemmer:")
stems = [porter.stem(t) for t in tokenized_text[0]]
print(stems)

print("\nLancaster Stemmer:")
stems = [lancaster.stem(t) for t in tokenized_text[0]]
print(stems)

## Deutsch

Deutsch und Englsich sind Sprachen, die sich in vielen Hinsichten zielich ähnlich sind. Die Verarbeitungsschritte für einen Deutschen Text unerscheiden sich daher nicht wesentlich von denen für englische Texte. Bei der Tokenisierung und Satzerkennung müssen wir lediglich Deutsch als Parameter angeben, damit besonderheiten des Deutschen besser berücksichtigt werden.

Zum Ausprobieren, lesen wir wieder  einen kurzen Text ein. Den hier genutzten Beispieltext finden Sie hier: http://textmining.wp.hs-hannover.de/texte/syrien.txt . Der Text ist der Wikipediaseite http://de.wikipedia.org/wiki/Syrien.html entnommen.

In [None]:
print(text)

In [14]:
import nltk
import codecs

textfile = codecs.open("texte/syrien.txt", "r", "utf-8")
text = textfile.read()
textfile.close()

sentences = nltk.sent_tokenize(text,language='german')
#print(sentences[20:23])

tokenized_sent = nltk.word_tokenize(sentences[100],language='german')

tokenized_text=[nltk.tokenize.word_tokenize(sent,language='german') for sent in sentences]

# text_tokenized=[]
# for sent in sentences:
#     worter=nltk.word_tokenize(sentences[11],language='german')
#     text_tokenized.append(worter)


print(tokenized_text[90:100])

[['Sie', 'leben', 'zu', 'etwa', 'Dreiviertel', 'in', 'Aleppo', 'und', 'zu', 'knapp', '20', 'Prozent', 'in', 'Damaskus', '.'], ['Die', 'Übrigen', 'verteilen', 'sich', 'auf', 'die', 'größeren', 'Städte', ',', 'besonders', 'in', 'der', 'Dschazira-Region', '.'], ['Armenier', 'gehören', 'überwiegend', 'der', 'Armenischen', 'Apostolischen', 'Kirche', 'an', ',', 'andere', 'sind', 'armenisch-katholisch', '.'], ['Die', 'meisten', 'sind', 'in', 'Handel', ',', 'Kleinindustrie', 'und', 'Handwerk', 'wirtschaftlich', 'erfolgreich', '.'], ['Die', 'meist', 'sunnitischen', 'Turkmenen', 'waren', 'traditionell', 'halbnomadische', 'Viehzüchter', 'in', 'der', 'Dschazira', 'und', 'am', 'unteren', 'Euphrat', 'sowie', 'Ackerbauern', 'um', 'Aleppo', '.'], ['Sie', 'haben', 'sich', 'weitgehend', 'in', 'der', 'arabischen', 'Gesellschaft', 'assimiliert', '.'], ['Tscherkessen', ',', 'ebenfalls', 'Sunniten', ',', 'wurden', 'Ende', 'des', '19.', 'Jahrhunderts', 'aus', 'dem', 'Kaukasus', 'vertrieben', 'und', 'siedelte

# Lemmatisierung und Wortarterkennung (POS-Tagging)

Leider enthält das NLTK Paket keine Lemmatisierer und Wortarterkenner (POS Tagger) für das Deutsche. 

Wir nutzen hier für beide Funtionen den Hanover Tagger (Siehe: [Christian Wartena (2019). A Probabilistic Morphology Model for German Lemmatization. In: Proceedings of the 15th Conference on Natural Language Processing (KONVENS 2019): Long Papers. Pp. 40-49, Erlangen.](https://doi.org/10.25968/opus-1527) )

Wir müssen den Hanover Tagger zunächst (einmalig) herunterladen und installieren:

In [None]:
!pip install HanTa # Hannover Tagger

Wir binden das Modul ein und laden ein vortrainiertes Modell:

In [17]:
pip install HanTa




In [5]:
from HanTa import HanoverTagger as ht

tagger = ht.HanoverTagger('morphmodel_ger.pgz')

Wir können jetzt Wörter oder Sätze analysieren. Die Funktion _analyze()_ gibt ein Lemma und Wortart für eine Wortform:

In [12]:
print(tagger.analyze('Fachmärkte'))

('Fachmarkt', 'NN')


Mit der Funktion _tag sent()_ werden alle Wörter in einem Satz lemmatisiert und und getagt. Bei Mehrdeutigkeiten, wir die Wortart gewählt, die im Kontext am wahrscheinlichsten ist. Wir versuchen das mal mit unserem Beispielsatz.

In [15]:
tags = tagger.tag_sent(tokenized_sent)
print(tags)

[('Assyrer', 'Assyrer', 'NN'), ('im', 'in', 'APPRART'), ('engeren', 'eng', 'ADJ(A)'), ('Sinn', 'Sinn', 'NN'), ('gehören', 'gehören', 'VV(FIN)'), ('zu', 'zu', 'APPR'), ('den', 'der', 'ART'), ('nestorianischen', 'nestorianisch', 'ADJ(A)'), ('Christen', 'Christ', 'NN'), ('.', '.', '$.')]


In [16]:
for t in tags:
    if t[2]=='NN' or t[2]=='NE':
        print(t[0])

Assyrer
Sinn
Christen


In [None]:
from collections import Counter


Weitere Möglichkeiten des Hanover Taggers werden [hier](https://github.com/wartaal/HanTa/blob/master/Demo.ipynb) beschrieben.