# Vorverarbeitung von Texten mit Python und NLTK


Für viele Aufgaben müssen Texte immer auf der gleichen Art analysiert werden. Für eine Aufgabe wie die Sprachidentifikation können wir einen Text als eine lange Zeichenkette betrachten. Meistens brauchen wir aber eine Liste von Wörtern, mit denen wir weiter arbeiten können. 

Wenn wir erstmal den Text haben (was oft nicht einfach ist, wenn der Text z.B. aus einer Webseite extrahiert werden muss), teilen wir den Text zuerst in Sätze und die Sätze anschließend in Wörtern auf. In vielen Fällen führen wir die Wörter dann noch auf ihren Grundform zurück, und bestimmen die Wortart für jedes Wort, da diese oft wichtige Informationen für die wietere Verarbeitung gibt. Eventuell folgen dann Schritte, wie das Nachschlagen der Wörter in einem Thesaurus oder das Erkennen von sogenannten _Named Entities_: Namen von Personen, Institutionen, Produkte, usw.

![Typische Verarbeitungsschritte bei der Textanalyse](http://textmining.wp.hs-hannover.de/img/pipeline.jpg)

Für die Analyse von Englischen Texten sind weitaus mehr Werkzeuge verfügbar als für das Deutsche. Die Verarbeitung von englischen Texten ist daher etwas einfacher. Das wir außerdem auch of englische Texte analysieren müssen, schauen wir uns die Standardverarbeitung zunächst für das Englische an. 

## Englische Texte

Wenn wir mit Python Texte analysieren wollen, ist das Paket NLTK der Stanford University unverzichtbar. Dieses Paket umfasst State-of-the-Art Implementierungen für so gut wie alle wichtige Algorithmen aus der Sprachverarbeitung und ist in den meisten Python-Distributionen enthalten.

NLTK enthält auch eine große Menge Ressourcen, die Sie nutzen können, oder die manche der bereitgestellten Algorithmen brauchen. Diese sind meistens noch nicht installiert. Das nachinstallieren dieser Ressourcen ist ganz einfach.

In [1]:
 import nltk #natural language toolkit

 nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

Es sollte jetz ein Fernster geöffnet werden. Wählen Sie alles aus dem NLTK-Buch zum installieren aus.

### Satzerkennung und Tokenization 

Mit der Python-Funktion _Split()_ können wir einen Text leicht aufteilen. In vielen Fällen machen wir dann aber Fehler. Es fängt schon damit an, dass Satzzeichen am vorangehenden Wort geschrieben werden, aber nicht dazu gehören, es sei denn, das Wort ist eine Abkürzung oder eine Ordinalzahl, aber letzteres nur im Deutschen. Statt uns über alle Ausnahmen Gedanken zu machen, nutzen wir hierfür einfach eine Funktion aus NLTK. Diese Funktion ist übrigens nicht auf Regeln basiert, sondern wurde aus vielen Beispielen gelernt. 

Im nächsten Beispiel sehen wir, wie man mit Python und NLTK eine Zeichenkette in eine Liste von Wörtern aufteilen kann. Wir finden nicht nur Wörter, sondern auch Satzzeichen, Zahlen und Symbole. Der Sammelbegriff für diese Einheiten ist _Token_. Das Zerlegen einer Zeichenkette in Tokens wird daher Tokenisierung oder auf Englisch _Tokenization_ genannt.

In [3]:
import nltk

sentence= "At eight o'clock on Thursday morning... Arthur didn't feel very good."
tokens = nltk.word_tokenize(sentence, language='english') #'german'
print(tokens)

['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', '...', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']


In vielen Fällen ist es wichtig zu wissen, wo die Satzgrenzen sind: Die Wörter in einem Satz haben eine viel engere Beziehung zueinander, als Wörter in verscheidenen Sätzen. Zum Beispiel stehen Begriffe, die aus mehreren Wörtern bestehen, wie "Bundesministerium für Gesundheit" immer innerhalb eines Satzes.

Die Frage ist nun, ob wir den Text erst in Wörter aufteilen und dann in Sätzen oder umgekehrt. Um zu entscheiden, ob ein Punkt ein Satzende markiert, muss man unter anderem Wissen, ob das Wort vor dem Punkt eine Abkürzung ist. Man muss das Wort also schon mal in der langen Zeichenkette erkannt haben. Der _Sentence Splitter_ von NLTK arbeitet aber trotzdem auf ganzen Texten und braucht keine vorangehende Zerlegung in Tokens. 

Zum Ausprobieren, lesen wir einen kurzen englischen Text ein. Den hier genutzten Beispieltext finden Sie hier: http://textmining.wp.hs-hannover.de/texte/hanover.txt . Der Text ist der Wikipediaseite http://en.wikipedia.org/wiki/Hanover.html entnommen.

In [12]:
l=[1,2,3,4,5,6]
# for e in l:
#     if e%2==0:
#         print(e)
gerade=[e for e in l if e==3]
print(gerade)

[3]


In [14]:
import nltk
import codecs

textfile = codecs.open("texte/hanover.txt", "r", "utf-8-sig")
text = textfile.read()
textfile.close()

sentences = nltk.sent_tokenize(text,language='english') #Liste Sätze

#print(sentences)

tokenized_text = [nltk.word_tokenize(sent, language='english') for sent in sentences]

print(tokenized_text[0:3])
#print(tokenized_text[5]

[['Hanover', 'or', 'Hannover', '(', '/ˈhænoʊvər/', ';', 'German', ':', 'Hannover', ',', 'pronounced', '[', 'haˈnoːfɐ', ']', '(', 'About', 'this', 'sound', 'listen', ')', ')', ',', 'on', 'the', 'River', 'Leine', ',', 'is', 'the', 'capital', 'and', 'largest', 'city', 'of', 'the', 'German', 'state', 'of', 'Lower', 'Saxony', '(', 'Niedersachsen', ')', ',', 'and', 'was', 'once', 'by', 'personal', 'union', 'the', 'family', 'seat', 'of', 'the', 'Hanoverian', 'Kings', 'of', 'the', 'United', 'Kingdom', 'of', 'Great', 'Britain', 'and', 'Ireland', ',', 'under', 'their', 'title', 'as', 'the', 'dukes', 'of', 'Brunswick-Lüneburg', '(', 'later', 'described', 'as', 'the', 'Elector', 'of', 'Hanover', ')', '.'], ['At', 'the', 'end', 'of', 'the', 'Napoleonic', 'Wars', ',', 'the', 'Electorate', 'was', 'enlarged', 'to', 'become', 'a', 'Kingdom', 'with', 'Hanover', 'as', 'its', 'capital', '.'], ['From', '1868', 'to', '1946', 'Hanover', 'was', 'the', 'capital', 'of', 'the', 'Prussian', 'Province', 'of', 'Han

### Wortarterkennung (Part-of-Speech Tagging)

Die Wortart eines Wortes gibt oft wichtige Informationen. Den Hauptinhalt eines Textes erkennen wir beispielsweise schon an den benutzten Substantiven und Verben, während Adjektive und Adverbien wenig beitragen, und Artikel, Präpositionen und Hilfsverben hierzu überhaupt keine nützliche Information liefern. 

Wortarten werden im Englischen _Part of Speech_ genannt, ein Programm, dass die Wortarten zuweist, daher _Part of speaach tagger_ oder einfach _POS tagger_. Der NLTK enthält einen guten (statistischen) POS Tagger.

Die Wortklassen, die dieser Tagger zuweist, sind nicht genau die, die Sie in der Schule gelernt haben. Manche Klassen sind unterteilt, es gibt Tags, die neben der Wortklasse weitere Informationen, wie z.B. 3. Person Singular enthalten und es gibt Klassen für Wörter, die oft schwierig einzuteilen sind. Die Tags, die im folgenden Beispiel genutzt werden, sind die aus dem sogenannten Pennsylvenia Treebank Tagset. Eine Beschreibung der Tags sowie Beispiel dafür bekommen Sie mit der help Funktion:

In [15]:
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

Jetzt aber ein Beispiel für den Tagger:

In [17]:
tags = nltk.pos_tag(tokenized_text[0])

for (word,tag) in tags:
    if tag=='NN':
        print(word)

haˈnoːfɐ
sound
capital
city
state
union
family
seat
title


### Lemmatisierung

In vielen Sprachen, wie auch im Deutschen und Englischen, können Wörter in verschiedenen Formen auftreten. (Es gibt auch Sprachen, in denen das nicht der Fall ist. Diese Sprachen werden isolierende Sprachen genannt. Beispiele hierfür sind Mandarin (Chinesisch) und Vietnamesisch)). Oft ist es wichtig, den Grundfom eines Wortes, das im Text in flektierter Form vorkommt, zu bestimmen. Es ist wichtig, dass wir hier drei Begriffe klar trennen:
* Lemma - Die Form des Wortes, wie sie in einem Wörterbuch steht. Z.B.: Haus, laufen, begründen
* Stamm - Das Wort ohne Flexionsendungen (Prefixe und Suffixe). Z.B.: Haus, lauf, begründ
* Wurzel - Kern des Wortes, von dem das Wort ggf. durch Derivation abgeleitet wurde. Z.B.: Haus, lauf, Grund

Wir unterscheiden jetzt _Stemmer_, Programme, die den Stamm eines Wortes suchen, und _Lemmatisierer_, die das Lemma für jedes Wort suchen. Manche Stemmer trennen auch produktive Derivationssuffixe ab, und geben in vielen Fällen nicht den Stamm, sondern den Wurzel eines Wortes. Es wird oft davon ausgegangen, dass dies für Information Retrieval von Vorteil ist. Wenn man beispielsweise nach _analysieren_ sucht, möchte man wahrscheinlich nicht nur Ergebnisse mit _analysiere_, _analysiert_ , _analysierende_, usw. haben, sondern vermutlich auch welche, in denen nur das Wort _Analyse_ vorkommt. Man kann aber genau so Negativbeispiele finden. Ob diese Art von Stemming wirklich nützlich ist für Information Retrieval, ist nicht eindeutig gekärt (vgl. z.B.:  _BRANTS, Thorsten. Natural Language Processing in Information Retrieval. In: CLIN. 2003._).

Ein guter Lemmatizer, der im NLTK enthalten ist, ist der WordNet-Stemmer, der die Vollformen einfach im online-Wörterbuch WordNet nachschlägt. Da ein Wort im Englischen oft zu mehreren Klassen gehören kann, braucht der Wordnet-Lemmatizer auch die Wortklasse. Wir brauchen jetzt ein paar Zeilen Code, um die Penn Treebank Tags in Wordnet-Klassen zu übersetzen:

In [5]:
from nltk.corpus import wordnet as wn
lemmatizer = nltk.WordNetLemmatizer()
#treetagger
def wntag(pttag):
    if pttag in ['JJ', 'JJR', 'JJS']:
        return wn.ADJ
    elif pttag in ['NN', 'NNS', 'NNP', 'NNPS']:
        return wn.NOUN
    elif pttag in ['RB', 'RBR', 'RBS']:
        return wn.ADV
    elif pttag in ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']:
        return wn.VERB
    return None

def lemmatize(lemmatizer,word,pos):
    if pos == None:
        return word
    else:
        return lemmatizer.lemmatize(word,pos)

lemmata = [lemmatize(lemmatizer,word,wntag(pos)) for (word,pos) in tags]
print(lemmata)

['Hanover', 'or', 'Hannover', '(', '/ˈhænoʊvər/', ';', 'German', ':', 'Hannover', ',', 'pronounce', '[', 'haˈnoːfɐ', ']', '(', 'About', 'this', 'sound', 'listen', ')', ')', ',', 'on', 'the', 'River', 'Leine', ',', 'be', 'the', 'capital', 'and', 'large', 'city', 'of', 'the', 'German', 'state', 'of', 'Lower', 'Saxony', '(', 'Niedersachsen', ')', ',', 'and', 'be', 'once', 'by', 'personal', 'union', 'the', 'family', 'seat', 'of', 'the', 'Hanoverian', 'Kings', 'of', 'the', 'United', 'Kingdom', 'of', 'Great', 'Britain', 'and', 'Ireland', ',', 'under', 'their', 'title', 'as', 'the', 'duke', 'of', 'Brunswick-Lüneburg', '(', 'later', 'describe', 'as', 'the', 'Elector', 'of', 'Hanover', ')', '.']


Etwas einfacher ist der sogenannt _Porter Stemmer_. Der Porterstemmer benutzt kein Wörterbuch sondern hat nur eine Liste von Suffixen, die abgetrennt oder ersetzt werden. Dies führt in vielen Fällen zu unsinnigen Ergebnisse. Oft ist das aber unproblematisch, so lange verschiedene Formen eines Wortes auf dem gleichen eindeutigen Stamm zurückgeführt werden. Neben dem Porter Stemmer enthält NLTK den Lancaster Stemmer, der nach dem gleichen Prinzip arbeitet. Schauen Sie sich die Ergebnisse genau an und vergleichen die Sie die STämme mit den Lemmata des Wordnet-Stemmers!

In [6]:
porter = nltk.PorterStemmer()
lancaster = nltk.LancasterStemmer()

print("Porter Stemmer:")
stems = [porter.stem(t) for t in tokenized_text[0]]
print(stems)

print("\nLancaster Stemmer:")
stems = [lancaster.stem(t) for t in tokenized_text[0]]
print(stems)

Porter Stemmer:
['hanov', 'or', 'hannov', '(', '/ˈhænoʊvər/', ';', 'german', ':', 'hannov', ',', 'pronounc', '[', 'haˈnoːfɐ', ']', '(', 'about', 'thi', 'sound', 'listen', ')', ')', ',', 'on', 'the', 'river', 'lein', ',', 'is', 'the', 'capit', 'and', 'largest', 'citi', 'of', 'the', 'german', 'state', 'of', 'lower', 'saxoni', '(', 'niedersachsen', ')', ',', 'and', 'wa', 'onc', 'by', 'person', 'union', 'the', 'famili', 'seat', 'of', 'the', 'hanoverian', 'king', 'of', 'the', 'unit', 'kingdom', 'of', 'great', 'britain', 'and', 'ireland', ',', 'under', 'their', 'titl', 'as', 'the', 'duke', 'of', 'brunswick-lüneburg', '(', 'later', 'describ', 'as', 'the', 'elector', 'of', 'hanov', ')', '.']

Lancaster Stemmer:
['hanov', 'or', 'hannov', '(', '/ˈhænoʊvər/', ';', 'germ', ':', 'hannov', ',', 'pronount', '[', 'haˈnoːfɐ', ']', '(', 'about', 'thi', 'sound', 'list', ')', ')', ',', 'on', 'the', 'riv', 'lein', ',', 'is', 'the', 'capit', 'and', 'largest', 'city', 'of', 'the', 'germ', 'stat', 'of', 'low'

## Deutsch

Deutsch und Englsich sind Sprachen, die sich in vielen Hinsichten zielich ähnlich sind. Die Verarbeitungsschritte für einen Deutschen Text unerscheiden sich daher nicht wesentlich von denen für englische Texte. Bei der Tokenisierung und Satzerkennung müssen wir lediglich Deutsch als Parameter angeben, damit besonderheiten des Deutschen besser berücksichtigt werden.

Zum Ausprobieren, lesen wir wieder  einen kurzen Text ein. Den hier genutzten Beispieltext finden Sie hier: http://textmining.wp.hs-hannover.de/texte/syrien.txt . Der Text ist der Wikipediaseite http://de.wikipedia.org/wiki/Syrien.html entnommen.

In [14]:
import nltk
import codecs

textfile = codecs.open("texte/syrien.txt", "r", "utf-8")
text = textfile.read()
textfile.close()

sentences = nltk.sent_tokenize(text,language='german')
#print(sentences[20:23])
print(len(sentences))
tokenized_sent = nltk.tokenize.word_tokenize(sentences[4],language='german')
print(tokenized_sent)

546
['April', 'bis', 'Oktober', ')', 'Kfz-Kennzeichen', 'SYR', 'ISO', '3166', 'SYR', 'Internet-TLD', '.sy', 'Telefonvorwahl', '+963', 'Alle', 'Angaben', 'schließen', 'die', 'von', 'Israel', 'besetzten', 'Teile', 'der', 'Golanhöhen', 'mit', 'ein', '.']


In [18]:
## Aufgabe 3

In [2]:
import codecs
import re 
import glob
from collections import Counter
import nltk
from HanTa import HanoverTagger as ht

tagger = ht.HanoverTagger('morphmodel_ger.pgz')

In [3]:
def wortartcountnouns(file):
    textfile = codecs.open(file, "r", "utf-8")
    text = textfile.read()
    textfile.close()
    wortlist = []
    #print(text)
    sentences = nltk.sent_tokenize(text,language='german')
    #print(sentences[20:23])
    #print(len(sentences))
    for sent in sentences:
        tokenized_sent = nltk.tokenize.word_tokenize(sent,language='german')
        #print(tokenized_sent)
        wortartlist = tagger.tag_sent(tokenized_sent)
        #print(wortartlist)
        for (wort, lemma, pos) in wortartlist: 
            if 'NN'== pos or 'NE' ==pos:
                #element = (wort, lemma, pos)
                wortlist.append(wort)
    #print(wortlist)
            #tags = tagger.tag_sent(sent[index])
            #print(tags)
    count_nouns=Counter(wortlist)    
    return count_nouns.most_common(10)
    


In [4]:
#
filelist = glob.glob('Firmen\Firmen\*.txt')
print(len(filelist))
#print(wortartcountnouns(filelist[10]))
for file in filelist[:11]:
    print(wortartcountnouns(file))
    #datei = codecs.open(file,'r','utf8')
    #print(file)
    #for virus in datei:
        #fund = re.search(r'\b\S*[Vv]ir(u|e)[sn]\b', virus)
        #if  fund:
            #vlist.append(fund.group(0))
            #i += 1
            #print(vlist, i, '. satir ' )
        #datei.close()
#virusstatistik = Counter(vlist)
#virusstatistik.most_common()


693
[('A123Systems', 6), ('Millionen', 4), ('US-Dollar', 4), ('Massachusetts', 3), ('Unternehmen', 3), ('Dezember', 3), ('USABC', 3), ('Hersteller', 2), ('Insolvenz', 2), ('Wanxiang', 2)]
[('Unternehmen', 5), ('A4Tech', 2), ('Deutschland', 2), ('Technology', 2), ('Corporation', 1), ('Peripheriegeräte', 1), ('Computer-Bereich', 1), ('Computermäuse', 1), ('Tastaturen', 1), ('Hauptsitz', 1)]
[('Bank', 61), ('ABN', 57), ('AMRO', 53), ('Fortis', 19), ('Milliarden', 14), ('Euro', 14), ('LaSalle', 14), ('Oktober', 10), ('Fusion', 9), ('Niederlande', 8)]
[('Abu', 11), ('Dhabi', 11), ('Al', 8), ('Mitglied', 7), ('ADNOC', 6), ('Unternehmen', 6), ('Company', 5), ('Sheikh', 5), ('Zayed', 5), ('Nahyan', 5)]
[('Air', 7), ('DHL', 6), ('Airborne', 4), ('Boeing', 4), ('ABX', 3), ('Express', 3), ('Cargo', 3), ('Flotte', 3), ('Aviation', 3), ('Unternehmen', 2)]
[('Acciona', 23), ('Unternehmen', 10), ('%', 10), ('Übernahme', 5), ('Endesa', 5), ('Aktivitäten', 5), ('Geschäftsbereich', 5), ('Hotel', 5), ('G

In [None]:
for sent in sentences:
    tokenized_sent = nltk.tokenize.word_tokenize(sent,language='german')
    #print(tokenized_sent)
    wortartlist = tagger.tag_sent(tokenized_sent)
    #print(wortartlist)
    for (wort, lemma, pos) in wortartlist: 
        if 'NN'== pos or 'NE' ==pos:
            #element = (wort, lemma, pos)
            wortlist.append(wort)
#print(wortlist)
        #tags = tagger.tag_sent(sent[index])
        #print(tags)
        
        
count_nouns=Counter(wortlist)    
print(count_nouns.most_common())                    


# Lemmatisierung und Wortarterkennung

Leider enthält das NLTK Paket keine Lemmatisierer und Wortarterkenner (POS Tagger) für das Deutsche. 

Wir nutzen hier für beide Funtionen den Hanover Tagger (Siehe: [Christian Wartena (2019). A Probabilistic Morphology Model for German Lemmatization. In: Proceedings of the 15th Conference on Natural Language Processing (KONVENS 2019): Long Papers. Pp. 40-49, Erlangen.](https://doi.org/10.25968/opus-1527) )

Wir müssen den Hanover Tagger zunächst (einmalig) herunterladen und installieren:

In [10]:
!pip install HanTa

Collecting HanTa
  Using cached HanTa-0.2.1-py3-none-any.whl (1.2 MB)
Installing collected packages: HanTa
Successfully installed HanTa-0.2.1


Wir binden das Modul ein und laden ein vortrainiertes Modell:

In [11]:
from HanTa import HanoverTagger as ht

tagger = ht.HanoverTagger('morphmodel_ger.pgz')

Wir können jetzt Wörter oder Sätze analysieren. Die Funktion _analyze()_ gibt ein Lemma und Wortart für eine Wortform:

In [12]:
print(tagger.analyze('Fachmärkte'))

('Fachmarkt', 'NN')


Mit der Funktion _tag sent()_ werden alle Wörter in einem Satz lemmatisiert und und getagt. Bei Mehrdeutigkeiten, wir die Wortart gewählt, die im Kontext am wahrscheinlichsten ist. Wir versuchen das mal mit unserem Beispielsatz.

In [24]:
print(tokenized_sent)
tags = tagger.tag_sent(tokenized_sent)
print(tags)

['Embassy', 'of', 'the', 'United', 'States', ',', 'Damascus']
[('Embassy', 'embassy', 'FM'), ('of', 'of', 'FM'), ('the', 'the', 'FM'), ('United', 'United', 'NE'), ('States', 'State', 'NE'), (',', '--', '$,'), ('Damascus', 'Damascu', 'NE')]


In [19]:
from collections import Counter


In [16]:
import codecs
import re 
import glob
from collections import Counter
i = 0
vlist = [] #Liste mit alle gefundene Virüs-Namen
vcount = Counter()  # Wir zählen später die Häufigkeit jedes Virüs-Namen

filelist = glob.glob('2. Reguläre Ausdrücke-20220906\Infekte\*.txt')
#print(filelist)
for file in filelist:
    datei = codecs.open(file,'r','utf8')
    #print(file)
    for virus in datei:
        fund = re.search(r'\b\S*[Vv]ir(u|e)[sn]\b', virus)
        if  fund:
            vlist.append(fund.group(0))
            i += 1
            #print(vlist, i, '. satir ' )
        #datei.close()
    virusstatistik = Counter(vlist)
virusstatistik.most_common()

NameError: name 'virusstatistik' is not defined

In [None]:


text = 

Weitere Möglichkeiten des Hanover Taggers werden [hier](https://github.com/wartaal/HanTa/blob/master/Demo.ipynb) beschrieben.