### NLTK import

In [1]:
import nltk
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer

import random



### MongDB import

In [2]:
from pymongo import MongoClient
import json
from bson import json_util

### Stemmin Test German

In [3]:
stemmer_german = SnowballStemmer('german')

print (stemmer_german.stem('Arbeiter')) 
print (stemmer_german.stem('arbeiten')) 
print (stemmer_german.stem('gearbeitet'))

arbeit
arbeit
gearbeitet


### Lemmatization Test English

In [4]:
lemmatizer = WordNetLemmatizer()
# Lemmatisation depends upon the Part of Speech of the word
# lemmatize(word, pos=NOUN)
# the default part of speech (pos) for lemmatize method is "n", i.e. noun
# we can specify part of speech (pos) value like below:
# noun = n, verb = v, adjective = a, adverb = r
 
print (lemmatizer.lemmatize('is')) # output: is
print (lemmatizer.lemmatize('are')) # output: are
 
print (lemmatizer.lemmatize('is', pos='v')) # output: be
print (lemmatizer.lemmatize('are', pos='v')) # output: be
 
print (lemmatizer.lemmatize('working', pos='n')) # output: working
print (lemmatizer.lemmatize('working', pos='v')) # output: work

is
are
be
be
working
work


### Lemmatization Test German

https://github.com/WZBSocialScienceCenter/germalemma

In [5]:
from germalemma import GermaLemma
from nltk.tokenize import RegexpTokenizer

lemmatizer = GermaLemma()

# passing the word and the POS tag ("N" for noun)
lemma = lemmatizer.find_lemma(u'Feinstaubbelastungen', u'N')
print(lemma)
# -> lemma is "Feinstaubbelastung"

Feinstaubbelastung


### Tokenization Test English

In [6]:
text = "A quick brown fox jumps over the lazy dog. A quick brown fox jumps over the lazy dog."
 
# Normalize text
# NLTK considers capital letters and small letters differently.
# For example, Fox and fox are considered as two different words.
# Hence, we convert all letters of our text into lowercase.
text = text.lower()

tokenizer = RegexpTokenizer(r'\w+')
print (tokenizer.tokenize(text))

# tokenize text 
words = word_tokenize(text)

print (words)



['a', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', 'a', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']
['a', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.', 'a', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']


### Tokenization Test German

In [7]:
text = "Eine neue Allee wird in Berlin Köpenick geplant. Köpenick wird sein ganzes Straßen Netz erneuern. Köpenick macht sich für Fahrradfahrer stark."
 
# Normalize text
# NLTK considers capital letters and small letters differently.
# For example, Fox and fox are considered as two different words.
# Hence, we convert all letters of our text into lowercase.
#text = text.lower()
 
# tokenize text 
words = word_tokenize(text)
print (words)



['Eine', 'neue', 'Allee', 'wird', 'in', 'Berlin', 'Köpenick', 'geplant', '.', 'Köpenick', 'wird', 'sein', 'ganzes', 'Straßen', 'Netz', 'erneuern', '.', 'Köpenick', 'macht', 'sich', 'für', 'Fahrradfahrer', 'stark', '.']


### Reverse the Tokenization

In [8]:
text = nltk.Text(words)
print (text)

<Text: Eine neue Allee wird in Berlin Köpenick geplant...>


### Übereinstimmungen in Blöcken !!!!

In [9]:
concordance = text.concordance('Köpenick')
print (concordance)

Displaying 3 of 3 matches:
Eine neue Allee wird in Berlin Köpenick geplant . Köpenick wird sein ganze
 wird in Berlin Köpenick geplant . Köpenick wird sein ganzes Straßen Netz erne
ein ganzes Straßen Netz erneuern . Köpenick macht sich für Fahrradfahrer stark
None


### Mix aller Methoden

#### https://en.wikipedia.org/wiki/Part-of-speech_tagging
Wichtig ist das vorherige Taggen 8(
#### https://datascience.blog.wzb.eu/2016/07/13/accurate-part-of-speech-tagging-of-german-texts-with-nltk/
So wird es mit NLTK gemacht wichtig wieder den Tiger Corpus zu verwenden wichtig ist auch der Classsifizierer welcher aus dem folgenden Repo benutzt wird 

#### https://github.com/ptnplanet/NLTK-Contributions.git
benötigen nur den Klassifizierer aus dem Repo!!!!

`ClassifierBasedGermanTagger.py`

In [10]:
text = "Eine neue Allee wird in Berlin Köpenick geplant. Köpenick wird sein ganzes Straßennetz erneuern. Köpenick macht sich für Fahrradfahrer stark."
words = word_tokenize(text)
print (words)

lemmatizer = GermaLemma()

lemma = lemmatizer.find_lemma(u'bin', u'N')
print(lemma)



#load the corpus ... NOT the pickle from local
corp = nltk.corpus.ConllCorpusReader('.', 'tiger_release_aug07.corrected.16012013.conll09',
                                     ['ignore', 'words', 'ignore', 'ignore', 'pos'],
                                     encoding='utf-8')


tagged_sents = corp.tagged_sents()
# Wirft FEHELR 
#random.shuffle(tagged_sents)

# set a split size: use 90% for training, 10% for testing ... like NeuronalNetworks :)
split_perc = 0.1
split_size = int(len(tagged_sents) * split_perc)
train_sents, test_sents = tagged_sents[split_size:], tagged_sents[:split_size]

from ClassifierBasedGermanTagger.ClassifierBasedGermanTagger import ClassifierBasedGermanTagger
tagger = ClassifierBasedGermanTagger(train=train_sents)



['Eine', 'neue', 'Allee', 'wird', 'in', 'Berlin', 'Köpenick', 'geplant', '.', 'Köpenick', 'wird', 'sein', 'ganzes', 'Straßennetz', 'erneuern', '.', 'Köpenick', 'macht', 'sich', 'für', 'Fahrradfahrer', 'stark', '.']
Bin


Token müssen vorliegen

In [11]:
tagger.tag(['Das', 'ist', 'ein', 'einfacher', 'Test'])

[('Das', 'ART'),
 ('ist', 'VAFIN'),
 ('ein', 'ART'),
 ('einfacher', 'ADJA'),
 ('Test', 'NN')]

Wichtig ist das Tokenizing rübergelaufen ist !!!!

In [12]:
tagger.tag(words)

[('Eine', 'ART'),
 ('neue', 'ADJA'),
 ('Allee', 'NN'),
 ('wird', 'VAFIN'),
 ('in', 'APPR'),
 ('Berlin', 'NE'),
 ('Köpenick', 'NE'),
 ('geplant', 'VVPP'),
 ('.', '$.'),
 ('Köpenick', 'NE'),
 ('wird', 'VAFIN'),
 ('sein', 'PPOSAT'),
 ('ganzes', 'ADJA'),
 ('Straßennetz', 'NN'),
 ('erneuern', 'VVINF'),
 ('.', '$.'),
 ('Köpenick', 'NE'),
 ('macht', 'VVFIN'),
 ('sich', 'PRF'),
 ('für', 'APPR'),
 ('Fahrradfahrer', 'NN'),
 ('stark', 'ADJD'),
 ('.', '$.')]

#### Test mit Größeren Texten

.... !!!! DAUERT ganz schön lange eventuell den Klassifizierer selbst schreiben oder paralelle verarbeitung implementieren + gpu etc. 

In [13]:
bigText = ""

fobj = open("bigText.txt")
for line in fobj:
    bigText = bigText + line.rstrip()
fobj.close()


wordsBig = word_tokenize(bigText)

print (wordsBig)
#print (bigText)
tagger.tag(wordsBig)

['Einen', 'juristischen', 'Dämpfer', 'kassierte', 'die', 'Umwelthilfe', 'am', 'Dienstag', 'in', 'Hessen', '.', 'In', 'Frankfurt', 'am', 'Main', 'wird', 'es', 'bis', 'zur', 'endgültigen', 'gerichtlichen', 'Klärung', 'keine', 'Diesel-Fahrverbote', 'geben', '.', 'Die', 'DUH', 'hatte', 'hier', 'per', 'Eilantrag', 'durchsetzen', 'wollen', ',', 'dass', 'die', 'Verbote', 'trotz', 'des', 'laufenden', 'Rechtsstreits', 'schon', 'zum', '1', '.', 'Februar', '2019', 'greifen', ',', 'scheiterte', 'damit', 'aber', '.', 'Gleichzeitig', 'ließ', 'der', 'hessische', 'Verwaltungsgerichtshof', 'die', 'Berufung', 'des', 'Landes', 'Hessen', 'gegen', 'das', 'Urteil', 'des', 'Verwaltungsgerichts', 'Wiesbaden', 'wegen', '``', 'ernstlicher', 'Zweifel', 'an', 'dessen', 'Richtigkeit', "''", 'zu.22', 'Städte', 'stehen', 'noch', 'ausResch', 'zeigte', 'sich', 'unbeeindruckt', '.', 'Dass', 'der', 'Rechtsstreit', 'in', 'die', 'zweite', 'Instanz', 'gehe', ',', 'sei', 'üblich', '.', 'Der', 'Eilantrag', 'sei', 'ein', '``'

[('Einen', 'ART'),
 ('juristischen', 'ADJA'),
 ('Dämpfer', 'NN'),
 ('kassierte', 'VVFIN'),
 ('die', 'ART'),
 ('Umwelthilfe', 'NN'),
 ('am', 'APPRART'),
 ('Dienstag', 'NN'),
 ('in', 'APPR'),
 ('Hessen', 'NE'),
 ('.', '$.'),
 ('In', 'APPR'),
 ('Frankfurt', 'NE'),
 ('am', 'APPRART'),
 ('Main', 'NE'),
 ('wird', 'VAFIN'),
 ('es', 'PPER'),
 ('bis', 'APPR'),
 ('zur', 'APPRART'),
 ('endgültigen', 'ADJA'),
 ('gerichtlichen', 'ADJA'),
 ('Klärung', 'NN'),
 ('keine', 'PIAT'),
 ('Diesel-Fahrverbote', 'NN'),
 ('geben', 'VVINF'),
 ('.', '$.'),
 ('Die', 'ART'),
 ('DUH', 'NE'),
 ('hatte', 'VAFIN'),
 ('hier', 'ADV'),
 ('per', 'APPR'),
 ('Eilantrag', 'NN'),
 ('durchsetzen', 'VVINF'),
 ('wollen', 'VMFIN'),
 (',', '$,'),
 ('dass', 'KOUS'),
 ('die', 'ART'),
 ('Verbote', 'NN'),
 ('trotz', 'APPR'),
 ('des', 'ART'),
 ('laufenden', 'ADJA'),
 ('Rechtsstreits', 'NN'),
 ('schon', 'ADV'),
 ('zum', 'APPRART'),
 ('1', 'CARD'),
 ('.', '$.'),
 ('Februar', 'NN'),
 ('2019', 'CARD'),
 ('greifen', 'VVINF'),
 (',', '$,'),
 

### Export des Klassifiziers und der entsprechende import ... so behalten wir unsere genauigkeit bei

Tutorial von 
https://datascience.blog.wzb.eu/2016/07/13/accurate-part-of-speech-tagging-of-german-texts-with-nltk/
genutzt

In [15]:
import pickle

#Export des Taggers Klassifizierers
with open('nltk_german_classifier_data.pickle', 'wb') as f:
    pickle.dump(tagger, f, protocol=2)
    
with open('nltk_german_classifier_data.pickle', 'rb') as f:
    #Lade den neuen alten Tagger in eine neue Instanz
    tagger2 = pickle.load(f)

In [16]:
#Model test
tagger2.tag(words)

[('Eine', 'ART'),
 ('neue', 'ADJA'),
 ('Allee', 'NN'),
 ('wird', 'VAFIN'),
 ('in', 'APPR'),
 ('Berlin', 'NE'),
 ('Köpenick', 'NE'),
 ('geplant', 'VVPP'),
 ('.', '$.'),
 ('Köpenick', 'NE'),
 ('wird', 'VAFIN'),
 ('sein', 'PPOSAT'),
 ('ganzes', 'ADJA'),
 ('Straßennetz', 'NN'),
 ('erneuern', 'VVINF'),
 ('.', '$.'),
 ('Köpenick', 'NE'),
 ('macht', 'VVFIN'),
 ('sich', 'PRF'),
 ('für', 'APPR'),
 ('Fahrradfahrer', 'NN'),
 ('stark', 'ADJD'),
 ('.', '$.')]

In [9]:
from nltk.corpus import stopwords

#set(stopwords.words('german'))
stop_words = stopwords.words('german')
print(stop_words)

#for w in word_tokens:
#    if w not in stop_words:
#        filtered_sentence.append(w)


['aber', 'alle', 'allem', 'allen', 'aller', 'alles', 'als', 'also', 'am', 'an', 'ander', 'andere', 'anderem', 'anderen', 'anderer', 'anderes', 'anderm', 'andern', 'anderr', 'anders', 'auch', 'auf', 'aus', 'bei', 'bin', 'bis', 'bist', 'da', 'damit', 'dann', 'der', 'den', 'des', 'dem', 'die', 'das', 'daß', 'derselbe', 'derselben', 'denselben', 'desselben', 'demselben', 'dieselbe', 'dieselben', 'dasselbe', 'dazu', 'dein', 'deine', 'deinem', 'deinen', 'deiner', 'deines', 'denn', 'derer', 'dessen', 'dich', 'dir', 'du', 'dies', 'diese', 'diesem', 'diesen', 'dieser', 'dieses', 'doch', 'dort', 'durch', 'ein', 'eine', 'einem', 'einen', 'einer', 'eines', 'einig', 'einige', 'einigem', 'einigen', 'einiger', 'einiges', 'einmal', 'er', 'ihn', 'ihm', 'es', 'etwas', 'euer', 'eure', 'eurem', 'euren', 'eurer', 'eures', 'für', 'gegen', 'gewesen', 'hab', 'habe', 'haben', 'hat', 'hatte', 'hatten', 'hier', 'hin', 'hinter', 'ich', 'mich', 'mir', 'ihr', 'ihre', 'ihrem', 'ihren', 'ihrer', 'ihres', 'euch', 'im'