In [2]:
#!/usr/bin/env python
# coding: utf-8

# NLP Prototyp
# ===
# Dieser Prototyp setzt die NLP-Methoden Stemming und Lemmatisierung um, dabei brücksichtigt er alle Benötigten Schritte der NLP-Methoden, die vorgeschaltet werden müssen.
#
# Der erste Abschnitt implementiert alle notwendigen Methoden. Diese setzen aktuell nur die NLTK-Methoden um, sind jedoch als einzelne Methoden implementiert, um die Bibliothek später einfacher wechseln zu können oder die Methoden zu ergänzen.

# In[1]:


import nltk as nltk
#nltk.set_proxy(‘http://proxy.example.com:3128‘, (‘USERNAME‘, ‘PASSWORD‘))
nltk.download()

def tokenization(sentence):
    return nltk.word_tokenize(sentence)

def ssplit(text):
    return nltk.sent_tokenize(text)

def pos(words):
    return nltk.pos_tag(words)


# ### Folgend die Algorithmen für die Analyse eines Satzes mit Lemmatization und Stemming
# Lemmatization:

# In[2]:


def lemma(sentence):
    token = tokenization(sentence)
    lemma = []
    for word in token:
        lemma.append(nltk.WordNetLemmatizer().lemmatize(word, pos='v'))
    return lemma


# Stemming mit Porter:

# In[3]:


def stemming(sentence):
    token = tokenization(sentence)
    stem = []
    for word in token:
        stem.append(nltk.PorterStemmer().stem(word))
    return stem


# ## Lemmatisierung und Stemming mit Output zum Exportieren
#
# 1. Zuerst wird der Text aus der txt-Datei ausgelesen, tokenisiert und mit Sentence Splitting in einzelne Sätze aufgeteilt. Die Sätze werden dann in einer Liste gespeichert.

# In[4]:


#Datei einlesen
file = open('input.txt')
text = file.read()
token = tokenization(text)
lines = ssplit(text)
print("Input:\n" + text)
file.close()


# 2. Als nächstes wird die Lemmatisierung durchgeführt.

# In[5]:


print("Lemmatization:")
for line in lines:
    lemmaText = ""
    print("In: " + line)
    lemmaOut = lemma(line)
    for word in lemmaOut:
        lemmaText = lemmaText + " " + word
    print("lemma: " + lemmaText + "\n")


# 3. Zum Schluss wird der Stemming Annotator mit dem Porter Algorithmus ausgeführt.

# In[6]:


print("Stemming mit Porter Algorithmus:")
stem = ""
for line in lines:
    porterText = ""
    print("In: " + line)
    porterOut = stemming(line)
    for word in porterOut:
        porterText = porterText + " " + word
    print("lemma: " + porterText + "\n")


# ## Minimalistische GUI
# Das Programm mit einer Oberfläche zur Auswahl von Methoden, die angezeigt werden sollen. Der Output wird nicht in einem HTML-Export dargestellt!

# In[7]:


import ipywidgets as widgets
from ipywidgets import IntSlider

source = widgets.Text(placeholder="Schreiben Sie einen Satz! Alternativ ist der Standardinput die input.txt.", description='Input:', layout=widgets.Layout(width="850px"), disabled=False)
out = widgets.Output(layout={'border': '1px solid black'})

#Verhalten beim Klicken des Startbuttons; Der Input wird verarbeitet


showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
Input:
This is a test for Python. And Python is awesome.
And this is the second line.
Python is a high-level, general-purpose programming language.
Considering he's played football for only two years, he does it well.
Lemmatization:
In: This is a test for Python.
lemma:  This be a test for Python .

In: And Python is awesome.
lemma:  And Python be awesome .

In: And this is the second line.
lemma:  And this be the second line .

In: Python is a high-level, general-purpose programming language.
lemma:  Python be a high-level , general-purpose program language .

In: Considering he's played football for only two years, he does it well.
lemma:  Considering he 's play football for only two years , he do it well .

Stemming mit Porter Algorithmus:
In: This is a test for Python.
lemma:  thi is a test for python .

In: And Python is awesome.
lemma:  and python is awesom .

In: And this is the second line.
lemma: 

VBox(children=(Text(value='', description='Input:', layout=Layout(width='850px'), placeholder='Schreiben Sie e…