<a href="https://colab.research.google.com/github/dgromann/ProgrammingForTranslators/blob/master/Beispiel_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Programmieren für ÜbersetzerInnen - Beispiel NLP

NLP steht für Natural Language Processing (NLP) und stellt in allen Übersetzungs-, Konkordanz-, und Termextraktionstools meist wichtige Verarbeitungsschritte zur Verfügung. 

Typische NLP-Schritte sind: 


*   Kleinschreibung: um eine bessere Vergleichbarkeit von Texten zu erreichen wird oft der gesamte Text in eine Kleinschreibweise umgewandelt
*   Tokenisierung: Trennen von längeren Sequenzen in einzelnen Elemente, z. B. Wörter und Interprunktion 
*   Lemmatisierung: Trennen von längeren Sequenzen in einzelnen Elemente, z. B. Wörter und Interprunktion 
*   POS-Tagging: Automatisches Erkennen von Wortklassen 
*   Stoppwort-Entfernung: Häufig werrden Worte die wenig semantisches Gewicht für den Inhalt des Textes haben, aber sehr häufig auftreten, z. B. Pronomen, Artikel, Präpositionen, etc. entfernt




In [0]:
# Unser Beispielsatz
sentence = "Die Bürsten mit den schwarzen Borsten bürsten besser, als die Bürsten mit den weißen Borsten bürsten!" 

Um das Rad nicht neu zu erfinden und nicht all diese Funktionen selbst zu schreiben, verwenden wir wo verfügbar vordefinierte Funktionen. Vordefinierte Funktionen in Python können einfach so wie eine selbstdefinierte Funktion verwendet werden. 

Alle anderen Funktionen, die aus einer Funktionssammlung, einer sogenannten Bibliothek (library) kommen, muss die entsprechende Bibliothek noch installiert und in das jeweilige Programm (hier Notebook) importiert werden. 

Wir verwenden hier heute die Bibliothek SpaCy (https://spacy.io/api), da diese im Gegensatz zu vielen anderen Bibliotheken eine gute Unterstützung der deutschen Sprache bietet. Eine Installattionsanleitung für zuhause ist hier zu finden: https://spacy.io/usage 



# Kleinschreiben
Der erste Schritt besteht meist darin, alle Worte auf eine Kleinschreibweise zu verwandeln. Dazu kann man die vordefinierte Funktion `lower()` in Python verwenden. Genau wie bei den Funktionen die wir selbst geschrieben haben, dienen die Klammern dazu anzuzeigen, dass es sich um eine Funktion und nicht eine Variable handelt. 


Eine gute Quelle für die Auflistung aller vordefinierten Funktionen in Python ist die Python Dokumentation: [https://docs.python.org/3/library/functions.html#open](https://docs.python.org/3/library/functions.html#open)


In [0]:
sentence_lower = sentence.lower()
print(sentence_lower)

# Tokenisieren

Tokenisieren bezieht sich auf die Auftrennung einer längeren Sequenz in einzelne Elemente, z. B. bei einem Satz bedeutet das einzelne Wörter und Interpunktion. 






In [9]:
import spacy 

nlp = spacy.load('de_core_news_sm')
doc = nlp(sentence)

# Diese Methode hat den Satz tokenisiert
for token in doc: 
  print(token)

# Zum Vergleich hier die Ausgabe wenn man den Originalsatz verwendet 
for elemen in sentence:
  print(elem)


OSError: ignored

# Lemmatisieren

Um Wörter besser vergleichbar zu machen werden sie auf ihre Basisform (nicht immer unbedingt der Stamm, dafür gibt es Stemming) reduziert. spaCy hat das alles schon für uns erledigt durch diesen einen `nlp(sentence)`-Befehl. Anbei geben wir nur noch das Ergebnis aus.

**Frage:** \\
Worin konkret unterscheidet sich der Ausgangssatz am Anfang dieses Notebooks von der nachstehenden Version? 


In [0]:
for token in doc: 
  print(token.lemma_)

# Part-of-Speech (POS) Tagging

Part-of-Speech (POS) tags sind englische Standardbezeichnungen für Wortklassen, die bei spaCy hier definiert werden: https://spacy.io/api/annotation. In dem nachstehenden Beispiel finden Sie etwa: 

*   DET = Artikel
*   NOUN = Substantiv 
*   ADP = Präposition
*   ADJ = Adjektiv oder Adverb
*   VERB = Verb
*   PUNCT = Interpunktion

Die POS-Tags könenn dazu verwendet werden um bestimmte Wortklassen aus dem Korpus zu entfernen, beispielsweise Interpunktion, Präposittionen, und Artikel. 


In [0]:
for token in doc: 
  print(token.pos_)

**Aufgabe** \\
Schreiben Sie eine Funktion, die einen Satz


*   in die Kleinschreibweise verwandelt,
*   tokenisiert,
*   nach POS filtert und alle Präspositionen, Artikel und Interpunktionselemente entfernt 
*   lemmatisiert,

und dann den bearbeiteten Satz zurückgibt. Testen Sie die Methode mit dem Satz oben und mit einem weiteren Satz, den Sie hier hinzufügen.



In [0]:

def preprocessing(sentence): 
  pos_to_be_removed = ["DET", "ADV", "PUNCT"]
  text_out = []
  # Ihr Code für die Kleinschreibweise

  # Ihr Code für Tokenisierung, Lemmatisierung, und POS-Filter (alles in einer for-Schleife mit if-Anweisungen)
  for token in doc: 



print(preprocessing(sentence))

# Entwicklen Sie einen weiteren Testfall um Ihre Methode zu testen - also geben Sie einen zweiten Satz ein



# Was spaCy noch so kann...
Dependency Parsing: Ein weiteres Beispiel für sehr interessante NLP-Prozesse ist das automatische Erkennen von grammatischen Beziehungen zwischen Worten/Phrasen eines Satzes. 

In [0]:
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(u"displaCy uses JavaScript, SVG and CSS.")
spacy.displacy.serve(doc, style='dep')

Named entity recognition: erkennen von benannten Entitäten

In [0]:
nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

for ent in doc.ents:
  print("Text", "Startindex", "Endindex", "Beschreibung")
  print(ent.text, ent.start_char, ent.end_char, ent.label_)
