# Programmieren für ÜbersetzerInnen - Beispiel NLP

NLP steht für Natural Language Processing (NLP) und stellt in allen Übersetzungs-, Konkordanz-, und Termextraktionstools meist wichtige Verarbeitungsschritte zur Verfügung. 

Typische NLP-Schritte sind: 


*   Kleinschreibung: um eine bessere Vergleichbarkeit von Texten zu erreichen wird oft der gesamte Text in eine Kleinschreibweise umgewandelt
*   Tokenisierung: Trennen von längeren Sequenzen in einzelnen Elemente, z. B. Wörter und Interpunktion 
*   Lemmatisierung: Trennen von längeren Sequenzen in einzelnen Elemente, z. B. Wörter und Interprunktion 
*   POS-Tagging: Automatisches Erkennen von Wortklassen 
*   Stoppwort-Entfernung: Häufig werden Worte die wenig semantisches Gewicht für den Inhalt des Textes haben, aber sehr häufig auftreten, z. B. Pronomen, Artikel, Präpositionen, etc. entfernt




In [0]:
# Unser Beispielsatz
sentence = "Die Bürsten mit den schwarzen Borsten bürsten besser, als die Bürsten mit den weißen Borsten bürsten!" 

Um das Rad nicht neu zu erfinden und nicht all diese Funktionen selbst zu schreiben, verwenden wir wo verfügbar vordefinierte Funktionen. Vordefinierte Funktionen in Python können einfach so wie eine selbstdefinierte Funktion verwendet werden. 

Für alle Funktionen, die aus einer Funktionssammlung, einer sogenannten Bibliothek (library) kommen, muss die entsprechende Bibliothek noch installiert und in das jeweilige Programm (hier Notebook) importiert werden. 

Wir verwenden hier heute die Bibliothek SpaCy (https://spacy.io/api), da diese im Gegensatz zu vielen anderen Bibliotheken eine gute Unterstützung der deutschen Sprache bietet. Eine Installattionsanleitung für zuhause ist hier zu finden: https://spacy.io/usage 



In [0]:
# spaCy in Colab/Binder installieren - für Anaconda siehe spacy Installatiosnanweisungen
!pip install -U spacy
!python -m spacy download en_core_web_sm
!python -m spacy download de_core_news_sm

Requirement already up-to-date: spacy in /usr/local/lib/python3.6/dist-packages (2.2.3)
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.6/dist-packages/en_core_web_sm -->
/usr/local/lib/python3.6/dist-packages/spacy/data/en
You can now load the model via spacy.load('en')
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('de_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.6/dist-packages/de_core_news_sm -->
/usr/local/lib/python3.6/dist-packages/spacy/data/de
You can now load the model via spacy.load('de')


# Kleinschreiben
Der erste Schritt besteht meist darin, alle Worte auf eine Kleinschreibweise zu verwandeln. Dazu kann man die vordefinierte Funktion `lower()` in Python verwenden. Genau wie bei den Funktionen die wir selbst geschrieben haben, dienen die Klammern dazu anzuzeigen, dass es sich um eine Funktion und nicht eine Variable handelt. 


Eine gute Quelle für die Auflistung aller vordefinierten Funktionen in Python ist die Python Dokumentation: [https://docs.python.org/3/library/functions.html](https://docs.python.org/3/library/functions.html)


In [0]:
sentence_lower = sentence.lower()
print(sentence_lower)

die bürsten mit den schwarzen borsten bürsten besser, als die bürsten mit den weißen borsten bürsten!


# Tokenisieren

Tokenisieren bezieht sich auf die Auftrennung einer längeren Sequenz in einzelne Elemente, z. B. bei einem Satz bedeutet das einzelne Wörter und Interpunktion. 






In [0]:
import spacy 

nlp = spacy.load('de_core_news_sm')
doc = nlp(sentence)

# Diese Methode hat den Satz tokenisiert
for token in doc: 
  print(token)

# Zum Vergleich hier die Ausgabe wenn man den Originalsatz verwendet 
for elem in sentence:
  print(elem)


Die
Bürsten
mit
den
schwarzen
Borsten
bürsten
besser
,
als
die
Bürsten
mit
den
weißen
Borsten
bürsten
!
D
i
e
 
B
ü
r
s
t
e
n
 
m
i
t
 
d
e
n
 
s
c
h
w
a
r
z
e
n
 
B
o
r
s
t
e
n
 
b
ü
r
s
t
e
n
 
b
e
s
s
e
r
,
 
a
l
s
 
d
i
e
 
B
ü
r
s
t
e
n
 
m
i
t
 
d
e
n
 
w
e
i
ß
e
n
 
B
o
r
s
t
e
n
 
b
ü
r
s
t
e
n
!


# Lemmatisieren

Um Wörter besser vergleichbar zu machen werden sie auf ihre Basisform (nicht immer unbedingt der Stamm, dafür gibt es Stemming) reduziert. spaCy hat das alles schon für uns erledigt durch diesen einen `nlp(sentence)`-Befehl. Anbei geben wir nur noch das Ergebnis aus.

**Frage:** <br> 
Worin konkret unterscheidet sich der Ausgangssatz am Anfang dieses Notebooks von der nachstehenden Version? 


In [0]:
from tabulate import tabulate
for token in doc: 
  print(token, token.lemma_)

Die der
Bürsten Bürste
mit mit
den der
schwarzen schwarz
Borsten Borste
bürsten bürsten
besser gut
, ,
als als
die der
Bürsten Bürste
mit mit
den der
weißen weiß
Borsten Borste
bürsten bürsten
! !


**Antwort:** Lemmatisierung, der hier durchgeführte Prozess, konvertiert alle Worte des Satzes in ihre Basisform. 

# Part-of-Speech (POS) Tagging

Part-of-Speech (POS) tags sind englische Standardbezeichnungen für Wortklassen, die bei spaCy hier definiert werden: https://spacy.io/api/annotation. In dem nachstehenden Beispiel finden Sie etwa: 

*   DET = Artikel
*   NOUN = Substantiv 
*   ADP = Präposition
*   ADJ = Adjektiv oder Adverb
*   VERB = Verb
*   PUNCT = Interpunktion

Die POS-Tags könenn dazu verwendet werden um bestimmte Wortklassen aus dem Korpus zu entfernen, beispielsweise Interpunktion, Präposittionen, und Artikel. 


In [0]:
for token in doc: 
  print(token, token.pos_)

Die DET
Bürsten NOUN
mit ADP
den DET
schwarzen ADJ
Borsten NOUN
bürsten VERB
besser ADJ
, PUNCT
als CCONJ
die DET
Bürsten NOUN
mit ADP
den DET
weißen ADJ
Borsten NOUN
bürsten VERB
! PUNCT


**Aufgabe:** <br>
Schreiben Sie eine Funktion, die einen Satz


*   in die Kleinschreibweise verwandelt,
*   tokenisiert,
*   nach POS filtert und alle Präspositionen, Artikel und Interpunktionselemente entfernt 
*   lemmatisiert,

und dann den bearbeiteten Satz zurückgibt. Testen Sie die Methode mit dem Satz oben und mit einem weiteren Satz, den Sie hier hinzufügen.



In [0]:
def preprocessing(input_sentence):
  pos_to_be_removed = ["DET", "ADV", "PUNCT"]
  text_out = []
  doc = nlp(input_sentence)
  
  # Ihr Code für die Kleinschreibweise
  sentence = input_sentence.lower()

  # Ihr Code für Tokenisierung, Lemmatisierung, und POS-Filter (alles in einer for-Schleife mit if-Anweisungen)
  for token in doc: 
    if token.pos_ not in pos_to_be_removed: 
      text_out.append(token.lemma_)
  return text_out    
    
    
print(preprocessing(sentence))

# Entwicklen Sie einen weiteren Testfall um Ihre Methode zu testen - also geben Sie einen zweiten Satz ein

print(preprocessing("Das ist ein Beispiel für einen weiteren Testfall,  nicht sehr kreativ."))


['Bürste', 'mit', 'schwarz', 'Borste', 'bürsten', 'gut', 'als', 'Bürste', 'mit', 'weiß', 'Borste', 'bürsten']
['der', 'sein', 'Beispiel', 'für', 'weit', 'Testfall', ' ', 'nicht', 'kreativ']


# Was spaCy noch so kann...
Dependency Parsing: Ein weiteres Beispiel für sehr interessante NLP-Prozesse ist das automatische Erkennen von grammatischen Beziehungen zwischen Worten/Phrasen eines Satzes. Die angezeigten "Tags" auf den einzlenen Beziehungen sind hier unter "Dependency Parsing" definiert: https://spacy.io/api/annotation#dependency-parsing. Zum Beispiel "sb" steht für "subject" und "pd" steht für "predicate". 

In [0]:
import spacy
nlp = spacy.load('de_core_news_sm')
doc = nlp("Das ist ein Beispiel für die Art der Visualisierung von spacy.")
spacy.displacy.render(doc, style='dep', jupyter=True, options={'distance': 90})

Named entity recognition: erkennen von benannten Entitäten

In [0]:
nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

print("Text", "Startindex", "Endindex", "Beschreibung")
for ent in doc.ents:
  print(ent.text, ent.start_char, ent.end_char, ent.label_)


Text Startindex Endindex Beschreibung
Apple 0 5 ORG
U.K. 27 31 GPE
$1 billion 44 54 MONEY
