# Einführung in die maschinelle Sprachverarbeitung

#### Vorwort
Jupyter Notebooks werden in der Veranstaltung das zentral bereitgestellte Element sein. Die Inhalte teilen sich dabei auf in:
* Theorie
* Code Beispiele und Umsetzungen der Theorie
* Aufgaben

Um es Ihnen einfacher zu machen, den Überblick zu behalten, ordnen wir zu Beginn eines neuen Themas/Notebooks zunächst die neuen Inhalte in unsere Pipeline ein. Außerdem wird unter dem Abschnitt _Inhalt_ in Stichwörtern ein kurzer Überblick gegeben.

Wir wollen in der Veranstaltung anwendungsorientiert arbeiten, dazu gehört jedoch auch ein Verständnis der Theorie. Deshalb werden die theoretisch erläuterten Inhalte oftmals in Code-Beispielen oder Aufgaben vertieft. Ich bitte Sie daher regelmäßig die Aufgaben zu bearbeiten.

## Einordnung in der Pipeline

Rufen wir uns nochmal unsere Pipeline ins Gedächtnis:

![](../resources/pipeline.png)

Die Inhalte dieses Notebooks beziehen sich auf den zweiten Schritt unserer Pipeline: das Preprocessing der Textdaten. Da alle Schritte innerhalb solch einer Pipeline aufeinander aufbauen, hängt das Ergebnis späterer Schritte, wie etwa einer Analyse durch statistische Lernverfahren unter anderem auch davon ab, wie gut hier an dieser Stelle gearbeitet wurde. Denn: wenn bei der Datenvorverarbeitung bereits Fehler passieren, wirken die sich unmittelbar auf die Qualität der _gesamten_ Pipeline aus.


## Inhalt

* Wichtige Begriffe
* Tokenization
* Weitere Möglichkeiten der Textverarbeitung

## Wichtige Begriffe

Die maschinelle Sprachverarbeitung wird auch als Natural Language Processing (NLP) bezeichnet. Hier ist der Fokus ausschließlich auf der Verarbeitung natürlicher Sprache in Textform.

In der Veranstaltung werden wir immer wieder auf Grundlagen in diesem Notebook zurückgreifen.

wichtige Begriffe:

* **Token/Term:** Kleinste Einheit bei der Verarbeitung von Text. Absichtlich nicht Wort genannt, da frei bestimmbar sein soll, was ein Token ist. Beispielweise besteht _New York_ aus zwei Wörtern, sollte aber sinngemäß als ein einzelnes Token betrachtet werden.
* **Dokument:** Ein einzelner Text. Abgrenzung üblicherweise durch das Speichern in einer eigenen Datei gekennzeichnet.
* **Korpus/Corpus:** Die gesamte Textsammlung, ergo die Menge aller verfügbaren Dokumente.
* **Vokabular:** Die Liste der Tokens, die im Korpus mind. ein Mal vorkommen.
* **Tokenizer:** Der Vorgang, bei dem ein Dokument in einzelne Tokens aufgespalten wird. Die Regeln nach denen gehandelt wird können domänenspezifisch sein und sollten an den Korpus angepasst werden.

## Tokenization

Unter Tokenization wird der Prozess verstanden, bei dem ein Dokument in mehrere Tokens aufgetrennt wird. Da nicht jedes Wort im Text manuell behandelt werden kann, wird dieser Prozess etwa durch Python-Skripte automatisiert. Dafür ist es erforderlich allgemeine Regeln zu definieren.

Für viele, wenn nicht sogar fast alle Analysen in dieser Vorlesung ist die Tokenization ein elementarer Bestandteil der Textvorverarbeitung. Die Qualität der Regeln bei der Tokenization hat zudem maßgeblich Einfluss auf die Qualität der Ergebnisse der Analysen, ganze egal ob bei herkömmlichen Algorithmen oder der Anwendung tiefer neuronaler Netze.

Die naheliegendste und einfachste Regel für das Trennen in Tokens ist das Trennen an jedem Leerzeichen. Damit erzielt man schonmal ganz gute Ergebnisse, jedoch befinden sich immer noch Sonderzeichen wie Ausrufezeichen oder Fragezeichen im Text. Zudem sollte ein Tokenizer auch immer an die Sprache angepasst sein, beispielsweise gibt es im Spanischen die umgekehrten Fragezeichen ¿ und Ausrufezeichen ¡. Ebenfalls sollten die Regeln für die Tokenization auch der Domäne des Korpus angepasst werden. Oftmals können Sonderzeichen auch bestimmte domänenspezifische Bedeutungen haben.

Praktische Funktionen in Python für die String-Verarbeitung:

* ``.split(separator)``: Aufspalten des Strings an dem/den Trennzeichen (``separator``). Es wird eine Liste der entstandenen Tokens zurückgegeben.
* ``.replace(old, new)``: Ersetzen der alten Zeichenkette (``old``) durch die neue (``new``).

In [2]:
document = "Ich freue mich etwas über maschinelle Sprachverarbeitung (NLP) zu lernen."
document.split(" ")

['Ich',
 'freue',
 'mich',
 'etwas',
 'über',
 'maschinelle',
 'Sprachverarbeitung',
 '(NLP)',
 'zu',
 'lernen.']

#### Ergebnis

Sie sehen: das Dokument konnte bereits in einzelne Tokens aufgeteilt werden. Jedoch was machen wir mit dem Punkt am Ende von letzten Token? Oder den runden Klammern um den Begriff NLP?

#### RegEx

Mit regulären Ausdrücken (RegEx) können Suchmuster in Zeichenketten definiert werden. Überprüft werden kann damit zum Beispiel, ob unter bestimmten Bedingungen eine Zeichenkette in einer anderen enthalten ist. Im Vergleich zum Beispiel zuvor ist es damit viel einfacher eine Zeichenkette auf alphanumerische Zeichen zu überprüfen. Häufig wird durch reguläre Ausdrücke eine Eingabevalidierung bei Benutzeroberflächen umgesetzt, beispielweise ob eine eingegebene E-Mail-Adresse im richtigen Format ist.

Machen Sie sich mit den Regeln und der Syntax von RegEx vertraut, dazu empfiehlt sich die Seite [RegExr](https://regexr.com/). Dort können Sie beliebe reguläre Ausdrücke ausprobieren und erhalten direkt ein Ergebnis. Außerdem ist das Cheat Sheet nützlich.

In Python werden ReGex mit dem mitgelieferten Modul ``re`` angewendet. Dort sind folgende für uns relevante Funktionen definiert:

* ``findall(pattern, string)``: Gibt eine Liste mit allen gefundenen Treffern zurück.
* ``search(pattern, string)``: Gibt die erste gefundene Stelle des ``string`` als Match-Objekt zurück.
* ``fullmatch(pattern, string)``: Versucht das ``pattern`` von Beginn des ```string`` an anzuwenden, das heißt, der gesamte String muss das Pattern matchen.
* ``split(pattern, string)``: Spaltet den gegebenen ``string`` mit dem ``pattern`` auf, gibt diesen als Liste zurück.
* ``sub(pattern, string, txt)``: Ersetzt alle durch das gegebene ``pattern`` erkannte Stellen im ``string`` durch den ``txt``.

Häufig enthalten ReGex Sonderzeichen, die in Python Kontrollzeichen innerhalb von Strings sind. Deshalb sollten Reguläre Ausdrücke in Python vor den Anführungszeichen des ReGex-Strings mit einem ``r`` versehen werden, z.B. ``r"\."``

#### Aufgaben

1. Definieren Sie ein ReGex, dass einen String an Punkten (.) auftrennt.
2. Definieren Sie ein ReGex, um alle _zusammenhängenden_ Zahlen aus einem String zu bekommen.
3. Schreiben Sie eine Funktion, der ein beliebiger String übergeben werden kann. In der Funktion soll mit _genau_ einem ReGex geprüft, ob der String eine E-Mail im gültigen Format besitzt. Ist dies der Fall wird ``True``, andernfalls ``False`` zurückgegeben. Die Regeln (vereinfacht) für eine gültige E-Mail sollen lauten:
  * Nur englische Zeichen, groß/klein sind erlaubt.
  * Zahlen sind erlaubt, jedoch nur vor dem @-Zeichen.
  * Es muss genau ein ``@``-Zeichen vorkommen.
  * Nach dem ``@``-Zeichen folgt die Domain mit der Toplevel-Domain, abgetrennt mit einem Punkt. Diese beliebig langen Zeichenketten enthalten nur englische Zeichen groß oder klein.
  * Ansonsten sind keine Sonderzeichen erlaubt.

Überprüfen Sie Ihre Lösung auch an den Beispielen auf Gültigkeit, bzw. Ungültigkeit.

In [4]:
import re

In [5]:
# Aufgabe 1
string1 = "Ich freue mich etwas über maschinelle Sprachverarbeitung (NLP) zu lernen. Außerdem mag ich auch sehr gerne reguläre Ausdrücke."

re.split("\.", string1)

['Ich freue mich etwas über maschinelle Sprachverarbeitung (NLP) zu lernen',
 ' Außerdem mag ich auch sehr gerne reguläre Ausdrücke',
 '']

In [6]:
# Aufgabe 2
string2 = "Hallo, ich wohne in der Parkstraße 17, 73212 Baumhausen. Student*in"

re.findall("\d+", string2)


['17', '73212']

In [7]:
# Aufgabe 3
# should be valid
emails = ["max.mustermann@web.de", "max.mustermann@hdm-stuttgart.de", "mueller@hdm-stuttgart.de"]
# should be invalid
emails_invalid = ["jonas.müller@hdm-stuttgart.de", "jonas.müller@de", "jonas.müller"]

regex = r"^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z0-9-.]+$"
for mail in emails:
    if re.match(regex,mail):
        print(mail, "is valid")
    else:
        print(mail, "is invalid")
        
for mail in emails_invalid:
    if re.match(regex, mail):
        print(mail,"is valid")
    else:
        print(mail, "is invalid")


max.mustermann@web.de is valid
max.mustermann@hdm-stuttgart.de is valid
mueller@hdm-stuttgart.de is valid
jonas.müller@hdm-stuttgart.de is invalid
jonas.müller@de is invalid
jonas.müller is invalid


## Tokenizer

Schreiben Sie Ihren eigenen Tokenizer. Nutzen Sie dazu die oben vorgestellten Werkzeuge in Python, sodass der Tokenizer folgende Funktionen erfüllt:

* Eingabe: eine beliebig lange Zeichenkette, z.B. ein Dokument.
* Ausgabe: die Liste der Tokens.
* Überlegen Sie welche Regeln für das Splitten in Tokens sinnvoll sind. Auf jeden Fall sollte an Sonderzeichen, aber auch Punkten, Kommata etc. gesplittet werden. Tokens sollten daher nur noch als Alphanumerischen Zeichen bestehen.

Testen Sie Ihren Tokenizer zunächst an den Strings aus Aufgabe 1 und 2.

In [15]:
string = string1+string2

def tokenize(document):
    r=re.findall(r"\w+", document)
    return r

tokenize(string)

['Ich',
 'freue',
 'mich',
 'etwas',
 'über',
 'maschinelle',
 'Sprachverarbeitung',
 'NLP',
 'zu',
 'lernen',
 'Außerdem',
 'mag',
 'ich',
 'auch',
 'sehr',
 'gerne',
 'reguläre',
 'Ausdrücke',
 'Hallo',
 'ich',
 'wohne',
 'in',
 'der',
 'Parkstraße',
 '17',
 '73212',
 'Baumhausen',
 'Student',
 'in']

## Weiterführendes Schritte bei der Textvorverarbeitung: Normalisierung

Bei der Analyse von Text mit Python sind Module von großem Nutzen. Wir wollen uns zwei genauer anschauen:
* ``nltk`` (Natural Language Tool Kit)
* ``spacy``

Sie können beide direkt mit pip installieren. NLTK beinhaltet viele grundlegende Werkzeuge für die Verarbeitung von Text, im Folgenden werden einige Beispiele vorgestellt. Spacy dagegen erweitert diese Funktionen durch das Erstellen von NLP-Pipelines bis hin zu bereits fertiger Modelle für die Text-Analyse.

Es kann sein, dass einige Beispiele mit nltk beim ersten Mal ausführen nicht direkt funktionieren, da nltk Daten nachladen muss. Folgen Sie der Beschreibung in der Fehlermeldung z.B. ``nltk.download("punkt")``.

In [18]:
import nltk

#### Groß-/Kleinschreibung

Es ist sinnvoll, bei der Analyse von Text die Groß- und Kleinschreibung zu ignorieren. Per Konvention sollten daher alle Tokens zuvor mit der Funktion ``lower()`` in die Kleinschreibung gebracht werden (lower case transformation). In vielen Sprachen hat Großschreibung kaum eine fundamentale Bedeutung wie im Deutschen. Der Informationsverlust der so entstehen kann, etwa wie bei _er macht Pause_ und _die Macht ist stark in ihm_, soll vernachlässigt werden. Der Mehrwert soll dadurch gegeben sein, dass nun auch groß geschriebene Wörter am Satzanfang etc. kleingeschrieben sind.

#### Stopfwortfilterung

Ein Text in natürlicher Sprache beinhaltet vieler sogenannter Stopfwörter. Damit sind Wörter gemeint, die für die Vollständigkeit und Klang der Sprache wichtig sind, jedoch keine bzw. kaum die eigentliche Informationen tragen. Das Modul ``nltk`` stellt für einige Sprachen vorgefertigte Listen mit sprachspezifischen Stopfwörtern bereit. Im Deutschen handelt es sich dabei vor allem um Attribute, Adverben oder Präpositionen. Schauen Sie sich doch mal die Stopfwörter für die Sprachen Deutsch und Englisch an. In einem späteren Notebook werden wir das Auftreten vcn Stopfwörtern in Texten zudem auch noch einmal genauer betrachten.

In [20]:
from nltk.corpus import stopwords

nltk.download("stopwords")
print("Anzahl deutscher Stopfwörter:", len(stopwords.words("german")))
# deutsche Stopfwörter, alphabetisch sortiert, die ersten 10.
stopwords.words("german")[:10]

Anzahl deutscher Stopfwörter: 232


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\thoma\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


['aber', 'alle', 'allem', 'allen', 'aller', 'alles', 'als', 'also', 'am', 'an']

#### Stemming


Mit Normalisierung wird in der maschinellen Sprachverarbeitung der Prozess bezeichnet, bei dem einzelne Token nach bestimmten Regeln so gekürzt werden. Stemming ist eine besondere Form der Normalisierung mit dem Ziel, dass nur noch der Wortstamm (engl. stem) übrig bleibt. Im Deutschen ist ein Wort in der Regel folgendermaßen aufgebaut:

$$ Präfix + Wortstamm + Suffix $$

Präfix und Suffix sind dabei optional. Das Wort _zuvorkommend_ besteht aus Wortstamm und Suffix:

$$ zuvorkomm + end $$

 So würden Tokens im Plural zum Singular oder konjugierte Verben auf ihren Wortstamm zurückgeführt werden. Das Modul ``nltk`` bietet hierfür bereits implementierte Algorithmen für das Stemming. Ein oft eingesetzter Stemmer ist der ``Snowball-Stemmer``.

In [None]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("german")

# Beispiel 1
stemmer.stem("zuvorkommend")

'zuvorkomm'

In [None]:
# Beispiel 2: Plural zu Singular
stemmer.stem("Erdnüsse")

'erdnuss'

#### Lemmatisierung

Im Gegensatz zum Stemming wird bei der Lemmatisierung das Wort zurück in seine Grundform geführt, man könnte also sagen die Konjugation rückgängig gemacht. Aus dem Wort _ist_ würde demnach das konjugierte Verb zu seinem Infinitiv _sein_ werden. Durch das Definition linguistischer Regeln kann dieser Vorgang automatisiert werden. Jede Sprache braucht dazu jedoch ihre eigenen Sprachregeln.

In [21]:
import spacy

nlp = spacy.load("de_core_news_sm")
text = "Heute ist ein schöner Tag, auch wenn es regnet, der Himmel grau und die Straßen nass sind."
doc = nlp(text)
" ".join([token.lemma_ for token in doc])

ModuleNotFoundError: No module named 'spacy'

## Aufgabe

Passen Sie ihren zuvor implementierten Tokenizer an, indem Sie ihn um
* Lower-Case Transformation
* Stopfwortfilterung

ergänzen. Überlegen Sie auch welche Reihenfolge der einzelnen Schritte sinnvoll ist.

In [34]:
def tokenize_new(document):
    stops = set(stopwords.words('german'))
    document=document.lower()
    r=re.findall(r"\w+", document)
    wordsFiltered = []
    stopw = []
    for w in r:
        if w in stops:
            stopw.append(w)
        else:
            wordsFiltered.append(w)
    wordsFiltered.extend(list(set(stopw)))
    return wordsFiltered

tokenize_new(string)

['freue',
 'maschinelle',
 'sprachverarbeitung',
 'nlp',
 'lernen',
 'außerdem',
 'mag',
 'gerne',
 'reguläre',
 'ausdrücke',
 'hallo',
 'wohne',
 'parkstraße',
 '17',
 '73212',
 'baumhausen',
 'student',
 'der',
 'über',
 'auch',
 'sehr',
 'zu',
 'mich',
 'ich',
 'in',
 'etwas']

## Der erste Korpus

Nachdem grundlegende Werkzeuge für die maschinelle Sprachverarbeitung, wie die Tokenization, erläutert wurden, ist es nun Zeit dies in den Kontext zu setzen. In der Anwendung haben wir es mit Korpora zu tun, also Sammlungen mehrerer Dokumente. Ein Dokument besteht dabei auch nicht aus wenigen Sätzen, sondern aus beliebig vielen.

Der erste vorgestellte Korpus dieser Veranstaltung ist eine Dokumentsammlung der deutschsprachigen Wikipedia Artikel über 235 Länder. Sie können den Korpus [hier](https://e-learning.hdm-stuttgart.de/moodle/mod/resource/view.php?id=241791) herunterladen.

## Aufgabe

1. Verschaffen Sie sich zunächst einen Überblick über die Struktur der Texte des vorliegenden Korpus. Was fällt Ihnen auf? Was sollte man für spätere Analysen im Hinterkopf behalten?

2. Wenden Sie nun Ihren Tokenizer auf den Korpus an. Die Ausgabe soll ein Dictionary sein:
* Der Key ist der Name des Dokuments.
* Der Value eine Liste der Tokens des Dokuments.


Tipp: braucht Ihr Computer lange für die Tokenization? Machen Sie aus der Liste der Stopfwörter ein Set!

In [40]:
import os
os.getcwd()

NameError: name '__file__' is not defined

In [None]:
# load corpus here
import os
path = "\Studium\IR\countries\countries"
token_dict = {}
for file in os.listdir(path):
    f=os.path.join(path,file)
    if os.path.isfile(f):
        t= open(f, encoding = "utf-8")
        data=t.read()
        dict = {
            file[:-4]:tokenize_new(data)
        }
    token_dict.update(dict)
#print(token_dict)
#funktioniert!
