# Mini-Hackathon Netzwerktreffen üßë‚Äçüíª

Heute trainieren wir ein sog. *Sprachmodell*, also ein k√ºnstliches Modell nat√ºrlicher Sprache. Dazu "f√ºttern" wir einen darauf spezialisierten Algorithmus mit einer riesigen Menge an Sprachbeispielen. Als Sprachbeispiele verwenden wir einen Datensatz von [Wortschatz Leipzig](https://wortschatz.uni-leipzig.de/de) mit 100.000 S√§tzen aus deutschen Zeitungsartikeln aus dem Jahr 2022. 

Grob formuliert, schaut sich der Algorithmus die Beispiele immer und immer wieder an und analysiert, wie und wo die einzelnen W√∂rter darin auftreten. √úber die gro√üe Anzahl an Beispielen hinweg, findet der Algorithmus so Beziehungen zwischen den W√∂rtern sowie typische Muster, innerhalb derer sie auftreten (z.B. das vor "bin" typischerweise "ich" steht). Dadurch lernt der Algorithmus im Idealfall ann√§herungsweise die Bedeutung, die die W√∂rter f√ºr unser menschliches Sprachverst√§ndnis haben. 

Als Erstes importieren wir Python-Module, die wir zum Training ben√∂tigen und nehmen auch ein paar Einstellungen vor. F√ºhre diese Zelle aus, indem Du in sie reinklickst und anschlie√üend `Shift + Enter` dr√ºckt. Diesen Befehl sollst Du ab sofort bei jeder Code-Zelle ausf√ºhren.

In [1]:
import gensim
import pandas as pd
import logging
import warnings
from tqdm import tqdm

!pip install numpy=="1.24.3"
import numpy as np
assert np.__version__ == "1.24.3", "Numpy version needs to be 1.24.3, else gensim model load won't work"

warnings.simplefilter(action="ignore", category=FutureWarning)

logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)



## 1. Daten einlesen

Nun wollen wir unseren Datensatz "deu_news_2022_100K-sentences.txt" aus dem Ordner "data" einlesen. Wenn Du die Datei mit dem Standardprogramm auf Deinem Rechner √∂ffnest, siehst Du, dass es sich um eine Art Tabelle handelt, mit je einer Zahl sowie einem vollst√§ndigen Satz pro Zeile. 

Der Algorithmus, den wir zum Trainieren unseres Sprachmodells verwenden, n√§mlich [*word2vec*](https://en.wikipedia.org/wiki/Word2vec), verlangt eine Liste mit S√§tzen, wobei jeder Satz wiederum als Liste mit W√∂rtern erwartet wird. Deshalb tokenisieren wir jeden Satz beim Einlesen und h√§ngen ihn als Wortliste der Satzliste an. Zus√§tzlich entfernen wir die Zahl am Zeilenanfang. F√ºhre die Zelle wiederum mittels `Shift + Enter` aus.

In [None]:
data = "data/deu_news_2022_100K-sentences.txt"

with open(data, encoding="utf-8") as f:
    
    #Tokenisieren inkl. Wegsplitten der Indizes am Zeilenanfang
    sentences = [sentence.split()[1:] for sentence in tqdm(f)]

Inspizieren wir mal die eingelesenen Daten und lassen uns zwei S√§tze ausgeben. Eckige Klammern begrenzen bei Python Listen, wobei die einzelnen Elemente einer Liste jeweils mit Kommata voneinander abgetrennt sind.

In [None]:
print(sentences[10:12])

Das sieht schon mal sehr gut aus!

Allerdings sehen wir, dass die W√∂rter diverse Zeichen enthalten, die wir beim Training nicht gebrauchen k√∂nnen. Das Anf√ºhrungzeichen hinter 'Zustand"' etwa hilft dem Algorithmus nicht, sich der Bedeutung von "Zustand" anzun√§hern. Ebenso unn√∂tig ist der "." am Ende von "Klimafolgenforschung.". Wir m√ºssen unsere Daten also bereinigen. Diesen Schritt nennt man *Preprocessing*.

## 2. Daten bereinigen (Preprocessing)

Die folgende Zelle definiert die Funktion `strip_special_signs`, die wir in der Zelle darunter auf unsere Daten anwenden. Sie identifiziert in einem ersten Schritt induktiv s√§mtliche nicht-alphanumerischen Zeichen in unseren Daten und entfernt diese im zweiten Schritt von s√§mtlichen Wortanf√§ngen und -enden. Den Code musst Du nicht im Detail nachvollziehen k√∂nnen. Wenn er Dich aber interessiert, kannst Du die Kommentare (alles was mit `#` beginnt) lesen. Sie beschreiben jeweils, was der Code davor bzw. darunter tut. F√ºhre die beiden Zellen in jedem Fall aus.

In [None]:
def strip_special_signs(list_of_lists):
    
    #Schritt 1
    special_signs = set() #Definieren eines noch leeren Sets (math. Menge), an das wir s√§mtliche Spezialzeichen (Zeichen, die nicht zu den normal_signs geh√∂ren), anh√§ngen
    normal_signs = list("abcdefghijklmnopqrstuvwxyz√§√∂√º√ü1234567890") #Schaffen einer Liste mit s√§mtlichen normalen alphanumerischen Zeichen
    
    print("Identifying special signs") #Ausgabe des aktuellen Schritts
    
    #Iteration √ºber alle S√§tze...
    for sentence in tqdm(sentences):
        #...und W√∂rter in unseren Daten
        for word in sentence:
            #√úberpr√ºfen, ob das erste Zeichen (mit Index 0) beim jeweiligen Wort in der Liste normal_signs ist und wenn NICHT...
            if word[0].lower() not in normal_signs:
                #...Anh√§ngen des jeweiligen Zeichens an das Set special_signs
                special_signs.add(word[0])
            #ebenfalls √úberpr√ºfen, ob letztes Zeichen beim jeweiligen Wort in der Liste normal_signs ist und wenn NICHT...
            if word[-1].lower() not in normal_signs:  
                #Anh√§ngen des jeweiligen Zeichens an das Set special_signs
                special_signs.add(word[-1])
        
    #Schritt 2
    print("Stripping off special signs") #Ausgabe des aktuellen Schritts
    
    preprocessed_sentences = [] #Definieren einer noch leeren Liste, an die wir s√§mtliche bereingten S√§tze anh√§ngen
    
    #Iteration √ºber alle noch unbereingten S√§tze...
    for sentence in tqdm(sentences):
        preprocessed_sentence = [] #Definieren einer leeren Liste, an die wir s√§mtliche bereingten W√∂rter EINES Satzes anh√§ngen (Liste wird bei jeder Iteration neu geschaffen)
        #...und unbereingten W√∂rter
        for word in sentence:
            #Entfernen (strip) aller Spezialzeichen am Wortanfang und -ende
            preprocessed_word = word.strip("".join(special_signs))
            #Sofern Wort l√§nger als null Buchstaben...
            if len(preprocessed_word) > 0:
                #Anh√§ngen an Liste mit s√§mtlichen bereinigten W√∂rtern
                preprocessed_sentence.append(preprocessed_word)
        #Anh√§ngen der Liste mit bereingten W√∂rtern an Liste mit bereinigten S√§tzen
        preprocessed_sentences.append(preprocessed_sentence)
        
    #R√ºckgabe der Liste mit bereingten S√§tzen
    return preprocessed_sentences

In [None]:
preprocessed_sentences = strip_special_signs(sentences)

`preprocessed_sentences` bezeichnet jetzt die Liste mit bereinigten S√§tzen. Schauen wir uns nochmal die gleichen S√§tze wie oben an:

In [None]:
print(preprocessed_sentences[10:12])

Das hat doch wunderbar geklappt. 

Nun sind unsere Daten bereit f√ºrs Training!

## 3. Training

W√§hrend die Bedeutung von W√∂rtern bei Menschen im Sprachzentrum des Gehirns abgespeichert ist, so werden Wortbedeutungen bei word2vec in Form von Vektoren repr√§sentiert, also grob formuliert als Zahlenreihen, z.B. so: 

    [0.9823969, -0.16720027,  0.69778556, -0.10027876,  0.70647484,  1.0204794, ...].

### 3.1. Was ist ein Vektor?

Ein Vektor besteht aus einer bestimmten Anzahl an Zahlen, wobei jede Zahl angibt, inwiefern ein bestimmtes *Feature* bei einem gegebenen Wort zutrifft. Vereinfacht kann man sich einen Vektor als eine Art Reihe an numerischen Antworten auf sinnvolle Fragen vorstellen. Die erste Zahl im Vektor (das erste Feature) st√ºnde z.B. immer f√ºr die Anzahl an Buchstaben in einem gegebenen Wort, die zweite Zahl f√ºr die Auftretensh√§ufigkeit im Satz, etc. Ein komplexer Algorithmus wie word2vec kodiert allerdings keine f√ºr Menschen sinnvollen Features (Frage-Antwort-Paare), sondern die abstrakten Beziehungen und Muster zwischen W√∂rtern, die er beim Training entdeckt. Bei gen√ºgend Daten kann ein Modell so durchaus semantisch-syntaktisch sinnvolle Repr√§sentationen von W√∂rtern erlernen. Insgesamt entsteht beim Training ein Vektorraum, in dem die einzelnen Wortvektoren eingebettet sind, weswegen wir auch von *Word Embeddings* sprechen.

### 3.2. Wie funktioniert das Training?

Grunds√§tzlich unterscheidet man beim Training eines Modells zwischen √ºberwachtem und un√ºberwachtem Lernen (*supervised* vs. *unsupervised learning*). Bei √ºberwachtem Lernen wird ein Algorithmus mit annotierten Daten gef√ºttert, z.B. Bildern von Katzen und anderen Tieren, wobei jedes Bild mit dem Label "Katze" oder "Nicht-Katze" versehen ist. Ein Katzendetektor-Algorithmus hat beim Training Zugang zur "Wahrheit", also zur korrekten Antwort ("Katze" oder "Nicht-Katze"). Ziel des Trainings ist es, dass der Algorithmus √ºber die Trainingsdaten hinaus zu *generalisieren* lernt, d.h. dass er nach dem Training auch unannotierten Input korrekt als Katze oder Nicht-Katze bestimmen kann. 

Un√ºberwachtes Lernen hingegen ben√∂tigt keinerlei menschlichen Input, abgesehen von unannotierten Trainingsdaten. Word2vec ist ein un√ºberwachter Algorithmus. F√ºrs Training schafft sich word2vec ganz einfach seine eigenen Trainingsdaten: Basierend auf den vorangehenden und folgenden W√∂rtern innerhalb eines Satzes versucht word2vec ein verdecktes Wort in der Mitte vorherzusagen: Bei "Der schwarze Hund _____ laut" w√§re "bellt" z.B. eine gute Vorhersage. Die Idee hinter word2vec und Word Embeddings im Allgemeinen ist nun, dass der Algorithmus f√ºr √§hnliche W√∂rter √§hnliche Vektoren erlernt, denn √§hnliche W√∂rter kommen in √§hnlichen Kontexten (mit √§hnlichen vorangehenden und folgenden W√∂rter) vor. "knurrt", das ebenfalls ein guter L√ºckenf√ºller w√§re, sollte demnach einen √§hnlichen Vektor wie "bellt" haben. Die √Ñhnlichkeit von W√∂rtern gem√§√ü unseres Sprachmodells schauen wir uns unten im Detail an. Zuerst m√ºssen wir das Modell nun aber trainieren.

---

Wir legen dazu ein paar Parameter fest, u.a.:

- `vector_size`, das die Anzahl an Features pro Vektor festlegt.
- `window` das festlegt, wie viele W√∂rter vor bzw. nach dem verdeckten Wort als Kontext beim Training ber√ºcksichtigt werden sollen.
- `min_count`, das festlegt, wie oft ein Wort im Datensatz mindestens vorkommen muss, um beim Training ber√ºcksichtigt zu werden.
- `epochs`, das festlegt, wie oft der Algorithmus den ganzen Datensatz analysieren soll.

Und los geht"s! Das Training nimmt ein paar Sekunden in Anspruch. Es ist fertig, wenn das Sternchen links neben der Zelle unten durch eine Zahl ersetzt wird.

In [None]:
model = gensim.models.Word2Vec(preprocessed_sentences, vector_size=200, window=6, min_count=3) 
model.train(sentences, total_examples=len(sentences), epochs=10) 

Nun ist das Modell fertig trainiert.

Schauen wir uns mal den Vektor des Worts "Universit√§t" an.

In [None]:
search_term = "Universit√§t"
print(model.wv[search_term]) #wv steht f√ºr word vector

Spiel gerne mit anderen W√∂rter herum, indem Du sie bei `search_term` zwischen den Anf√ºhrungszeichen einsetzt. Bei W√∂rtern, die das Modell nicht kennt (weil sie nicht (gen√ºgend oft) in unseren Daten vorkamen) erh√§ltst Du einen `KeyError`.

## 4. Das Modell

Insgesamt sind diese Vektoren komplett nichtssagend f√ºr unser Sprachverst√§ndnis. Schauen wir aber, ob das Modell dennoch die Semantik von "Universit√§t" auf seine eigene, vektorielle Weise einfangen konnte.

### 4.1. √Ñhnlichkeiten

Dies k√∂nnen wir etwa tun, in dem wir uns das √§hnlichste Wort im Sprachmodell ausgeben lassen, also dasjenige Wort mit dem √§hnlichsten Vektor:

In [None]:
search_term = "Universit√§t"
most_similar = pd.DataFrame(model.wv.most_similar(search_term, topn=10), columns=["Word", "Similarity"], index=range(1,11))
most_similar.head(1)

Vermutlich kommt "Hochschule" als √§hnlichstes Wort heraus. Faszinierend, oder? Setze gerne weitere W√∂rter bei `search_term` zwischen den Anf√ºhrungszeichen ein!

‚ö†Ô∏è Achtung: Hier steht "vermutlich", da jedes Modell unterschiedlich ist, auch wenn die Trainingsdaten identisch waren. Dies liegt daran, dass unser Algorithmus nicht *deterministisch* ist. Ganz am Anfang des Trainings werden den Features der Vektoren n√§mlich zuf√§llige Werte zugewiesen. Das Training des Algorithmus besteht dann darin, die Features von Runde zu Runde anzupassen, um bessere Vorhersagen zu erzielen (also das verdeckte Wort besser zu erraten).

Schauen wir uns die n√§chst√§hnlichen W√∂rter zu "Universit√§t" ebenfalls an:

In [None]:
most_similar.head(10)

Sp√§testens hier sollten sich Unterschiede zwischen verschiedenen Modellen zeigen. Vermutlich sind auch nicht mehr alle W√∂rter f√ºr unser menschliches Sprachgef√ºhl √§hnlich zu "Universit√§t". 

Wir k√∂nnten nun mit den Parametern oben experimentieren (z.B. mehr Epochen oder ein gr√∂√üeres/kleineres Kontextfenster), um bessere Resultate zu erzielen. Zielf√ºhrender ist es jedoch, das Modell mit einem gr√∂√üeren Datensatz zu f√ºttern. Die Quantit√§t an Trainingsdaten ist absolut entscheidend f√ºr ein gutes Sprachmodell, wobei die Qualit√§t der Trainingsdaten (d.h. z.B., ob sie ausgewogen und repr√§sentativ sind) auch nicht au√üer Acht gelassen werden sollte! 

Da wir an der Qualit√§t kurzfristig nichts √§ndern k√∂nnen, verzehnfachen wir einfach mal die Quantit√§t. Das Training mit 1 Million S√§tze aus dem Wortschatz Leipzig w√ºrde relativ lange dauern, weswegen wir ganz einfach das bereits trainierte Modell "word2vec_1m.model" aus dem Ordner "model" in den Arbeitsspeicher laden:

In [2]:
model = gensim.models.Word2Vec.load("model/word2vec_1M.model")

2023-06-08 15:06:27,899 : INFO : loading Word2Vec object from model/word2vec_1M.model
2023-06-08 15:06:27,964 : INFO : loading wv recursively from model/word2vec_1M.model.wv.* with mmap=None
2023-06-08 15:06:27,965 : INFO : loading vectors from model/word2vec_1M.model.wv.vectors.npy with mmap=None
2023-06-08 15:06:28,007 : INFO : loading syn1neg from model/word2vec_1M.model.syn1neg.npy with mmap=None
2023-06-08 15:06:28,064 : INFO : setting ignored attribute cum_table to None
2023-06-08 15:06:29,061 : INFO : Word2Vec lifecycle event {'fname': 'model/word2vec_1M.model', 'datetime': '2023-06-08T15:06:29.061751', 'gensim': '4.3.1', 'python': '3.8.13 (default, Mar 28 2022, 06:16:26) \n[Clang 12.0.0 ]', 'platform': 'macOS-10.16-x86_64-i386-64bit', 'event': 'loaded'}


Schauen wir uns nun die zehn √§hnlichsten W√∂rter zu "Universit√§t" an:

In [3]:
search_term = "Universit√§t"
most_similar = pd.DataFrame(model.wv.most_similar(search_term, topn=10), columns=["Word", "Similarity"], index=range(1,11))
most_similar.head(10)

Unnamed: 0,Word,Similarity
1,Uni,0.818986
2,TU,0.765602
3,Hochschule,0.754937
4,Fachhochschule,0.70149
5,Fakult√§t,0.70044
6,University,0.688023
7,ETH,0.651283
8,Akademie,0.629118
9,FH,0.616055
10,Professor,0.614389


Dies sieht schon viel besser aus! 

Wenn wir nicht blo√ü an den √§hnlichsten W√∂rtern zu einem bestimmten Wort interessiert sind, sondern daran, wie √§hnlich bestimmte Wortpaare zueinander sind, k√∂nnen wir folgenderma√üen vorgehen:

In [None]:
pairs = [
    ("Auto", "Fahrzeug"),   
    ("Auto", "Fahrrad"),   
    ("Auto", "Flugzeug"), 
    ("Auto", "Haferflocken"), 
    ("Auto", "Zahnb√ºrste")]

for w1, w2 in pairs:
    print(f"{w1} und {w2:12} sind sich zu {model.wv.similarity(w1, w2)*100:.2f}% √§hnlich.")

Auch interessant ist es, herauszufinden, welches Wort am wenigsten zu anderen gegebenen W√∂rtern passt:

In [None]:
print(model.wv.doesnt_match(["Berlin", "Hamburg", "Z√ºrich", "Dresden"]))

Experimentiere bei s√§mtlichen "√Ñhnlichkeitsmethoden" mit eigenen Begriffen herum, um herauszufinden, wie gut sich der Algorithmus Deinem Sprachverst√§ndnis nach Wortbedeutungen aneignen konnte.

Wir k√∂nnen uns den Vektorraum auch visualisieren lassen, zwar nicht in all seinen 200 Dimensionen (jedes Feature entspricht einer Koordinate in einer Dimension), da das f√ºr Menschen schlicht nicht vorstellbar ist, aber reduziert auf drei Dimensionen. Wir benutzen dazu den Embedding Projector von TensorFlow. [Hier](https://projector.tensorflow.org/?config=https://raw.githubusercontent.com/yannickfrommherz/Netzwerktreffen/00ddc1470d64f14eb91cd93552c5d486adcd9897/tensorflow/config.json) findest Du eine Visualisierung des mit 1 Million S√§tze trainierten Modells. 