# 8.4	Mit vortrainierten Worteinbettungen arbeiten (fastText)

### 01 - Heidegger-Buchtext als String laden und tokenisieren

#### a) Text als String laden und mit der Funktion *nltk.tokenize.word_tokenize* tokenisieren

In [2]:
import numpy as np
import joblib
from nltk.tokenize import word_tokenize
from os.path import join

path = r'..\Data'

with open(join(path, 'Heidegger_bereinigt.txt'), 'r', 
           encoding='latin-1') as doc:
     text = doc.read()
     text_words = word_tokenize(text)

text[:100], text_words[:10]

('denn offenbar seid ihr doch schon\nlange mit dem vertraut, was ihr eigentlich meint, wenn ihr den\naus',
 ['denn',
  'offenbar',
  'seid',
  'ihr',
  'doch',
  'schon',
  'lange',
  'mit',
  'dem',
  'vertraut'])

### 02 - Den *fastText*-Vektorraum laden
**Hinweis**: Da die *fastText*-Datei mit den Vektoren *wiki.de.align.vec* zu groß ist, befindest sich diese nicht ins Repository gela. Wenn Sie den Code ausführen möchten, gehen Sie wie folgt vor:
- Laden Sie zunächst den fastText-Vektorraum von folgender Seite: https://fasttext.cc/docs/en/aligned-vectors.html (Es handelt sich um den *aligned vector German (Text)*. Direkter Download Link: https://dl.fbaipublicfiles.com/fasttext/vectors-aligned/wiki.de.align.vec [Zuletzt geprüft am 10.01.2022]
- Platzieren Sie die Datei im Repository im Ordner Data (oder an einem anderen Ort auf ihrem Rechner und passen Sie die Variable *path* entsprechend an.)

In [10]:
def load_vector_data(filepath: str):
    with open(filepath, 'r', encoding='utf-8') as doc:
        next(doc)
        word_vec = {}
        for row in doc:
            row = row.split(' ')
            word = row[0]
            vec = np.array([float(v) for v in row[1:]])
            word_vec[word] = vec
    return word_vec

In [13]:
path = r'..\Data'

word_vec = load_vector_data(join(path, 'wiki.de.align.vec'))
len(word_vec), word_vec['angst'].shape

(2275233, (300,))

### 03 - Relevante Wörter für die Aufgabe extrahieren
Wörter aus dem Heidegger-Text aus dem geladenen fastText-Vektorraum extrahieren und in *word_vec_task* speichern. Gleichzeitig ein Dicitonary anlegen, das zum Nachschlagen der Wörter geeignet ist.

In [15]:
def selected_word_vectors(words: list, word_vec: dict ):
    word_vect_index = {}
    word_vect_task = [np.zeros(300)]
    count = 1
    for word in words:
        if word in word_vec:
            word_vect_index[word] = count
            word_vect_task.append(word_vec[word])
            count += 1
        else:
            word_vect_index[word] = 0
    return word_vect_index, word_vect_task

#### Eine Liste mit jeweils einem Exemplar der Wörter aus dem Heidegger-Text erzeugen (Grundlage ist die Liste *text_words*) und damit die Funktion zusammen mit dem fastText-Vektorraum füttern

In [18]:
words_in_text = [word for word in set(text_words)]
words_in_text.sort()
word_vect_index, word_vect_task = selected_word_vectors(
                                words_in_text, word_vec)
len(word_vect_index), len(word_vect_task)

(12653, 10184)

#### Den fastText-Vektorraum wieder aus dem Arbeitsspeicher löschen, um Platz zu schaffen

In [19]:
word_vec = None

### 04 - Den Text in Sequenzen zerlegen und die Features und Targets encodieren 
In diesem Fall benötigen wir unterschiedliche Dictionaries für die Encodierung der Features und der Zielvariable

In [21]:
def text_to_sequences( text: list, 
                       words_index_x: dict, 
                       words_index_y: dict, 
                       len_seq: int):
   data_X = []
   data_y = []
   for i in range(len(text)-(len_seq+1)):
      X = text[i:i+len_seq]
      y = text[i+len_seq]
      X = [words_index_x[word] for word in X]
      y = words_index_y[y]
      data_X.append(X)
      data_y.append(y)
   return np.array(data_X), np.array(data_y)

In [22]:
y_word_index = dict([(word, idx) for idx, word 
                      in enumerate(words_in_text)])

X, y = text_to_sequences( text_words, 
                          word_vect_index,
                          y_word_index, 
                          len_seq=20)

X[:2], y[:2]

(array([[2027, 6124, 6997, 4745, 2155, 6892, 5239, 5626, 2005, 8733,    7,
         9212, 4745, 2347, 5549,    7, 9342, 4745, 2015,  797],
        [6124, 6997, 4745, 2155, 6892, 5239, 5626, 2005, 8733,    7, 9212,
         4745, 2347, 5549,    7, 9342, 4745, 2015,  797, 6999]]),
 array([8505, 4334]))

#### Einteilung in Trainings- und Testdaten

In [23]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y,
                                     test_size=.1, 
                                     random_state=12)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((157311, 20), (17480, 20), (157311,), (17480,))

### 05 - Neuronales Netz für Aufgabe zusammenstellen
***Hinweis:*** Da wir die Embedding-Gewichte später durch die aus *fastText* extrahierten Werte ersetzen, orientieren wir uns bei der Einstellung des Embedding-Layers an *word_vect_task*

In [25]:
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, GRU, Dropout

# Zunächst word_vect_task in ein Numpy-Array verwandeln (ist bist jetzt eine Liste)
word_vect_task = np.array(word_vect_task)

# Relevante Einstellungen abfragen und speichern
len_seq = len(X[0])
num_words_x = word_vect_task.shape[0]
num_vects = word_vect_task.shape[1]
num_words_y = len(y_word_index)

model = Sequential()
model.add(Embedding(input_dim=num_words_x, 
                    output_dim=num_vects, 
                    input_length=len_seq,
                    mask_zero=True))
model.add(GRU(units=num_vects))
model.add(Dense(units=num_words_y, activation='softmax'))
model.summary()

model.compile( loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 20, 300)           3055200   
_________________________________________________________________
gru (GRU)                    (None, 300)               541800    
_________________________________________________________________
dense (Dense)                (None, 12653)             3808553   
Total params: 7,405,553
Trainable params: 7,405,553
Non-trainable params: 0
_________________________________________________________________


### 06 - Die Gewichte des Embedding-Layers durch die fastText-Gewichte ersetzen
Zuästzlich setzen wir die Gewichte nach dem Austausch auf nicht-trainierbar

In [26]:
model.get_layer(index=0).set_weights([word_vect_task])
model.get_layer(index=0).trainable = False
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 20, 300)           3055200   
_________________________________________________________________
gru (GRU)                    (None, 300)               541800    
_________________________________________________________________
dense (Dense)                (None, 12653)             3808553   
Total params: 7,405,553
Trainable params: 4,350,353
Non-trainable params: 3,055,200
_________________________________________________________________


### 07 - Trainingsprozess beginnen

In [27]:
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping

checkpoint = ModelCheckpoint( filepath='heidegger_fasttext.h5',
                              save_best_only=False)
stopping = EarlyStopping(monitor='val_loss', patience=1)

history = model.fit(X_train, y_train, 
                    epochs=100, 
                    batch_size=128,
                    validation_data=(X_test, y_test),
                    callbacks=[checkpoint, stopping])

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100


### 08 - Schätzungen erzeugen

In [28]:
def generate_phrases(model, 
                    x_words_index: dict,
                    y_index_words: dict,
                    starter: str,
                    len_seq = 20, 
                    num_words=100):
    starter = word_tokenize(starter.lower())
    print(' '.join(starter))
    starter = np.array([x_words_index[word] for word 
                        in starter]).reshape(1, -1)
    for i in range(num_words):
        word_probs = model.predict(starter)[0]
        word_pred = np.argmax(word_probs)
        word = y_index_words[word_pred]
        print(word, end=' ')
        starter = starter[0].tolist()[1:]
        starter.append(x_words_index[word])
        starter = np.array(starter).reshape(1, -1)

#### Zunächst ein Reverse-Index zum Nachschlagen der Targets erzeugen 

In [29]:
y_index_word = dict([(i, word) for word, i in y_word_index.items()])
y_index_word[0], y_word_index['!']

('!', 0)

#### Dann Schätzungen produzieren

In [30]:
from tensorflow.keras.models import load_model

model = load_model('heidegger_fasttext.h5')

starter = '''wie unterscheidet sich das, wovor die angst sich ängstet, von dem, wovor die furcht sich fürchtet?'''
generate_phrases(model, 
                word_vect_index, 
                y_index_word, 
                starter,
                num_words=100)

wie unterscheidet sich das , wovor die angst sich ängstet , von dem , wovor die furcht sich fürchtet ?
die furcht bringt das dasein als angerufenes nicht nur als vorhandenes , sondern sie ist die möglichkeit der existenz . die entschlossenheit ist die möglichkeit der existenz , das heißt die möglichkeit der zukunft . die entschlossenheit bringt das dasein als das in der welt sein , das heißt die furcht als die gewesenheit . die furcht bringt die furcht als in der welt sein . die analyse der alltäglichkeit ist die ständigkeit des strukturganzen strukturganzen in der welt seins . die fundierende des seins des daseins ist die existenziale bedingung der möglichkeit der existenz , die wir als die 