# 8.3.2	Der Heidegger-Algorithmus: <br>Ein generatives Modell zur Erzeugung von Texten

### 01 - Heidegger-Buchtext als String laden und vorverarbeiten

#### a) Text als String laden und mit der Funktion *nltk.tokenize.word_tokenize* tokenisieren

In [1]:
import numpy as np
import joblib
from nltk.tokenize import word_tokenize
from os.path import join

path = r'..\Data'

with open(join(path, 'Heidegger_bereinigt.txt'), 'r', 
           encoding='latin-1') as doc:
     text = doc.read()
     text_words = word_tokenize(text)

text[:100], text_words[:10]

('denn offenbar seid ihr doch schon\nlange mit dem vertraut, was ihr eigentlich meint, wenn ihr den\naus',
 ['denn',
  'offenbar',
  'seid',
  'ihr',
  'doch',
  'schon',
  'lange',
  'mit',
  'dem',
  'vertraut'])

#### b) Dictionary erzeugen, das für jedes enthaltene Wort aus dem Text eine Integer vorhält (*word_index* und Reverse-Dictionary: *index_word*)

In [2]:
word_index = [word for word in set(text_words)]
word_index.sort()

word_index = dict([(word, i) for i, word 
                             in enumerate(word_index)])
index_word = dict([(index, word) for word, index 
                                 in word_index.items()])

word_index['gehen'], index_word[4488]

(4488, 'gehen')

#### c) Text in Sequenzen mit fixer Länge zerschneiden und mit Hilfe des Dictionarys *word_index* die Wörter als Integer codieren (Word-IDs). Gleichzeitig das jeweils nachfolgende Wort als Zielvariable festlegen und mit *word_index* encodieren.

In [3]:
def text_to_sequences(text: list, words_index: dict, len_seq: int):
    data_X = []
    data_y = []
    for i in range(len(text)-(len_seq+1)):
        X = text[i:i+len_seq]
        y = text[i+len_seq]
        X = [words_index[word] for word in X]
        y = words_index[y]
        data_X.append(X)
        data_y.append(y)
    return np.array(data_X), np.array(data_y)

In [4]:
### Funktion mit Sequenzlänge = 20 aufrufen
X, y = text_to_sequences(text_words, word_index, len_seq=20)
X[:2], y[:2]

(array([[ 2427,  7400,  8503,  5707,  2582,  8380,  6303,  6734,  2404,
         10751,     7, 11352,  5707,  2814,  6648,     7, 11526,  5707,
          2414,   941],
        [ 7400,  8503,  5707,  2582,  8380,  6303,  6734,  2404, 10751,
             7, 11352,  5707,  2814,  6648,     7, 11526,  5707,  2414,
           941,  8505]]),
 array([8505, 4334]))

#### d) Daten in Trainings- und Testdaten separieren

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                        test_size=.1, random_state=13)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((157311, 20), (17480, 20), (157311,), (17480,))

## 02 - Neuronales Netz zusammenstellen

In [6]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import  Dense, Embedding, GRU, Dropout

len_seq = len(X[0])
num_words = len(word_index)
num_vects = 50

model = Sequential()
model.add(Embedding(input_dim=num_words, 
                    output_dim=num_vects, input_length=len_seq))
model.add(GRU(units=num_vects))
model.add(Dense(units=num_words, activation='softmax'))
model.summary()

model.compile(  loss='sparse_categorical_crossentropy', 
                optimizer='adam', metrics=['accuracy'])

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 20, 50)            632650    
_________________________________________________________________
gru (GRU)                    (None, 50)                15300     
_________________________________________________________________
dense (Dense)                (None, 12653)             645303    
Total params: 1,293,253
Trainable params: 1,293,253
Non-trainable params: 0
_________________________________________________________________


### 03 - Training durchführen
***Hinweis:*** Im Vergleich zum Buch ist *patience* hier auf einen geringeren Wert eingestellt, so dass der Anlernprozess schneller abläuft. Dadurch kommen unter Umständen andere Ergebnisse als im Buch verzeichnet zustande.

In [7]:
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping

checkpoint = ModelCheckpoint( filepath='heidegger_algo.h5',
                              save_best_only=False)
stopping = EarlyStopping(monitor='val_loss', patience=1)


history = model.fit(X_train, y_train, 
                    epochs=50, 
                    batch_size=128,
                    validation_data=(X_test, y_test),
                    callbacks=[stopping, checkpoint])

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50


### 04 - Texte produzieren

#### Funktion anlegen, die das Modell mit Eingaben füttert und Ausgaben abfängt 

In [8]:
def generate_phrases( model, 
                      words_index: dict,
                      index_words: dict,
                      starter: str, 
                      num_words=100):
    print(starter.lower())
    starter = word_tokenize(starter.lower())
    starter = np.array([words_index[word] for word in starter]).reshape(1, -1)
    for i in range(num_words):
        word_probs = model.predict(starter)[0]
        word_pred = np.argmax(word_probs)
        print(index_words[word_pred], end=' ')
        starter = starter[0].tolist()[1:]
        starter.append(word_pred)
        starter = np.array(starter).reshape(1, -1)

#### Testlauf durchführen

In [9]:
starter = '''wie unterscheidet sich das, wovor die angst sich ängstet, von dem, wovor die furcht sich fürchtet?'''
generate_phrases(model, 
                word_index, 
                index_word, 
                starter,
                num_words=100)

wie unterscheidet sich das, wovor die angst sich ängstet, von dem, wovor die furcht sich fürchtet?
die existenziale analytik des daseins ist die existenziale interpretation des daseins . die frage nach dem sinn der welt , die das dasein selbst ist , daß es sich in der welt sein . das dasein ist das dasein selbst . das dasein ist das dasein selbst . das dasein ist das dasein selbst . das dasein ist das dasein selbst . das dasein ist das dasein selbst . das dasein ist das dasein selbst . das dasein ist das dasein selbst . das dasein ist das dasein selbst . das dasein ist das dasein selbst . das dasein ist 

### 05 - Synonyme Wörter identifizieren

#### a) Zunächst die Gewichte aus dem angelernten Modell extrahieren

In [11]:
from tensorflow.keras.models import load_model

model = load_model('heidegger_algo.h5')
vectors = model.get_layer(index=0).get_weights()[0]
vectors.shape

(12653, 50)

#### b) Jetzt die Cosinus-Ähnlichkeiten berechnen und zur Veranschaulichung in einen DataFrame umwandeln

In [13]:
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', 9)

cos_sim = cosine_similarity(vectors)
cos_sim = pd.DataFrame(cos_sim)
cos_sim.index = word_index.keys()
cos_sim.columns = word_index.keys()
cos_sim.head().round(3)

Unnamed: 0,!,#,%,&,...,üoxepov,üpd,üttokeipevov,üürities
!,1.0,0.53,0.391,-0.125,...,-0.352,-0.142,0.258,0.39
#,0.53,1.0,0.254,0.04,...,-0.177,0.046,-0.072,-0.037
%,0.391,0.254,1.0,0.38,...,-0.61,-0.196,-0.239,0.056
&,-0.125,0.04,0.38,1.0,...,-0.325,0.121,-0.116,-0.39
(,0.669,0.601,0.469,-0.13,...,-0.337,-0.032,0.132,0.091


#### c) Nächste Nachbarn eines Wortes auf Grundlage der Similiarity-Matrix bestimmen

In [16]:
def most_similiar_words(word, matrix, word_index, index_word, num_words=5):    
    idx = np.argsort(matrix[word_index[word]])
    idx = idx[:-(num_words+1): -1]
    sim_words = [(index_word[ix], matrix[word_index[word]][ix].round(3)) for ix in idx]
    return dict(sim_words)

In [17]:
words = ['ist', 'gehen', 'vorrang']

for word in words:   
    msw = most_similiar_words(word, cos_sim.values, 
                    word_index, index_word)
    print(msw)

{'ist': 1.0, 'wird': 0.794, 'hat': 0.776, 'kann': 0.725, 'ob': 0.679}
{'gehen': 1.0, 'vorrufen': 0.851, 'stürzt': 0.841, 'sichverstehen': 0.821, 'absehen': 0.806}
{'vorrang': 1.0, 'unbestimmtheit': 0.901, 'modifikation': 0.869, 'entdecktbeit': 0.863, 'weltmäßigkeit': 0.863}
