# 9.2	Ein Modell mit zwei Eingängen aufbauen und anlernen
(Rechtschreibkorrektur mit falsch geschriebenen Wort + Kontext (Wort vor- und nach fehlerhaftem Wort)

### 01 - Importe und Vorverarbeitungsklassen laden
Die Klasse *SpellingMistake* liegt im aktuellen Ordner. Mit ihr lassen sich für ein übergebenes Wort Rechtschreibfehler produzieren.<br>
Das Objekt *seq_encoder* wurde in Kapitel 6 rekurrente Netze beschrieben und angelernt. An dieser Stelle wird nur noch ein fertiges Objekt zur Verwendung geladen<br>

In [1]:
import joblib
import pandas as pd
import numpy as np
from sequence_encoder import SequenceEncoder
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from spelling_mistake import SpellingMistake

spel_mistake = SpellingMistake()
seq_encoder = joblib.load('seq_encoder.pkl')
seq_encoder

<sequence_encoder.SequenceEncoder at 0x1e43a8ca808>

#### Daten laden
Die Daten sind bereits vorbereitet worden. Dabei wurden aus realen Sätzen jeweils drei Wortpaare 
(mittleres Wort, vorheriges Wort (pre) und nachfolgendes Wort (post) herausgeschnitten.

In [24]:
from os.path import join
path = r'..\Data'

df_test = pd.read_csv(join(path, 'test_sentences_cln.csv'))
df_test.head()

Unnamed: 0,word,pre,post
0,eine,sie,notlüge
1,zu,00:04,sehen
2,ist,luis,kerngesund
3,eine,trägt,moderatorin
4,vor,moderatorin,<noword>


#### Tokenizer anlernen (Wörter im Kontext werden als Integers dargestellt - für Word Embedding)

**Wichtiger Hinweis:** Da die Trainingsdaten zu groß für github sind, werden an dieser Stelle nur die Testdaten verwendet. Daher entstehen Abweichungen von den Ergebnissen des Buches.

In [25]:
tok = Tokenizer(filters='!"#$%&()*+,-./:;=?@[\\]^_`{|}~\t\n')

x2_test = df_test[['pre', 'post']].values
x2_test = [ el[0] + ' ' + el[1] for el in x2_test]
print(x2_test[:5])
tok.fit_on_texts(x2_test)
joblib.dump(tok, 'tokenizer_pos.pkl')

['sie notlüge', '00:04 sehen', 'luis kerngesund', 'trägt moderatorin', 'moderatorin <noword>']


['tokenizer_pos.pkl']

#### Hiweis: Fehlende Wörter (zum Beispiel am Anfagn eines Satzes) werden mit *\<noword\>* kodiert

In [26]:
tok.texts_to_sequences(['das haus', '<noword> haus', 'haus <noword>'])

[[8, 558], [1, 558], [558, 1]]

### 02 - Daten vorbereiten
- Zunächst eine Generator-Funktion erzeugen
- Aufruf der Generator-Funktion mit Beispieldaten (Die Daten (Sätze) liegen im Ordner *Data* unter *train_sentences_cln.csv* bzw. *test_sentences_cln.csv*)

In [27]:
def word_position_feeder(filepath: str, 
                         seq_encoder,
                         tokenizer,
                         spel_mistake,
                         batch_size=1, epochs=1):
    for i in range(epochs):
        gen = pd.read_csv(filepath, chunksize=batch_size)
        for df in gen:
            y = df.iloc[:, 0].values
            x1 = spel_mistake.gen_misspelling(y)
            x1 = seq_encoder.gen_one_hot_data(x1)
            x2 = df.iloc[:, 1:].values
            x2 = [ str(el[0]) + ' ' + str(el[1]) for el in x2]
            x2 = tok.texts_to_sequences(x2)
            x2 = pad_sequences(x2, maxlen=2, padding='post', truncating='post')
            y = np.array([seq_encoder.word_to_int(y_) for y_ in y])
            yield [x1, x2], y

#### Beispieldaten (erste 10 Zeilen) ansehen

In [28]:
from os.path import join
path = r'..\Data'

count = 0
with open(join(path, join(path, 'test_sentences_cln.csv')), 'r', encoding='utf-8') as doc:
        next(doc)
        for el in doc:
            print(el, end='')
            count += 1
            if count==10:
                break

eine,sie,notlüge
zu,00:04,sehen
ist,luis,kerngesund
eine,trägt,moderatorin
vor,moderatorin,<noword>
dem,auf,weg
spiel,das,gewinnt
menschen,mit,gesprochen
die,bond,meiste
blick,0:0,special


In [33]:
from os.path import join
path = r'..\Data'

gen = word_position_feeder( join(path, 'test_sentences_cln.csv'), 
                     seq_encoder, tok, spel_mistake, batch_size=1, epochs=1)

#### Test der Generator-Funktion

In [34]:
for el in gen:
    print(el)
    break

([array([[[0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0.

### 03 - Lernmodell aufsetzen

In [35]:
from tensorflow.keras.layers import Input, GRU, Flatten, Dense, Conv1D, Concatenate, Embedding
from tensorflow.keras.models import Model

input_1 = Input(shape=[15, 32], name='seq_in')
input_2 = Input(shape=[2,], name='words_in')

line_1 = Conv1D( filters=32, 
                kernel_size=3,
                activation='relu',
                name='l1_cnn')(input_1)
line_1a = GRU(units=32, name='l1_rnn_fwd')(line_1)
line_1b = GRU(units=32, go_backwards=True,
              name='l1_rnn_bwd')(line_1)


line_2 = Embedding(input_dim=len(tok.word_index)+1, 
                  output_dim=10,
                  name='l2_embedding')(input_2)
line_2 = Flatten(name='l2_flatten')(line_2)
line_2 = Dense(units=20, activation='tanh', name='l2_dense')(line_2)

out = Concatenate(name='l1_l2_conc')([line_1a, line_1b, line_2])
out = Dense(units=500, activation='softmax', name='out')(out)

model = Model([input_1, input_2], out)

model.compile(  loss='sparse_categorical_crossentropy', 
                optimizer='adam',
                metrics=['accuracy'])
model.summary()

Model: "functional_1"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
words_in (InputLayer)           [(None, 2)]          0                                            
__________________________________________________________________________________________________
seq_in (InputLayer)             [(None, 15, 32)]     0                                            
__________________________________________________________________________________________________
l2_embedding (Embedding)        (None, 2, 10)        918930      words_in[0][0]                   
__________________________________________________________________________________________________
l1_cnn (Conv1D)                 (None, 13, 32)       3104        seq_in[0][0]                     
_______________________________________________________________________________________

### 04 - Modell anlernen

#### Testgeneratoren mit einer Epoche aufrufen

In [36]:
from os.path import join
path = r'..\Data'

test_gen = word_position_feeder( join(path, 'test_sentences_cln.csv'), 
                     seq_encoder, tok, spel_mistake, batch_size=128, epochs=1)

#### Steps per Epoch für Trainings- und Testdaten herausfinden (unter Umständen überspringen - dauert eine Weile!)

In [37]:
count_test = 0
for el in test_gen:
        count_test+=1
print('Test steps per epoch', count_test)

Test steps per epoch 3815


#### Anlernprozess starten (dauert sehr lange!)

In [38]:
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
from os.path import join
path = r'..\Data'

### Testgenerator noch einmal neu aufsetzen (mit 100 Epochen Voreinstellung)
### Hinweis: Wie oben beschrieben, können die Trainingsdaten aus Ressourcengründen nicht auf GitHub 
### hochgeladen werden. Daher werden die Testdaten zum Anlernen verwendet!

test_gen = word_position_feeder( join(path, 'test_sentences_cln.csv'), 
                     seq_encoder, tok, spel_mistake, batch_size=128, epochs=100)

stopping = EarlyStopping( monitor='loss', 
                          patience=1,
                          restore_best_weights=False)
checkpoint = ModelCheckpoint( filepath='spell_correction_context.h5',
                              monitor='loss',
                              save_best_only=True)

history = model.fit( test_gen, steps_per_epoch=3815, epochs=100, 
                     callbacks=[stopping, checkpoint])

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100

#### Anglernetes Modell laden

In [None]:
from tensorflow.keras.models import load_model
model = load_model('spell_correction_context.h5')

### 05 - Modell zur Korrektur von Wörtern einsetzen

In [39]:
def predict_correct(misspelled:str, pre_post:str):
    word = seq_encoder.gen_one_hot_data([misspelled])
    pre_post = tok.texts_to_sequences([pre_post])
    pre_post = pad_sequences( pre_post, maxlen=2, 
                              padding='post', 
                              truncating='post')
    print(pre_post)
    word_idx = model.predict([word, pre_post])
    word_idx = np.argmax(word_idx[0])
    correct_word = seq_encoder.int_to_word(word_idx)
    return correct_word

#### Schätzungen
**Hinweis:** Fehlende Wörter vorne müssen als \<noword\> codiert werden<br>
Zum Beispiel der Satz "Daas Haus steht auf dem Berg" --> pre_post='\<noword\> haus', word='daas' 

In [41]:
phrase = 'schnee lieeeg auf dem berg'
word = 'lieeg'
pre_post = 'schnee auf'
predict_correct(word, pre_post)

[[3732   13]]


'liegt'