# Modul Spezielle Anwendungen der Informatik: 
# K.I. in der Robotik

### Wintersemester 2018/2019 - HTW Berlin

### Rekurrente neuronale Netze in PyTorch am Beispiel eines simplen LSTM-Maschinenübersetzers

In [1]:
from IPython.display import Image
from IPython.core.display import HTML 

In [2]:
### Framework imports
import torch
from torch import optim
import os
import random

### Custom imports 
from model.model import *
from experiment.train_eval import evaluateInput, GreedySearchDecoder, trainIters, eval_batch, plot_training_results
from global_settings import device, FILENAME, SAVE_DIR, PREPRO_DIR, TRAIN_FILE, TEST_FILE, EXPERIMENT_DIR, LOG_FILE
from model.model import EncoderLSTM, DecoderLSTM
from utils.prepro import read_lines, preprocess_pipeline, load_cleaned_data, save_clean_data
from utils.tokenize import build_vocab, batch2TrainData, indexesFromSentence

from global_settings import DATA_DIR
from utils.utils import split_data, filter_pairs, max_length, plot_grad_flow

In [3]:
from translate import translate

### Projekt
- Rekurrente neuronale Netze, LSTMs
- Anwendung in PyTorch
- Implementierung eines naiven LSTM-Maschinenübersetzers, der in der Lage ist, kurze Sätze ("how are you" > "wie geht es dir") zu übersetzen
- Übersetzung: EN > DE
- Datensatz: [Tatoeba-Projekt](https://tatoeba.org/) (ca. 174000 Sprachpaare)
    - Reduzierung auf ca. 159.000 (Satzlänge 10)
    - Sprachdomäne: Alltag --> Ganz einfache Sätze

### Das Ergebnis

In [8]:
BEST_EXPERIMENT = "experiment/checkpoints/dry_run_simple_nmt_model_full_158544_teacher_1.0_train_voc_adam_lr-0.001-1/deu.txt/2-2_512-512_100"
SECOND_BEST_EXPERIMENT = ""

In [10]:
print("Projektpresäntation...")
translate(start_root=".", path=BEST_EXPERIMENT)

Projektpresäntation...
Reading experiment information from: 
Starting translation process...
Source > hi
Translation >  hallo
Source > how are you
Translation >  wie gehts dir
Source > where are you
Translation >  wo sind sie
Source > I love you
Translation >  ich liebe dich
Source > I am in the school
Translation >  ich bin in der schule
Source > I love music
Translation >  ich liebe musik
Source > The man at the bus stop is my uncle
Translation >  der der der mann in den onkel mein onkel
Source > I think you should stop speaking
Translation >  ich denke du sollten aufhoeren zu reden
Source > the taxi is here
Translation >  das taxi ist hier
Source > the train is here
Translation >  der zug ist hier
Source > the train has arrived
Translation >  der zug ist da
Source > the train has just arrived
Translation >  der zug ist gerade angekommen
Source > quit


## Modellarchitektur

### Sequence-to-Sequence (Seq2Seq) Modell oder Encoder-Decoder-Architektur

- Bezeichnung für einen neuronalen Maschinenübersetzer
- Verarbeitung von Sequenzen: Eingaben und Ausgaben sind Sequenzen, deren Länge im Voraus nicht bekannt ist. Diese Länge muss auch nicht übereinstimmen

<img src="documentation/seq2seq.png" alt="Seq2Seq Models" width=600>

Quelle: https://towardsdatascience.com/nlp-sequence-to-sequence-networks-part-2-seq2seq-model-encoderdecoder-model-6c22e29fd7e1

- **S** ist der sogenannte Kontextvektor, eine Zusammenfassung der verarbeiteten Sequenz
    - Sequenzen liegen als Zahlen vor und das Modell soll aus ihnen lernen
    - Insbesondere muss das Modell die "Semantik" lernen
        - Große Schwierigkeiten (!)
        - Ferne Zusammenhänge: **Der Mann**, der an der Haltestelle steht, **ist** mein Onkel --> Zwischen Subjekt und Verb stehen 5 Wörter! Für Menschen ist das easy, für Maschinen etwas weniger

### Das Geheimnis ist das Gedächtnis --> Rekurrente neuronale Netze (RNNs)

- Informationen "persistieren"
- Eingaben/Ausgaben variabler Länge verarbeiten
- Parameter werden durch die ganze Sequenz geteilt --> Sequenz (z.B. maximale Satzlänge in einer Batch) == Schritte == Zeit
    - Parameter:
        - U --> unter Eingaben und hidden layers geteilt
        - W --> unter den hidden layers geteilt
        - V --> unter hidden layers und Ausgaben geteilt

<img src="documentation/rnn.jpg" alt="Seq2Seq Models" width=600>

Quelle: http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/

Bezeichnungen:
- $x_{t}$ - Input beim Schritt $t$, z.B. das zweite Wort
- $s_{t}$ ist der Hidden-State zum Schritt $t$. Das ist der Speicher vom ganzen Netz: $s_{t} = \text{f}(Ux_t + Ws_{t-1})$ (f = tanh oder ReLU) --> **$s_{0}$ ist in der Regel mit 0 initialisiert**
- $o_{t}$ ist der Ausgabe == Wahrscheinlichkeitsverteilung über alle möglichen Klassen, daher: $o_{t} = softmax(Vs_{t})$

---> "Short Memory"

### LSTMs (Long Short-Term Memory)

- Hidden State (h oder s) + Cell State (c) (Memory)

<img src="documentation/LSTM3-chain.png" alt="Seq2Seq Models" width=600>
Quelle: https://colah.github.io/posts/2015-08-Understanding-LSTMs/

Jede Zelle im Bild ist ein Neuron im ganzen Netz.

**Gating-Mechanismus**:

<img src="documentation/lstm_medium.png" alt="Seq2Seq Models" height=500 width=650>
Quelle: https://medium.com/@saurabh.rathor092/simple-rnn-vs-gru-vs-lstm-difference-lies-in-more-flexible-control-5f33e07b1e57

- **Forget**-Gate --> Wie viel vom "Gedächtnis" muss behalten werden? $f_t$
- **Input**-Gate -->  $ i_t$
- Berechnung der C-Kandidaten: $\tilde C_{t}$
- **Output-Gate**: $o_t$

### Mehrschichtiges Netz 

<img src="documentation/trados_nmt.png">
Source: https://www.sdl.com/ilp/language/neural-machine-translation.html

### Pipeline
1. Vocabularies erstellen
2. Wörter darstellen --> Embeddings
3. Batch generieren --> (seq_len, batch_size)
4. Training:
    - Batch wird vom Encoder (als Batch) verarbeitet. Encoder liefert h
    - Decoder wird durch SOS initialisiert + Target-Batch + encoder hidden state (als erstes hidden state)
    - Bei jedem Schritt wird ein Wort vorhergesagt + hidden state aktualisiert
5. Die Übersetzung besteht aus den Wörtern mit der höchsten Wahrscheinlichkeit 

#### Einige Maßnahmen:
- Backpropagation Through Time --> Rekursion wird berücksichtigt, daher "Through Time"
- Teacher Forcing gegen langsame Konvergenz bzw. schlechte Leistungen
- Gradient Clipping --> kein Vanishing oder Exploding Gradient

#### Embeddings

$q_\text{mathematician} = \left[ \overbrace{2.3}^\text{can run},
\overbrace{9.4}^\text{likes coffee}, \overbrace{-5.5}^\text{majored in Physics}, \dots \right]$

$q_\text{physicist} = \left[ \overbrace{2.5}^\text{can run},
\overbrace{9.1}^\text{likes coffee}, \overbrace{6.4}^\text{majored in Physics}, \dots \right]$


Quelle: https://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html

#### Batching Example

"I went to school" (25, 858, 48, 284)

<img src="documentation/seq2seq_batches.png">
Quelle: https://pytorch.org/tutorials/beginner/chatbot_tutorial.html

# Quellen

### Praxis: 

- Chatbot-Tutorial (PyTorch): https://pytorch.org/tutorials/beginner/chatbot_tutorial.html
- Sequence-to-Sequence Tutorial (PyTorch): https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html
- Machine Learning Mastery "How to develop a neural machine translator from scratch": https://machinelearningmastery.com/develop-neural-machine-translation-system-keras/

### Theorie (eine Auswahl):
- Sutskever et al. (2014), "Sequence to Sequence Learning with Neural Networks": https://arxiv.org/abs/1409.3215
- Stanford NLP (CS224N): http://web.stanford.edu/class/cs224n/index.html#schedule

