# Лабораторная работа 4: Нейронный машинный перевод

Набор данных: http://www.manythings.org/anki (как часть проекта Tatoeba)

Целью лабораторной работы является построение end-to-end прототипа системы нейронного машинного перевода.

Справочный материал: https://machinelearningmastery.com/

**Опишите Вашу языковую пару**

## Подготовка текста

Задание: загрузить файл.
Необходимо
* произвести загрузку файла
* очистку текста (удалить пунктуацию, привести к нижнему регистру и т.д.)
* Разделить файл по парам

In [1]:
def load_document(filename):
    f = open(filename, mode='rt', encoding='utf-8')
    text = f.read()
    f.close()
    return text

Каждая строка содержит языковую пару, разделенную символом табуляции, необходимо разделить их.

In [2]:
def transform_to_pairs(doc):
    lines = doc.strip().split('\n')
    pairs = [line.split('\t') for line in lines]
    return pairs

Проведите процедуру "очистки текста".
Необходимо: 
* Удалить пунктуацию
* Удалить непечатные символы
* Выполнить нормализацию регистра
* удалить ненужные токены
и т.д.

**Задание:** напишите функцию очистки языковых пар

In [None]:
Не совсем понимаю, что подразумевается по ненужными словами. Если речь идет о стоп словах, то я считаю для NMT, удалять их не нужно 

In [3]:
def clean_pairs(lines):
    


Поскольку процесс предварительной обработки файлов небыстрый, может быть полезно после очистки сохранить структуру данных, в которой содержатся обработанные языковые пары. 
Сохраните эту структуру для того, чтобы не ждать подолгу очистки и подготовки.

In [4]:
from pickle import dump
def save_clean_data(semtences, filename):
    dump(sentences, open(filename, 'wb'))
    print('File was saved to {}'.format(filename))

После написания необходимых подготовительных функций, запустим:

In [None]:

target_filename = ...
# Загрузка датасета
doc = load_document(target_filename)

pairs = transform_to_pairs(doc)
# Очистка предложений
clean_pairs = clean_pairs(pairs)
# Сохранение обработанных данных
# Выберете более адекватное имя файла
save_clean_data(clean_pairs, 'sentence-pairs.pkl')


* Выведите количество пар предложений в Вашем корпусе?
* Определите число словоформ в корпусе (для обоих языков);
* Какая максимальная длина предложения в корпусе (для обоих языков)?


Файл, с языковыми парами содержит большое число переводных пар. Однако, наши ресурсы не позволяют загрузить весь набор. Поэтому выберем только выберем только часть из них.
Задание: 
* Загрузите сохраненный файл
* Выберете число примеров, на которых вы будете проводить обучение/тестирование (не менее 10 000).
* Перемешайте выборку
* Разделите на тестовую и тренировочную выборки

In [None]:
from pickle import load
from numpy import array
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical
from keras.utils.vis_utils import plot_model
from keras.models import Sequential
from keras.layers import LSTM
from keras.layers import Dense
from keras.layers import Embedding
from keras.layers import RepeatVector
from keras.layers import TimeDistributed
from keras.callbacks import ModelCheckpoint

# Открываем сохраненный файл
def load_clean_sentences(fname):
    return load(open(fname, 'rb'))

def save_clean_data(sentences, fname):
    dump(sentences, open(fname, 'wb'))
    print('Saved: {}'.format(fname))

raw_dataset = load_clean_sentences('sentence-pairs.pkl')

N_SENTENCES = ...

shuffle(raw_dataset)
dataset = raw_dataset[:N_SENTENCES, :]

train, test = ...

#
save_clean_data(dataset, 'subset.pkl')
save_clean_data(train, ...)
save_clean_data(test, ...)

Вышеперечисленный код создаст три файла:
* вся подвыборка
* тренировочная выборка
* тестовая выборка

Это нужно для стабильности последующих экспериментов.
* Какой объем словаря в выбранном Вами корпусе?
* Выведете процентное соотношение объема в вашей подвыборке относительно всего словаря


## Обучение модели нейронного машинного перевода

В этой части лабораторной работы произведем загрузку и подготовку уже предобработанного текста, а затем подготовку токенизатора, создание нейронной модели, и непосредственно обучение.

In [None]:
def load_clean_sentences(filename):
    return load(open(filename, 'rb'))

# load datasets
dataset = load_clean_sentences(...)
train = load_clean_sentences(...)
test = load_clean_sentences(...)

Упростим себе задачу небольшой хитростью: будем использовать комбинацию тренировочной и тестовой выборки для того, чтобы узнать весь словарь в задаче, и определить максимальную длину предложения.

Разумеется, это достаточно сильное упрощение, но для целей обучения его можно использовать.
Создадим токенизатор:

In [6]:

def create_tokenizer(lines):
    tokenizer = Tokenizer()
    tokenizer.fit_on_texts(lines)
    return tokenizer

# Функция для получения максимальной длины предложений
def max_length(lines):
    return max(len(line.split()) for line in lines)

Можно вызывать эти функции для токенизации.

Обратите внимание, нужно построить два токенизатора: для исходного и для целевого языка:



In [None]:
# Лучше имя токенизатора переименовать к вашему языку:
first_tokenizer = create_tokenizer(dataset[:,0])
first_language_vocab_size = len(first_tokenizer)+1
first_language_length = max_length(dataset[:,0])
print('First language vocabulary size: {}'.format(first_language_vocab_size))
print('First language max length of sentence: {}'.format(first_language_length))

# Сделаейте аналогичное для второго языка

Как Вы помните, текст нельзя передавать напрямую нейронной сети. Каждая входная и выходная последовательности должны быть закодированы целыми числами и дополнены до максимальной длины (padding).

Это необходимо для использования embedding;ов для входных последовательностей и унитарное кодирование для выходных последовательностей.
За счет этого необходимо разработать две функции:
* encode_sequences - которая будет кодировать текст как целочисленные значения и дополнять до максимальной длины
* encode_output - которая будет проводить унитарное кодирование для последовательностей целевого языка. Унитарное кодирование неоходиомо за счет того что мы будем предсказывать вероятность каждого слова в словаре (на выходе)

In [7]:
# encode and pad sequences
def encode_sequences(tokenizer, length, lines):
    # integer encode sequences
    X = tokenizer.texts_to_sequences(lines)
    # pad sequences with 0 values
    X = pad_sequences(X, maxlen=length, padding='post')
    return X

In [8]:
# one hot encode target sequence
def encode_output(sequences, vocab_size):
    ylist = list()
    for sequence in sequences:
        encoded = to_categorical(sequence, num_classes=vocab_size)
        ylist.append(encoded)
        y = array(ylist)
    y = y.reshape(sequences.shape[0], sequences.shape[1], vocab_size)
    return y

Время подготовить тестовую и тренировочную выборки:

In [None]:
trainX = encode_sequences(first_tokenizer, first_language_length, ...)
trainY = encode_sequences(second_tokenizer, second_anguage_length, ...)
trainY = encode_output(trainY, second_language_vocabulary_size)

# Сделайте для testX, testY

Время построить модель NMT системы.

Постройте модель encoder-decoder на базе LSTM.

In [None]:
def define_model(src_vocab, target_vocab,
                src_timesteps, tar_timesteps, n_units):
    model = Sequential()
    model.add(Embedding(...))
    # ...
    # ...
    # PROFIT!
    model.add(TimeDistributed(Dense(tar_vocab, activation='softmax')))
    model.compile(optimizer='adam', loss='categorial_crossentropy')
    print(model.summary())
    return model

Время обучить модель:

In [None]:
# fit model
checkpoint = ModelCheckpoint('model.h5', monitor='val_loss', verbose=1,
save_best_only=True, mode='min')
model.fit(trainX, trainY, 
          epochs=30, 
          batch_size=64, 
          validation_data=(testX, testY),
callbacks=[checkpoint], verbose=1)

Протестируйте модель.
При необходимости загрузите сохраненную модель

        model = load_model('model.h5')
        
Если загружаете произвольный текст не забудьте проводить кодирование при помощи
        
        encode_sequences

Оценка включает в себя два шага:
* Генерация переведенной выходной последовательности
* Повторение процесса для ряда примеров и суммаризация способности модели переводить предложения.
    
Пример перевода:
        
        translation = model.predict(source, verbose=0)

Не забывайте(!) что мы должны обратно преобразовать поседовательность чисел в фактические слова. Результатом predict будет последовательность целых чисел, которую мы преобразовываем обратно в слова.
Функция word_for_id выполняет обратное преобразование:

In [None]:
def word_for_id(integer, tokenizer):
    for word, index in tokenizer.word_index.items():
        if index == integer:
            return word
    return None

Можно выполнить отображение каждого целого числа в переводе и вернуть результат как строку слов.
Функция predict_sequence() выполняет эту операцию для ОДНОЙ закодированной фразы:


In [10]:
# generate target given source sequence
def predict_sequence(model, tokenizer, source):
    prediction = model.predict(source, verbose=0)[0]
    integers = [argmax(vector) for vector in prediction]
    target = list()
    for i in integers:
        word = word_for_id(i, tokenizer)
        if word is None:
            break
    target.append(word)
    return ' '.join(target)

Время оценить модель: **напишите функцию**:
        
    evaluate_model(model, tokenizer, sources, raw_dataset):

Которая на вход принимает модель, токенизатор, исходные тексты и эталонный результат.

Подсчитайте BLEU-1, BLEU-2, BLEU-3, BLEU-4 для тестовой выборки, для тренировочной выборки
e

BLEU входит в состав NLTK: 

    from nltk.translate.bleu_score import corpus_bleu

Подсчет BLEU:

    BLEU-1: corpus_bleu(actual, predicted, weights=(1.0, 0, 0, 0))
    BLEU-2: corpus_bleu(actual, predicted, weights=(0.5, 0.5, 0, 0))
    BLEU-3: corpus_bleu(actual, predicted, weights=(0.3, 0.3, 0.3, 0))
    BLEU-4: corpus_bleu(actual, predicted, weights=(0.25, 0.25, 0.25, 0.25))

**Задание**:
Для Ваших языков примените построенную модель с указанными параметрами.
Запишите результаты в таблицу:

| Параметры  | BLEU-1  | BLEU-2 | BLEU-3 | BLEU-4 |
|:---------- |:-------:|:------:|:------:|:------:|
| Embedding=32  |      |        |        |        |
| Embedding=64  |      |        |        |        |
| Embedding=128  |      |        |        |        |
| Embedding=256  |      |        |        |        |



**Попробуйте добавить: (Задание для вашего варианта)
Как изменятся результаты? Чем это может быть обусловлено?**
