# Языковые модели

**Языковая модель** *(language model, LM)* позволяет оценить вероятность последовательности слов (токенов). 

$$P(W)=P\left(w_{1}, w_{2}, w_{3}, \dots, w_{n}\right)$$

Как следствие, с помощью языковой модели можно предсказать вероятность следующего слова в последовательности.

$$P\left(w_{5} | w_{1}, w_{2}, w_{3}, w_{4}\right)$$


Какая последовательность вероятнее? 

* *Когда тебе 900 лет исполнится, тоже не молодо будешь выглядеть ты. (с)*
* *Когда тебе исполнится 900 лет, ты тоже будешь выглядеть не молодо.*

### Применение

* Генерация текста
* Распознавание речи
* OCR и распознавание рукописного текста
* Предиктивный ввод
* Машинный перевод
* Исправление опечаток
* Определениt языка
* Определение части речи (POS-tagging)
* ...

[Презентация Мурата Апишева](http://www.machinelearning.ru/wiki/images/5/5d/Mel_lain_msu_nlp_sem_2.pdf) с более подробными объяснениями и более сложными теоретическими вещами про языковые модели. Кое-что из этой презентации есть в теоретической части этой тетрадки.

[Хороший тьюториал](https://towardsdatascience.com/learning-nlp-language-models-with-real-data-cdff04c51c25) по языковым моделям на *towardsdatascience*.

# Счетные языковые модели

## Модель N-грамм

Очень простая, но мощная языковая модель, которой Журафски и Мартин посвятили целую главу (третью) в  ["Speech and Language Processing"](https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf).

### Цепное правило

Мы можем оценить вероятность всей последовательности слов как произведение условных вероятностей ее частей. Пусть $w_1,\ldots,w_n$ (или $w_{1}^{n}$) – последовательность слов. Тогда ее вероятность можно оценить следующим образом:

$$ P(w_{1}, \ldots, w_{n})=\prod_{i=1}^{n} P(w_{i} | w_{1}, \ldots, w_{i-1}) \approx \prod_{i=1}^{n} P(w_{i} | w_{i-(n-1)}, \ldots, w_{i-1}) =\prod_{i=1}^{n} P\left(w_{i} | w_{1}^{i-1}\right)$$

### Марковское свойство n-ного порядка
Запоминаем не всю цепочку, а только $n-1$ предшествующих слов. Тогда вероятностью i-того слова $w_i$ в контексте предшествущих $i − 1$ слов можно считать вероятность этого слова в сокращенном контексте предшествущих $n − 1$ слов.

> Markov models are the class of probabilistic models that assume we can predict the probability of some future unit without looking too far into the past. (Jurafsky & Martin)

* Модель униграмм: $P(w_i)$
* Модель биграмм: $P(w_i | w_{i-1})$
* Модель триграмм: $P(w_i | w_{i-1} w_{i-2})$


### Модель униграмм (модель мешка слов)

В такой модели вероятность слова в последовательности зависит исключительно от вероятности этого слова в корпусе, т.е. контекст не учитывается. Вероятность последовательности рассчитывается как произведение вероятностей всех слов в ней.

$$ P(w_{1}, \ldots, w_{n}) \approx \prod_{i=1}^{n} P(w_{i}) $$

* P(огурец | жадина говядина соленый) $\approx$ P(огурец)
* P(жадина говядина соленый огурец) $\approx$ P(жадина) $\times$ P(говядина) $\times$ P(соленый) $\times$ P(огурец)

### Модель биграмм

Каждое слово зависит только от одного предыдущего слова: 

$$ P\left(w_{i} | w_{1}, w_{2}, \ldots, w_{i-1}\right) \approx P\left(w_{i} | w_{i-1}\right) $$

Вероятность всей последовательности — произведение условных вероятностей каждого элемента.

$$ P(w_{1}, \ldots, w_{n})  \approx \prod_{i=1}^{n} P(w_{i} | w_{i-1}) $$


* P(огурец | жадина говядина соленый) $\approx$ P(огурец | соленый)
* P(жадина говядина соленый огурец) $\approx$ P(жадина | <начало предложения>) $\times$ P(говядина | жадина) $\times$ P(соленый | говядина) $\times$ P(огурец | соленый) $\times$ P(<конец предложения> | огурец)


### Модель триграмм

Каждое слово зависит от двух предыдущих слов.

$P\left(w_{i} | w_{1}, w_{2}, \ldots,  w_{i-2}, w_{i-1}\right) \approx P\left(w_{i} |w_{i-2} w_{i-1}\right)$

P(огурец | жадина говядина соленый) $\approx$ P(огурец | говядина соленый)


### Метод максимального правдоподобия 

**Метод максимального правдоподобия** (*maximum likelihood estimate, MLE)* — способ оценить вероятность N-граммы с помощью корпуса. Рассчитывается как частотность N-граммы в корпусе, нормированная таким образом, чтобы значение лежало в пределах от 0 до 1. 

$$ P(w_{i} | w_{i-(n-1)}, \ldots, w_{i-1})=\frac{\texttt{count}(w_{i-(n-1)}, \ldots, w_{i-1}, w_{i})}{\texttt{count}(w_{i-(n-1)}, \ldots, w_{i-1})} $$

В модели биграмм:

$$P_{MLE}(w_i | w_{i-1}) = \frac{\texttt{count}(w_{i-1} w_i )}{\texttt{count}(w_{i-1} )}$$

#### Задание

Дан корпус. Посчитайте MLE биграмм «жадина говядина», «соленый огурец», «турецкий барабан».

* жадина говядина соленый огурец
* жадина говядина зеленый огурец
* жадина говядина турецкий барабан кто на нем играет тот рыжий таракан
* жадина говядина немецкий барабан
* жадина говядина пустая шоколадина
* жадина говядина соленый огурец на полу валяется никто его не ест


## Сглаживание

Подробнее см. раздел 3.4 (стр. 49) в [Speech & Language Processing](https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf).

### Зачем?
* Огранниченность корпуса
* Занижена вероятность
* Вероятность равна нулю

### Методы
* Сглаживание Лапласа (add-one)
* Сглаживание Кнесера-Нея (Kneser-Ney)
* Сглаживание Виттена-Белла (Witten-Bell)
* Сглаживание Гуда-Тьюринга (Good-Turing)
* Интерполяция
* Откат (backoff)

### Аддитивное сглаживание Лапласа

Просто добавляем некоторый коэффициент $\alpha$ к встречаемости каждой N-граммы. Например, при $\alpha=1$,

$$ P(w_i | w_{i-1}) = \frac{\texttt{count}(w_{i-1} w_i ) + \alpha}{\texttt{count}(w_{i-1} ) + \alpha V} $$

Частный случай add-one сглаживания в униграммной модели:

$$P\left(w_{i}\right)=\frac{c_{i}}{N} \approx P_{\text { Laplace }}\left(w_{i}\right)=\frac{c_{i}+1}{N+V}$$


* $c_{i}$ — частотность слова
* $N$ — количество слов в корпусе
* $V$ — объем словаря


### Откат 

**Katz smoothing** *(простой откат):* если не получается применить модель высокого порядка, пробуем для данного слова модель меньшего порядка с понижающим коэффициентом. Например, мы работаем с моделью триграмм, но триграммы "жадина говядина соленый" в нашем корпусе нет, и мы не можем оценить ее вероятность. Тогда ищем биграмму "говядина соленый" и берем ее вероятность с понижающим коэффициентом $\lambda_{1}$, а если нет и ее — берем униграммную вероятность "соленый" с понижающим коэффициентом $\lambda_{2}$. Но получим не вероятностное распределение!


## Оценка качества языковой модели

**Перплексия** — метрика оценки языковой модели, показывающая, насколько хорошо модель предсказывает выборку. Она определяется как обратная вероятность тестового корпуса, нормализованная на количество слов. Чем ниже значение перплексии, тем лучше.

$$PP(\texttt{LM}) = b^{{-{\frac  {1}{N}}\sum _{{i=1}}^{N}\log _{b}\texttt{LM}(x_{i})}}$$,

* $N$ — длина корпуса
* $x_i$ — i-тое слово в корпусе
* LM(x) — предсказание вероятности языковой моделью
* b — некоторая константа, обычно 2.

Например, есть тестовая последовательность $W=w_{1} w_{2} \dots w_{N}$. Перплексия модели биграмм на данной последовательности будет рассчитываться так (подробнее см. в учебнике ["Speech and Language Processing"](https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf) (Daniel Jurafsky, James H. Martin), стр. 44.)

$$
\operatorname{PP}(W)=\sqrt[N]{\prod_{i=1}^{N} \frac{1}{P\left(w_{i} | w_{i-1}\right)}}
$$


## Модели N-грамм в NLTK

Вероятностные распределения в NLTK: https://www.nltk.org/_modules/nltk/probability.html

<img src="./img/freqdist.png" width="600" align="left">

<img src="./img/condfreqdist.png" width="650" align="left">

<img src="./img/condfreqdist2.png" width="600" align="left">

<img src="./img/mleprobdist.png" width="600" align="left">

In [28]:
from nltk import FreqDist, ConditionalFreqDist, ConditionalProbDist, MLEProbDist
from nltk import bigrams, trigrams

pad = '_'

with open('./data/dinos.txt', 'r', encoding='utf-8') as f:
    data = f.readlines()
names = [pad+name.strip().lower()+pad for name in data]
names[:10]

['_aachenosaurus_',
 '_aardonyx_',
 '_abdallahsaurus_',
 '_abelisaurus_',
 '_abrictosaurus_',
 '_abrosaurus_',
 '_abydosaurus_',
 '_acanthopholis_',
 '_achelousaurus_',
 '_acheroraptor_']

In [29]:
chars = [char for name in names for char in name]
freq = FreqDist(chars)

print(list(freq.values()))

[3072, 2487, 539, 548, 913, 1081, 1710, 2285, 2123, 1704, 341, 266, 85, 171, 617, 944, 852, 552, 111, 328, 360, 37, 55, 141, 41, 60, 23]


In [30]:
cfreq = ConditionalFreqDist(bigrams(chars))
print(cfreq['a'])

<FreqDist with 27 samples and 2487 outcomes>


In [35]:
cprob = ConditionalProbDist(cfreq, MLEProbDist)
print('p(a|_) = %1.4f' %cprob['a'].prob('_'))
print('p(r|_) = %1.4f' %cprob['r'].prob('_'))
print('p(s|_) = %1.4f' %cprob['s'].prob('_'))

p(a|_) = 0.0555
p(r|_) = 0.0534
p(s|_) = 0.4705


In [16]:
l = sum([freq[char] for char in freq])

def unigram_prob(char):
    return freq[char] / l

print('p(a) = %1.4f' %unigram_prob('a'))

p(a) = 0.1354


Можно порождать случайные символы с учётом предыдущих.

In [39]:
cprob['u'].generate()

's'

## Задание №1

1. Напишите функцию для генерации нового имени динозавра фиксированной длины. 
2. Обучите модель триграмм на любом большом тексте. Какой корпус понадобится: лемматизированный или нет? Понадобится ли пунктуация? Можно взять:
    * данные какой-нибудь газеты (например, "Полярный круг", которая выложена в папке data)
    * любое большое литературное произведение
    * словарь пословиц и поговорок В.И. Даля (лежит в папке data)
    * и т.д.
3. Напишите функцию, которая будет оценивать вероятность следующего слова для данной последовательности и функцию, которая будет предсказывать самое вероятное следующее слово для данной последовательности. 

# Нейросетевые модели

В нейросетевых языковых моделях нейросеть используется как классификатор для предсказания следующего слова по предыдущим. 

## Нейронные сети прямого распространения (FNN)

> A feedforward neural LM is a standard feedforward network that takes as inputat timeta representation of some number of previous words ($w_{t−1}, w_{t−2}$, etc) andoutputs a probability distribution over possible next words.  Thus — like the n-gram LM — the feedforward neural LM approximates the probability of a word given theentire prior context $P(w_{t}|w^{t−1}_{1})$ by approximating based on the N previous words.  (Martin & Jurafsky)

$$
P\left(w_{t} | w_{1}^{t-1}\right) \approx P\left(w_{t} | w_{t-N+1}^{t-1}\right)
$$

Подробнее о том, как работает FFN и как написать ее с нуля и потестировать на задаче классификации тестов, см. [вот в этой тетрадке](https://github.com/ancatmara/data-science-nlp/blob/master/4.%20NN%20from%20Scratch.ipynb). Очень полезно будет сделать задание, которое дано в конце!

![](img/ffn.png)

## Рекуррентные нейронные сети (RNN)

**Рекуррентная нейронная сеть** *(recurrent neural network, RNN)* — вид нейронных сетей, где связи между элементами образуют направленную последовательность. 

> A recurrent neural network is any network that contains is a cycle within its network connections. That is, any network where the value of a unit is directly, or indirectly, dependent on its own output as an input. (Jurafsky & Martin)

Т.е. RNN содержат не только прямые, но и обратные связи. Наличие таких внутренних циклов делает RNN удобными и эффективными для обработки последовательностей. Вот так выглядит RNN в развертке.

![](http://neerc.ifmo.ru/wiki/images/thumb/0/05/RNN.png/1599px-RNN.png)

### Развертка RNN во времени (Jurafsky & Martin)

![](img/rnn_jurafsky.png)

### Чем они хороши RNN?

* позволяют обобщать значения слов (если мы создадим эмбеддинги в процессе обучения нейросети или же подадим предобученные эмбеддинги на вход)
* позволяют уйти от Марковских допущений и учитывать предысторию произвольной длины
* не нужно сглаживание
* скрытый слой с предыдущего шага — контекст

### Biderectional RNN

В одноcторонней RNN скрытое состояние в заданное время t — это все, что нейросеть знает о последовательности на данный момент. Это можно считать левым контекстом.

$$ h_{t}^{\text {forward}}=\operatorname{SRN}_{\text {forward}}\left(x_{1} : x_{t}\right) $$

Мы можем получить точно такой же вектор для правого контекста, обучив нейросеть на нашей последовательности, выстроенной в обратном порядке.

$$ h_{t}^{\text {backward}}=\operatorname{SRN}_{\text {backward}}\left(x_{n} : x_{t}\right) $$

Если объединить эти две независимые друг от друга RNN, получится **Bi-RNN** (иллюстрация из Jurafsky & Martin).

![](img/bi-rnn.png)


### Что почитать?

* Главное чтение — гл. 7 (особенно раздел 7.5, стр. 145) и 9 (стр. 177) в [Speech & Language Processing](https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf).
* Хорошее краткое описание RNN есть [в вики-конспектах университета ИТМО](http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%BA%D1%83%D1%80%D1%80%D0%B5%D0%BD%D1%82%D0%BD%D1%8B%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5_%D1%81%D0%B5%D1%82%D0%B8).
* [Статья на Medium'e](https://medium.com/nyu-a3sr-data-science-team/simple-recurrent-neural-networks-2df362ae0a39) (по-английски)

## Практика

Напишем RNN для генерации названий динозавтров на PyTorch. Вот так будет выглядеть архитектура нашей сети.

![rnn](img/dinos3.png)

In [1]:
import numpy as np
import random
import torch
import torch.nn as nn
import torch.optim as optim
import pdb
from torch.utils.data import Dataset, DataLoader

%load_ext autoreload
%autoreload 2

torch.set_printoptions(linewidth=200)

In [2]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
hidden_size = 50

In [5]:
class DinosDataset(Dataset):
    def __init__(self):
        super().__init__()
        with open('./data/dinos.txt') as f:
            content = f.read().lower()
            self.vocab = sorted(set(content))
            self.vocab_size = len(self.vocab)
            self.lines = content.splitlines()
        self.ch_to_idx = {c:i for i, c in enumerate(self.vocab)}
        self.idx_to_ch = {i:c for i, c in enumerate(self.vocab)}
    
    def __getitem__(self, index):
        line = self.lines[index]
        #teacher forcing
        x_str = line
        y_str = line[1:] + '\n'
        x = torch.zeros([len(x_str), self.vocab_size], dtype=torch.float)
        y = torch.empty(len(x_str), dtype=torch.long)
        for i, (x_ch, y_ch) in enumerate(zip(x_str, y_str)):
            x[i][self.ch_to_idx[x_ch]] = 1
            y[i] = self.ch_to_idx[y_ch]
        
        return x, y
    
    def __len__(self):
        return len(self.lines)

In [6]:
trn_ds = DinosDataset()
trn_dl = DataLoader(trn_ds, shuffle=True)

In [7]:
print(trn_ds.lines[1])

aardonyx


In [8]:
print(trn_ds.ch_to_idx)

{'\n': 0, 'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 6, 'g': 7, 'h': 8, 'i': 9, 'j': 10, 'k': 11, 'l': 12, 'm': 13, 'n': 14, 'o': 15, 'p': 16, 'q': 17, 'r': 18, 's': 19, 't': 20, 'u': 21, 'v': 22, 'w': 23, 'x': 24, 'y': 25, 'z': 26}


In [9]:
x, y = trn_ds[1]
print(x)
print(y)

tensor([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.]])
tensor([ 1, 18,  4, 15, 14, 25, 24,  0])


In [10]:
class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
        self.dropout = nn.Dropout(0.3)
        self.i2o = nn.Linear(input_size + hidden_size, output_size)
    
    def forward(self, h_prev, x):
        combined = torch.cat([h_prev, x], dim = 1) # конкатенируем вектора состояния и входа
        h = torch.tanh(self.dropout(self.i2h(combined)))
        y = self.i2o(combined)
        return h, y

In [11]:
model = RNN(trn_ds.vocab_size, hidden_size, trn_ds.vocab_size).to(device)
loss_fn = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=1e-2)

In [12]:
def print_sample(sample_idxs):
    [print(trn_ds.idx_to_ch[x], end='') for x in sample_idxs]

In [13]:
def sample(model):
    model.eval()
    word_size=0
    newline_idx = trn_ds.ch_to_idx['\n']
    with torch.no_grad():
        h_prev = torch.zeros([1, hidden_size], dtype=torch.float, device=device)
        x = h_prev.new_zeros([1, trn_ds.vocab_size])
        start_char_idx = random.randint(1, trn_ds.vocab_size-1)
        indices = [start_char_idx]
        x[0, start_char_idx] = 1
        predicted_char_idx = start_char_idx
        
        while predicted_char_idx != newline_idx and word_size != 50:
            h_prev, y_pred = model(h_prev, x)
            y_softmax_scores = torch.softmax(y_pred, dim=1)
            
            np.random.seed(np.random.randint(1, 5000))
            idx = np.random.choice(np.arange(trn_ds.vocab_size), p=y_softmax_scores.cpu().numpy().ravel())
            indices.append(idx)
            
            x = (y_pred == y_pred.max(1)[0]).float()
            predicted_char_idx = idx
            
            word_size += 1
        
        if word_size == 50:
            indices.append(newline_idx)
    return indices

In [14]:
def train_one_epoch(model, loss_fn, optimizer):
    model.train()
    for line_num, (x, y) in enumerate(trn_dl):
        loss = 0
        optimizer.zero_grad()
        h_prev = torch.zeros([1, hidden_size], dtype=torch.float, device=device)
        x, y = x.to(device), y.to(device)
        for i in range(x.shape[1]):
            h_prev, y_pred = model(h_prev, x[:, i])
            loss += loss_fn(y_pred, y[:, i])
            
        if (line_num+1) % 100 == 0:
            print_sample(sample(model))
        loss.backward()
        optimizer.step()

In [15]:
def train(model, loss_fn, optimizer, dataset='dinos', epochs=1):
    for e in range(1, epochs+1):
        print('Epoch:{}'.format(e))
        train_one_epoch(model, loss_fn, optimizer)
        print()

In [16]:
%time train(model, loss_fn, optimizer, epochs = 50)

Epoch:1
zlorya
gepaic
ttxas
rbpanrus
lftagaoaurusuusus
rcterauhus
lwscnrus
bblrbaurus
elcltvaurus
mtlianhrus
pbtrsllhurus
krstaauius
brltaauras
mtlhbmcrus
jasrsanrusaurus

Epoch:2
mamiahraeurls
onanesaurus
nyrreoshurus
vytiosncrur
osashsalruc
ldtgmcglrus
harssaurus
uslsouaus
qgsaonocrus
zkhtlnaumus
gucsrsaurusaurusaaroe
esatisa
zsnaohiuros
qivoudssaurus
cyrmrsoarur

Epoch:3
ytbpisaurui
yctgmcglrus
xastsaurus
osgrruagna
qtboisauruc
taranasaurus
qttolkoppturus
yaniangurus
iarianaurus
danwosaurus
ornnuoraurds
jacsasaurus
jalgsnacras
goudrseurus
pyrjriuaus

Epoch:4
ngsaurua
zrnaraurum
hamyrolrus
oiosttsistoc
chabtataunus
mamgsaunus
yxnteskurus
urytsosncrus
drcsisaurua
fetgicierus
lasosnaurus
nisosapaurus
gfuaasabrus
xiarbnsurus
zsngosaurus

Epoch:5
buaisauris
euadopalhor
varasrrudtos
uluscysus
xuanicaurus
iaeoobaurus
gtbiusourus
jenniuaurus
anranlerus
papmbanrus
xsanuosaurus
shurusaurur
wicgschuris
chachopl
yucgxrnurus

Epoch:6
tesooturus
vamichs
voltcerl
epathnasaurus
drroniosaurus
wubgoc

gyroospcrus

Epoch:43
rucontgrus
piktmr
ntcososeots
jinorturus
hamlcaurus
dacpnaonhurus
hevoogostor
nokysaurus
vecesaravaar
namnqhnaurus
kuittosaurus
nitoucosaurus
bucatacrus
ylasantosaurus
usoiviurus

Epoch:44
ceparoguptdr
sabmcorapops
gosgsshurus
vuritorantir
nasaucasacrus
dicoantsourus
tetjnvosaurus
galoaoes
saroaonoahauasuurus
yunhshurus
irtaonaisaurus
wrlaeootops
beuiucsaurus
ilutsaurus
tamoasaurus

Epoch:45
uaoriur
osamtntpaurus
krnyongot
glnahsaurus
usiangsaurus
dyptatqsaurus
ntnoruasaurus
jirggoqaichurus
betntespurus
glypnouter
dalpcosmcrus
kilolhesaurus
qurnldosgys
vintcor
perasguaauras

Epoch:46
etaiasa
ustt
fustthsaurus
visanenrus
wapaesgbaurus
tregusourus
hapsovkurus
ginalsas
mtcdsacrus
onasaurus
nttrnerntrps
drsamgang
hulwaang
pietelashos
euatosaurus

Epoch:47
runtos
rhnblsasipad
xiangong
qualurourus
ceoonvoratops
palocolosrus
rictopaurus
wuksrsaurus
esitrrapter
zaucodatods
queicrdguit
ososaurus
juannucg
paltcrnpfrus
qucripaurus

Epoch:48
rucousaurus
kurjtoaracrus
onoanio


## Задание №2
Измените код выше так, чтобы генерировались панграммы – имена динозавров, не содержащие повторяющихся букв.

## Использование LSTM

**Долгая краткосрочная память** *(long short-term memory; LSTM)* – особая разновидность архитектуры рекуррентных нейронных сетей, способная к обучению долговременным зависимостям. 

* [Подробное объяснение по-английски](http://colah.github.io/posts/2015-08-Understanding-LSTMs/)
* [Подробное объяснение по-русски](https://habr.com/ru/company/wunderfund/blog/331310/) (перевод английской статьи)


![lstm](img/understanding_lstms.jpg)

In [17]:
class LSTM(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(LSTM, self).__init__()
        self.linear_f = nn.Linear(input_size + hidden_size, hidden_size)
        self.linear_u = nn.Linear(input_size + hidden_size, hidden_size)
        self.linear_c = nn.Linear(input_size + hidden_size, hidden_size)
        self.linear_o = nn.Linear(input_size + hidden_size, hidden_size)
        
        self.i2o = nn.Linear(hidden_size, output_size)
        
    def forward(self, c_prev, h_prev, x):
        combined = torch.cat([x, h_prev], 1)
        f = torch.sigmoid(self.linear_f(combined))
        u = torch.sigmoid(self.linear_u(combined))
        c_tilde = torch.tanh(self.linear_c(combined))
        c = f*c_prev + u*c_tilde
        o = torch.sigmoid(self.linear_o(combined))
        h = o*torch.tanh(c)
        y = self.i2o(h)
        
        return c, h, y

In [18]:
model = LSTM(trn_ds.vocab_size, hidden_size, trn_ds.vocab_size).to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-2)

In [19]:
def sample(model):
    model.eval()
    with torch.no_grad():
        c_prev = torch.zeros([1, hidden_size], dtype=torch.float, device=device)
        h_prev = torch.zeros_like(c_prev)
        idx = random.randint(1, 26)
        x = c_prev.new_zeros([1, trn_ds.vocab_size])
        x[0, idx] = 1
        sampled_indexes = [idx]
        n_chars = 1
        newline_char_idx = trn_ds.ch_to_idx['\n']
        while n_chars != 50 and idx != newline_char_idx:
            c_prev, h_prev, y_pred = model(c_prev, h_prev, x)
            
            np.random.seed(np.random.randint(1, 5000))
            idx = np.random.choice(np.arange(trn_ds.vocab_size), p=torch.softmax(y_pred, 1).cpu().numpy().ravel())
            sampled_indexes.append(idx)
            
            x = (y_pred == y_pred.max(1)[0]).float()
            
            n_chars += 1
            
            if n_chars == 50:
                sampled_indexes.append(newline_char_idx)
                
    model.train()
    return sampled_indexes

In [20]:
def train_one_epoch(model, loss_fn, optimizer):
    model.train()
    for line_num, (x, y) in enumerate(trn_dl):
        loss = 0
        optimizer.zero_grad()
        c_prev = torch.zeros([1, hidden_size], dtype=torch.float, device=device)
        h_prev = torch.zeros_like(c_prev)
        x, y = x.to(device), y.to(device)
        for i in range(x.shape[1]):
            c_prev, h_prev, y_pred = model(c_prev, h_prev, x[:, i])
            loss += loss_fn(y_pred, y[:, i])
            
        if (line_num+1) % 100 == 0:
            print_sample(sample(model))
        loss.backward()
        optimizer.step()

In [22]:
train(model, loss_fn, optimizer, epochs = 50)

Epoch:1
yancnaurus
rasmasaurus
tanynsnaurus
lonuuaurus
libasasaurus
aboasaurus
avtrgosaurus
uttosmurus
tetasis
xexjaansca
vidosiratops
arkhumorniahodaurus
ubetocaurus
vikositaptor
ssnovaurus

Epoch:2
aniamturus
elsacrus
tecrchyrpurus
ceiogysgosaurus
grdtoteo
chbamrpaurus
zhuciengoaurus
mirtanmaurus
mocdonainaurus
jivataosn
ugerouaurus
perahoasgsaurus
zatcmaor
yunsdaurus
coiwnihusgosaurus

Epoch:3
viaatrangosaurus
tiuarssaurus
grllixeameipelto
laphaniauras
pawamosaurus
yotoitotan
echopatops
ulaoatopeobrus
barosontosaurus
galoenoptor
wanlardsurus
yitnserosaurus
qunouuagodaurus
fakuiaaurus
lobitosaptor

Epoch:4
donkvaurus
eonaurus
dracrpaurus
marhisaurus
megromturus
haanbhhanlung
ciaocteocaurus
zaunhengpsaurus
majhairasaurus
abchieodnishosaurus
prrcwtsauras
palodochpatops
juandsnanoturus
elrpurunslta
diahrisaurus

Epoch:5
ablhsaurus
kunyaosaurus
synmospurus
euaonodhess
rashecscsaurus
euohrpurus
ertalaurus
keuaarocaurus
rocporoisus
beochytirosa
deahoaosaurus
giguntosaurus
mostelrsaurus
uta

KeyboardInterrupt: 

## Задание №3
Написать функцию ```get_prob()```, оценивающую веростность порождения одной строки (из файла) и найти самую вероятную строку, порождаемую каждой из трех языковых моделей.


## Источники

1. [Speech & Language Processing](https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf)
2. [Динозавры – 1](https://github.com/furkanu/deeplearning.ai-pytorch/tree/master/5-%20Sequence%20Models/Week%201/Dinosaur%20Island%20--%20Character-level%20language%20model)
3. [Динозавры – 2](https://github.com/Kulbear/deep-learning-coursera/blob/master/Sequence%20Models/Dinosaurus%20Island%20--%20Character%20level%20language%20model%20final%20-%20v3.ipynb)
4. [Статья, объясняющая LSTM](http://colah.github.io/posts/2015-08-Understanding-LSTMs/)

## BERT, ELMo, ULMFiT

1. [BERT, ELMo & Co в картинках](http://jalammar.github.io/illustrated-bert/)
2. ELMo — Embeddings from Language Models
    * [Слайды про ELMo](https://www.slideshare.net/shuntaroy/a-review-of-deep-contextualized-word-representations-peters-2018)
    * [Оригинальная статья](https://arxiv.org/abs/1802.05365)
    * [Англоязычное объяснение на towardsdatascience](https://towardsdatascience.com/elmo-contextual-language-embedding-335de2268604)
3. BERT — Bidirectional Encoder Representations from Transformers
    * [Русскоязычный тьюториал по BERT](https://habr.com/ru/post/436878/)
    * [Оригинальная статья](https://arxiv.org/abs/1810.04805)
    * [Англоязычное объяснение на towardsdatascience](https://towardsdatascience.com/bert-explained-state-of-the-art-language-model-for-nlp-f8b21a9b6270)
4. ULMFiT — Universal Language Model Fine-Tuning
    * [Оригинальная статья](https://arxiv.org/abs/1801.06146)
    * [Англоязычный тьюториал](https://www.analyticsvidhya.com/blog/2018/11/tutorial-text-classification-ulmfit-fastai-library/)
    * [Подробный разбор на английском](https://medium.com/mlreview/understanding-building-blocks-of-ulmfit-818d3775325b)