# Языковые модели

**Языковая модель** *(language model, LM)* позволяет оценить вероятность последовательности слов (токенов). 

$$P(W)=P\left(w_{1}, w_{2}, w_{3}, \dots, w_{n}\right)$$

Как следствие, с помощью языковой модели можно предсказать вероятность следующего слова в последовательности.

$$P\left(w_{5} | w_{1}, w_{2}, w_{3}, w_{4}\right)$$


Какая последовательность вероятнее? 

Поезд прибыл на
* вокзал
* север

Какая последовательность вероятнее?
* Вокзал прибыл поезд на
* Поезд прибыл на вокзал

### Применение

* Генерация текста
* Распознавание речи
* OCR 
* Машинный перевод
* Исправление опечаток
* Определениt языка
* Определение части речи (POS-tagging)
* ...

[Презентация Мурата Апишева](http://www.machinelearning.ru/wiki/images/5/5d/Mel_lain_msu_nlp_sem_2.pdf) с более подробными объяснениями и более сложными теоретическими вещами про языковые модели. Кое-что из этой презентации есть в теоретической части этой тетрадки.

[Хороший тьюториал](https://towardsdatascience.com/learning-nlp-language-models-with-real-data-cdff04c51c25) по языковым моделям на *towardsdatascience*.

## Счетные языковые модели
## Модель N-грамм

Пусть $w_1,\ldots,w_m$ – последовательность слов. Тогда вероятность данной последовательности можно оценить следующм образом (**цепное правило**):

$$ P(w_{1}, \ldots, w_{m})=\prod_{i=1}^{m} P(w_{i} | w_{1}, \ldots, w_{i-1}) \approx \prod_{i=1}^{m} P(w_{i} | w_{i-(n-1)}, \ldots, w_{i-1}) $$

### Марковское свойство n-ного порядка
Запоминаем не всю цепочку, а только $n-1$ предшествующих слов. Тогда вероятностью i-того слова $w_i$ в контексте предшествущих $i − 1$ слов можно считать вероятность этого слова в сокращенном контексте предшествущих $n − 1$ слов.

Модель
* униграмм: $P(w_i)$
* биграмм: $P(w_i | w_{i-1})$
* триграмм: $P(w_i | w_{i-1} w_{i-2})$


* Вероятность i-того слова в последовательности: $P(w_{i+1} | w_1, \dots, w_i) \approx P(w_{i-n}, \dots, w_i)$
* Вероятность всей последовательности слов: $P(w_1, \dots, w_i) = \prod_{i=1}^{m} P(w_i | w_{i-n+1}, \dots, w_{i-1}) $


### Метод максимального правдоподобия 

ММП оценки вероятностей (*Maximum likelihood estimate, MLE*)

$ P(w_{i} | w_{i-(n-1)}, \ldots, w_{i-1})=\frac{\operatorname{count}(w_{i-(n-1)}, \ldots, w_{i-1}, w_{i})}{\operatorname{count}(w_{i-(n-1)}, \ldots, w_{i-1})} $

В модели биграмм:

$P_{MLE}(w_k | w_{k-1}) = \frac{\texttt{count}(w_{k-1} w_k )}{\texttt{count}(w_{k-1} )}$

### Сглаживание

#### Зачем?
* Огранниченность корпуса
* Занижена вероятность
* Вероятность равна нулю

### Методы
* Сглаживание Лапласа (add-one)
* Сглаживание Кнесера-Нея (Kneser-Ney)
* Сглаживание Виттена-Белла (Witten-Bell)
* Сглаживание Гуда-Тьюринга (Good-Turing)
* Интерполяция
* Откат (backoff)

### Аддитивное сглаживание Лапласа

Просто добавляем 1 к встречаемости каждой N-граммы.

$ P(w_k | w_{k-1}) = \frac{\texttt{count}(w_{k-1} w_k ) + \alpha}{\texttt{count}(w_{k-1} ) + \alpha |V|} $

$|V|$ — размер словаря

### Откат 

**Katz smoothing** (простой откат): если не получается применить модель высокого порядка, пробуем для данного слова модель меньшего порядка с понижающим множителем. 

Но получим не вероятностное распределение!


### Качество модели  $n$-грамм

**Перплексия** — насколько хорошо модель предсказывает выборку. Чем ниже значение перплексии, тем лучше.

$PP(\texttt{LM}) = b^{{-{\frac  {1}{N}}\sum _{{i=1}}^{N}\log _{b}\texttt{LM}(x_{i})}}$,

$N$ — длина корпуса<br>$x_i$ — i-тое слово в корпусе<br>LM(x) — предсказание вероятности языковой моделью<br>b — некоторая константа, обычно 2

### Модель униграмм (модель мешка слов)

В такой модели вероятность слова в последовательности зависит исключительно от вероятности этого слова в корпусе, т.е. контекст не учитывается.

$ P(w_{1}, \ldots, w_{n}) \approx \prod_{i} P(w_{i}w_{i-2}) $

### Модель биграмм

Каждое слово зависит от одного предыдущего слова.

$ P\left(w_{i} | w_{1} w_{2}, \ldots w_{i}-1\right) \approx P\left(w_{i} | w_{i-1}\right) $

### Модель триграмм

Каждое слово зависит от двух предыдущих слов.

$P\left(w_{i} | w_{1} w_{2}, \ldots w_{i}-1\right) \approx P\left(w_{i} | w_{i-1}\right)$

## Модели N-грамм в NLTK

Вероятностные распределения в NLTK: https://www.nltk.org/_modules/nltk/probability.html

<img src="./img/freqdist.png" width="700" align="left">

<img src="./img/condfreqdist.png" width="800" align="left">

<img src="./img/condfreqdist2.png" width="750" align="left">

<img src="./img/mleprobdist.png" width="750" align="left">

In [11]:
from nltk import FreqDist, ConditionalFreqDist, ConditionalProbDist, MLEProbDist
from nltk import bigrams, trigrams

with open('./data/dinos.txt', 'r', encoding='utf-8') as f:
    data = f.readlines()
names = [name.strip().lower() for name in data]
names[:10]

['aachenosaurus',
 'aardonyx',
 'abdallahsaurus',
 'abelisaurus',
 'abrictosaurus',
 'abrosaurus',
 'abydosaurus',
 'acanthopholis',
 'achelousaurus',
 'acheroraptor']

In [12]:
chars = [char  for name in names for char in name]
freq = FreqDist(chars)

print(list(freq.keys()))

['a', 'c', 'h', 'e', 'n', 'o', 's', 'u', 'r', 'd', 'y', 'x', 'b', 'l', 'i', 't', 'p', 'v', 'm', 'g', 'f', 'j', 'k', 'w', 'z', 'q']


In [13]:
cfreq = ConditionalFreqDist(bigrams(chars))
print(cfreq['a'])

<FreqDist with 26 samples and 2487 outcomes>


In [15]:
cprob = ConditionalProbDist(cfreq,MLEProbDist)
print('p(a a) = %1.4f' %cprob['a'].prob('a'))
print('p(a b) = %1.4f' %cprob['a'].prob('b'))
print('p(a u) = %1.4f' %cprob['a'].prob('u'))

p(a a) = 0.0105
p(a b) = 0.0129
p(a u) = 0.3185


In [16]:
l = sum([freq[char] for char in freq])

def unigram_prob(char):
    return freq[char] / l

print('p(a) = %1.4f' %unigram_prob('a'))

p(a) = 0.1354


Можно порождать случайные символы с учётом предыдущих.

In [17]:
cprob['a'].generate()

's'

## Задание №1

1. Напишите функцию для генерации нового имени динозавра фиксированной длины.
2. Обучите модель триграмм на данных любой газеты (например, "Полярный круг", которая выложена в папке data). Какой корпус понадобится: лемматизированный или нет? Понадобится ли пунктуация?
3. Напишите функцию, которая будет оценивать вероятность следующего слова для данной последовательности и функцию, которая будет предсказывать самое вероятное следующее слово для данной последовательности. 

## Нейросетевые модели

## Рекуррентные нейронные языковые модели

RNN позволяют уйти от Марковских допущений и позволяют учитывать предысторию произвольной длины.

$x_{1:n} = x_1, x_2, \ldots, x_n$, $x_i \in \mathbb{R}^{d_{in}}$

$y_n = RNN(x_{1:n})$, $y_n \in \mathbb{R}^{d_{out}}$

Для каждого префикса $x_{i:i}$ $y_i$ – выходной вектор.

$y_i = RNN(x_{1:i})$

$y_{1:n} = RNN^{*}(x_{1:n})$, $y_i \in \mathbb{R}^{d_{out}}$

$R$ –  рекурсивная функция с двумя входами: $x_i$ и $s_{i-1}$ (вектор состояния)

$RNN^{*}(x_{1:n}, s_0) = y_{1:n}$

$y_i = O(s_i)$

$s_i = R(s_{i-1}, x_i)$

$s_i = R(s_{i-1}, x_i) = g(s_{i-1}* W^s + x_i W^x +b)$

$x_i \in \mathbb{R}^{d_{in}}$, $y_i \in \mathbb{R}^{d_{out}}$, $s_i \in \mathbb{R}^{d_{out}}$

$W^x \in \mathbb{R}^{d_{in} \times d_{in}}$, $W^s \in \mathbb{R}^{d_{out} \times d_{out}}$

![rnn](img/rnn.png)

In [1]:
import numpy as np
import random
import torch
import torch.nn as nn
import torch.optim as optim
import pdb
from torch.utils.data import Dataset, DataLoader

%load_ext autoreload
%autoreload 2

torch.set_printoptions(linewidth=200)

In [2]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
hidden_size = 50

In [5]:
class DinosDataset(Dataset):
    def __init__(self):
        super().__init__()
        with open('./data/dinos.txt') as f:
            content = f.read().lower()
            self.vocab = sorted(set(content))
            self.vocab_size = len(self.vocab)
            self.lines = content.splitlines()
        self.ch_to_idx = {c:i for i, c in enumerate(self.vocab)}
        self.idx_to_ch = {i:c for i, c in enumerate(self.vocab)}
    
    def __getitem__(self, index):
        line = self.lines[index]
        #teacher forcing
        x_str = line
        y_str = line[1:] + '\n'
        x = torch.zeros([len(x_str), self.vocab_size], dtype=torch.float)
        y = torch.empty(len(x_str), dtype=torch.long)
        for i, (x_ch, y_ch) in enumerate(zip(x_str, y_str)):
            x[i][self.ch_to_idx[x_ch]] = 1
            y[i] = self.ch_to_idx[y_ch]
        
        return x, y
    
    def __len__(self):
        return len(self.lines)

In [6]:
trn_ds = DinosDataset()
trn_dl = DataLoader(trn_ds, shuffle=True)

In [7]:
print(trn_ds.lines[1])

aardonyx


In [8]:
print(trn_ds.ch_to_idx)

{'\n': 0, 'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5, 'f': 6, 'g': 7, 'h': 8, 'i': 9, 'j': 10, 'k': 11, 'l': 12, 'm': 13, 'n': 14, 'o': 15, 'p': 16, 'q': 17, 'r': 18, 's': 19, 't': 20, 'u': 21, 'v': 22, 'w': 23, 'x': 24, 'y': 25, 'z': 26}


In [9]:
x, y = trn_ds[1]
print(x)
print(y)

tensor([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.]])
tensor([ 1, 18,  4, 15, 14, 25, 24,  0])


![rnn](img/dinos3.png)

In [10]:
class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
        self.dropout = nn.Dropout(0.3)
        self.i2o = nn.Linear(input_size + hidden_size, output_size)
    
    def forward(self, h_prev, x):
        combined = torch.cat([h_prev, x], dim = 1) # конкатенируем вектора состояния и входа
        h = torch.tanh(self.dropout(self.i2h(combined)))
        y = self.i2o(combined)
        return h, y

In [11]:
model = RNN(trn_ds.vocab_size, hidden_size, trn_ds.vocab_size).to(device)
loss_fn = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=1e-2)

In [12]:
def print_sample(sample_idxs):
    [print(trn_ds.idx_to_ch[x], end='') for x in sample_idxs]

In [13]:
def sample(model):
    model.eval()
    word_size=0
    newline_idx = trn_ds.ch_to_idx['\n']
    with torch.no_grad():
        h_prev = torch.zeros([1, hidden_size], dtype=torch.float, device=device)
        x = h_prev.new_zeros([1, trn_ds.vocab_size])
        start_char_idx = random.randint(1, trn_ds.vocab_size-1)
        indices = [start_char_idx]
        x[0, start_char_idx] = 1
        predicted_char_idx = start_char_idx
        
        while predicted_char_idx != newline_idx and word_size != 50:
            h_prev, y_pred = model(h_prev, x)
            y_softmax_scores = torch.softmax(y_pred, dim=1)
            
            np.random.seed(np.random.randint(1, 5000))
            idx = np.random.choice(np.arange(trn_ds.vocab_size), p=y_softmax_scores.cpu().numpy().ravel())
            indices.append(idx)
            
            x = (y_pred == y_pred.max(1)[0]).float()
            predicted_char_idx = idx
            
            word_size += 1
        
        if word_size == 50:
            indices.append(newline_idx)
    return indices

In [14]:
def train_one_epoch(model, loss_fn, optimizer):
    model.train()
    for line_num, (x, y) in enumerate(trn_dl):
        loss = 0
        optimizer.zero_grad()
        h_prev = torch.zeros([1, hidden_size], dtype=torch.float, device=device)
        x, y = x.to(device), y.to(device)
        for i in range(x.shape[1]):
            h_prev, y_pred = model(h_prev, x[:, i])
            loss += loss_fn(y_pred, y[:, i])
            
        if (line_num+1) % 100 == 0:
            print_sample(sample(model))
        loss.backward()
        optimizer.step()

In [15]:
def train(model, loss_fn, optimizer, dataset='dinos', epochs=1):
    for e in range(1, epochs+1):
        print('Epoch:{}'.format(e))
        train_one_epoch(model, loss_fn, optimizer)
        print()

In [16]:
%time train(model, loss_fn, optimizer, epochs = 50)

Epoch:1
zlorya
gepaic
ttxas
rbpanrus
lftagaoaurusuusus
rcterauhus
lwscnrus
bblrbaurus
elcltvaurus
mtlianhrus
pbtrsllhurus
krstaauius
brltaauras
mtlhbmcrus
jasrsanrusaurus

Epoch:2
mamiahraeurls
onanesaurus
nyrreoshurus
vytiosncrur
osashsalruc
ldtgmcglrus
harssaurus
uslsouaus
qgsaonocrus
zkhtlnaumus
gucsrsaurusaurusaaroe
esatisa
zsnaohiuros
qivoudssaurus
cyrmrsoarur

Epoch:3
ytbpisaurui
yctgmcglrus
xastsaurus
osgrruagna
qtboisauruc
taranasaurus
qttolkoppturus
yaniangurus
iarianaurus
danwosaurus
ornnuoraurds
jacsasaurus
jalgsnacras
goudrseurus
pyrjriuaus

Epoch:4
ngsaurua
zrnaraurum
hamyrolrus
oiosttsistoc
chabtataunus
mamgsaunus
yxnteskurus
urytsosncrus
drcsisaurua
fetgicierus
lasosnaurus
nisosapaurus
gfuaasabrus
xiarbnsurus
zsngosaurus

Epoch:5
buaisauris
euadopalhor
varasrrudtos
uluscysus
xuanicaurus
iaeoobaurus
gtbiusourus
jenniuaurus
anranlerus
papmbanrus
xsanuosaurus
shurusaurur
wicgschuris
chachopl
yucgxrnurus

Epoch:6
tesooturus
vamichs
voltcerl
epathnasaurus
drroniosaurus
wubgoc

gyroospcrus

Epoch:43
rucontgrus
piktmr
ntcososeots
jinorturus
hamlcaurus
dacpnaonhurus
hevoogostor
nokysaurus
vecesaravaar
namnqhnaurus
kuittosaurus
nitoucosaurus
bucatacrus
ylasantosaurus
usoiviurus

Epoch:44
ceparoguptdr
sabmcorapops
gosgsshurus
vuritorantir
nasaucasacrus
dicoantsourus
tetjnvosaurus
galoaoes
saroaonoahauasuurus
yunhshurus
irtaonaisaurus
wrlaeootops
beuiucsaurus
ilutsaurus
tamoasaurus

Epoch:45
uaoriur
osamtntpaurus
krnyongot
glnahsaurus
usiangsaurus
dyptatqsaurus
ntnoruasaurus
jirggoqaichurus
betntespurus
glypnouter
dalpcosmcrus
kilolhesaurus
qurnldosgys
vintcor
perasguaauras

Epoch:46
etaiasa
ustt
fustthsaurus
visanenrus
wapaesgbaurus
tregusourus
hapsovkurus
ginalsas
mtcdsacrus
onasaurus
nttrnerntrps
drsamgang
hulwaang
pietelashos
euatosaurus

Epoch:47
runtos
rhnblsasipad
xiangong
qualurourus
ceoonvoratops
palocolosrus
rictopaurus
wuksrsaurus
esitrrapter
zaucodatods
queicrdguit
ososaurus
juannucg
paltcrnpfrus
qucripaurus

Epoch:48
rucousaurus
kurjtoaracrus
onoanio


## Задание №2
Измените код выше так, чтобы генерировались панграммы – имена динозавров, не содержащие повторяющихся букв.

## Использование LSTM нейронов

![rnn](img/LSTM_rnn.png)

Рассмотрим один блок поближе:

![lstm](img/understanding_lstms.jpg)

In [17]:
class LSTM(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(LSTM, self).__init__()
        self.linear_f = nn.Linear(input_size + hidden_size, hidden_size)
        self.linear_u = nn.Linear(input_size + hidden_size, hidden_size)
        self.linear_c = nn.Linear(input_size + hidden_size, hidden_size)
        self.linear_o = nn.Linear(input_size + hidden_size, hidden_size)
        
        self.i2o = nn.Linear(hidden_size, output_size)
        
    def forward(self, c_prev, h_prev, x):
        combined = torch.cat([x, h_prev], 1)
        f = torch.sigmoid(self.linear_f(combined))
        u = torch.sigmoid(self.linear_u(combined))
        c_tilde = torch.tanh(self.linear_c(combined))
        c = f*c_prev + u*c_tilde
        o = torch.sigmoid(self.linear_o(combined))
        h = o*torch.tanh(c)
        y = self.i2o(h)
        
        return c, h, y

In [18]:
model = LSTM(trn_ds.vocab_size, hidden_size, trn_ds.vocab_size).to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-2)

In [19]:
def sample(model):
    model.eval()
    with torch.no_grad():
        c_prev = torch.zeros([1, hidden_size], dtype=torch.float, device=device)
        h_prev = torch.zeros_like(c_prev)
        idx = random.randint(1, 26)
        x = c_prev.new_zeros([1, trn_ds.vocab_size])
        x[0, idx] = 1
        sampled_indexes = [idx]
        n_chars = 1
        newline_char_idx = trn_ds.ch_to_idx['\n']
        while n_chars != 50 and idx != newline_char_idx:
            c_prev, h_prev, y_pred = model(c_prev, h_prev, x)
            
            np.random.seed(np.random.randint(1, 5000))
            idx = np.random.choice(np.arange(trn_ds.vocab_size), p=torch.softmax(y_pred, 1).cpu().numpy().ravel())
            sampled_indexes.append(idx)
            
            x = (y_pred == y_pred.max(1)[0]).float()
            
            n_chars += 1
            
            if n_chars == 50:
                sampled_indexes.append(newline_char_idx)
                
    model.train()
    return sampled_indexes

In [20]:
def train_one_epoch(model, loss_fn, optimizer):
    model.train()
    for line_num, (x, y) in enumerate(trn_dl):
        loss = 0
        optimizer.zero_grad()
        c_prev = torch.zeros([1, hidden_size], dtype=torch.float, device=device)
        h_prev = torch.zeros_like(c_prev)
        x, y = x.to(device), y.to(device)
        for i in range(x.shape[1]):
            c_prev, h_prev, y_pred = model(c_prev, h_prev, x[:, i])
            loss += loss_fn(y_pred, y[:, i])
            
        if (line_num+1) % 100 == 0:
            print_sample(sample(model))
        loss.backward()
        optimizer.step()

In [None]:
train(model, loss_fn, optimizer, epochs = 50)

## Задание №3
Написать функцию ```get_prob()```, оценивающую веростность порождения одной строки (из файла) и найти самую вероятную строку, порождаемую каждой из трех языковых моделей.


## Источники

1. [Динозавры – 1](https://github.com/furkanu/deeplearning.ai-pytorch/tree/master/5-%20Sequence%20Models/Week%201/Dinosaur%20Island%20--%20Character-level%20language%20model)
2. [Динозавры – 2](https://github.com/Kulbear/deep-learning-coursera/blob/master/Sequence%20Models/Dinosaurus%20Island%20--%20Character%20level%20language%20model%20final%20-%20v3.ipynb)
3. [Статья, объясняющая LSTM](http://colah.github.io/posts/2015-08-Understanding-LSTMs/)