# Семинар 17

# Языковые модели

Какое слово в последовательности вероятнее: 

Поезд прибыл на
* вокзал
* север

Какая последовательность вероятнее:
* Вокзал прибыл поезд на
* Поезд прибыл на вокзал

Языковая модель [language model, LM]  позволяет оценить вероятность следующего слова в последовательности  $P(w_n | w_1, \ldots, w_{n-1})$ и оценить вероятность всей последовательности слов $P(w_1, \ldots, w_n)$.

### Приложения:
* Задачи, в которых нужно обработать сложный и зашумленный вход: распознавание речи, распознавание сканированных и рукописных текстов;
* Исправление опечаток
* Машинный перевод
* Подсказка при наборе 

### Виды моделей:
* Счетные модели
    * цепи Маркова
* Нейронные модели, обычно реккурентные нейронные сети с LSTM/GRU
* seq2seq архитектуры

## Модель $n$-грам

Пусть $w_{1:n}=w_1,\ldots,w_m$ – последовательность слов.

Цепное правило:
$ P(w_{1:m}) = P(w_1) P(w_2 | w_1) P(w_3 | w_{1:2}) \ldots P(w_m | w_{1:m-1}) = \prod_{k=1}^{m} P(w_k | w_{1:k-1}) $

Но оценить $P(w_k | w_{1:k-1})$ не легче! 

Переходим к $n$-грамам: $P(w_{i+1} | w_{1:i}) \approx P(w_{i+1} | w_{i-n:i})  $ , то есть, учитываем $n-1$ предыдущее слово. 

Модель
* униграм: $P(w_k)$
* биграм: $P(w_k | w_{k-1})$
* триграм: $P(w_k | w_{k-1} w_{k-2})$


Т.е. используем Марковские допущения о длине запоминаемой цепочки.

* Вероятность следующего слова в последовательности: $ P(w_{i+1} | w_{1:i}) \approx P(w_{i-n:i}) $
* Вероятность всей последовательности слов: $P(w_{1:n}) = \prod_{k=1}^l P(w_k | w_{k-n+1: k-1}) $

### Качество модели  $n$-грам

Perplexity: насколько хорошо модель предсказывает выборку. Чем ниже значение perplexity, тем лучше.

$PP(\texttt{LM}) = 2 ^ {-\frac{1}{m} \log_2 \texttt{LM} (w_i | w_{1:i-1})}$

## Счетные языковые модели

### ММП оценки вероятностей
$ P_{MLE}(w_k | w_{k-n+1:k-1}) = \frac{\texttt{count}(w_{k-n+1:k-1} w_k )}{\texttt{count}(w_{k-n+1:k-1} )} $

В модели биграм:

$ P_{MLE}(w_k | w_{k-1}) = \frac{\texttt{count}(w_{k-1} w_k )}{\texttt{count}(w_{k-1} )} $

Возникает проблема нулевых вероятностей!

### Аддитивное сглаживание Лапласа

$ P(w_k | w_{k-1}) = \frac{\texttt{count}(w_{k-1} w_k ) + \alpha}{\texttt{count}(w_{k-1} ) + \alpha |V|} $

![AiB](https://raw.githubusercontent.com/artemovae/nlp-course-sberbank/e70ab4acb696c00e170ea91d1bb28fd9ba31c170/img/aib.png)  

BOS А и Б сидели на трубе EOS

BOS А упало Б пропало EOS

BOS что осталось на трубе EOS




$P($ и $| $ A $) = \frac{1}{2}$

$P($ Б $| $ и $) = \frac{1}{1}$

$P($ трубе $| $ на $) = \frac{2}{2}$

$P($ сидели $| $ Б $) = \frac{1}{2}$

$P($ на $| $ сидели $) = \frac{1}{2}$


## Модели биграм в NLTK

In [None]:
import nltk
import numpy as np

In [None]:
BOS = '<'
EOS = '>'
names = [BOS + name.strip().lower() + EOS for name in open('dinos.txt').readlines()]
idx = np.random.randint(len(names), size=10)
for i in idx:
    print(names[i])

In [None]:
chars = [char for name in names for char in name]
freq = nltk.FreqDist(chars)

print(list(freq.keys()))

In [None]:
freq

In [None]:
cfreq = nltk.ConditionalFreqDist(nltk.bigrams(chars))
cfreq['a']

In [None]:
cfreq

In [None]:
cprob = nltk.ConditionalProbDist(cfreq, nltk.MLEProbDist)
print('p(a a) = %1.4f' %cprob['a'].prob('a'))
print('p(a b) = %1.4f' %cprob['a'].prob('b'))
print('p(a u) = %1.4f' %cprob['a'].prob('u'))

In [None]:
cprob

In [None]:
total = sum([freq[char] for char in freq])
def unigram_prob(char):
    return freq[char] / total
print('p(a) = %1.4f' %unigram_prob('a'))

In [None]:
[bi for bi in nltk.bigrams('<aachenosaurus>')]

#### Задание 1

1. Напишите функцию для оценки вероятности имени динозавра. 

In [None]:
def calculate_prob(name, cprob):
    # ( ͡° ͜ʖ ͡°)
    return prob

names = ['<sdfdsfsdfsss>', '<tyrannosaurus>', '<rihanna>', '<schwarzenegger>', '<triceratops>']
for name in names:
    print(name, calculate_prob(name, cprob))

Примените сглаживание Лапласа и посмотрите, что изменилось.

In [None]:
# сглаживание Лапласа
cfreq_laplace = nltk.ConditionalFreqDist(nltk.bigrams(chars))
for char1 in set(chars):
    for char2 in set(chars):
        cfreq_laplace[char1][char2] += 1
cprob_laplace = nltk.ConditionalProbDist(cfreq_laplace, nltk.MLEProbDist)

names = ['<sdfdsfsdfsss>', '<tyrannosaurus>', '<rihanna>', '<schwarzenegger>', '<triceratops>']
for name in names:
    print(name, calculate_prob(name, cprob_laplace))

#### Задание 2

Напишите функцию для генерации нового имени динозавра и сгенерируйте имена динозавров с помощью двух построенных ранее моделей.

In [None]:
cprob["a"].generate()

In [None]:
def generate(cprob):
    # ( ͡° ͜ʖ ͡°)
    return name

for _ in range(10):
    print(generate(cprob))

In [None]:
for _ in range(10):
    print(generate(cprob_laplace))

# Anybody wants to become a songwriter?

from here https://www.kaggle.com/mousehead/songlyrics

In [None]:
import pandas as pd
import re

data = pd.read_csv('songdata.csv')

In [None]:
texts = [BOS + ' ' + re.sub('\s+', ' ', text) + ' ' + EOS for text in data['text'].values]

words = [word for text in texts for word in text.split()]
cfreq = nltk.ConditionalFreqDist(nltk.bigrams(words))
cprob = nltk.ConditionalProbDist(cfreq, nltk.MLEProbDist)

In [None]:
def generate():
    # ( ͡° ͜ʖ ͡°)
    return text

print(generate())

## Самостоятельная работа

Теперь вы можете сгенерировать что угодно, ваша задача - придумать, что именно, и найти данные :)

In [None]:
# ( ͡° ͜ʖ ͡°)