# AI Community @ Семинар № 3, весна 2018
## Языковые модели
На прошлых занятиях мы смотрели на документ как на набор тремов. На этом занятии мы рассмотрим их с другой стороны — на языке (pun not intended) языковых моделей.  
__(Униграмной) языковой моделью__ документа будем называть распределение вероятностей встретить в документе его термы. Пусть $V$ — словарь термов, $w \in V$ — слово, тогда $P_d(w)$ — языковая модель документа $d$.  
По сути, это определение эквивалентно использованию мешка слов с отнормированными весами слов относительно их частоты:  
$$ d = \text{"Ехал Грека через реку, видит Грека в реке рак."}  $$
$$ |d| = 9 $$
$$ P_d(\text{"Грека"}) = \frac{2}{9} $$
$$ P_d(\text{"через"}) = \frac{1}{9} $$
Усложним. __n-грамной__ языковой моделью называется распределение вероятностей на кортежах слов из $n$ термов ($P_d(w_1, ..., w_n)$). Вот пример биграмной модели:
$$ P_d(\text{"Грека"}, \text{"в"}) = \frac{1}{8}$$ 
$$ P_d(\text{"сунул"}, \text{"Грека"}) = \frac{1}{8}$$
Далее индекс конкретного документа опустим.  
Если вспомнить определение условной вероятности, то можно выписать следующее:
$$ P(w_1, \dots, w_n) = P(w_1) \cdot P(w_2 | w_1) \cdot \dots \cdot P(w_n | w_1, \dots, w_{n-1}) = \prod_{i = 1}^{|d|} P(w_t | w_1, \dots, w_{t-1})$$
Таким образом, задача построения такой модели сводится к нахождению распределения следующего слова при условии того, что известны ему предшествующие.

Рассмотрим на практике. Библиотека PyMarkovChain строит по тексту его биграмную и униграмную языковые модели, а затем строит граф между всеми словами в документе. От $w_i$ до $w_j$ проводится ребро, если в тексте есть хотя бы одна биграмма $w_i, w_j$, а ее вес равен $P(w_j | w_i)$. В таком графе у каждой вершины суммарный вес всех выходящих из нее ребер равен единице — такой граф еще называют марковской цепью, отсюда и название.  
При помощи такого графа можно случайно генерировать фразы, например начав в какой-нибудь вершине-истоке (в которую ни входят никакие ребра) и закончив в вершине-стоке (наоборот, никакие ребра не выходят.)

In [1]:
!pip3 install pymarkovchain



In [1]:
from pymarkovchain import MarkovChain

from util import read_horoscopes

In [2]:
def get_markov_chain_horoscopes(tokenize=False):
    unified_horoscopes = read_horoscopes(tokenize)
    chain = MarkovChain()
    chain.generateDatabase(unified_horoscopes)
    return chain

In [3]:
chain = get_markov_chain_horoscopes()

In [17]:
chain.generateStringWithSeed('ждет')

'ждет поворот в личной жизни ничего критического звезды не рекомендуют рисковать или заниматься несколькими делами одновременно'