# Языковые модели на n-граммах

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* https://www.nltk.org/api/nltk.util.html
* https://web.stanford.edu/~jurafsky/slp3/3.pdf
* https://www.youtube.com/watch?v=QGT6XTeA3YQ

## Задачи для совместного разбора

1\. Выделите из текста n-граммы.

In [None]:
text = """Вода это жидкость которая имеет свойство быть водой.
Вода состоит из молекул, которые выглядят как вода"""

In [None]:
from nltk.util import ngrams
from nltk import sent_tokenize
from nltk.tokenize import RegexpTokenizer

import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# unigrams = ngrams(text, n=1)
# unigrams = list(unigrams)
# unigrams

In [None]:
sents = sent_tokenize(text)
tokenizer = RegexpTokenizer("\w+")

unigrams = []
bigrams = []
for sent in sents:
  tokens = tokenizer.tokenize(sent.lower())
  unigrams.extend(ngrams(tokens, n=1))
  bigrams.extend(ngrams(tokens, n=2))

In [None]:
unigrams[:5]

[('вода',), ('это',), ('жидкость',), ('которая',), ('имеет',)]

In [None]:
bigrams

[('вода', 'это'),
 ('это', 'жидкость'),
 ('жидкость', 'которая'),
 ('которая', 'имеет'),
 ('имеет', 'свойство'),
 ('свойство', 'быть'),
 ('быть', 'водой'),
 ('вода', 'состоит'),
 ('состоит', 'из'),
 ('из', 'молекул'),
 ('молекул', 'которые'),
 ('которые', 'выглядят'),
 ('выглядят', 'как'),
 ('как', 'вода')]

2. Рассчитайте вероятности  $P(вода)$, $P(это|вода)$, $P(состоит|вода)$.

$$P(w_i) = \frac{C(w_i)}{N}$$
$$P(w_i|w_{i-1})=\frac{C(w_{i-1} w_i)}{C(w_{i-1})}$$

In [None]:
w = ("вода", )
c = unigrams.count(w)
N = len(unigrams)
c, N, c / N

(3, 16, 0.1875)

In [None]:
# P(это|вода)
w2 = ("вода", "это")
c2 = bigrams.count(w2)
c2, c, c2/c

# P(это)

(1, 3, 0.3333333333333333)

3. Рассчитайте вероятности  $P_L(вода)$, $P_L(это|вода)$, $P_L(состоит|вода)$.

$$P_L(w_i) = \frac{C(w_i)+1}{N+V}$$, $$P_L(w_i|w_{i-1})=\frac{C(w_{i-1} w_i)+1}{C(w_{i-1})+V}$$

In [None]:
len(set(unigrams))

14

In [None]:
# вода не
# P(не|вода) = 0
# P  = (0 + 1) / (3 + 14)

## Задачи для самостоятельного решения

In [246]:
from nltk.util import ngrams
from nltk import sent_tokenize
from nltk.tokenize import RegexpTokenizer
import pandas as pd
import re

import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

<p class="task" id="1"></p>

1\. Считайте файл `data/moya-semia/Лучше кошки зверя нет 2.csv`. Получите список предложений из сообщений. Приведите предложения к нижнему регистру и удалите все символы, кроме букв и пробелов. Получите список слов (униграмм) и биграмм.

In [247]:
df1 = pd.read_csv('Лучше кошки зверя нет 2.csv', header=None)
df1.head()

Unnamed: 0,0,1,2
0,http://forum.moya-semya.ru/index.php?app=forum...,Завтра мои котейки идут к врачу. А 21-го жду и...,Unknown
1,http://forum.moya-semya.ru/index.php?app=forum...,Котя скучает по мужу. Со вторника спит на его ...,Unknown
2,http://forum.moya-semya.ru/index.php?app=forum...,"Получилось так, что мне пришлось ""отдать"" мою ...",Unknown
3,http://forum.moya-semya.ru/index.php?app=forum...,Лучше всего для начала спросить об этом у люде...,Unknown
4,http://forum.moya-semya.ru/index.php?app=forum...,"что волонтеры принесут, то и насыпалиЗначит, к...",Unknown


In [280]:
proccessed_sents = df1[1].apply(lambda x: [re.sub(r'[^а-яё ]+', ' ', sent.lower()) for sent in sent_tokenize(x)])
proccessed_sents

0       [завтра мои котейки идут к врачу , а  го жду и...
1       [котя скучает по мужу , со вторника спит на ег...
2       [получилось так  что мне пришлось  отдать  мою...
3       [лучше всего для начала спросить об этом у люд...
4       [что волонтеры принесут  то и насыпализначит  ...
                              ...                        
1579    [надо на ночь сыпать больше корма я своим насы...
1580    [а вот когда реально голодные   кусаются , мог...
1581    [и нет  разницы  в эмоциях  человека  и кота ,...
1582    [который деньтоже запал если не пристроили   н...
1583    [хочу сказать спасибо большое тем  кто  совето...
Name: 1, Length: 1584, dtype: object

In [281]:
tokenizer = RegexpTokenizer("\w+")

all_sents = proccessed_sents.sum()
unigrams = []
bigrams = []
for sent in all_sents:
  tokens = tokenizer.tokenize(sent)
  unigrams.extend(ngrams(tokens, n=1))
  bigrams.extend(ngrams(tokens, n=2))

In [282]:
unigrams[:10], len(unigrams)

([('завтра',),
  ('мои',),
  ('котейки',),
  ('идут',),
  ('к',),
  ('врачу',),
  ('а',),
  ('го',),
  ('жду',),
  ('их',)],
 174803)

In [283]:
bigrams[:10], len(bigrams)

([('завтра', 'мои'),
  ('мои', 'котейки'),
  ('котейки', 'идут'),
  ('идут', 'к'),
  ('к', 'врачу'),
  ('а', 'го'),
  ('го', 'жду'),
  ('жду', 'их'),
  ('их', 'домой'),
  ('прошу', 'помощи')],
 160397)

<p class="task" id="2"></p>

2\. Получите распределение вероятностей для униграм $P(w_i) = \frac{C(w_i)}{N}$, где $N$ - количество униграм, $C(w_i)$ - частота использования токена $w_i$. Получите распределение условных вероятностей для биграмм $P(w_i|w_{i-1})=\frac{C(w_{i-1} w_i)}{C(w_{i-1})}$ ($C(w_{i-1} w_i)$ - частота использования словосочетания $w_{i-1}w_i$).

In [284]:
from collections import Counter

In [285]:
N_unigram = len(unigrams)
Pw_unigram = Counter(unigrams)
for i in Pw_unigram:
  Pw_unigram[i] = Pw_unigram[i]/N_unigram
Pw_unigram.most_common(15)

[(('и',), 0.037024536192170616),
 (('не',), 0.025331373031355298),
 (('в',), 0.02412429992620264),
 (('на',), 0.022379478613067282),
 (('с',), 0.01348947100450221),
 (('я',), 0.013089020211323604),
 (('что',), 0.013020371503921557),
 (('а',), 0.012333884429901089),
 (('у',), 0.009662305566838099),
 (('как',), 0.008255007065096137),
 (('то',), 0.007963250058637437),
 (('но',), 0.00787743917438488),
 (('по',), 0.006561672282512314),
 (('он',), 0.006206987294268405),
 (('это',), 0.005680680537519379)]

In [286]:
len(Pw_unigram), len(Pw_unigram) == len(set(Pw_unigram))

(28463, True)

In [287]:
cnt_unigram = Counter(unigrams)
Pw_bigram = Counter(bigrams)
for i in Pw_bigram:
  Pw_bigram[i] = Pw_bigram[i]/cnt_unigram[(i[0], )]
Pw_bigram.most_common(15)

[(('определенному', 'наполнителю'), 1.0),
 (('документы', 'и'), 1.0),
 (('переднее', 'сидение'), 1.0),
 (('расстроился', 'вылез'), 1.0),
 (('заныл', 'и'), 1.0),
 (('ехидненько', 'так'), 1.0),
 (('трупаков', 'припер'), 1.0),
 (('закапываешь', 'или'), 1.0),
 (('швыряешь', 'за'), 1.0),
 (('зосю', 'маме'), 1.0),
 (('зоська', 'прижилась'), 1.0),
 (('сосватать', 'вот'), 1.0),
 (('насыпализначит', 'котики'), 1.0),
 (('привередливые', 'выбирайте'), 1.0),
 (('удобству', 'и'), 1.0)]

In [288]:
len(Pw_bigram), len(Pw_bigram) == len(set(Pw_bigram))

(104148, True)

<p class="task" id="3"></p>

3\.Воспользовавшись полученными вероятностями, сгенерируйте текст длиной не более 20 слов, начинающийся с токена "мой". При генерации текста выбирайте слово с наибольшей вероятностью соответствующего биграмма. Выведите полученный текст на экран.

In [289]:
bigrams_sorted = Pw_bigram.most_common()
text_gen = ['мой']
n_words = 1

while n_words < 20:
  for bigr in bigrams_sorted:
    if bigr[0][0] == text_gen[-1]:
      text_gen += [bigr[0][1]]
      n_words += 1
      break

' '.join(text_gen)

'мой кот в доме не знаю что то что то что то что то что то что то что то'

<p class="task" id="4"></p>

4\.Воспользовавшись полученными вероятностями, сгенерируйте текст длиной не более 20 слов, начинающийся с токена "мой". При генерации текста выбирайте слово пропорционально вероятностям соответствующих биграммов. Выведите полученный текст на экран.

In [290]:
bigrams_sorted = Pw_bigram.most_common()
text_gen = ['мой']
n_words = 1

while n_words < 20:
  for bigr in bigrams_sorted:
    if bigr[0][0] == text_gen[-1]:
      text_gen += [bigr[0][1]]
      n_words += 1
      break

' '.join(text_gen)

'мой кот в доме не знаю что то что то что то что то что то что то что то'

<p class="task" id="5"></p>

5\. Получите распределение вероятностей для униграм, воспользовавшись сглаживанием Лапласа: $P_L(w_i) = \frac{C(w_i)+1}{N+V}$, где $V$ - количество уникальных униграмм. Получите распределение условных вероятностей для биграмм $P_L(w_i|w_{i-1})=\frac{C(w_{i-1} w_i)+1}{C(w_{i-1})+V}$

In [291]:
N_unigram = len(unigrams)
PLw_unigram = Counter(unigrams)
V_unigram = len(PLw_unigram)

for i in PLw_unigram:
  PLw_unigram[i] = (PLw_unigram[i]+1)/(N_unigram+V_unigram)

PLw_unigram.most_common(15)

[(('и',), 0.03184497161355072),
 (('не',), 0.021789182647368472),
 (('в',), 0.02075113398207275),
 (('на',), 0.01925063709621875),
 (('с',), 0.011605482471244577),
 (('я',), 0.01126110613678628),
 (('что',), 0.011202070193736287),
 (('а',), 0.01061171076323635),
 (('у',), 0.008314228646207433),
 (('как',), 0.007103991813682564),
 (('то',), 0.006853089055720091),
 (('но',), 0.006779294126907599),
 (('по',), 0.0056477718851160544),
 (('он',), 0.005342752846024422),
 (('это',), 0.004890143949307804)]

In [292]:
cnt_unigram = Counter(unigrams)
PLw_bigram = Counter(bigrams)

for i in PLw_bigram:
  PLw_bigram[i] = (PLw_bigram[i]+1)/(cnt_unigram[(i[0], )]+V_unigram)

PLw_bigram.most_common(15)

[(('у', 'меня'), 0.013033961262934466),
 (('у', 'нас'), 0.012304324754576811),
 (('и', 'не'), 0.006927150422212681),
 (('что', 'то'), 0.0042616871075832),
 (('я', 'не'), 0.004097427725927612),
 (('а', 'потом'), 0.004017113556941768),
 (('потому', 'что'), 0.003880711813446142),
 (('так', 'и'), 0.0035670607419486344),
 (('ко', 'мне'), 0.0034294512877939528),
 (('не', 'знаю'), 0.003253169560062023),
 (('у', 'него'), 0.0032501989917750065),
 (('на', 'меня'), 0.00311969111969112),
 (('как', 'то'), 0.003109743864107537),
 (('а', 'я'), 0.0031026486821907964),
 (('так', 'что'), 0.0029895366218236174)]

<p class="task" id="6"></p>

6\.Воспользовавшись полученными после сглаживания вероятностями, сгенерируйте текст длиной не более 20 слов, начинающийся с токена "мой". При генерации текста выбирайте слово пропорционально вероятностям соответствующих биграммов. Выведите полученный текст на экран.

In [293]:
import numpy as np

In [294]:
bigrams_L_sorted = PLw_bigram.most_common()
text6_gen = ['мой']
n_words = 1

while n_words < 20:
  p_words = []
  sum_p = 0
  words = []
  for bigr in bigrams_L_sorted:
    if bigr[0][0] == text6_gen[-1]:
      sum_p += bigr[1]
      p_words.append(bigr[1])
      words.append(bigr[0][1])

  p_words = [p/sum_p for p in p_words]
  if words:
    new_word = np.random.choice(words, p=p_words)
    text6_gen += [new_word]
    n_words += 1
  else:
    text6_gen.pop()
    n_words -= 1


' '.join(text6_gen)

'мой детский садик вернее не хворать и бедняга покорно сносил всё просчитано до вчерашнего дня оставить открытой дверью выглядываю так'

<p class="task" id="7"></p>

7\. Рассчитайте перплексию для текста "Котя пришел домой с хромой лапой" для четырех моделей: на 1/2-граммах и с/без использования сглаживания Лапласа. Сведите результат в таблицу. Повторите вычисления для текста "После пар я поеду кормить своего кота", используя доступные модели.

$Perplexity(W) = P(w_1w_2...w_N)^{-\frac{1}{N}}$

Для модели на униграммах $P(w_1w_2...w_N) = \Pi_{i=1}^{N}{P(w_i)}$

Для модели на биграммах $P(w_1w_2...w_N) = \Pi_{i=1}^{N}{P(w_i|w_{i-1})}$

In [295]:
test1 = "После пар я поеду кормить своего кота".lower()
test2 = "Котя пришел домой с хромой лапой".lower()

In [296]:
def perplexity(W, laplace=False):
  tokenizer = RegexpTokenizer("\w+")
  tokens = tokenizer.tokenize(W)

  unigrams = list(ngrams(tokens, n=1))
  bigrams = list(ngrams(tokens, n=2))

  N = len(tokens)

  Pw_uni = Counter(unigrams)
  V = len(Pw_uni)
  for i in Pw_uni:
    Pw_uni[i] = (Pw_uni[i]+laplace)/(N+V*laplace)


  cnt = Counter(unigrams)
  Pw_big = Counter(bigrams)
  for i in Pw_big:
    Pw_big[i] = (Pw_big[i]+laplace)/(cnt[(i[0], )]+V*laplace)

  Pw_uni_np, Pw_big_np = np.array(list(Pw_uni.values())), np.array(list(Pw_big.values()))

  return np.prod(Pw_uni_np)**(-1/N), np.prod(Pw_big_np)**(-1/N)

In [297]:
# test2 = "Котя пришел домой с хромой лапой".lower()
pd.DataFrame([perplexity(test2), perplexity(test2,laplace=True)],columns=['unigrams','bigrams'], index=['without laplace', 'with laplace'])

Unnamed: 0,unigrams,bigrams
without laplace,6.0,1.0
with laplace,6.0,2.840469


In [298]:
# test1 = "После пар я поеду кормить своего кота".lower()
pd.DataFrame([perplexity(test1), perplexity(test1,laplace=True)],columns=['unigrams','bigrams'], index=['without laplace', 'with laplace'])

Unnamed: 0,unigrams,bigrams
without laplace,7.0,1.0
with laplace,7.0,3.281341
