# Языковые модели

Обучим символьные модели для генерации имён динозавров.

### Данные: имена динозавров

In [1]:
!wget https://raw.githubusercontent.com/artemovae/ML-for-compling/master/2018/dinos.txt

--2020-04-01 18:05:18--  https://raw.githubusercontent.com/artemovae/ML-for-compling/master/2018/dinos.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 151.101.244.133
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|151.101.244.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 19909 (19K) [text/plain]
Saving to: ‘dinos.txt.1’


2020-04-01 18:05:19 (773 KB/s) - ‘dinos.txt.1’ saved [19909/19909]



In [2]:
!tail dinos.txt

Zhuchengtyrannus
Ziapelta
Zigongosaurus
Zizhongosaurus
Zuniceratops
Zunityrannus
Zuolong
Zuoyunlong
Zupaysaurus
Zuul

## Марковская цепь


Снижаем регистр, добавляем символы начала и конца строки.

In [3]:
names = ['<' + name.strip().lower() + '>' for name in open('dinos.txt').readlines()]
names[:10]

['<aachenosaurus>',
 '<aardonyx>',
 '<abdallahsaurus>',
 '<abelisaurus>',
 '<abrictosaurus>',
 '<abrosaurus>',
 '<abydosaurus>',
 '<acanthopholis>',
 '<achelousaurus>',
 '<acheroraptor>']

In [4]:
import nltk

Вычислим частоту каждого символа в корпусе имен динозавров:

In [5]:
chars = [char for name in names for char in name]
freq = nltk.FreqDist(chars)

In [6]:
freq

FreqDist({'a': 2487, 's': 2285, 'u': 2123, 'o': 1710, 'r': 1704, '>': 1536, '<': 1536, 'n': 1081, 'i': 944, 'e': 913, ...})

In [7]:
print(list(freq.keys()))

['j', 'u', 'g', 'n', 'y', 'r', 'l', 'o', 's', 'v', 'c', 'z', 'i', 'k', 'q', 'b', '>', 'd', '<', 'p', 't', 'm', 'w', 'a', 'f', 'x', 'e', 'h']


In [8]:
freq.most_common(10)

[('a', 2487),
 ('s', 2285),
 ('u', 2123),
 ('o', 1710),
 ('r', 1704),
 ('>', 1536),
 ('<', 1536),
 ('n', 1081),
 ('i', 944),
 ('e', 913)]

Определим функцию, чтобы оценить веротность символа:

In [9]:
l = sum([freq[char] for char in freq])
def unigram_prob(char):
    return freq[char] / l

In [10]:
print('p(a) = %1.4f' %unigram_prob('a'))

p(a) = 0.1160


### Биграммная модель

Вычислим условную вероятность каждого символа в зависимости от того, какой символ стоял на предыдущей позиции.

In [11]:
cfreq = nltk.ConditionalFreqDist(nltk.bigrams(chars))

In [12]:
cfreq['a']

FreqDist({'u': 791, 'n': 347, 't': 204, 's': 171, 'l': 138, '>': 138, 'r': 124, 'c': 100, 'p': 89, 'm': 68, ...})

Оценим условные вероятности с помощью MLE.

In [13]:
cprob = nltk.ConditionalProbDist(cfreq, nltk.MLEProbDist)

In [14]:
print('p(a a) = %1.4f' %cprob['a'].prob('a'))
print('p(a b) = %1.4f' %cprob['a'].prob('b'))
print('p(a u) = %1.4f' %cprob['a'].prob('u'))

p(a a) = 0.0044
p(a b) = 0.0097
p(a u) = 0.3181


In [15]:
cprob['a'].generate()

't'

### Задание 1

Напишите функцию, которая генерирует имя динозавра **фиксированной** длины. Используйте '<' как начальный символ.

### Задание 2

1) Напишите функцию, которая генерирует имя динозавра любой дины.

2) сделайте возможность при вызове функции самостоятельно подавать начало имени динозавра.

### Задание 3

Напишите функцию, которая принимает имя динозавра (строку) и возвращает вероятность этого имени на основании символов, из которых оно состоит.  

### Задание 4

Напишите функцию, которая принимает два имени динозавра и возвращает из них самое вероятное.

### Панграмы

Давайте напишем функцию, которая генерирует панграмы -- имена динозавров, не содержащие одинаковых букв.

## На уровне слов

Давайте теперь возьмём много текстов -- например, [книжку по программированию в txt](https://drive.google.com/open?id=17oT5ZEmUcSS_C_0eS6jZBMhn-q2YipaK) -- и попробуем сделать то же самое, но со словами.

In [57]:
from nltk import word_tokenize, sent_tokenize

In [58]:
with open('coding.txt') as f:
    text = f.read()

In [59]:
text[:200]

' Кормен (Renee Connen).\n\n\x0cПредисловие\nКак компьютеры решают задачи? Как ваш маленький GPS в считанные секунды на\xad\nходит самый быстрый пуrь из несметного множества возможных маршруrов? Когда вы\nпокупае'

### Разобъём текст на предложения и слова

### RNN на keras

Если осталось время.

Не очень закоменченная, сложная и не обязательная для понимания, но любопытная часть про RNN: https://colab.research.google.com/drive/1tJ5qM6a1EP8dBlxE6KuN8DXLjFUFxNIz.