#  _Лекция 1: Языковые модели, сравнение строк_

# 4. Языковые модели

В этой части ноутбука вы посмотрите, как рвботают простейшие генеративные языковые модели, основанные на триграммах.

In [1]:
import re
from collections import defaultdict
import numpy as np

In [2]:
r_alphabet = re.compile(u'[а-яА-Я0-9\-]+|[.,:;?!]+') # clean text

#### Вспомогательные ф-ии, возвращающие генераторы с линиями  и токенами загруженного корпуса текстов

In [3]:
def gen_lines(corpus):
    data = open(corpus)
    for line in data:
        yield line.lower()

def gen_tokens(lines):
    for line in lines:
        line = re.sub('\.{2,3}', '\.', line)
        for token in r_alphabet.findall(line):
            yield token

#### Генерация словесных триграмм

In [4]:
def gen_trigrams(tokens):
    t0, t1 = '$', '$'
    for t2 in tokens:
        yield t0, t1, t2
        if t2 in '.!?': # если это конец предложения
            yield t1, t2, '$'
            yield t2, '$','$'
            t0, t1 = '$', '$' # начало следующего предложения
        else:
            t0, t1 = t1, t2

#### Реализуем простейшую триграммную генеративную модель

In [5]:
def pure_trigram_model(corpus):
    lines = gen_lines(corpus)
    tokens = gen_tokens(lines)
    trigrams = gen_trigrams(tokens)
    
    (bg, tg) = (defaultdict(lambda: 0.0) for i in range(2))

    for t0, t1, t2 in trigrams:
        bg[t0, t1] += 1
        tg[t0, t1, t2] += 1

    model = {}  # объект model - простейший словарь, хранящий вероятности следующего слова для каждой биграммы
    ## Пример:
    # model_tg_pure['онегин', 'был']
    # Out: [(',', 0.5), ('готов', 0.5)]
    
    for (t0, t1, t2), tg_cnt in tg.items():
        tg_prob = tg_cnt/bg[t0, t1]   #обратите внимание на оценку вероятности триграммы
        if model.get((t0, t1)):
            model[t0, t1].append((t2, tg_prob))  # (след. слово, вероятность)
        else:
            model[t0, t1] = [(t2, tg_prob)]
    return model

#### Функции, возвращающие следующий токен

In [6]:
def rand_start_token(seq):
    """Возвращает рандомный стартовый токен, сэплируемый в соответствии с вероятностью встречаемости в тексте"""
    seq_ = [x for x in seq if x[0].isalpha()]  # не будем стартовать с пунктуации
    tok_seq, probs = [x[0] for x in seq_], [x[1] for x in seq_]
    probs = [x/sum(probs) for x in probs]  # для np.random.choice сумма вероятностей должна суммироваться к 1 
                                           #(нарушается, если выбросили пунктуационные токенв)
    return np.random.choice(tok_seq, p=probs)

def rand_prob_token(seq):
    """Возвращает рандомный токен, сэплируемый в соответствии с вероятностью встречаемости в тексте"""
    tok_seq = [x[0] for x in seq]
    probs =  [x[1] for x in seq]
    probs = [x/sum(probs) for x in probs] 
    return np.random.choice(tok_seq, p=probs)

def max_prob_token(seq, equal_choice=False):
    """Возвращает максимально вероятный токен.
    equal_choice=True - возвращает рандомный максимально вероятный токен, если таких несколько"""
    if not equal_choice:   
        return sorted(seq, key=lambda x: x[1], reverse=True)[0][0]
    tok_seq = [x[0] for x in seq]
    probs =  [x[1] for x in seq]
    max_prob = max(probs)
    max_prob_tokens = [x[0] for x in seq if x[1]==max_prob]
    rnd_idx = np.random.randint(0,len(max_prob_tokens))
    return max_prob_tokens[rnd_idx]

### Генерация предложения

In [7]:
def generate_sentence(model, start_token=None, max_prob=False, equal_choice=False):
    phrase = ''
    t0, t1 = '$', '$'
    start_flag = True
    
    while True:
        if start_flag:
            if start_token:  # вручную заданный стартовый токен
                t1 = start_token.lower()
            else:
                t1 = rand_start_token(model[t0, t1])
            start_flag = False
        else:
            if max_prob:   # сэмплируем максимально вероятный токен
                t0, t1 = t1, max_prob_token(model[t0, t1], equal_choice)
            else:          # сэмплируем случайный токен из распределения вероятнсти встречаемости в тексте
                t0, t1 = t1, rand_prob_token(model[t0, t1])
            
        if t1 == '$': 
            break  # конец предложения - выход
 
        if t1 in ('.!?,;:') or t0 == '$':
            phrase += t1
        else:
            phrase += ' ' + t1
            
        if len(phrase.split( )) > 100: # для случая (max_prob=True, equal_choice=False)  - зачем это нужно? 
            break
            
    phrase = re.sub("--", '-', phrase)
    return phrase.capitalize()

## Давайте посмотрим, как это работает

Загрузим текст "Евгения Онегина"

In [8]:
corpus_path = "data/onegin.txt"

### создадим модель на основе триграмм

In [9]:
model_tg_pure = pure_trigram_model('data/onegin.txt')

### Давайте попробуем сгенерировать преддожения, взяв первый максимально вероятный токен

In [10]:
print(generate_sentence(model_tg_pure, start_token='онегин', max_prob=True, equal_choice=False))

Онегин был, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере, сожаленьем, по крайней мере


вот почему мы при генерации выше ограничились 100 токенами!

### Давайте попробуем брать случайный токен из максимально вероятных

In [11]:
for i in range(5):
    print(generate_sentence(model_tg_pure, start_token='онегин', max_prob=True, equal_choice=True))
    print()

Онегин был готов со мною увидеть чуждые страны; но, развлечен пустым мечтаньем, я знаю: нежного парни перо не в силах я; для первых нет мне упований, а на полу мосье трике, догадливый поэт, умчал буянов пустякову, и, в деревне счастлив и рогат носил бы стеганый халат; узнал бы жизнь домашним кругом я ограничить захотел; когда б он знал довольно по-латыне, чтоб только слышать ваши речи, вам слово молвить, и, в деревне вс вам скучно, а досель порядка враг и расточитель, и, полно, милый, как будто бездна под ней чернеет и шумит.

Онегин вновь часы считает, вновь ищу союза волшебных звуков, чувств и дум; пишу, что в высшем свете теперь являться я должна.

Онегин был, что в высшем свете теперь являться я должна; что их бессмертная семья неотразимыми лучами, когда-нибудь, нас озарит и мир блаженством одарит.

Онегин вновь часы считает, вновь обит, упрочен забвенью брошенный возок.

Онегин вновь займуся им, большой потери в том порукой, супружество нам будет мукой.



### Посэмплируем следующий токен согласно вероятностному распределению триграмм в тексте

In [12]:
for i in range(5):
    print(generate_sentence(model_tg_pure, start_token='татьяна', max_prob=False, equal_choice=True))
    print()

Татьяна!

Татьяна долго шла одна.

Татьяна не дитя, учил его всему шутя, не все ли, дева красоты, слезу пролить над ранней урной и думать: он тем удвоил поэзии священный бред, петрарке шествуя вослед, а перед ним, и блеск в очах, с ней ни общих мнений, ни остротою, ни с чем не связанные сны, угрозы, моленья, клятвы, мнимый страх, записки на шести листах, обманы, сплетни, кольца, слезы, тайных мук отраду.

Татьяна в руки не брала; про вести города, про моды беседы с прикрасой легкой клеветы.

Татьяна русская душою, что завидно для поэта: во цвете радостных надежд, их не свершив еще для света, чуть помня их любовь и злость.



### Самостоятельно реализуйте интерполяцию при оценке вероятности триграммы (см. лекцию)

Интерполированная оценка вероятности триграммы (w1,w2,w3) зависит от взвешенных слагаемых:
- собственно вероятности данной триграммы - вес $\lambda1$
- вероятности биграммы (w2,w3) - вес $\lambda2$
- вероятности токена w3 - вес $\lambda3$

Для сглаживания возьмите следующие значения:
- $\lambda1$ = 0.9 
- $\lambda2$ = 0.095
- $\lambda3$ = 0.005

In [None]:
lambda1 = 0.9
lambda2 = 0.095
lambda3 = 0.005


def interpolated_trigram_model(corpus):
    lines = gen_lines(corpus)
    tokens = gen_tokens(lines)
    trigrams = gen_trigrams(tokens)
    
    (ug, bg, tg) = (defaultdict(lambda: 0.0) for i in range(3))

    for t0, t1, t2 in trigrams:
        ug[t0] += 1
        bg[t0, t1] += 1
        tg[t0, t1, t2] += 1

    model = {}
    for (t0, t1, t2), tg_cnt in tg.items():
        
        # just do it!
        
        tg_interpolated_prob = ...
        ############################
        
        if (t0, t1) in model:
            model[t0, t1].append((t2, tg_interpolated_prob))
        else:
            model[t0, t1] = [(t2, tg_interpolated_prob)]
    return model

### Потестируем модель с интерполированной оценкой:

In [None]:
model_tg_smooth = interpolated_trigram_model('data/onegin.txt')

In [None]:
print(generate_sentence(model_tg_pure, start_token='неосторожно', max_prob=True, equal_choice=False))

In [None]:
print(generate_sentence(model_tg_smooth, start_token='неосторожно', max_prob=True, equal_choice=False))

### Поиграйтесь с коэффициентами сглаживания и параметрами generate_sentence

In [None]:
for i in range(5):
    print(generate_sentence(model_tg_smooth, max_prob=False, equal_choice=True))

# 5. Коллокации

#### Загрузим текст с произведениями Толстого, очистим его от тегов и разобъем на слова

In [16]:
import nltk

In [13]:
with open("data/tolstoy.txt") as f:
    content = f.read()

In [14]:
TAG_PATTERN = re.compile('<[^>]*>')
content = re.sub(TAG_PATTERN, ' ', content)
content_clean = re.sub("[^А-я]"," ", content.lower())  # only russian words
content_words = re.sub('\s+', ' ', content_clean).split()

### Выделим частотные коллокации с помощью nltk

In [17]:
bigram_measures = nltk.collocations.BigramAssocMeasures()
finder_bg = nltk.BigramCollocationFinder.from_words(content_words)

In [18]:
finder_bg.apply_freq_filter(100)  # встречающиеся более, чем 100 раз в корпусе
finder_bg.nbest(bigram_measures.pmi, 10)  # 10 биграмм с максимальным PMI 

[('иван', 'ильич'),
 ('князю', 'андрею'),
 ('анна', 'михайловна'),
 ('хаджи', 'мурат'),
 ('хаджи', 'мурата'),
 ('князя', 'андрея'),
 ('тех', 'пор'),
 ('марья', 'дмитриевна'),
 ('княжна', 'марья'),
 ('первый', 'раз')]

# ! Найти три самые частотные триграммные коллокации слов, встречающиеся в корпусе content_words более чем 20 раз

In [None]:
# DO IT!

# 6. Редакционное расстояние

### 6.1. Встроенная библиотека difflib

In [19]:
from difflib import SequenceMatcher, get_close_matches

In [21]:
s = SequenceMatcher(None, "выпьем пива", "выпьем чайку")
print(s.ratio()) # мера "похожести" двух строк (в диапазоне [0,1])

0.6956521739130435


подробнее о том, что за алгоритм работает под капотом SequenceMatcher можно почитать [тут](https://docs.python.org/3/library/difflib.html#difflib.SequenceMatcher)

In [22]:
words = ['сила', 'пилат', 'силач', 'текила', 'косила', 'игла', 'пилка', 'пита',]
query = 'пила'
get_close_matches(query, words, 3)

['пилка', 'пилат', 'сила']

# ! Сравните расстояние Левенштейна и расстояние, возвращаемое SequenceMatcher, для пар слов ("пила", "сила") и ("пила","пилка")```

In [None]:
# DO IT!

# !Найдите 3 ближайших слова по корпусу слов content_words (полученных в разделе с коллокациями) к слову "пицца" с помощью get_close_matches

In [None]:
# DO IT!

## 6.2. Библиотека jellyfish

In [None]:
!pip install jellyfish

В данной библиотеке поддерживается множество алгоритмов, например:
- Расстояние Левенштейна
- Расстояние Дамеру-Левенштейна 
- Расстояние Яро-Винклера 
- Расстояние Хэмминга



In [23]:
import jellyfish

In [24]:
print(jellyfish.levenshtein_distance(u'jellyfish', u'smellyfihs'))

4


In [25]:
print(jellyfish.damerau_levenshtein_distance(u'jellyfish', u'smellyfihs'))

3


# ! Даны следующие пары слов:
  [("baba", "arab"), 
  ("contest", "toner"),
  ("eel", "lee"),
  ("martial", "marital"),
  ("monarchy", "democracy"),
  ("seatback", "backseat"),
  ("warfare", "farewell"),
  ("smoking", "hospital"),
  ("ape", "ea")]


Для каких из них расстояния Левененштейна и Дамерау-Левенштейна различаются? Почему?

In [None]:
# DO IT!

# Test

### После выполнения заданий, ответьте на вопросы [тут](https://docs.google.com/forms/d/e/1FAIpQLSe5Je_L4a9H0qWKfLynViVZfDrT-TdiDfvZ93nfIv1rn_D5aQ/viewform)