# Языковые модели 
### из эпохи до того момента, когда нейронные сети вдруг стали диплёрнингом


In [None]:
import warnings
warnings.filterwarnings('ignore')

import urllib
import urllib.request
import nltk
from nltk.tokenize import word_tokenize

from bs4 import BeautifulSoup

from tqdm import tqdm

print("Downloading")

# with tqdm(...) as t:
txt = urllib.request.urlopen("https://www.gutenberg.org/files/2600/2600-h/2600-h.htm").read().decode("utf-8")
txt2 = urllib.request.urlopen("http://www.gutenberg.org/files/36028/36028-h/36028-h.htm").read().decode("utf-8")

txt = str(txt) + " " + str(txt2)

print("Parsing")
soup = BeautifulSoup(txt)

print("Cleaning")
txt = soup.find('body').get_text()

print(txt[:100])

Downloading


0it [00:00, ?it/s]

In [None]:
import re
from collections import Counter

BOS = "BOS"
EOS = "EOS"
UNK = "UNK"

def prepare_sentences(txt, word_threshold=2, stage_train=True):

    # вычищаем переносы
    whitespaces = re.compile("\s+", re.U)
    txt = re.sub("\s+", " ", txt).lower()

    # убираем всё, кроме "слов", разбив на предложения
    sentences = re.split("[!\?\.]+", txt.replace("\n", " "))
    
    # оставляем только alphanumeric
    clean_sentences = [re.split("\W+", s) for s in sentences]
    
    # заменяем числа на NUM
    clean_sentences = [[w.replace("\d+", "NUM") for w in s if w] for s in clean_sentences]
    
    # вводим тег UNKNOWN: UNK
    if stage_train:

        counter = Counter()

        for s in clean_sentences:
            for w in s:
                counter[w] += 1
    
        print("Filtered out word types :", len([w for w in counter if counter[w] <= word_threshold]))
        print("Filtered out words count:", sum([counter[w] for w in counter if counter[w] <= word_threshold]))
    
        # выкидываем редкие, и заменяем их на специальный тег
        clean_sentences = [[w if counter[w] > word_threshold else UNK for w in s] for s in clean_sentences]            
    
    word2index = { BOS: 0, EOS: 1, UNK: 2}
    index2word = { 0: BOS, 1: EOS, 2: UNK}
    
    counter = max(word2index.values()) + 1

    for s in clean_sentences:
        for w in s:
            if not w in word2index:
                word2index[w] = counter
                index2word[counter] = w
                counter += 1
                
    return word2index, index2word, clean_sentences

In [None]:
word2index, index2word, clean_sentences = prepare_sentences(txt)

print("Total number of sentences :\t", len(clean_sentences))
print("Total number of words     :\t", sum([len(sent) for sent in clean_sentences]))
print("Total number of word types:\t", len(set([w for sent in clean_sentences for w in sent])))

In [None]:
def augment(sentence, context_size):
    """
        Добиваем символы начала и конца строки к каждому предложению
    """
    return [BOS] * context_size + sentence + [EOS] * context_size

def enumerate_sentences(clean_sentences, context_size, word2index):
    """
        Добиваем символами начала и конца и конвертируем слова в индексы
    """

    contexts = []
    targets = []
    UNK_id = word2index[UNK]

    for sentence in clean_sentences:

        aligned_sentence =  augment(sentence, context_size) 

        for i in range(context_size, len(sentence) - context_size, 1):
            
            # берём предшествующий контекст
            context = aligned_sentence[i - context_size:i]
            context = [word2index[c] if c in word2index else UNK_id for c in context]
            target = word2index[aligned_sentence[i]] if aligned_sentence[i] in word2index else UNK_id
            
            contexts.append(context)
            targets.append(target)
    
    return contexts, targets


Как бить на батчи заданного размера

In [None]:
def chunks(l0, l1, n):
    
    assert len(l0) == len(l1)
    coll0, coll1 = [], []
    
    for i in range(0, len(l0), n):
        coll0.append(l0[i:i + n])
        coll1.append(l1[i:i + n])
        
    return coll0, coll1

## Модель

In [None]:
from collections import defaultdict
from tqdm import tqdm_notebook
from functools import lru_cache

class NGramFreqsLanguageModeler(object):
    
    def __init__(self, vocab_size, context_size):
        super(NGramFreqsLanguageModeler, self).__init__()
    
        self.vocab_size = vocab_size
        self.context_size = context_size
        self.ngram_dict = defaultdict(lambda: defaultdict(lambda: 0))        
        self.n_1_gram_dict = defaultdict(lambda: defaultdict(lambda: 0))
        self.contexts_counts = defaultdict(lambda: 0)
        self.eps = 1.0
    
    def fit(self, contexts, targets):
        
        self.contexts_counts = defaultdict(lambda: 0)
        
        for c, t in zip(contexts, targets):
            c = tuple(c)
            self.ngram_dict[c][t] += 1
            self.contexts_counts[c] += 1
            
            # намёк!
            # self.n_1_gram_dict[c[1:]][t] += 1

            
        print("Total n-1 grams", len(self.ngram_dict), list(self.ngram_dict)[:10])
        
        # нормализуем частоты
        for c in tqdm_notebook(self.ngram_dict.keys()):
            for t in self.ngram_dict[c]:
                self.ngram_dict[c][t] = (self.ngram_dict[c][t] +  self.eps) / \
                                            (self.contexts_counts[c] + self.vocab_size * self.eps)
        
    @lru_cache(1000000)
    def prob_dist(self, input_context):
        """
            Takes ngram as a tuple
        """
        
        probs = np.zeros(self.vocab_size) + \
                    self.eps / (self.vocab_size * self.eps + self.contexts_counts[input_context])
        
        counts = self.ngram_dict[input_context]
        
        # если есть хоть какие-то счётчики
        if counts:
            
            # проставим осмысленные частоты
            for target, freq in counts.items():
                probs[target] = freq
                
        return probs

In [None]:
CONTEXT_SIZE = 3
BATCH_SIZE = 2048

In [None]:
from tqdm import tqdm_notebook
import numpy as np

# строим контексты и цели
contexts, targets = enumerate_sentences(clean_sentences, CONTEXT_SIZE, word2index)

batches = list(zip(contexts, targets))

simple_model = NGramFreqsLanguageModeler(context_size=CONTEXT_SIZE, vocab_size=len(word2index))
simple_model.fit(contexts, targets)

## Оценка качества

здесь мы готовим тестовую выборку -- тексты, которых наша модель никогда не видела

In [None]:
import urllib.request

test_txt = urllib.request.urlopen("http://www.gutenberg.org/files/1399/1399-0.txt")
test_txt = test_txt.read().decode("utf-8")

_, _, test_clean_sentences = prepare_sentences(test_txt, stage_train=False)

print("Total number of sentences :\t", len(test_clean_sentences))
print("Total number of words     :\t", sum([len(sent) for sent in test_clean_sentences]))
print("Total number of word types:\t", len(set([w for sent in test_clean_sentences for w in sent])))

# строим контексты и цели
test_contexts, test_targets = enumerate_sentences(test_clean_sentences, CONTEXT_SIZE, word2index)

# test_data = list(zip(test_contexts, test_targets))

test_batched_contexts, test_batched_targets = chunks(test_contexts, test_targets, BATCH_SIZE)
test_batches = list(zip(test_batched_contexts, test_batched_targets))

len(test_contexts), len(test_targets), len(test_batches), len(word2index)

### Перплексия 
То, насколько хорошо наша модель приближает законы реального мира: какую вероятность порождения тестового текста, нормализованную числом слов, покажет наша модель.

Имеет трактовку с точки зрения теории информации: два в степени, равной приближению кросс-энтропии последовательности событий-слов. То есть такая оценка энтропии текста как последовательности.

#### это два в степени равной нашей невязке

$$PP(X) = \sqrt[N]{\frac{1}{P(x_1,...,x_N)}} = 2^{-\frac{1}{N}\sum_{i=1}^{N}\log{P(x_i|...)}} $$

In [None]:
import torch
import tqdm
from tqdm import tqdm_notebook

def compute_ppl_count_model(model, test_batches, nllloss):
    
    total_loss = 0
    count = 0

    for context_batch, target_batch in tqdm_notebook(test_batches):
        
        log_probs = []
        
        for context, target in zip(context_batch, target_batch):
            
            # применяем модель
            log_probs.append(np.log2(model.prob_dist(tuple(context))))
            
        log_probs = np.array(log_probs)
        
        # вычисляем невязку
        loss = nllloss(torch.tensor(log_probs, dtype=torch.float).cuda(), 
                       torch.tensor(target_batch, dtype=torch.long).cuda())
        
        # получаем число
        total_loss += loss.item()
        count += 1
        
        if count % (len(test_batches) // 5) == 0:
            print(count, "\tnll", total_loss)
            print([index2word[i] for i in context_batch[0]], "->", 
                  index2word[target_batch[0]], "vs", 
                  [index2word[i] for i in (-log_probs[0]).argsort()[:3]],
                  np.sort((-log_probs[0]))[:3]
                 )
    
    return 2 ** (total_loss / count)        

In [None]:
from torch.nn import NLLLoss

"Perplexity of freq-based NGram model on test set", compute_ppl_count_model(model=simple_model, 
                                                                            nllloss=NLLLoss(),
                                                                            test_batches=test_batches)

## Пусть наша модель погенерирует что-нибудь

In [None]:
test = "BOS"
prepared_text = augment(prepare_sentences(test, stage_train=False)[2][0], CONTEXT_SIZE)[-CONTEXT_SIZE:]

for i in range(CONTEXT_SIZE, 10 + CONTEXT_SIZE):
    
    idx = [word2index[w] for w in prepared_text[:i]]    
    
    predict = simple_model.prob_dist(tuple(idx[-CONTEXT_SIZE:])) 
    
#     predict = predict - predict.min()  
#     predict /= sum(predict)
    
    selected_word = np.random.choice(a=list(range(len(word2index))), p=predict)    
    prepared_text.append(index2word[selected_word])
    
    print("Генерация:", " ".join(prepared_text[CONTEXT_SIZE - 1:]))


## Задание 2: применить трюки из лекции (настройка Лапласа? backoff?)
----
Прикрутите его, пожалуйста, и вычислите перплексию на тестовом множестве


# Большая задача: kaggle

1. самостоятельно подготовить данные для обучения
2. обучить модель по train.tsv
3. сравнить два текста; какой из них естественнее, тот и молодец