# 01. Языковые модели. Предсказание следующего слова

Одной из задач обработки текстов на естественном языке выступает задача предсказания
следующего слова по предшествующим. Примерами таких задач являются задача
предсказания следующего слова при наборе текста в смартфоне или дополнение поисковых
запросов.

## 01.1. Предсказание по предыдущему слову

Данная задача может быть сведена к оценке *вероятностей встретить* каждое из возможных
слов после имеющегося. Соответствующая языковая модель примет вид:

$$\large w^{*} = \underset{w_k \in V}{\operatorname{argmax}} \mathbb{P}\left[w_k | w_{k-1}\right] \qquad (1)$$

где условная вероятность высчитывается по формуле Байеса:

$$\large \mathbb{P}\left[w_k | w_{k-1}\right]= \frac{\mathbb{P}\left[w_k\right] \cdot \mathbb{P}\left[w_{k-1} | w_k\right]}{\mathbb{P}\left[w_{k-1}\right]} \qquad (2)$$

где

- $V$ - множество всех возможных слов
- $\mathbb{P}\left[w_{k} | w_{k-1}\right]$ - вероятность встретить слово $w_k$ после $w_{k-1}$

Для удобства полученную модель можно логарифмировать и представить в следующем виде:

$$\large w^{*} = \underset{w_k \in V}{\operatorname{argmax}} \left[\log \mathbb{P} \left[w_k \right] + \mathbb{P}\left[w_{k-1} | w_{k}\right]\right] \qquad (3)$$

Условные вероятности в формуле $(3)$ могут быть оценен непосредственно по имеющемуся словарю слов. Для этого необходимо рассмотреть имеющиеся в словаре *биграммы*, тогда:

$$\large \mathbb{P}\left[w_{k-1} | w_{k}\right] = \frac{\nu_{(w_{k-1}, w_k)}}{\sum\limits_{(w_i, w_j) \in V} \nu_{(w_i, w_j)}} \qquad (4)$$

где $\nu_{(w_{k-1}, w_k)}$ - частота встречаемости словосочетания $(w_{k-1}, w_k)$

## 01.2. Предсказание по $m$ последних слов

Иногда по последнему слову оказывается невозможным определить следующее, поскольку в нём не учитывается контекст. Например, если последнее слово является союзом, то приемлемые варианты следующего слова определяет и предшествующее данному союзу слово. Оценка вероятности в данном случае проводится на основе $m$ последних слов. 

Таким образом, модель $(1) - (2)$ принимает вид:

$$\large w^{*} = \underset{w_k \in V}{\operatorname{argmax}} \mathbb{P}\left[w_k | w_{k-1}, w_{k-2}, \ldots, w_{k-m}\right] \qquad (5)$$

где условная вероятность высчитывается по формуле Байеса:

$$\large \mathbb{P}\left[w_k | w_{k-1}, w_{k-2}, \ldots, w_{k-m}\right]= \frac{\mathbb{P}\left[w_k\right] \cdot \mathbb{P}\left[w_{k-1}, w_{k-2}, \ldots, w_{k-m} | w_k\right]}{\mathbb{P}\left[w_{k-1}, w_{k-2}, \ldots, w_{k-m}\right]} \qquad (6)$$

### 01.2.1 Независимость от порядка слов

Предположим, что текущее слово $w_k$ зависит только то того, какие слова встретились перед ним и не зависит от того, в каком порядке они встретились. Тогда:

$$\large w^{*} = \underset{w_k \in V}{\operatorname{argmax}} \mathbb{P}\left[w_k\right] \cdot \prod\limits_{i=1}^m \mathbb{P}\left[w_{k-i} | w_k \right] = \underset{w_k \in V}{\operatorname{argmax}} \left[\log \mathbb{P}\left[w_k\right] + \sum\limits_{i=1}^m \log \mathbb{P}\left[w_{k-i} | w_k \right]\right]\qquad (7)$$

где $\mathbb{P}\left[w_{k-i} | w_k \right]$ вычисляются по формуле $(4)$

### 01.2.2. Учёт порядка предшествующих слов

Языковая модель $(7)$ не учитывает порядок предшествующих слов. Информацию о порядке слов можно добавить путём оценки расстояния до каждого из предшествующих слов. Например, в предложении "Счастье есть удовольствие без раскаяния" расстояние между словами "счастье" и "раскаяния" равно $4$.

## 02. Реализация

In [1]:
import numpy as np
import pandas as pd
import operator

# Corus - NLP datasets
import corus
from corus import load_lenta

#NLTK - Natural Language Tool Kit
import nltk
nltk.download('punkt')

from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
nltk.download('stopwords')
nltk.download('wordnet')

from nltk.tokenize import sent_tokenize, word_tokenize
from nltk import bigrams
from nltk import ngrams

#Other
from collections import Counter
import re
import string
from tqdm import notebook

[nltk_data] Downloading package punkt to /home/aptmess/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/aptmess/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/aptmess/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Воспользуемся открытыми датасетами из библиотеки `corus`. Для примера, обучимся на новостях `lenta.ru`

In [2]:
from corus.sources.meta import METAS
from corus.readme import format_metas, show_html, patch_readme

html = format_metas(METAS)
show_html(html)

Dataset,API from corus import,Tags,Texts,Uncompressed,Description
Lenta.ru,load_lenta,news,739 351,1.66 Gb,wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Lib.rus.ec,load_librusec,fiction,301 871,144.92 Gb,Dump of lib.rus.ec prepared for RUSSE workshop wget http://panchenko.me/data/russe/librusec_fb2.plain.gz
Rossiya Segodnya,load_ria_raw load_ria,news,1 003 869,3.70 Gb,wget https://github.com/RossiyaSegodnya/ria_news_dataset/raw/master/ria.json.gz
Mokoron Russian Twitter Corpus,load_mokoron,social sentiment,17 633 417,1.86 Gb,Russian Twitter sentiment markup Manually download https://www.dropbox.com/s/9egqjszeicki4ho/db.sql
Wikipedia,load_wiki,,1 541 401,12.94 Gb,Russian Wiki dump wget https://dumps.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
GramEval2020,load_gramru,,162 372,30.04 Mb,wget https://github.com/dialogue-evaluation/GramEval2020/archive/master.zip unzip master.zip mv GramEval2020-master/dataTrain train mv GramEval2020-master/dataOpenTest dev rm -r master.zip GramEval2020-master wget https://github.com/AlexeySorokin/GramEval2020/raw/master/data/GramEval_private_test.conllu
OpenCorpora,load_corpora,morph,4 030,20.21 Mb,wget http://opencorpora.org/files/export/annot/annot.opcorpora.xml.zip
RusVectores SimLex-965,load_simlex,emb sim,,,wget https://rusvectores.org/static/testsets/ru_simlex965_tagged.tsv wget https://rusvectores.org/static/testsets/ru_simlex965.tsv
Omnia Russica,load_omnia,morph web fiction,,489.62 Gb,"Taiga + Wiki + Araneum. Read ""Even larger Russian corpus"" https://events.spbu.ru/eventsContent/events/2019/corpora/corp_sborn.pdf Manually download http://bit.ly/2ZT4BY9"
factRuEval-2016,load_factru,ner news,254,969.27 Kb,"Manual PER, LOC, ORG markup prepared for 2016 Dialog competition wget https://github.com/dialogue-evaluation/factRuEval-2016/archive/master.zip unzip master.zip rm master.zip"


In [14]:
!wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2021-02-13 16:57:45--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.121.3, 198.51.44.8, 198.51.45.8, ...
Connecting to github.com (github.com)|140.82.121.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://github-releases.githubusercontent.com/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20210213%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20210213T135745Z&X-Amz-Expires=300&X-Amz-Signature=5e06f9e21f4f9a5ce780cc6903cc9a78aa2ab87abcad2f3e9441111d6d710736&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2021-02-13 16:57:45--  https://github-releases.githubusercontent.com/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-H

Создадим три функции:

- `text_prepare` - производит предобработку предложения
- `get_grams_from_text` - получает корпус слов и биграммы
- `predict` - предсказывает по корпусу слов и словарю биграмм следующее слово предложения

In [236]:
def text_prepare(text, language='russian', delete_stop_words=False):
    """
        text: a string
        
        return: modified string
    """
    lemmatizer = WordNetLemmatizer()

    # 1. Перевести символы в нижний регистр
    text = text.lower() #your code
    
    # 2.1 Заменить символы пунктуации на пробелы
    text = re.sub(r'[{}]'.format(string.punctuation), ' ', text)
    
    
    
    # 2.2 Удалить "плохие" символы
    text = re.sub('[^A-Za-z0-9]' if language == 'english' else '[^А-яа-я]', ' ', text)

    
    # 3. Применить WordNetLemmatizer
    word_list = nltk.word_tokenize(text)
    text = ' '.join([lemmatizer.lemmatize(w) for w in word_list])
    
    # 4. Удалить стопслова.
    if delete_stop_words:
        stopWords = set(stopwords.words(language))
        for stopWord in stopWords:
            text = re.sub(r'\b{}\b'.format(stopWord), '', text)
        
    # 5. Удаляю пробелы у получая просто строку слов через пробел
    text = ' '.join(text.split())
    
    return text


def get_grams_from_text(path='lenta-ru-news.csv.gz', 
                        n=2, 
                        amount_of_sentense=1000, 
                        verbose=True, 
                        show_how_much=1000, **kwargs):
    records = load_lenta(path)
    grams, count = {}, 1
    flatten = lambda l: [' '.join(item) for sublist in l for item in sublist]
    try:
        while True and count != amount_of_sentense:
            item = next(records).text
            if verbose:
                print(f'Sentence {count}') if count % show_how_much == 0 else 'pass'
            
            for i in np.arange(1, n+1):
                if i not in list(grams.keys()):
                    grams[i] = Counter()
                ngram = [list(ngrams(text_prepare(sentense, **kwargs).lower().split(), n=i)) for sentense in nltk.sent_tokenize(item)]
                grams[i] += Counter(flatten(ngram))
            count +=1
    except StopIteration:
        pass
    finally:
        del records
    return grams


def predict(corpus, sentence, n=3):
    sen = text_prepare(sentence)
    cor = corpus.copy()
    rev = sen.split()[::-1]
    s = sum(list(cor[2].values()))
    s1 = sum(list(cor[1].values()))
    d = {}
    for key, value in list(cor[1].items()):
        a = []
        for i in np.arange(1, n+1):
            v = cor[2][f'{rev[i-1]} {key}']
            a.append(np.log(v / s) if v!=0 else np.log(0.000001))
        d[key] = sum([np.log(value / s1)] + a)    
    return sentence + ' ' + max(d.items(), key=operator.itemgetter(1))[0]

Получим корпус слов из русского набора данных.

In [3]:
g = get_grams_from_text(n=2, 
                        amount_of_sentense=8000, 
                        show_how_much=2000, 
                        delete_stop_words=False)

Sentence 2000
Sentence 4000
Sentence 6000


In [177]:
g2 = get_grams_from_text(n=2, 
                         amount_of_sentense=8000, 
                         show_how_much=2000, 
                         delete_stop_words=True)

Sentence 2000
Sentence 4000
Sentence 6000


Предскажем с помощью языковых моделей следующее слово.

In [203]:
result = predict(corpus=g, sentence='невозможно предсказать слово правильно', n=2)
result

'невозможно предсказать слово правильно в'

In [204]:
result = predict(corpus=g2, sentence='невозможно предсказать слово правильно', n=2)
result

'невозможно предсказать слово правильно года'

In [205]:
res = predict(corpus=g2, sentence='смотри выше меня этот человек', n=1)
res

'смотри выше меня этот человек который'

In [234]:
word = 'смотри'

for i in range(6):
    print(word, end='\n')
    word = predict(corpus=g, sentence=word, n=1)
    
print(word)

смотри
смотри в
смотри в в
смотри в в в
смотри в в в в
смотри в в в в в
смотри в в в в в в


In [235]:
word = 'смотри'

for i in range(8):
    print(word, end='\n')
    word = predict(corpus=g2, sentence=word, n=1)
    
print(word)

смотри
смотри это
смотри это время
смотри это время года
смотри это время года россии
смотри это время года россии сша
смотри это время года россии сша также
смотри это время года россии сша также отметил
смотри это время года россии сша также отметил это
