# Инструменты для работы с текстом

Анализ текстовых данных - это отдельное направление, здесь будет совсем небольшое введение.
С текстовыми данными можно решать как задачи обучения с учителем (классификация текстов), так и задачу обучения без учителя (кластеризация).

Предобработка текста

Первый шаг любой аналитики – получение данных. Предположим, что данные представляются собой набор текстов. Все известные нам алгоритмы работают не в текстами, а с объектами, которые описываются вектором признаков (чаще всего численных, категориальные мы умеем преобразовывать). Что делать, если наши объекты - это текст? 

Следующая после получения данных задача: предобработка. Основная цель предобработки: преобразовать текстовые данные в удобный для построения модели вид.

Базовые шаги предобработки:
1. токенизация
2. приведение к нижнему регистру
3. удаление стоп-слов
4. удаление пунктуации
5. фильтрация по частоте/длине/соответствию регулярному выражению
6. лемматизация или стемминг
7. векторизация (эмбеддинг)

Чаще всего применяются все эти шаги, но в разных задачах какие-то могут опускаться, поскольку приводят к потере информации

In [None]:
import pandas as pd
import numpy as np

from sklearn.metrics import * 
from sklearn.model_selection import train_test_split 

* Сейчас мы попробуем получить преобразование предложений в численный вектор, с которым может работать стандартный алгоритм машинного обучения. 
* Для этого нам понадобится познакомиться с понятием n-gram - самых мелких элементов предложения, с которыми можно работать. 
* Подсчитав количество этих n-грам в предложениях, мы получим искомые численные представления.

## n-граммы

Самые мелкие структуры языка, с которыми мы работаем, называются **n-граммами**.
У n-граммы есть параметр n - количество слов, которые попадают в такое представление текста.
* Если n = 1 - то мы смотрим на то, сколько раз каждое слово встретилось в тексте. Получаем _униграммы_
* Если n = 2 - то мы смотрим на то, сколько раз каждая пара подряд идущих слов, встретилась в тексте. Получаем _биграммы_

Функция для работы с n-граммами реализована в библиотке **nltk** (Natural Language ToolKit), импортируем эту функцию: 

In [None]:
from nltk import ngrams

Прежде чем получать n-граммы, нужно разделить предложение на отдельные слова.  Для этого используем метод ```split()```.

In [None]:
sentence = 'Кто же победит на выборах в США: Трамп или Байден?'

In [None]:
sentence_split = sentence.split()
sentence_split

['Кто',
 'же',
 'победит',
 'на',
 'выборах',
 'в',
 'США:',
 'Трамп',
 'или',
 'Байден?']

Кажется, что нам тут мешают знаки препинания. Дайвайте от них избавимся. 

In [None]:
import string
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [None]:
for ch in string.punctuation:
  sentence = sentence.replace(ch,"")

In [None]:
sentence

'Кто же победит на выборах в США Трамп или Байден'

In [None]:
sentence_split = sentence.split()

In [None]:
sentence_split

['Кто', 'же', 'победит', 'на', 'выборах', 'в', 'США', 'Трамп', 'или', 'Байден']

Чтобы получить n-грамму для такой последовательности, используем функцию ```ngrams()```. 

На вход передается два параметра:
* лист с разделенным на отдельные слова предложением (у нас он хранится в переменной ```sent```);
* параметр n, определяющий, какой тип n-грамм мы хотим получить.


Чтобы полученный объект отобразить, делаем из него ```list```. 

In [None]:
list(ngrams(sentence_split, 1)) # униграммы

[('Кто',),
 ('же',),
 ('победит',),
 ('на',),
 ('выборах',),
 ('в',),
 ('США',),
 ('Трамп',),
 ('или',),
 ('Байден',)]

Аналогично мы можем получить биграммы - для этого заменяем параметр **n** в функции **ngrams** с 1 на 2.

In [None]:
list(ngrams(sentence_split, 2)) # биграммы

[('Кто', 'же'),
 ('же', 'победит'),
 ('победит', 'на'),
 ('на', 'выборах'),
 ('выборах', 'в'),
 ('в', 'США'),
 ('США', 'Трамп'),
 ('Трамп', 'или'),
 ('или', 'Байден')]

In [None]:
list(ngrams(sentence_split, 3)) # триграммы

[('Кто', 'же', 'победит'),
 ('же', 'победит', 'на'),
 ('победит', 'на', 'выборах'),
 ('на', 'выборах', 'в'),
 ('выборах', 'в', 'США'),
 ('в', 'США', 'Трамп'),
 ('США', 'Трамп', 'или'),
 ('Трамп', 'или', 'Байден')]

In [None]:
list(ngrams(sentence_split, 5)) # ... пентаграммы

[('Кто', 'же', 'победит', 'на', 'выборах'),
 ('же', 'победит', 'на', 'выборах', 'в'),
 ('победит', 'на', 'выборах', 'в', 'США'),
 ('на', 'выборах', 'в', 'США', 'Трамп'),
 ('выборах', 'в', 'США', 'Трамп', 'или'),
 ('в', 'США', 'Трамп', 'или', 'Байден')]

## Векторизаторы

Векторизатор преобразует слово или набор слов в числовой вектор, понятный алгоритму машинного обучения, который привык работать с числовыми табличными данными.

Ниже - пример преобразования слов в двумерных вектор, каждому слову соответствует точка на плоскости.

<a href="https://drive.google.com/uc?id=1ukv-FTj0jeVdcgVlOaNBocUfNuYGGVZg
" target="_blank"><img src="https://drive.google.com/uc?id=1ukv-FTj0jeVdcgVlOaNBocUfNuYGGVZg" 
alt="IMAGE ALT TEXT HERE" width="600" border="0" /></a>

На начальном этапе нам будет достаточно тех инструментов, которые уже есть в библиотеке **sklearn**.

In [None]:
from sklearn.tree import DecisionTreeClassifier # можно заменить на другой классификатор
from sklearn.naive_bayes import MultinomialNB # наивный байесовский классификатор
from sklearn.feature_extraction.text import CountVectorizer # модель "мешка слов", см. далее

Самый простой способ извлечь признаки из текстовых данных -- векторизаторы: `CountVectorizer` и `TfidfVectorizer`

Объект `CountVectorizer` делает следующую вещь:
* строит для каждого документа (каждой пришедшей ему строки) вектор размерности `n`, где `n` -- количество слов или n-грам во всём корпусе
* заполняет каждый i-тый элемент количеством вхождений слова в данный документ

<a href="https://drive.google.com/uc?id=1ukv-FTj0jeVdcgVlOaNBocUfNuYGGVZg
" target="_blank"><img src="https://drive.google.com/uc?id=1jHmkrGZTMawM46Yzxh243Ur1y5pYKzrl" 
alt="IMAGE ALT TEXT HERE" width="600" border="0" /></a>

На рисунке пример векторизации для униграмм, но можно использовать любые n-граммы. Для этого у объекта ```CountVectorizer()``` есть параметр **ngram_range**, который отвечает за то, какие n-граммы мы используем в качестве признаов:<br/>
ngram_range=(1, 1) -- униграммы<br/>
ngram_range=(3, 3) -- триграммы<br/>
ngram_range=(1, 3) -- униграммы, биграммы и триграммы.

## Пример

К сожалению, на русском языке всё ещё очень мало годных наборов данных. Набор данных нашёл тут: https://github.com/sismetanin/rureviews

In [None]:
!pip install PyDrive



In [None]:
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

In [None]:
auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

In [None]:
downloaded = drive.CreateFile({'id':"1pvDGJWmxTfJ9VAi4mGb5ByOWMlP3hNFX"}) 
downloaded.GetContentFile('women-clothing-accessories.csv')

In [None]:
data = pd.read_csv('women-clothing-accessories.csv', sep='\t', usecols=[0, 1])

In [None]:
data.head()

Unnamed: 0,review,sentiment
0,качество плохое пошив ужасный (горловина напер...,negative
1,"Товар отдали другому человеку, я не получила п...",negative
2,"Ужасная синтетика! Тонкая, ничего общего с пре...",negative
3,"товар не пришел, продавец продлил защиту без м...",negative
4,"Кофточка голая синтетика, носить не возможно.",negative


In [None]:
data.sample(10)

Unnamed: 0,review,sentiment
7633,"Это ужасный товар. Пахнет клеем, материал не п...",negative
84656,XXXL-на 50размер,positive
53928,"Размеру не соответствует, Брала xl на 48р,оказ...",neautral
11684,Отправил заказ не на тот адрес. Деньги за това...,negative
1876,"Не пришла, инфо об отслеживании не было",negative
84763,"Рубашка хорошая, но слегка короче чем ожидалось",positive
49059,Сначала заказала размер М. Оказались большие. ...,neautral
69685,Быстрая доставка до РБ. Отличная футболочка. В...,positive
65638,"качество хорошее теплая, но выглядит как обычн...",positive
80507,Ткань не очень и цвет очень сильно отличается,positive


In [None]:
x_train, x_test, y_train, y_test = train_test_split(data.review, data.sentiment, train_size = 0.7)

In [None]:
data.sentiment.value_counts()

negative    30000
positive    30000
neautral    30000
Name: sentiment, dtype: int64

In [None]:
y_train.value_counts()

neautral    21015
negative    21002
positive    20982
Name: sentiment, dtype: int64

Инициализируем `CountVectorizer()`, указав в качестве признаков униграммы:

In [None]:
vectorizer = CountVectorizer(ngram_range=(1, 1))

После инициализации _vectorizer_ можно обучить на наших данных. 

Для обучения используем обучающую выборку ```x_train```, но в отличие от классификатора мы используем метод ```fit_transform()```: сначала обучаем наш векторизатор, а потом сразу применяем его к нашему набору данных. Это похоже на то, как мы работали с one-hot-encoderом.

In [None]:
vectorized_x_train = vectorizer.fit_transform(x_train)

Так как результат не зависит от порядка слов в текстах, то говорят, что такая модель представления текстов в виде векторов получается из *гипотезы представления текста как мешка слов*

В `vectorizer.vocabulary_` лежит словарь, отображение слов в их индексы:

In [None]:
list(vectorizer.vocabulary_.items())[:10]

[('заказывала', 12649),
 ('31', 724),
 ('размер', 33844),
 ('пришел', 31777),
 ('кажется', 14901),
 ('25', 568),
 ('или', 14425),
 ('26', 582),
 ('очень', 25848),
 ('маленький', 18200)]

In [None]:
vectorized_x_train.shape

(62999, 44880)

In [None]:
x_train.shape

(62999,)

Так как теперь у нас есть **численное представление** и набор входных признаков, то мы можем обучить нашу модель

In [None]:
clf = DecisionTreeClassifier()
clf.fit(vectorized_x_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [None]:
clf2 = MultinomialNB()
clf2.fit(vectorized_x_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

С тестовыми данными нужно проделать то же самое, что и с данными для обучения: сделать из текстов вектора, которые можно передавать в классификатор для прогноза класса объекта. 

У нас уже есть обученный векторизатор ```vectorizer```, поэтому используем метод ```transform()``` (просто применить его), а не ```fit_transform``` (обучить и применить).

In [None]:
vectorized_x_test = vectorizer.transform(x_test)

Как раньше, для получения прогноза у обученного классификатора используем метод ```predict()```.

С помощью функции ```classification_report()```, которая считает сразу несколько метрик качества классификации, посмотрим на то, насколько хорошо мы предсказываем положительную или отрицательную тональность твита .

In [None]:
pred = clf.predict(vectorized_x_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

    neautral       0.52      0.54      0.53      8985
    negative       0.64      0.62      0.63      8998
    positive       0.75      0.75      0.75      9018

    accuracy                           0.64     27001
   macro avg       0.64      0.64      0.64     27001
weighted avg       0.64      0.64      0.64     27001



In [None]:
pred2 = clf2.predict(vectorized_x_test)
print(classification_report(y_test, pred2))

              precision    recall  f1-score   support

    neautral       0.59      0.68      0.63      8985
    negative       0.73      0.62      0.67      8998
    positive       0.84      0.84      0.84      9018

    accuracy                           0.71     27001
   macro avg       0.72      0.71      0.71     27001
weighted avg       0.72      0.71      0.71     27001



Итак, наивный байесовский классификатор легко побил дерево решений. Дальше работаем с ним.

### Отступление: F-мера

Прошлый раз мы разобрали метрики качества классификации, которые выводятся из матрицы ошибок (confision matrix). 

**Полнота** (Sensitivity, True Positive Rate, Recall, Hit Rate) отражает какой процент объектов положительного класса мы правильно классифицировали.

**Точность** (Precision, Positive Predictive Value) отражает какой процент положительных объектов (т.е. тех, что мы считаем положительными) правильно классифицирован. (Не путать с Accuracy!)

Легко построить алгоритм со 100%-й полнотой: он все объекты относит к классу 1, но при этом точность может быть очень низкой. Нетрудно построить алгоритм с близкой к 100% точностью: он относит к классу 1 только те объекты, в которых уверен, при этом полнота может быть низкая.

**F1-мера** (F1 score) является средним гармоническим точности и полноты, максимизация этого функционала приводит к одновременной максимизации этих двух «ортогональных критериев»

$$F_1 = \frac{2}{\mathrm{recall}^{-1} + \mathrm{precision}^{-1}} = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{\mathrm{precision} + \mathrm{recall}} = \frac{\mathrm{tp}}{\mathrm{tp} + \frac12 (\mathrm{fp} + \mathrm{fn}) } $$

Также рассматривают весовое среднее гармоническое точности и полноты –  $F_\beta$-меру:

$$F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}} = \frac {(1 + \beta^2) \cdot \mathrm{tp} }{(1 + \beta^2) \cdot \mathrm{tp} + \beta^2 \cdot \mathrm{fn} + \mathrm{fp}}\,$$

Изменение $\beta$ позволяет делать один из критериев (точность или полноту) важнее при оптимизации.

## Биграммы

Попробуем сделать то же самое, используя в качестве признаков униграммы и биграммы:

In [None]:
# инициализируем векторайзер 
bigram_vectorizer = CountVectorizer(ngram_range=(1, 2))

In [None]:
# обучаем его и сразу применяем к x_train
bigram_vectorized_x_train = bigram_vectorizer.fit_transform(x_train)

In [None]:
# инициализируем и обучаем классификатор
clf = MultinomialNB()
clf.fit(bigram_vectorized_x_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [None]:
# применяем обученный векторизатор к тестовым данным
bigram_vectorized_x_test = bigram_vectorizer.transform(x_test)

In [None]:
# получаем предсказания и выводим информацию о качестве
pred = clf.predict(bigram_vectorized_x_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

    neautral       0.61      0.68      0.65      8985
    negative       0.73      0.66      0.70      8998
    positive       0.87      0.86      0.86      9018

    accuracy                           0.73     27001
   macro avg       0.74      0.73      0.73     27001
weighted avg       0.74      0.73      0.74     27001



У меня получилось повысить точность на пару процентов по сравнению с униграммами

In [None]:
bigram_vectorized_x_train.shape

(62999, 464435)

"Признаков" объектов стало на порядок больше.

## Токенизация

Токенизировать - значит, поделить текст на части: слова, ключевые слова, фразы, символы и т.д., иными словами **токены**.

Самый наивный способ токенизировать текст - разделить с помощью функции `split()`. Но `split` упускает очень много всего, например, не отделяет пунктуацию от слов. Кроме этого, есть ещё много менее тривиальных проблем, поэтому лучше использовать готовые токенизаторы.

In [None]:
import nltk # уже знакомая нам библиотека nltk
from nltk.tokenize import word_tokenize # готовый токенизатор библиотеки nltk

Чтобы использовать токенизатор ```word_tokenize```, нужно сначала скачать данные для nltk о пунктуации и стоп-словах.

In [None]:
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Применим токенизацию:

In [None]:
sentence = 'Кто же победит на выборах в США: Трамп или Байден?'
word_tokenize(sentence)

['Кто',
 'же',
 'победит',
 'на',
 'выборах',
 'в',
 'США',
 ':',
 'Трамп',
 'или',
 'Байден',
 '?']

Сравните с использованием ```split()```:

In [None]:
sentence.split()

['Кто',
 'же',
 'победит',
 'на',
 'выборах',
 'в',
 'США:',
 'Трамп',
 'или',
 'Байден?']

В nltk вообще есть довольно много токенизаторов:

In [None]:
from nltk import tokenize
dir(tokenize)[:16]

['BlanklineTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'PunktSentenceTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer',
 'TreebankWordTokenizer',
 'TweetTokenizer',
 'WhitespaceTokenizer',
 'WordPunctTokenizer']

Одни умеют выдавать индексы в строке для начала и конца каждого слова-токена:

In [None]:
wh_tok = tokenize.WhitespaceTokenizer()
list(wh_tok.span_tokenize(sentence))

[(0, 3),
 (4, 6),
 (7, 14),
 (15, 17),
 (18, 25),
 (26, 27),
 (28, 32),
 (33, 38),
 (39, 42),
 (43, 50)]

Некторые токенизаторы ведут себя специфично:

In [None]:
tokenize.TreebankWordTokenizer().tokenize("don't stop me")

['do', "n't", 'stop', 'me']

А некоторые -- вообще не для текста на естественном языке:

In [None]:
tokenize.SExprTokenizer().tokenize("(a (b c)) d e (f)")

['(a (b c))', 'd', 'e', '(f)']

**Правильный токенизатор подбирается исходя из требований задачи!**

## Стоп-слова

**Стоп-слова** - это слова, которые часто встречаются практически в любом тексте и ничего интересного не говорят о конретном документе. Для модели это просто шум. А шум нужно убирать. По аналогичной причине убирают и пунктуацию.

In [None]:
# импортируем стоп-слова из библиотеки nltk
from nltk.corpus import stopwords

# посмотрим на стоп-слова для русского языка
print(stopwords.words('russian'))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [None]:
noise = stopwords.words('russian')

Теперь нужно обучать нашу модель с учетом новых знаний про токенизацию и стоп-слова. 

Для этого мы можем собрать новый векторизатор, передав ему на вход:
* какие n-граммы нам нужны, параметр **ngram_range**;
* какой токенизатор мы используем, параметр **tokenizer**;
* какие у нас стоп-слова, параметр **stop_words**.

In [None]:
# инициализируем умный векторайзер 
smart_vectorizer = CountVectorizer(ngram_range=(1, 1), stop_words=noise)

In [None]:
# обучаем его и сразу применяем к x_train
smart_vectorized_x_train = smart_vectorizer.fit_transform(x_train)

In [None]:
smart_vectorized_x_train.shape

(62999, 44738)

In [None]:
list(smart_vectorizer.vocabulary_.items())[:10]

[('заказывала', 12609),
 ('31', 724),
 ('размер', 33742),
 ('пришел', 31678),
 ('кажется', 14854),
 ('25', 568),
 ('26', 582),
 ('очень', 25757),
 ('маленький', 18144),
 ('расстроило', 34400)]

In [None]:
# инициализируем и обучаем классификатор
clf = MultinomialNB()
clf.fit(smart_vectorized_x_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [None]:
# применяем обученный векторайзер к тестовым данным
smart_vectorized_x_test = smart_vectorizer.transform(x_test)

In [None]:
# получаем предсказания и выводим информацию о качестве
pred = clf.predict(smart_vectorized_x_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

    neautral       0.58      0.66      0.62      8985
    negative       0.73      0.61      0.66      8998
    positive       0.82      0.84      0.83      9018

    accuracy                           0.71     27001
   macro avg       0.71      0.71      0.71     27001
weighted avg       0.71      0.71      0.71     27001



Получилось чуть хуже. 

Что ещё можно сделать?

## Лемматизация

**Лемматизация** – это сведение разных форм одного слова к начальной форме – **лемме**. Почему это хорошо?
* Во-первых, естественно рассматривать как отдельный признак каждое *слово*, а не каждую его отдельную форму.
* Во-вторых, некоторые стоп-слова стоят только в начальной форме, и без лематизации выкидываем мы только её.

Для русского есть хороший лемматизатор pymorphy. 

Стемминг (англ. stemming — находить происхождение) — это процесс нахождения основы слова для заданного исходного слова. Основа слова не обязательно совпадает с морфологическим корнем слова. 

### [Pymorphy](http://pymorphy2.readthedocs.io/en/latest/)
Это модуль на питоне, довольно быстрый и с кучей функций.

In [None]:
# устанавливаем pymorphy2
!pip install pymorphy2



В pymorphy2 для морфологического анализа слов есть ```MorphAnalyzer()```:

In [None]:
from pymorphy2 import MorphAnalyzer
pymorphy2_analyzer = MorphAnalyzer()

pymorphy2 работает с отдельными словами. Если дать ему на вход предложение - он его просто не лемматизирует, т.к. не понимает:

In [None]:
sentence = 'Кто же победит на выборах в США: Трамп или Байден?'
sent = word_tokenize(sentence)

Лемматизируем слово "победит" из предложения ```sentence``` с помощью метода ```parse()```:

In [None]:
ana = pymorphy2_analyzer.parse(sent[2])
ana

[Parse(word='победит', tag=OpencorporaTag('VERB,perf,tran sing,3per,futr,indc'), normal_form='победить', score=0.846153, methods_stack=((DictionaryAnalyzer(), 'победит', 2483, 9),)),
 Parse(word='победит', tag=OpencorporaTag('NOUN,inan,masc sing,nomn'), normal_form='победит', score=0.076923, methods_stack=((DictionaryAnalyzer(), 'победит', 34, 0),)),
 Parse(word='победит', tag=OpencorporaTag('NOUN,inan,masc sing,accs'), normal_form='победит', score=0.076923, methods_stack=((DictionaryAnalyzer(), 'победит', 34, 3),))]

Выведем его нормальную форму:

In [None]:
ana[0].normal_form

'победить'

Нормализация предложения "вижу три села" может дать "видеть тереть сесть"

In [None]:
sent2 = word_tokenize('вижу три села')

In [None]:
ana2 = pymorphy2_analyzer.parse(sent2[2])
ana2[0].normal_form

'село'

## TF-IDF векторизация

`TfidfVectorizer` делает то же, что и `CountVectorizer`, но в качестве значений выдает **tf-idf** каждого слова.

Как считается tf-idf:

**TF (term frequency)** – относительная частотность слова в документе:
$$ TF(t,d) = \frac{n_{t}}{\sum_k n_{k}} $$

**IDF (inverse document frequency)** – обратная частота документов, в которых есть это слово:
$$ IDF(t, D) = \mbox{log} \frac{|D|}{|{d : t \in d}|} $$

Перемножаем их:
$$TFIDF(t, d, D) = TF(t,d) \times IDF(i, D)$$

Cмысл: если слово часто встречается в одном документе, но в целом по корпусу встречается в небольшом 
количестве документов, у него высокий TF-IDF.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

Действуем аналогично, как с ```CountVectorizer()```:

In [None]:
# инициализируем векторизатор, в качестве переменных используем униграммы
tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 1))

In [None]:
# обучаем его и сразу применяем к x_train
tfidf_vectorized_x_train = tfidf_vectorizer.fit_transform(x_train)

In [None]:
# инициализируем и обучаем классификатор
clf = MultinomialNB()
clf.fit(tfidf_vectorized_x_train, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [None]:
# применяем обученный векторизатор к тестовым данным
tfidf_vectorized_x_test = tfidf_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(tfidf_vectorized_x_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

    neautral       0.59      0.67      0.63      8985
    negative       0.73      0.62      0.67      8998
    positive       0.84      0.84      0.84      9018

    accuracy                           0.71     27001
   macro avg       0.72      0.71      0.71     27001
weighted avg       0.72      0.71      0.71     27001



Иногда пунктуация бывает и не шумом - главное отталкиваться от задачи. Что будет если вообще не убирать пунктуацию? На примере с твитами хорошо было бы видно, что пунктуация работает хорошо ))

In [None]:
# инициализируем умный векторайзер stop-words НЕ ИСПОЛЬЗУЕМ!
alternative_tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 1), 
                                               tokenizer=word_tokenize)

# обучаем его и сразу применяем к x_train
alternative_tfidf_vectorized_x_train = alternative_tfidf_vectorizer.fit_transform(x_train)

# инициализируем и обучаем классификатор
clf = MultinomialNB()
clf.fit(alternative_tfidf_vectorized_x_train, y_train)

# применяем обученный векторайзер к тестовым данным
alternative_tfidf_vectorized_x_test = alternative_tfidf_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(alternative_tfidf_vectorized_x_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

    neautral       0.59      0.68      0.63      8985
    negative       0.73      0.64      0.68      8998
    positive       0.85      0.84      0.84      9018

    accuracy                           0.72     27001
   macro avg       0.72      0.72      0.72     27001
weighted avg       0.72      0.72      0.72     27001



Посмотрим, как один из супер-значительных токенов справится с классификацией безо всякого машинного обучения:

In [None]:
cool_token = 'плохо'
pred = ['positive' if cool_token in review else 'negative' for review in x_test]
print(classification_report(pred, y_test))

  _warn_prf(average, modifier, msg_start, len(result))


              precision    recall  f1-score   support

    neautral       0.00      0.00      0.00         0
    negative       0.94      0.33      0.49     25787
    positive       0.02      0.14      0.03      1214

    accuracy                           0.32     27001
   macro avg       0.32      0.15      0.17     27001
weighted avg       0.90      0.32      0.47     27001



## Символьные n-граммы

В некоторых задачах в качестве признаков могут быть использщованы, n-граммы символов. Для этого необходимо установить в ```CountVectorizer()``` параметр ```analyzer = 'char'```, то есть анализировать символы.

In [None]:
# инициализируем векторайзер для символов
char_vectorizer = CountVectorizer(analyzer='char', ngram_range=(3, 6))

# обучаем его и сразу применяем к x_train
char_vectorized_x_train = char_vectorizer.fit_transform(x_train)

# инициализируем и обучаем классификатор
clf = MultinomialNB()
clf.fit(char_vectorized_x_train, y_train)

# применяем обученный векторайзер к тестовым данным
char_vectorized_x_test = char_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(char_vectorized_x_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

    neautral       0.59      0.71      0.65      8985
    negative       0.74      0.62      0.67      8998
    positive       0.87      0.83      0.85      9018

    accuracy                           0.72     27001
   macro avg       0.73      0.72      0.72     27001
weighted avg       0.73      0.72      0.72     27001



Cимвольные n-граммы используются, например, для задачи определения языка. Ещё одна замечательная особенность признаков-символов - для них не нужна токенизация и лемматизация, можно использовать такой подход для языков, у которых нет готовых анализаторов.

## Задание 5

Применим полученные выше навыки и решим задачу анализа тональности отзывов. (Те, кто предпочитает работать с английским языком, могут использовать набор данных `sms_spam`, он есть в папке `Data`).

Нужно повторить весь пайплайн от сырых текстов до получения обученной модели.

Обязательные шаги предобработки:
1. токенизация
2. приведение к нижнему регистру
3. удаление стоп-слов
4. лемматизация
5. векторизация (с настройкой гиперпараметров)
6. построение модели
7. оценка качества модели

Обязательно использование векторайзеров:
1. мешок n-грамм (диапазон для n подбирайте самостоятельно, запрещено использовать только униграммы).
2. tf-idf ((диапазон для n подбирайте самостоятельно, также нужно подбирать параметры max_df, min_df, max_features)
3. символьные n-граммы (диапазон для n подбирайте самостоятельно)

В качестве классификатора нужно использовать наивный байесовский классификатор. 

Для сравнения векторайзеров между собой используйте precision, recall, f1-score и accuracy. Для этого сформируйте датафрейм, в котором в строках будут разные векторайзеры, а в столбцах разные метрики качества, а в  ячейках будут значения этих метрик для соответсвующих векторайзеров.

Получим список предложений

In [None]:
data

Unnamed: 0,review,sentiment
0,качество плохое пошив ужасный (горловина напер...,negative
1,"Товар отдали другому человеку, я не получила п...",negative
2,"Ужасная синтетика! Тонкая, ничего общего с пре...",negative
3,"товар не пришел, продавец продлил защиту без м...",negative
4,"Кофточка голая синтетика, носить не возможно.",negative
...,...,...
89995,сделано достаточно хорошо. на ткани сделан рис...,positive
89996,Накидка шикарная. Спасибо большое провдо линяе...,positive
89997,спасибо большое ) продовца рекомендую.. заказа...,positive
89998,Очень довольна заказом! Меньше месяца в РБ. К...,positive


In [None]:
sentences  = list(data.iloc[:, 0])

### (уберем знаки перпинания)

In [None]:
for ind_sentence in range(len(sentences)):
  for ch in string.punctuation:
    sentences[ind_sentence] = sentences[ind_sentence].replace(ch , "")

###  2. приведение к нижнему регистру

In [None]:
sentences = [sentence.lower() for sentence in sentences]

### 1. токенизация

In [None]:
token_sentences = [word_tokenize(sentence) for sentence in sentences]

In [None]:
token_sentences[:5]

[['качество',
  'плохое',
  'пошив',
  'ужасный',
  'горловина',
  'наперекос',
  'фото',
  'не',
  'соответствует',
  'ткань',
  'ужасная',
  'рисунок',
  'блеклый',
  'маленький',
  'рукав',
  'не',
  'такой',
  'ужас',
  'не',
  'стоит',
  'за',
  'такие',
  'деньги',
  'г'],
 ['товар',
  'отдали',
  'другому',
  'человеку',
  'я',
  'не',
  'получила',
  'посылку',
  'ладно',
  'хоть',
  'деньги',
  'вернули'],
 ['ужасная',
  'синтетика',
  'тонкая',
  'ничего',
  'общего',
  'с',
  'представленной',
  'картинкой',
  'не',
  'яркая',
  'рисунок',
  'растянут',
  'и',
  'тусклый',
  'впрочем',
  'как',
  'и',
  'сама',
  'кофта',
  'мешок',
  'на',
  'картинке',
  'кажется',
  'приталенной',
  'на',
  'самом',
  'деле',
  'нет',
  'не',
  'рекомендую'],
 ['товар',
  'не',
  'пришел',
  'продавец',
  'продлил',
  'защиту',
  'без',
  'моего',
  'согласия',
  'от',
  'продавца',
  'одни',
  'обещания'],
 ['кофточка', 'голая', 'синтетика', 'носить', 'не', 'возможно']]

###  3. удаление стоп-слов


In [None]:
stop_words = stopwords.words('russian')
stop_words

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [None]:
token_sentences = [[word for word in sentence if word not in stop_words] for sentence in token_sentences]
token_sentences[:5]

[['качество',
  'плохое',
  'пошив',
  'ужасный',
  'горловина',
  'наперекос',
  'фото',
  'соответствует',
  'ткань',
  'ужасная',
  'рисунок',
  'блеклый',
  'маленький',
  'рукав',
  'ужас',
  'стоит',
  'такие',
  'деньги',
  'г'],
 ['товар',
  'отдали',
  'другому',
  'человеку',
  'получила',
  'посылку',
  'ладно',
  'деньги',
  'вернули'],
 ['ужасная',
  'синтетика',
  'тонкая',
  'общего',
  'представленной',
  'картинкой',
  'яркая',
  'рисунок',
  'растянут',
  'тусклый',
  'сама',
  'кофта',
  'мешок',
  'картинке',
  'кажется',
  'приталенной',
  'самом',
  'деле',
  'рекомендую'],
 ['товар',
  'пришел',
  'продавец',
  'продлил',
  'защиту',
  'моего',
  'согласия',
  'продавца',
  'одни',
  'обещания'],
 ['кофточка', 'голая', 'синтетика', 'носить', 'возможно']]

### 4. лемматизация

In [None]:
for ind_sentence in range(len(token_sentences)):
  for ind_word in range(len(token_sentences[ind_sentence])):
    morpth_words = pymorphy2_analyzer.parse(token_sentences[ind_sentence][ind_word])
    token_sentences[ind_sentence][ind_word] = morpth_words[0].normal_form

In [None]:
token_sentences[:5]

[['качество',
  'плохой',
  'пошив',
  'ужасный',
  'горловина',
  'наперекос',
  'фото',
  'соответствовать',
  'ткань',
  'ужасный',
  'рисунок',
  'блёклый',
  'маленький',
  'рукав',
  'ужас',
  'стоить',
  'такой',
  'деньга',
  'г'],
 ['товар',
  'отдать',
  'другой',
  'человек',
  'получить',
  'посылка',
  'ладный',
  'деньга',
  'вернуть'],
 ['ужасный',
  'синтетик',
  'тонкий',
  'общий',
  'представить',
  'картинка',
  'яркий',
  'рисунок',
  'растянутый',
  'тусклый',
  'сам',
  'кофта',
  'мешок',
  'картинка',
  'казаться',
  'приталенный',
  'сам',
  'дело',
  'рекомендовать'],
 ['товар',
  'прийти',
  'продавец',
  'продлить',
  'защита',
  'мой',
  'согласие',
  'продавец',
  'один',
  'обещание'],
 ['кофточка', 'голый', 'синтетик', 'носить', 'возможно']]

### 5. векторизация (с настройкой гиперпараметров)

In [None]:
token_sentences = [' '.join(sentence) for sentence in token_sentences]

In [None]:
x_train, x_test, y_train, y_test = train_test_split(token_sentences, data.sentiment, train_size = 0.7)

мешок n-грамм

In [None]:
vectorizer_bag = CountVectorizer(ngram_range=(1, 3))
vectorizer_bag_sentences_train = vectorizer_bag.fit_transform(x_train)
vectorizer_bag_sentences_test = vectorizer_bag.transform(x_test)
vectorizer_bag_sentences_train
clf = MultinomialNB()
clf.fit(vectorizer_bag_sentences_train, y_train)
pred = clf.predict(vectorizer_bag_sentences_test)

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score
ps = precision_score(pred, y_test, average='micro')
rs = recall_score(pred, y_test, average='micro')
fs = f1_score(pred, y_test, average='micro')
acs = accuracy_score(pred, y_test)
metric_frame = pd.DataFrame([['Bag', ps, rs, fs, acs]], 
                            columns = ['vectorizer', 'precision_score', 'recall_score', 
                                        'f1_score', 'accuracy_score']).set_index('vectorizer', drop=True)

tf-idf

In [None]:
tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 3), min_df=10, max_df=5000, max_features=20000)
vectorizer_tfidf_sentences_train = tfidf_vectorizer.fit_transform(x_train)
vectorizer_tfidf_sentences_test = tfidf_vectorizer.transform(x_test)
clf = MultinomialNB()
clf.fit(vectorizer_tfidf_sentences_train, y_train)
pred = clf.predict(vectorizer_tfidf_sentences_test)

In [None]:
ps = precision_score(pred, y_test, average='micro')
rs = recall_score(pred, y_test, average='micro')
fs = f1_score(pred, y_test, average='micro')
acs = accuracy_score(pred, y_test)
metric_frame.loc['tfidf'] = [ps, rs, fs, acs]

символьные n-граммы

In [None]:
char_vectorizer = CountVectorizer(analyzer='char', ngram_range=(3, 8))
vectorizer_char_sentences_train = char_vectorizer.fit_transform(x_train)
vectorizer_char_sentences_test = char_vectorizer.transform(x_test)
clf = MultinomialNB()
clf.fit(vectorizer_char_sentences_train, y_train)
pred = clf.predict(vectorizer_char_sentences_test)

In [None]:
ps = precision_score(pred, y_test, average='micro')
rs = recall_score(pred, y_test, average='micro')
fs = f1_score(pred, y_test, average='micro')
acs = accuracy_score(pred, y_test)
metric_frame.loc['char'] = [ps, rs, fs, acs]

оценка качества модели(ей)

In [None]:
metric_frame

Unnamed: 0_level_0,precision_score,recall_score,f1_score,accuracy_score
vectorizer,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Bag,0.710418,0.710418,0.710418,0.710418
tfidf,0.706159,0.706159,0.706159,0.706159
char,0.707826,0.707826,0.707826,0.707826


## Бонус 1. Регулярные выражения

Регулярные выражения - способ поиска и анализа строк. Например, можно понять, какие даты в наборе строк представлены в формате DD/MM/YYYY, а какие - в других форматах. 

Или бывает, например, что перед работой с текстом, надо почистить его от своеобразного мусора: упоминаний пользователей, url и так далее.

Навык полезный, давайте в нём тоже потренируемся.

Для работы с регулярными выражениями есть библиотека **re**

In [None]:
import re

В регулярных выражениях, кроме привычных символов-букв, есть специальные символы:
* **?а** - ноль или один символ **а**
* **+а** - один или более символов **а**
* **\*а** - ноль или более символов **а** (не путать с +)
* **.** - любое количество любого символа

Пример:
Выражению \*a?b. соответствуют последовательности a, ab, abc, aa, aac НО НЕ abb!

Рассмотрим подробно несколько наиболее полезных функций:

### findall
возвращает список всех найденных непересекающихся совпадений.

Регулярное выражение **ab+c.**: 
* **a** - просто символ **a**
* **b+** - один или более символов **b**
* **c** - просто символ **c**
* **.** - любой символ


In [None]:
result = re.findall('ab+c.', 'abcdefghijkabcabcxabc') 
print(result)

['abcd', 'abca']


Вопрос на внимательность: почему нет abcx?

**Задание**: вернуть список первых двух букв каждого слова в строке, состоящей из нескольких слов.

### split
разделяет строку по заданному шаблону


In [None]:
result = re.split(',', 'itsy, bitsy, teenie, weenie') 
print(result)

['itsy', ' bitsy', ' teenie', ' weenie']


можно указать максимальное количество разбиений

In [None]:
result = re.split(',', 'itsy, bitsy, teenie, weenie', maxsplit=2) 
print(result)

['itsy', ' bitsy', ' teenie, weenie']


**Задание**: разбейте строку, состоящую из нескольких предложений, по точкам, но не более чем на 3 предложения.

### sub
ищет шаблон в строке и заменяет все совпадения на указанную подстроку

параметры: (pattern, repl, string)

In [None]:
result = re.sub('a', 'b', 'abcabc')
print (result)

bbcbbc


**Задание**: напишите регулярное выражение, которое позволит заменить все цифры в строке на "DIG".

**Задание**: напишите  регулярное выражение, которое позволит убрать url из строки.

### compile
компилирует регулярное выражение в отдельный объект

In [None]:
# Пример: построение списка всех слов строки:
prog = re.compile('[А-Яа-яё\-]+')
prog.findall("Слова? Да, больше, ещё больше слов! Что-то ещё.")

['Слова', 'Да', 'больше', 'ещё', 'больше', 'слов', 'Что-то', 'ещё']

**Задание**: для выбранной строки постройте список слов, которые длиннее трех символов.

**Задание**: вернуть список доменов (@gmail.com) из списка адресов электронной почты:

```
abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz
```

## Бонус 2: Word2Vec

Векторные модели, которые мы рассматривали до этого (BOW, мешок слов; TF-IDF), условно называются *счётными*. Они основываются на том, что так или иначе "считают" слова и их соседей, и на основе этого строят вектора для слов. 


Другой класс моделей, который повсеместно распространён на сегодняшний день, называется *предсказательными* моделями. Идея этих моделей заключается в использовании нейросетевых архитектур, которые "предсказывают" (а не считают) соседей для каждого слова.

Одной из самых известных таких моделей является `word2vec`. Технология основана на нейронной сети, предсказывающей вероятность встретить слово в заданном контексте. Этот инструмент был разработан группой исследователей Google в 2013 году, руководителем проекта был Томаш Миколов (сейчас работает в Facebook). Вот две самые главные статьи:

* [Efficient Estimation of Word Representations in Vector Space](https://arxiv.org/pdf/1301.3781.pdf)
* [Distributed Representations of Words and Phrases and their Compositionality](https://arxiv.org/abs/1310.4546)


Полученные таким образом вектора называются *распределенными представлениями слов*, вложениями или **эмбеддингами**.

### Как это обучается?
Мы задаём вектор для каждого слова с помощью матрицы $w$ и вектор контекста с помощью матрицы $W$. По сути, word2vec является обобщающим названием для двух архитектур Skip-Gram и Continuous Bag-Of-Words (CBOW).  

![](https://www.researchgate.net/profile/Daniel_Braun6/publication/326588219/figure/fig1/AS:652185784295425@1532504616288/Continuous-Bag-of-words-CBOW-CB-and-Skip-gram-SG-training-model-illustrations.png)

**CBOW** предсказывает текущее слово, исходя из окружающего его контекста. 

**Skip-gram**, наоборот, использует текущее слово, чтобы предугадывать окружающие его слова. 

### Как это работает?
Word2vec принимает большой текстовый корпус в качестве входных данных и сопоставляет каждому слову вектор, выдавая координаты слов на выходе. Сначала он создает словарь, «обучаясь» на входных текстовых данных, а затем вычисляет векторное представление слов. 

Векторное представление основывается на *контекстной близости*: слова, встречающиеся в тексте рядом с одинаковыми словами (а следовательно, согласно дистрибутивной гипотезе, имеющие схожий смысл), в векторном представлении будут иметь близкие координаты векторов-слов. Для вычисления близости слов используется косинусное расстояние между их векторами.


С помощью дистрибутивных векторных моделей можно строить семантические пропорции (они же аналогии: А относится к B так же, как C относится к D) и решать примеры:

* *король: мужчина = королева: женщина* 
 $\Rightarrow$ 
* *король - мужчина + женщина = королева*

![w2v](https://cdn-images-1.medium.com/max/2600/1*sXNXYfAqfLUeiDXPCo130w.png)

Для слов нет лейблов, но мы используем слова в контексте для сбора обучающей выборки.

## Skip gram

(Предсказание контекста по слову, один из основных параметров - windows_size)

![Замещающий текст](http://mccormickml.com/assets/word2vec/training_data.png)

1. Представляем корпус текста в формате One-hot encoding, подаем вектор на вход нейросети

2. В качестве активации последнего слоя используем softmax -> переходим в пространство вероятностей (как будто задача классификации с очень большим количеством классов)

3. Предсказываем слово контекста по максимальной вероятности

![Замещающий текст](https://miro.medium.com/max/875/0*FD_ZSVKFywSg-CJM.png)

Модель хорошо работает с небольшим количеством тренировочных данных



## CBOW

![](https://iksinc.files.wordpress.com/2015/04/screen-shot-2015-04-12-at-10-58-21-pm.png)

Тренируется быстрее, чем SkipGram, лучше точность на редких словах


### Проблемы
Невозможно установить тип семантических отношений между словами: синонимы, антонимы и т.д. будут одинаково близки, потому что обычно употребляются в схожих контекстах. Поэтому близкие в векторном пространстве слова называют *семантическими ассоциатами*. Это значит, что они семантически связаны, но как именно — непонятно.


## RusVectōrēs


На сайте [RusVectōrēs](https://rusvectores.org/ru/) собраны предобученные на различных данных модели для русского языка, а также можно поискать наиболее близкие слова к заданному, посчитать семантическую близость нескольких слов и порешать примеры с помощью «калькулятора семантической близости».


Для других языков также можно найти предобученные модели — например, модели [fastText](https://fasttext.cc/docs/en/english-vectors.html) и [GloVe](https://nlp.stanford.edu/projects/glove/).

## Gensim

Использовать предобученную модель эмбеддингов или обучить свою можно с помощью библиотеки `gensim`. Вот [ее документация](https://radimrehurek.com/gensim/models/word2vec.html).

### Как использовать готовую модель

Модели word2vec бывают разных форматов:

* .vec.gz — обычный файл (текстовый)
* .bin.gz — бинарный файл

Загружаются они с помощью одного и того же класса `KeyedVectors`, меняется только параметр `binary` у функции `load_word2vec_format`. 

Если же эмбеддинги обучены **не** с помощью word2vec, то для загрузки нужно использовать функцию `load`. Т.е. **для загрузки предобученных эмбеддингов *glove, fasttext, bpe* и любых других нужна именно она**.

Скачаем с RusVectōrēs модель для русского языка, обученную на НКРЯ образца 2015 г. 

In [None]:
import urllib.request # библиотека для скачивания данных
import gensim # библиотека для загрузки и использвоания моделй w2v
from gensim.models import word2vec # непосредственно методы w2v

In [None]:
# скачиваем модель ruscorpora_mystem_cbow_300 с сайта rusvectores
# 300 - размерность вектора embeddings для слов

urllib.request.urlretrieve("http://rusvectores.org/static/models/rusvectores2/ruscorpora_mystem_cbow_300_2_2015.bin.gz", "ruscorpora_mystem_cbow_300_2_2015.bin.gz")

KeyboardInterrupt: ignored

Загружаем скачанную модель. Обратите внимание, что мы скачали бинарный файл (.bin.gz), поэтому у функции load_word2vec_format() параметр binary=True

In [None]:
model_path = 'ruscorpora_mystem_cbow_300_2_2015.bin.gz'

model_ru = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=True)

Посмотрим на ближайших соседей следующей группы слов:

In [None]:
words = ['день_S', 'ночь_S', 'человек_S', 'семантика_S', 'биткоин_S']

Частеречные тэги (например, _S, тег части речи слова) нужны, поскольку это специфика скачанной модели - она была натренирована на словах, размеченных по частям речи (и лемматизированных). 

**NB!** В названиях моделей на `rusvectores` указано, какой тегсет (набор обозначений тегов) они используют (mystem, upos и т.д.)

Попросим у модели 10 ближайших соседей для каждого слова и косинусные близости для каждого:

In [None]:
for word in words:
    # есть ли слово в модели? 
    if word in model_ru:
        print(word)
        # смотрим на вектор слова (его размерность 300, смотрим на первые 10 чисел)
        print(model_ru[word][:10])
        # выдаем 10 ближайших соседей слова:
        for word, sim in model_ru.most_similar(positive=[word], topn=10):
            # слово + коэффициент косинусной близости
            print(word, ': ', sim)
        print('\n')
    else:
        # Увы!
        print('Увы, слова "%s" нет в модели!' % word)

Найдем похожесть пары слов функцией ```similarity()``` (там используется косинусная мера схожести):

In [None]:
print(model_ru.similarity('человек_S', 'обезьяна_S'))

У загруженной модели много различных функций. Например, можно решать задачи на семантическую близость.

Что получится, если вычесть из пиццы Италию и прибавить Сибирь?

Для решения примера в качестве параметров метода ```most_similar()``` необходимо передать:
* positive — вектора, которые мы складываем
* negative — вектора, которые вычитаем

*Замечание:* не забываем взять самый близкий элемент, для этого необходимо указать ```[0][0]```.

Что получится, если вычесть из пиццы Италию и прибавить Сибирь?

In [None]:
print(model_ru.most_similar(negative=[ 'италия_S'], positive=['пицца_S','сибирь_S'])[0][0])

In [None]:
print(model_ru.most_similar(positive=['футбол_S', 'хоккей_S'], negative=['россия_S'])[0][0])

**Задание.** Придумайте и проверьте с помощью метода `most_similar` несколько аналогий

Метод ```doesnt_match()``` находит "лишнее слово" в группе слов:

In [None]:
model_ru.doesnt_match('пицца_S пельмень_S хот-дог_S ананас_S'.split())

**Задание.** Придумайте и проверьте с помощью метода `doesnt_match` несколько последовательностей с лишними словами

### Как обучить свою модель

В качестве обучающих данных возьмем размеченные и неразмеченные отзывы о фильмах (датасет взят с Kaggle).

In [None]:
# скачиваем датасет
! wget https://raw.githubusercontent.com/ancatmara/data-science-nlp/master/data/w2v/train/unlabeledTrainData.tsv

Загрузим датасет в датафрейм и посмотрим на него, делаем это с помощью уже привычной библиотеки **pandas**:

In [None]:
# считываем данные в формате csv
data = pd.read_csv("unlabeledTrainData.tsv", header=0, delimiter="\t", quoting=3)

len(data)

In [None]:
data.head()

In [None]:
data.iloc[10]['review']

Нам необходимо отчистить данные от лишнего: убрать ссылки, html-разметку и небуквенные символы. Затем нужно привести все к нижнему регистру и токенизировать. 

На выходе мы хотим получить массив из предложений, каждое из которых представляет собой массив слов.

Импортируем необходимые библиотеки и методы (некоторые уже были испортированы ранее, но для полноты картины оставим их):

In [None]:
import nltk.data # библиотека Natural Language Toolkit
import re   # библиотека для регулярных выражений
from bs4 import BeautifulSoup # библиотека для парсинга xml
from nltk.corpus import stopwords # стоп-слова из NLTK
from nltk.tokenize import sent_tokenize, RegexpTokenizer  # токенизаторы из NLTK
nltk.download('punkt') # пунктуация для правильной работы токенизатора

In [None]:
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

Функции для очистки данных:


In [None]:
def review_to_wordlist(review, remove_stopwords=False):
    # убираем ссылки вне тегов
    review = re.sub(r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", " ", review)
    # достаем сам текст
    review_text = BeautifulSoup(review, "lxml").get_text()
    # оставляем только буквенные символы
    review_text = re.sub("[^a-zA-Z]"," ", review_text)
    # приводим к нижнему регистру и разбиваем на слова по символу пробела
    words = review_text.lower().split()
    if remove_stopwords:
      # убираем стоп-слова
        stops = stopwords.words("english")
        words = [w for w in words if not w in stops]
    return(words)

def review_to_sentences(review, tokenizer, remove_stopwords=False):
    raw_sentences = tokenizer.tokenize(review.strip())
    sentences = []
    for raw_sentence in raw_sentences:
        if len(raw_sentence) > 0:
            sentences.append(review_to_wordlist(raw_sentence, remove_stopwords))
    return sentences

Проходим по всему датасету и парсим написанной выше функцией  текст в списки слов, удаляя при этом лишнее:

In [None]:
sentences = []  

print("Parsing sentences from training set...")
for review in data["review"]:
    sentences += review_to_sentences(review, tokenizer)

Посмотрим, что получилось:

In [None]:
print(len(sentences))
print(sentences[0])

In [None]:
# это понадобится нам позже для обучения другой модели эмбеддингов 

with open('clean_text.txt', 'w') as f:
    for s in sentences[:5000]:
        f.write(' '.join(s))
        f.write('\n')

Обучаем и сохраняем модель. 


Основные параметры:
* данные должны быть итерируемым объектом 
* size — размер вектора, 
* window — размер окна наблюдения,
* min_count — мин. частотность слова в корпусе,
* sg — используемый алгоритм обучения (0 — CBOW, 1 — Skip-gram),
* sample — порог для downsampling'a высокочастотных слов,
* workers — количество потоков,
* alpha — learning rate,
* iter — количество итераций,
* max_vocab_size — позволяет выставить ограничение по памяти при создании словаря (т.е. если ограничение превышается, то низкочастотные слова будут выбрасываться). Для сравнения: 10 млн слов = 1Гб RAM.

**NB!** Обратите внимание, что тренировка модели не включает препроцессинг! Это значит, что избавляться от пунктуации, приводить слова к нижнему регистру, лемматизировать их, проставлять частеречные теги придется до тренировки модели (если, конечно, это необходимо для вашей задачи). Т.е. в каком виде слова будут в исходном тексте, в таком они будут и в модели.

In [None]:
print("Training model...")
# обучаем модель с векторами размерности 300, длиной окна 10
%time model_en = word2vec.Word2Vec(sentences, workers=4, size=300, min_count=10, window=10, sample=1e-3)

Смотрим, сколько в модели слов.

In [None]:
print(len(model_en.wv.vocab))

Попробуем оценить модель вручную, порешав примеры. Несколько дано ниже, попробуйте придумать свои.

In [None]:
print(model_en.wv.most_similar(positive=["woman", "actor"], negative=["man"], topn=1))
print(model_en.wv.most_similar(positive=["dogs", "man"], negative=["dog"], topn=1))

print(model_en.wv.most_similar("usa", topn=3))

print(model_en.wv.doesnt_match("comedy thriller western novel".split()))

### Как дообучить существующую модель

При тренировке модели "с нуля" веса инициализируются случайно, однако, можно использовать для инициализации векторов веса из предобученной модели, таким образом как бы дообучая ее.

Сначала посмотрим близость какой-нибудь пары слов в имеющейся модели, чтобы потом сравнить результат с дообученной.

In [None]:
model_en.wv.similarity('lion', 'rabbit')

В качестве дополнительных данных для обучения возьмем английский текст «Алисы в Зазеркалье».

In [None]:
! wget https://raw.githubusercontent.com/ancatmara/data-science-nlp/master/data/w2v/train/alice.txt

In [None]:
with open("alice.txt", 'r', encoding='utf-8') as f:
    text = f.read()

# убираем переносы строк, токенизируем текст

text = re.sub('\n', ' ', text)
sents = sent_tokenize(text)

punct = '!"#$%&()*+,-./:;<=>?@[\]^_`{|}~„“«»†*—/\-‘’'
clean_sents = []

# убираем всю пунктуацию и делим текст на слова по пробелу
for sent in sents:
    s = [w.lower().strip(punct) for w in sent.split()]
    clean_sents.append(s)
    
print(clean_sents[:2])

Чтобы дообучить модель, надо сначала ее сохранить, а потом загрузить. Все параметры тренировки (размер вектора, мин. частота слова и т.п.) будут взяты из загруженной модели, т.е. задать их заново нельзя.

**NB!** Дообучить можно только полную модель (сохраненные при обучении веса и параметры модели, то есть обект самой модели), а `KeyedVectors` (просто пары "слово - вектор") — нельзя. Поэтому сохранять модель нужно в соотвествующем формате. Подробнее о разнице [вот тут](https://radimrehurek.com/gensim/models/keyedvectors.html).

In [None]:
model_path = "movie_reviews.model"

# так можно сохранить модель для последующего дообучения
print("Saving model...")
model_en.save(model_path)

In [None]:
# загружаем нашу обученную модель и дообучаем на текстах "Алисы"

model = word2vec.Word2Vec.load(model_path)

model.build_vocab(clean_sents, update=True)
model.train(clean_sents, total_examples=model.corpus_count, epochs=5)

In [None]:
model.wv.similarity('lion', 'rabbit')

Лев и кролик стали ближе друг к другу!

Можно нормализовать вектора, тогда модель будет занимать меньше RAM. Однако после этого её нельзя дотренировывать. Здесь используется L2-нормализация: вектора нормализуются так, что если сложить квадраты всех элементов вектора, в сумме получится 1. 

Кроме того, сохраним не полные вектора, а `KeyedVectors`.

In [None]:
model.init_sims(replace=True)
model_path = "movies_alice.bin"

print("Saving model...")
model_en.wv.save_word2vec_format(model_path, binary=True)

## Оценка

Задача обучения модели w2v - это usupervised задача (обучение без учителя), "правильных" ответов нет, поэтому нельзя вычислить некую метрику качества, чтобы сравнить две модели между собой или просто по значению одной метрики сказать, насколько хороша полученная модель. 

Тем не менее, существуют специальные выборки для оценки качества дистрибутивных моделей. Основных два: один измеряет точность решения задач на аналогии (пример про Россию и пельмени), а второй используется для оценки коэффициента семантической близости. 

### Аналогии

Другая популярная задача для "внутренней" оценки называется задачей поиска аналогий. Как мы уже разбирали выше, с помощью простых арифметических операций мы можем модифицировать значение слова. Если заранее собрать набор слов-модификаторов, а также слов, которые мы хотим получить в результаты модификации, то на основе подсчёта количества "попаданий" в желаемое слово мы можем оценить, насколько хорошо работает модель.

В качестве слов-модификаторов мы можем использовать семантические аналогии. Скажем, если у нас есть некоторое отношение "страна-столица", то для оценки модели мы можем использовать пары наподобие "Россия-Москва", "Норвегия-Осло", и т.д. Выборка будет выглядеть следующм образом:

| слово 1    | слово 2    | отношение     | 
|------------|------------|---------------|
| Россия     | Москва     | страна-столица|  
| Норвегия   | Осло       | страна-столица|

Рассматривая случайные две пары из этого набора, мы хотим, имея триплет (Россия, Москва, Норвегия), получить слово "Осло", т.е. найти такое слово, которое будет находиться в том же отношении со словом "Норвегия", как "Россия" находится с Москвой. 

Выборки для русского языка можно скачать на странице с моделями на RusVectores. Посчитаем качество нашей модели НКРЯ на выборке про аналогии:

In [None]:
! wget https://raw.githubusercontent.com/ancatmara/data-science-nlp/master/data/w2v/evaluation/ru_analogy_tagged.txt

In [None]:
with open('ru_analogy_tagged.txt','r') as f:
  data = f.readlines()
  print (data[:10])

In [None]:
res = model_ru.accuracy('ru_analogy_tagged.txt')

In [None]:
print(res[4]['incorrect'][:10])

### Word Similarity

Этот метод заключается в том, чтобы оценить, насколько представления о семантической близости слов в модели соотносятся с "представлениями" людей.

| слово 1    | слово 2    | близость | 
|------------|------------|----------|
| кошка      | собака     | 0.7      |  
| чашка      | кружка     | 0.9      |       

Для каждой пары слов из заранее заданного датасета мы можем посчитать косинусное расстояние, и получить список таких значений близости. При этом у нас уже есть список значений близостей, сделанный людьми. Мы можем сравнить эти два списка и понять, насколько они похожи (например, посчитав корреляцию). Эта мера схожести должна говорить о том, насколько модель хорошо моделирует расстояния до слова.


## Бонус 3. FastText

FastText использует не только эмбеддинги слов, но и эмбеддинги n-грам. В корпусе каждое слово автоматически представляется в виде набора символьных n-грамм. 

Скажем, если мы установим n=3, то вектор для слова "where" будет представлен суммой векторов следующих триграм: "<wh", "whe", "her", "ere", "re>" (где "<" и ">" символы, обозначающие начало и конец слова). 

Благодаря этому мы можем также получать вектора для слов, отсутствуюших в словаре, а также эффективно работать с текстами, содержащими ошибки и опечатки.

* [Статья](https://aclweb.org/anthology/Q17-1010)
* [Сайт](https://fasttext.cc/)
* [Тьюториал](https://fasttext.cc/docs/en/support.html)
* [Вектора для 157 языков](https://fasttext.cc/docs/en/crawl-vectors.html)
* [Вектора, обученные на википедии](https://fasttext.cc/docs/en/pretrained-vectors.html) (отдельно для 294 разных языков)
* [Репозиторий](https://github.com/facebookresearch/fasttext)

Есть библиотека `fasttext` для питона (с готовыми моделями можно работать и через `gensim`).

In [None]:
# чтобы установить fasstext, можно склонировать его с репозитория 
! git clone https://github.com/facebookresearch/fastText.git
! pip3 install fastText/.

In [None]:
import fasttext

ft_model = fasttext.train_unsupervised('clean_text.txt', minn=3, maxn=4, dim=300)

In [None]:
ft_model.get_nearest_neighbors('actor')

In [None]:
ft_model.get_analogies("woman", "man", "actor")

In [None]:
ft_model.get_nearest_neighbors('actr')

In [None]:
ft_model.get_nearest_neighbors('moviegeek')

Дополнение: https://github.com/dipanjanS/text-analytics-with-python/tree/master/New-Second-Edition