# Семинар 10

### Методы обработки текстов

Примеры задач автоматической обработки текстов:

- классификация текстов

    - анализ тональности
    - фильтрация спама
    - по теме или жанру

- машинный перевод

- распознавание речи

- извлечение информации

    - именованные сущности
    - факты и события

- кластеризация текстов

- оптическое распознавание символов

- проверка правописания

- вопросно-ответные системы

- суммаризация текстов

- генерация текстов

Одни из классических методов для работы с текстами:

- токенизация

- лемматизация / стемминг

- удаление стоп-слов

- векторное представление текстов (bag of words и TF-IDF)

_Что почитать:_

- Jurafsky, Martin: Speech and Language Processing (2nd or 3rd Edition)

## Токенизация

Токенизировать -- значит, поделить текст на слова, или *токены*.

Самый наивный способ токенизировать текст -- разделить с помощью `split`. Но `split` упускает очень много всего, например, банально не отделяет пунктуацию от слов. Кроме этого, есть ещё много менее тривиальных проблем. Поэтому лучше использовать готовые токенизаторы.

In [None]:
!pip install nltk

In [None]:
from nltk.tokenize import word_tokenize
import numpy as np 
import pandas as pd

In [None]:
example = 'Но не каждый хочет что-то исправлять:('

In [None]:
example.split()

In [None]:
word_tokenize(example)

В nltk вообще есть довольно много токенизаторов:

In [None]:
from nltk import tokenize
dir(tokenize)[:16]

Они умеют выдавать индексы начала и конца каждого токена:

In [None]:
wh_tok = tokenize.WhitespaceTokenizer()
list(wh_tok.span_tokenize(example))

(если вам было интересно, зачем вообще включать в модуль токенизатор, который работает как `.split()` :))

Некторые токенизаторы ведут себя специфично:

In [None]:
tokenize.TreebankWordTokenizer().tokenize("don't stop me")

Для некоторых задач это может быть полезно.

А некоторые -- вообще не для текста на естественном языке:

In [None]:
tokenize.SExprTokenizer().tokenize("(a (b c)) d e (f)")

In [None]:
from nltk.tokenize import TweetTokenizer

tw = TweetTokenizer()
tw.tokenize(example)

_Что почитать:_

- http://mlexplained.com/2019/11/06/a-deep-dive-into-the-wonderful-world-of-preprocessing-in-nlp/
- https://blog.floydhub.com/tokenization-nlp/

## Стоп-слова и пунктуация

*Стоп-слова* -- это слова, которые часто встречаются практически в любом тексте и ничего интересного не говорят о конретном документе, то есть играют роль шума. Поэтому их принято убирать. По той же причине убирают и пунктуацию.

In [None]:
import nltk
nltk.download("stopwords")

In [None]:
from nltk.corpus import stopwords
print(stopwords.words('russian'))

In [None]:
from string import punctuation
punctuation

In [None]:
noise = stopwords.words('russian') + list(punctuation)

## Лемматизация

Лемматизация – это сведение разных форм одного слова к начальной форме – *лемме*. Например, токены «пью», «пил», «пьет» перейдут в «пить». Почему это хорошо?
* Во-первых, мы хотим рассматривать как отдельный признак каждое *слово*, а не каждую его отдельную форму.
* Во-вторых, некоторые стоп-слова стоят только в начальной форме, и без лемматизации выкидываем мы только её.

Для русского есть два хороших лемматизатора: mystem и pymorphy.

### [Mystem](https://tech.yandex.ru/mystem/)
Как с ним работать:
* можно скачать mystem и запускать [из терминала с разными параметрами](https://tech.yandex.ru/mystem/doc/)
* [pymystem3](https://pythonhosted.org/pymystem3/pymystem3.html) - обертка для питона, работает медленнее, но это удобно

In [None]:
!pip install pymystem3

In [None]:
from pymystem3 import Mystem
mystem_analyzer = Mystem()

Мы инициализировали Mystem c дефолтными параметрами. А вообще параметры есть такие:
* mystem_bin - путь к `mystem`, если их несколько
* grammar_info - нужна ли грамматическая информация или только леммы (по умолчанию нужна)
* disambiguation - нужно ли снятие омонимии - дизамбигуация (по умолчанию нужна)
* entire_input - нужно ли сохранять в выводе все (пробелы всякие, например), или можно выкинуть (по умолчанию оставляется все)

Методы Mystem принимают строку, токенизатор вшит внутри. Можно, конечно, и пословно анализировать, но тогда он не сможет учитывать контекст.

Можно просто лемматизировать текст:

In [None]:
print(mystem_analyzer.lemmatize(example))

### [Pymorphy](http://pymorphy2.readthedocs.io/en/latest/)
Это модуль на питоне, довольно быстрый и с кучей функций.

In [None]:
!pip install pymorphy2
!pip install pymorphy2-dicts
!pip install DAWG-Python

In [None]:
from pymorphy2 import MorphAnalyzer
pymorphy2_analyzer = MorphAnalyzer()

pymorphy2 работает с отдельными словами. Если дать ему на вход предложение - он его просто не лемматизирует, т.к. не понимает

In [None]:
tokenized_example = tw.tokenize(example)

In [None]:
tokenized_example

In [None]:
ana = pymorphy2_analyzer.parse(tokenized_example[3])
ana

In [None]:
ana[0].normal_form

### mystem vs. pymorphy

1) *Надеемся, что вы пользуетесь линуксом или маком*, но mystem работает невероятно медленно под windows на больших текстах

2) *Снятие омонимии*. Mystem умеет снимать омонимию по контексту (хотя не всегда преуспевает), pymorphy2 берет на вход одно слово и соответственно вообще не умеет дизамбигуировать по контексту.

In [None]:
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'
mystem_analyzer = Mystem() # инициализируем объект с параметрами по умолчанию

print(mystem_analyzer.analyze(homonym1)[-5])
print(mystem_analyzer.analyze(homonym2)[0])

In [None]:
mystem_analyzer.lemmatize(homonym2)

## Стемминг

В отличие от лемматизации, при применении стемминга у всех слов отбрасываются аффиксы (окончания и суффиксы), что необязательно приводит слова к формам, существующим в рассматриваемом языке.

In [None]:
from nltk.stem.snowball import SnowballStemmer

In [None]:
stemmer = SnowballStemmer('russian')
stemmed_example = [stemmer.stem(w) for w in tokenized_example]
print(' '.join(stemmed_example))

In [None]:
text = "In my younger and more vulnerable years my father gave me some advice that I've been turning over in my mind ever since.\n\"Whenever you feel like criticizing any one,\" he told me, \"just remember that all the people in this world haven't had the advantages that you've had.\""
print(text)
text_tokenized = [w for w in word_tokenize(text) if w.isalpha()]

In [None]:
stemmer = SnowballStemmer('english')
text_stemmed = [stemmer.stem(w) for w in text_tokenized]
print(' '.join(text_stemmed))

In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
text_lemmatized = [lemmatizer.lemmatize(w) for w in text_tokenized]
print(' '.join(text_lemmatized))

_Что почитать:_

- https://en.wikipedia.org/wiki/Stemming
- https://en.wikipedia.org/wiki/Lemmatisation
- https://www.datacamp.com/community/tutorials/stemming-lemmatization-python

## Bag-of-words и TF-IDF

Но как же все-таки работать с текстами, используя стандартные методы машинного обучения? Нужна выборка!

Модель bag-of-words: текст можно представить как набор независимых слов. Тогда каждому слову можно сопоставить вес, таким образом, сопоставляя тексту набор весов. В качестве весов можно брать частоту встречаемости слов в тексте.

In [None]:
texts = ['I like my cat.', 'My cat is the most perfect cat.', 'is this cat or is this bread?']

In [None]:
texts_tokenized = [' '.join([w for w in word_tokenize(t) if w.isalpha()]) for t in texts]
texts_tokenized

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
cnt_vec = CountVectorizer()
X = cnt_vec.fit_transform(texts_tokenized)

In [None]:
cnt_vec.get_feature_names()

In [None]:
X

In [None]:
X.toarray()

In [None]:
pd.DataFrame(X.toarray(), columns=cnt_vec.get_feature_names())

Заметим, что если слово часто встречается в одном тексте, но почти не встречается в других, то оно получает для данного текста большой вес, ровно так же, как и слова, которые часто встречаются в каждом тексте. Для того, чтобы разделять эти такие слова, можно использовать статистическую меру TF-IDF, характеризующую важность слова для конкретного текста. Для каждого слова из текста $d$ рассчитаем относительную частоту встречаемости в нем (Term Frequency):
$$
\text{TF}(t, d) = \frac{C(t | d)}{\sum\limits_{k \in d}C(k | d)},
$$
где $C(t | d)$ - число вхождений слова $t$ в текст $d$.

Также для каждого слова из текста $d$ рассчитаем обратную частоту встречаемости в корпусе текстов $D$ (Inverse Document Frequency):
$$
\text{IDF}(t, D) = \log\left(\frac{|D|}{|\{d_i \in D \mid t \in d_i\}|}\right)
$$
Логарифмирование здесь проводится с целью уменьшить масштаб весов, ибо зачастую в корпусах присутствует очень много текстов.

В итоге каждому слову $t$ из текста $d$ теперь можно присвоить вес
$$
\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)
$$
Интерпретировать формулу выше несложно: действительно, чем чаще данное слово встречается в данном тексте и чем реже в остальных, тем важнее оно для этого текста.

Отметим, что в качестве TF и IDF можно использовать другие определения (https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition).

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
X = tfidf_vec.fit_transform(texts_tokenized)

In [None]:
tfidf_vec.get_feature_names()

In [None]:
X

In [None]:
X.toarray()

In [None]:
pd.DataFrame(X.toarray(), columns=tfidf_vec.get_feature_names())

Что изменилось по сравнению с методом `CountVectorizer`? Интерпретируйте результат.

_Что почитать:_

- https://en.wikipedia.org/wiki/Tf%E2%80%93idf
- https://programminghistorian.org/en/lessons/analyzing-documents-with-tfidf

## Baseline: классификация необработанных n-грамм

### Векторизаторы

In [None]:
from sklearn.linear_model import LogisticRegression # можно заменить на любимый классификатор
from sklearn.feature_extraction.text import CountVectorizer

Что такое n-граммы:

In [None]:
from nltk import ngrams

In [None]:
sent = 'Если б мне платили каждый раз'.split()
list(ngrams(sent, 1)) # униграммы

In [None]:
list(ngrams(sent, 2)) # биграммы

In [None]:
list(ngrams(sent, 3)) # триграммы

In [None]:
list(ngrams(sent, 5)) # ... пентаграммы?

## Задача: классификация твитов по тональности

У нас есть датасет из твитов, про каждый указано, как он эмоционально окрашен: положительно или отрицательно. Задача: предсказывать эмоциональную окраску.

Классификацию по тональности используют, например, в рекомендательных системах, чтобы понять, понравилось ли людям кафе, кино, etc.

Скачиваем куски датасета ([источник](http://study.mokoron.com/)): [положительные](https://www.dropbox.com/s/fnpq3z4bcnoktiv/positive.csv?dl=0), [отрицательные](https://www.dropbox.com/s/r6u59ljhhjdg6j0/negative.csv).

In [None]:
# если у вас линукс / мак / collab или ещё какая-то среда, в которой работает wget, можно так:
# !wget https://www.dropbox.com/s/fnpq3z4bcnoktiv/positive.csv
# !wget https://www.dropbox.com/s/r6u59ljhhjdg6j0/negative.csv

In [None]:
import pandas as pd
import numpy as np
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

In [None]:
# считываем данные и заполняем общий датасет
positive = pd.read_csv('positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive)
negative = pd.read_csv('negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative)
df = positive.append(negative)

In [None]:
df.tail()

In [None]:
df.shape

In [None]:
x_train, x_test, y_train, y_test = train_test_split(df.text, df.label, random_state=13)

Самый простой способ извлечь признаки из текстовых данных -- векторизаторы: `CountVectorizer` и `TfidfVectorizer`

Объект `CountVectorizer` делает простую вещь:
* строит для каждого документа (каждой пришедшей ему строки) вектор размерности `n`, где `n` -- количество слов или n-грам во всём корпусе
* заполняет каждый i-тый элемент количеством вхождений слова в данный документ

In [None]:
vec = CountVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)

In [None]:
bow

ngram_range отвечает за то, какие n-граммы мы используем в качестве фичей:<br/>
ngram_range=(1, 1) -- униграммы<br/>
ngram_range=(3, 3) -- триграммы<br/>
ngram_range=(1, 3) -- униграммы, биграммы и триграммы.

В vec.vocabulary_ лежит словарь: мэппинг слов к их индексам:

In [None]:
list(vec.vocabulary_.items())[:10]

In [None]:
clf = LogisticRegression(max_iter=300, random_state=42)
clf.fit(bow, y_train)

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit_transform(bow)

In [None]:
from sklearn.preprocessing import MaxAbsScaler
scaler = MaxAbsScaler()
scaler.fit_transform(bow)

In [None]:
clf = LogisticRegression(max_iter=300, random_state=42)
clf.fit(scaler.fit_transform(bow), y_train)

In [None]:
pred = clf.predict(scaler.transform(vec.transform(x_test)))
print(classification_report(y_test, pred))

Попробуем сделать то же самое для триграмм:

In [None]:
vec = CountVectorizer(ngram_range=(3, 3))
bow = vec.fit_transform(x_train)
scaler = MaxAbsScaler()
bow = scaler.fit_transform(bow)
clf = LogisticRegression(max_iter=300, random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(scaler.transform(vec.transform(x_test)))
print(classification_report(y_test, pred))

А теперь для TF-IDF

In [None]:
vec = TfidfVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(max_iter=300, random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(y_test, pred))

In [None]:
vec = CountVectorizer(ngram_range=(1, 1), tokenizer=word_tokenize, stop_words=noise)
bow = vec.fit_transform(x_train)
scaler = MaxAbsScaler()
bow = scaler.fit_transform(bow)
clf = LogisticRegression(max_iter=300, random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(scaler.transform(vec.transform(x_test)))
print(classification_report(y_test, pred))

## О важности эксплоративного анализа

Но иногда пунктуация бывает и не шумом -- главное отталкиваться от задачи. Что будет если вообще не убирать пунктуацию?

In [None]:
vec = CountVectorizer(ngram_range=(1, 1), tokenizer=word_tokenize)
bow = vec.fit_transform(x_train)
scaler = MaxAbsScaler()
bow = scaler.fit_transform(bow)
clf = LogisticRegression(max_iter=300, random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(scaler.transform(vec.transform(x_test)))
print(classification_report(y_test, pred))

Стоило оставить пунктуацию -- и внезапно все метрики устремились к 1. Как это получилось? Среди неё были очень значимые токены (как вы думаете, какие?). Найдите признаки с самыми большими коэффициентами:

In [None]:
# your code here

Посмотрим, как один из супер-значительных токенов справится с классификацией безо всякого машинного обучения:

In [None]:
cool_token = # your code here
pred = ['positive' if cool_token in tweet else 'negative' for tweet in x_test]
print(classification_report(y_test, pred))

In [None]:
cool_token = # your code here
tweets_with_cool_token = [tweet for tweet in x_train if cool_token in tweet]
np.random.seed(42)
for tweet in np.random.choice(tweets_with_cool_token, size=10, replace=False):
    print(tweet)

## Символьные n-граммы

Теперь в качестве признаков используем, например, униграммы символов:

In [None]:
vec = CountVectorizer(ngram_range=(1, 1), analyzer='char')
bow = vec.fit_transform(x_train)
scaler = MaxAbsScaler()
bow = scaler.fit_transform(bow)
clf = LogisticRegression(max_iter=300, random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(scaler.transform(vec.transform(x_test)))
print(classification_report(y_test, pred))

В общем-то, теперь уже понятно, почему на этих данных здесь 1. Так или иначе, на символах классифицировать тоже можно: для некоторых задач (например, для определения языка) признаки-символьные n-граммы могут внести серьезный вклад в качество модели.

Ещё одна замечательная особенность признаков-символов: токенизация и лемматизация не нужна, можно использовать такой подход для языков, у которых нет готовых анализаторов.

_Что почитать:_

- https://web.stanford.edu/~jurafsky/slp3/3.pdf
- https://books.google.com/ngrams

## Регулярные выражения

https://ru.wikipedia.org/wiki/Регулярные_выражения

Вообще, часто бывает так, что для конкретного случая нужен особый способ токенизации, и надо самостоятельно написать регулярное выражение. Или, например, перед работой с текстом, надо почистить его от своеобразного мусора: упоминаний пользователей, url и так далее.

Навык полезный, давайте в нём тоже потренируемся.

In [None]:
import re

### findall
возвращает список всех найденных совпадений

- ? : ноль или одно повторение
- \* : ноль или более повторений
- \+ : одно или более повторений
- . : любой символ

In [None]:
result = re.findall('ab+c.', 'abcdefghijkabcabcxabc') 
print(result)

Вопрос на внимательность: почему нет abcx?

In [None]:
re.findall('ab+c.', 'abbbca')

### split
разделяет строку по заданному шаблону


In [None]:
result = re.split(',', 'itsy, bitsy, teenie, weenie') 
print(result)

можно указать максимальное количество разбиений

In [None]:
result = re.split(',', 'itsy, bitsy, teenie, weenie', maxsplit=2) 
print(result)

### sub
ищет шаблон в строке и заменяет все совпадения на указанную подстроку

параметры: (pattern, repl, string)

In [None]:
result = re.sub('a', 'b', 'abcabc')
print (result)

### compile
компилирует регулярное выражение в отдельный объект

In [None]:
# Пример: построение списка всех слов строки:

prog = re.compile('[А-Яа-яё\-]+')
prog.findall("Слова? Да, больше, ещё больше слов! Что-то ещё.")

**Задание**: вернуть список доменов (@gmail.com) из списка адресов электронной почты:

```
abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz
```

In [None]:
emails = 'abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz'

In [None]:
# your code here

_Что почитать:_

- https://habr.com/ru/post/115825/
- https://www.regular-expressions.info/
- https://regexr.com/