<h1><center>Предобработка текста</center></h1>

## Основные техники
* Уровень символов:
    * Токенизация: разбиение текста на слова
    * Разбиение текста на предложения
* Уровень слов – морфология:
    * Разметка частей речи
    * Снятие морфологической неоднозначности
    * Нормализация (стемминг или лемматизация)
* Уровень предложений – синтаксис:
    * Выделенние именных или глагольных групп
    * Выделенние семантических ролей
    * Деревья составляющих и зависимостей
* Уровень смысла – семантика и дискурс:
    * Разрешение кореферентных связей
    * Выделение синонимов
    * Анализ аргументативных связей

## Основные проблемы
* Неоднозначность
    * Лексическая неоднозначность: *орган, парить, рожки, атлас*
    * Морфологическая неоднозначность: *Хранение денег в банке. Что делают белки в клетке?*
    * Синтаксическая неоднозначность: *Мужу изменять нельзя. Его удивил простой солдат. Эти типы стали есть в цехе.*
* Неологизмы: *печеньки, заинстаграммить, репостнуть, расшарить, биткоины*
* Разные варианты написания: *Россия, Российская Федерация, РФ*
* Нестандартное написание (в т.ч. орфографические ошибки и опечатки): *каг дила? куптиь телфон*

<img src="images/pipeline.png" alt="pipeline.png" style="width: 400px;"/>


### NLP-библиотеки

NLP-библиотеки для питона:
* Natural Language Toolkit (NLTK)
* Apache OpenNLP
* Stanford NLP suite
* Gate NLP library
* Spacy
* Yargy
* DeepPavlov
* CLTK (для древних языков)
* и т.д.

Самая старая и известная — NLTK. В NLTK есть не только различные инструменты для обработки текста, но и данные — текстовые корпуса, предобученные модели для анализа тональности и морфологической разметки, списки стоп-слов для разных языков и т.п.

* [Учебник по NLTK](https://www.nltk.org/book/) от авторов библиотеки и [тьюториалы](https://github.com/hb20007/hands-on-nltk-tutorial) по решению разных задач NLP с помощью NLTK.
* [Документация Spacy](https://spacy.io/)
* [Документация Yargy](https://yargy.readthedocs.io/)
* [Документация DeepPavlop](http://docs.deeppavlov.ai/)

## Предобработка текста

1. **Токенизация** — самый первый шаг при обработке текста.
2. **Нормализация** — приведение к одному регистру, удаляются пунктуации, исправление опечаток и т.д.
3.
    * **Стемминг** —  выделение псевдоосновы слова.
    * **Лемматизация** — приведение слов к словарной ("начальной") форме.
4. **Удаление стоп-слов** — слов, которые не несут никакой смысловой нагрузки (предлоги, союзы и т.п.) Список зависит от задачи!

**Важно!** Не всегда нужны все этапы, все зависит от задачи!

## Токенизация

#### Сколько слов в этом предложении?

*На дворе трава, на траве дрова, не руби дрова на траве двора.*

* 12 токенов: На, дворе, трава, на, траве, дрова, не, руби, дрова, на, траве, двора
* 8 - 9 словоформ: Н/на, дворе, трава, траве, дрова, не, руби, двора.
* 6  лексем: на, не, двор, трава, дрова, рубить


### Токен и словоформа

**Словоформа**  – уникальное слово из текста

**Токен**  – словоформа и её позиция в тексте

Объем корпуса измеряется в токенах, объем словаря — в словоформах или лексемах.

### Обозначения
$N$ = число токенов

$V$ = словарь (все словоформы)

$|V|$ = количество словоформ в словаре

### Токен ≠ слово

__Рассмотрим пример:__

    Продаётся LADA 4x4. ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега. Комплектация полная. Новая в салоне 750 000, отдам за 650 000. Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.

    * Модификация: 1.6 MT (89 л.с.)
    * Владельцев по ПТС: 4+
    * VIN или номер кузова: XTA21104*50****47
    * Мультимедиа и навигация: CD/DVD/Blu-ray
    * Шины и диски: 14"

    Краснодар, ул. Миклухо-Маклая, д. 4/5, подъезд 1

    Тел. 8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33
    
    e-mail: ivanov.ivan-61@mail.ru
    
    И.И. Иванов (Иван Иванович)

In [None]:
# самая банальная токенизация: разбиение по пробелам

text = '''
Продаётся LADA 4x4. ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега.
Комплектация полная. Новая в салоне 750 000, отдам за 650 000.
Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.
Краснодар, ул. Миклухо-Маклая, д. 4/5, подьезд 1
Тел. 8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33
И.И. Иванов (Иван Иванович)
'''

tokens = text.split()
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018,', 'куплена', '20', 'января', '19', 'года,', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000,', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар,', 'ул.', 'Миклухо-Маклая,', 'д.', '4/5,', 'подьезд', '1', 'Тел.', '8(999)1234567,', '8', '903', '987-65-43,', '+7', '(351)', '111', '22', '33', 'И.И.', 'Иванов', '(Иван', 'Иванович)']


56

In [None]:
# !pip install --user yargy

In [None]:
# максимально разбивает
from yargy.tokenizer import MorphTokenizer

tknzr = MorphTokenizer()
tokens = [_.value for _ in tknzr(text)]
print(tokens)
len(tokens)

ModuleNotFoundError: ignored

In [None]:
# !pip install --user nltk

In [None]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('snowball_data')
nltk.download('perluniprops')
nltk.download('universal_tagset')
nltk.download('stopwords')
nltk.download('nonbreaking_prefixes')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package snowball_data to /root/nltk_data...
[nltk_data] Downloading package perluniprops to /root/nltk_data...
[nltk_data]   Unzipping misc/perluniprops.zip.
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Unzipping taggers/universal_tagset.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package nonbreaking_prefixes to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping corpora/nonbreaking_prefixes.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [None]:
from nltk.tokenize import word_tokenize, ToktokTokenizer

tokens = word_tokenize(text)
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4', '.', 'ПТС', '01.12.2018', ',', 'куплена', '20', 'января', '19', 'года', ',', '10', '000', 'км', 'пробега', '.', 'Комплектация', 'полная', '.', 'Новая', 'в', 'салоне', '750', '000', ',', 'отдам', 'за', '650', '000', '.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой', '.', 'Краснодар', ',', 'ул', '.', 'Миклухо-Маклая', ',', 'д', '.', '4/5', ',', 'подьезд', '1', 'Тел', '.', '8', '(', '999', ')', '1234567', ',', '8', '903', '987-65-43', ',', '+7', '(', '351', ')', '111', '22', '33', 'И.И', '.', 'Иванов', '(', 'Иван', 'Иванович', ')']


81

In [None]:
tknzr = ToktokTokenizer()
tokens = tknzr.tokenize(text)
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018', ',', 'куплена', '20', 'января', '19', 'года', ',', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000', ',', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар', ',', 'ул.', 'Миклухо-Маклая', ',', 'д.', '4/5', ',', 'подьезд', '1', 'Тел.', '8(', '999', ')', '1234567', ',', '8', '903', '987-65-43', ',', '+7', '(', '351', ')', '111', '22', '33', 'И.И.', 'Иванов', '(', 'Иван', 'Иванович', ')']


71

In [None]:
# специальный токенизатор для твитов
from nltk.tokenize import TweetTokenizer

tknzr = TweetTokenizer()
tweet = "@remy This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"
tknzr.tokenize(tweet)

['@remy',
 'This',
 'is',
 'a',
 'cooool',
 '#dummysmiley',
 ':',
 ':-)',
 ':-P',
 '<3',
 'and',
 'some',
 'arrows',
 '<',
 '>',
 '->',
 '<--']

In [None]:
# токенизатор на регулярных выражениях
from nltk.tokenize import RegexpTokenizer

s = "Good muffins cost $3.88 in New York.  Please buy me two of them. \n\nThanks."
tknzr = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
tknzr.tokenize(s)

['Good',
 'muffins',
 'cost',
 '$3.88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.']

В nltk вообще есть довольно много токенизаторов:

In [None]:
from nltk import tokenize
dir(tokenize)[:16]

['BlanklineTokenizer',
 'LegalitySyllableTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'NLTKWordTokenizer',
 'PunktSentenceTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'SyllableTokenizer',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer',
 'TreebankWordDetokenizer']

Они умеют выдавать индексы начала и конца каждого токена:

In [None]:
wh_tok = tokenize.WhitespaceTokenizer()
list(wh_tok.span_tokenize("don't stop me"))

[(0, 5), (6, 10), (11, 13)]

Некторые токенизаторы ведут себя специфично:

In [None]:
tokenize.TreebankWordTokenizer().tokenize("don't stop me")

['do', "n't", 'stop', 'me']

## Сегментация предложений

Сегментацию предложений иногда называют **сплиттингом**.

Основные признаки — знаки препинания. "?", "!" как правило однозначны, проблемы возникают с "."  Возможное решение: бинарный классификатор для сегментации предложений. Для каждой точки "." определить, является ли она концом предложения или нет.


In [None]:
from nltk.tokenize import sent_tokenize

sents = sent_tokenize(text)
print(len(sents))
sents

10


['\nПродаётся LADA 4x4.',
 'ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега.',
 'Комплектация полная.',
 'Новая в салоне 750 000, отдам за 650 000.',
 'Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.',
 'Краснодар, ул.',
 'Миклухо-Маклая, д.',
 '4/5, подьезд 1 \nТел.',
 '8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33 \nИ.И.',
 'Иванов (Иван Иванович)']

In [None]:
!pip install --user rusenttokenize

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting rusenttokenize
  Downloading rusenttokenize-0.0.5-py3-none-any.whl (10 kB)
Installing collected packages: rusenttokenize
Successfully installed rusenttokenize-0.0.5


In [None]:
from rusenttokenize import ru_sent_tokenize
sents = ru_sent_tokenize(text)

print(len(sents))
sents

ModuleNotFoundError: ignored

## Нормализация

### Удаление пунктуации

In [None]:
# Способ №1
import re

# набор пунктуационных символов зависит от задачи и текста
punct = '!"#$%&()*\+,-\./:;<=>?@\[\]^_`{|}~„“«»†*\—/\-‘’'
clean_text = re.sub(punct, r'', text)
print(clean_text.split())

# Способ №2
clean_words = [w.strip(punct) for w in word_tokenize(text)]
print(clean_words)

clean_words == clean_text

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018,', 'куплена', '20', 'января', '19', 'года,', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000,', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар,', 'ул.', 'Миклухо-Маклая,', 'д.', '4/5,', 'подьезд', '1', 'Тел.', '8(999)1234567,', '8', '903', '987-65-43,', '+7', '(351)', '111', '22', '33', 'И.И.', 'Иванов', '(Иван', 'Иванович)']
['Продаётся', 'LADA', '4x4', '', 'ПТС', '01.12.2018', '', 'куплена', '20', 'января', '19', 'года', '', '10', '000', 'км', 'пробега', '', 'Комплектация', 'полная', '', 'Новая', 'в', 'салоне', '750', '000', '', 'отдам', 'за', '650', '000', '', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой', '', 'Краснодар', '', 'ул', '', 'Миклухо-Маклая', '', 'д', '', '4/5', '', 'подьезд', '1', 'Тел', '', '8', '', '999', '', '1234567', '', '8', '903', '987-65-43', '', '7

False

### Преобразование регистра

In [None]:
clean_words = [w.lower() for w in clean_words if w != '']
print(clean_words)

['продаётся', 'lada', '4x4', 'птс', '01.12.2018', 'куплена', '20', 'января', '19', 'года', '10', '000', 'км', 'пробега', 'комплектация', 'полная', 'новая', 'в', 'салоне', '750', '000', 'отдам', 'за', '650', '000', 'возможен', 'обмен', 'на', 'ваз-2110', 'или', 'ваз', '2109', 'с', 'вашей', 'доплатой', 'краснодар', 'ул', 'миклухо-маклая', 'д', '4/5', 'подьезд', '1', 'тел', '8', '999', '1234567', '8', '903', '987-65-43', '7', '351', '111', '22', '33', 'и.и', 'иванов', 'иван', 'иванович']


### Стоп-слова

**Стоп-слова** — высокочастотные слова, которые не дают нам никакой информации о конкретном тексте. Они составляют верхушку частотного списка в любом языке. Набор стоп-слов не универсален, он будет зависеть от вашей задачи!

В NLTK есть готовые списки стоп-слов для многих языков.

In [None]:
from nltk.corpus import stopwords

# смотрим, какие языки есть
stopwords.fileids()

['arabic',
 'azerbaijani',
 'basque',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [None]:
sw = stopwords.words('russian')
print(sw)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [None]:
print([w if w not in sw else print(w) for w in clean_words])

в
за
на
или
с
['продаётся', 'lada', '4x4', 'птс', '01.12.2018', 'куплена', '20', 'января', '19', 'года', '10', '000', 'км', 'пробега', 'комплектация', 'полная', 'новая', None, 'салоне', '750', '000', 'отдам', None, '650', '000', 'возможен', 'обмен', None, 'ваз-2110', None, 'ваз', '2109', None, 'вашей', 'доплатой', 'краснодар', 'ул', 'миклухо-маклая', 'д', '4/5', 'подьезд', '1', 'тел', '8', '999', '1234567', '8', '903', '987-65-43', '7', '351', '111', '22', '33', 'и.и', 'иванов', 'иван', 'иванович']


## Стемминг

**Стемминг** — отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Стем необязательно совпадает с морфлогической основой слова. Одинаковый стем может получиться и не у однокоренных слов и наоборот — в этом проблема стемминга.

* 1-ый вид ошибки: белый, белка, белье $\implies$  бел

* 2-ой вид ошибки: трудность, трудный $\implies$  трудност, труд

* 3-ий вид ошибки: быстрый, быстрее $\implies$  быст, побыстрее $\implies$  побыст

Самый простой алгоритм, алгоритм Портера, состоит из 5 циклов команд, на каждом цикле – операция удаления / замены суффикса. Возможны вероятностные расширения алгоритма.

### Snowball stemmer
Улучшенный вариант стеммера Портера; в отличие от него умеет работать не только с английским текстом.

In [None]:
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [None]:
poem = '''
По морям, играя, носится
с миноносцем миноносица.
Льнет, как будто к меду осочка,
к миноносцу миноносочка.
И конца б не довелось ему,
благодушью миноносьему.
Вдруг прожектор, вздев на нос очки,
впился в спину миноносочки.
Как взревет медноголосина:
Р-р-р-астакая миноносина!
'''

words = [w.strip(punct).lower() for w in word_tokenize(poem)]
words = [w for w in words if w not in sw and w != '']

In [None]:
snowball = SnowballStemmer("russian")

for w in words:
    print("%s: %s" % (w, snowball.stem(w)))

морям: мор
играя: игр
носится: нос
миноносцем: миноносц
миноносица: миноносиц
льнет: льнет
меду: мед
осочка: осочк
миноносцу: миноносц
миноносочка: миноносочк
конца: конц
б: б
довелось: довел
благодушью: благодуш
миноносьему: минонос
прожектор: прожектор
вздев: вздев
нос: нос
очки: очк
впился: впил
спину: спин
миноносочки: миноносочк
взревет: взревет
медноголосина: медноголосин
р-р-р-астакая: р-р-р-астак
миноносина: миноносин


## Морфологический анализ

Задачи морфологического анализа:

* Разбор слова — определение нормальной формы (леммы), основы (стема) и грамматических характеристик слова
* Синтез словоформы — генерация словоформы по заданным грамматическим характеристикам из леммы

Морфологический анализ — не самая сильная сторона NLTK.  Для этих задач лучше использовать `pymorphy2` и `pymystem3` для русского языка и, например, `Spacy` для европейских.

## Лемматизация

**Лемматизация** — процесс приведения словоформы к лемме, т.е. нормальной (словарной) форме. Это более сложная задача, чем стемминг, но и результаты дает гораздо более осмысленные, особенно для языков с богатой морфологией.

* кошке, кошку, кошкам, кошкой $\implies$ кошка
* бежал, бежит, бегу $\implies$  бежать
* белому, белым, белыми $\implies$ белый

## POS-tagging

**Частеречная разметка**, или **POS-tagging** _(part of speech tagging)_ —  определение части речи и грамматических характеристик слов в тексте (корпусе) с приписыванием им соответствующих тегов.

Для большинства слов возможно несколько разборов (т.е. несколько разных лемм, несколько разных частей речи и т.п.). Теггер генерирует  все варианты, ранжирует их по вероятности и по умолчанию выдает наиболее вероятный. Выбор одного разбора из нескольких называется **снятием омонимии**, или **дизамбигуацией**.

### Наборы тегов

Существует множество наборов грамматических тегов, или тегсетов:
* НКРЯ
* Mystem
* UPenn
* OpenCorpora (его использует pymorphy2)
* Universal Dependencies
* ...

Есть даже [библиотека](https://github.com/kmike/russian-tagsets) для преобразования тегов из одной системы в другую для русского языка, `russian-tagsets`. Но важно помнить, что любое такое преобразование будет с потерями!

На данный момент стандартом является **Universal Dependencies**. Подробнее про проект можно почитать [вот тут](http://universaldependencies.org/), а про теги — [вот тут](http://universaldependencies.org/u/pos/). Вот список основных (частереных) тегов UD:

* ADJ: adjective
* ADP: adposition
* ADV: adverb
* AUX: auxiliary
* CCONJ: coordinating conjunction
* DET: determiner
* INTJ: interjection
* NOUN: noun
* NUM: numeral
* PART: particle
* PRON: pronoun
* PROPN: proper noun
* PUNCT: punctuation
* SCONJ: subordinating conjunction
* SYM: symbol
* VERB: verb
* X: other

### pymystem3

**pymystem3** — это питоновская обертка для морфологичекого анализатора Mystem, сделанного в Яндексе. Его можно скачать отдельно и использовать из консоли. Отдельный плюс Mystem - он умеет разрешать омонимию (выбирает более релевантный вариант разбора слова для данного контекста).

* [Документация Mystem](https://tech.yandex.ru/mystem/doc/index-docpage/)
* [Документация pymystem3](http://pythonhosted.org/pymystem3/)

Инициализируем Mystem c дефолтными параметрами. А вообще параметры есть такие:
* mystem_bin - путь к `mystem`, если их несколько
* grammar_info - нужна ли грамматическая информация или только леммы (по дефолту нужна)
* disambiguation - нужно ли снятие омонимии - дизамбигуация (по дефолту нужна)
* entire_input - нужно ли сохранять в выводе все (пробелы всякие, например), или можно выкинуть (по дефолту оставляется все)

Методы Mystem принимают строку, токенизатор вшит внутри. Можно, конечно, и пословно анализировать, но тогда он не сможет учитывать контекст.

In [None]:
# ! pip install --user pymystem3

In [None]:
from pymystem3 import Mystem

m = Mystem()
lemmas = m.lemmatize(' '.join(words))
print(lemmas)

['море', ' ', 'играть', ' ', 'носиться', ' ', 'миноносец', ' ', 'миноносица', ' ', 'льнуть', ' ', 'мед', ' ', 'осочка', ' ', 'миноносец', ' ', 'миноносочек', ' ', 'конец', ' ', 'б', ' ', 'доводиться', ' ', 'благодушие', ' ', 'миноносий', ' ', 'прожектор', ' ', 'вздевать', ' ', 'нос', ' ', 'очки', ' ', 'впиваться', ' ', 'спина', ' ', 'миноносочек', ' ', 'взреветь', ' ', 'медноголосина', ' ', 'р', '-', 'р', '-', 'р', '-', 'астакать', ' ', 'миноносина', '\n']


In [None]:
parsed = m.analyze(poem)
parsed[:10]

[{'text': '\n'},
 {'analysis': [{'lex': 'по', 'wt': 1, 'gr': 'PR='}], 'text': 'По'},
 {'text': ' '},
 {'analysis': [{'lex': 'море', 'wt': 1, 'gr': 'S,сред,неод=дат,мн'}],
  'text': 'морям'},
 {'text': ', '},
 {'analysis': [{'lex': 'играть', 'wt': 1, 'gr': 'V,несов,пе=непрош,деепр'}],
  'text': 'играя'},
 {'text': ', '},
 {'analysis': [{'lex': 'носиться',
    'wt': 1,
    'gr': 'V,несов,нп=непрош,ед,изъяв,3-л'}],
  'text': 'носится'},
 {'text': '\n'},
 {'analysis': [{'lex': 'с', 'wt': 0.999977831, 'gr': 'PR='}], 'text': 'с'}]

In [None]:
# как достать части речи

for word in parsed[:20]:
    if 'analysis' in word:
        gr = word['analysis'][0]['gr']
        pos = gr.split('=')[0].split(',')[0]
        print(word['text'], pos)

По PR
морям S
играя V
носится V
с PR
миноносцем S
миноносица S
Льнет V
как ADVPRO


###  pymorphy2

**pymorphy2** — это полноценный морфологический анализатор, целиком написанный на Python. В отличие от Mystem, он не учитывает контекст, а значит, вопрос разрешения омонимии надо будет решать нам самим (об этом ниже). Он также умеет ставить слова в нужную форму (спрягать и склонять).

[Документация pymorphy2](https://pymorphy2.readthedocs.io/en/latest/)

In [None]:
# ! pip install --user pymorphy2

In [None]:

from pymorphy2 import MorphAnalyzer

morph = MorphAnalyzer()
p = morph.parse('стали')
p

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.984662, methods_stack=((<DictionaryAnalyzer>, 'стали', 904, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.003067, methods_stack=((<DictionaryAnalyzer>, 'стали', 13, 9),))]

In [None]:
first = p[0]  # первый разбор
print('Слово:', first.word)
print('Тэг:', first.tag)
print('Лемма:', first.normal_form)
print('Вероятность:', first.score)

Слово: стали
Тэг: VERB,perf,intr plur,past,indc
Лемма: стать
Вероятность: 0.984662


Из каждого тега можно достать более дробную информацию. Если граммема есть в разборе, то вернется ее значение, если ее нет, то вернется None. [Список граммем](https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html)

In [None]:
print(first.normalized)        # лемма
print(first.tag.POS)           # Part of Speech, часть речи
print(first.tag.animacy)       # одушевленность
print(first.tag.aspect)        # вид: совершенный или несовершенный
print(first.tag.case)          # падеж
print(first.tag.gender)        # род (мужской, женский, средний)
print(first.tag.involvement)   # включенность говорящего в действие
print(first.tag.mood)          # наклонение (повелительное, изъявительное)
print(first.tag.number)        # число (единственное, множественное)
print(first.tag.person)        # лицо (1, 2, 3)
print(first.tag.tense)         # время (настоящее, прошедшее, будущее)
print(first.tag.transitivity)  # переходность (переходный, непереходный)
print(first.tag.voice)         # залог (действительный, страдательный)

Parse(word='стать', tag=OpencorporaTag('INFN,perf,intr'), normal_form='стать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'стать', 904, 0),))
VERB
None
perf
None
None
None
indc
plur
None
past
intr
None


In [None]:
print(first.normalized)
print(first.tag.POS)
print(first.tag.aspect)
print(first.tag.case)

Parse(word='стать', tag=OpencorporaTag('INFN,perf,intr'), normal_form='стать', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'стать', 904, 0),))
VERB
perf
None


### mystem vs. pymorphy

1) Оба они могут работать с незнакомыми словами (out-of-vocabulary words, OOV).

2) *Скорость*. Mystem работает невероятно медленно под windows на больших текстах, но очень быстро, елси запускать из консоли в linux / mac os.

3) *Снятие омонимии*. Mystem умеет снимать омонимию по контексту (хотя не всегда преуспевает), pymorphy2 берет на вход одно слово и соответственно вообще не умеет дизамбигуировать по контексту:

In [None]:
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'
mystem_analyzer = Mystem() # инициализирую объект с дефолтными параметрами

print(mystem_analyzer.analyze(homonym1)[-5])
print(mystem_analyzer.analyze(homonym2)[0])

{'analysis': [{'lex': 'сорок', 'wt': 0.8710292664, 'gr': 'NUM=(пр|дат|род|твор)'}], 'text': 'сорока'}
{'analysis': [{'lex': 'сорока', 'wt': 0.1210970041, 'gr': 'S,жен,од=им,ед'}], 'text': 'Сорока'}


In [None]:
p = morph.parse('сорока')

In [None]:
p

[Parse(word='сорока', tag=OpencorporaTag('NUMR loct'), normal_form='сорок', score=0.285714, methods_stack=((<DictionaryAnalyzer>, 'сорока', 2802, 5),)),
 Parse(word='сорока', tag=OpencorporaTag('NOUN,inan,femn sing,nomn'), normal_form='сорока', score=0.142857, methods_stack=((<DictionaryAnalyzer>, 'сорока', 43, 0),)),
 Parse(word='сорока', tag=OpencorporaTag('NOUN,anim,femn sing,nomn'), normal_form='сорока', score=0.142857, methods_stack=((<DictionaryAnalyzer>, 'сорока', 403, 0),)),
 Parse(word='сорока', tag=OpencorporaTag('NUMR gent'), normal_form='сорок', score=0.142857, methods_stack=((<DictionaryAnalyzer>, 'сорока', 2802, 1),)),
 Parse(word='сорока', tag=OpencorporaTag('NUMR datv'), normal_form='сорок', score=0.142857, methods_stack=((<DictionaryAnalyzer>, 'сорока', 2802, 2),)),
 Parse(word='сорока', tag=OpencorporaTag('NUMR ablt'), normal_form='сорок', score=0.142857, methods_stack=((<DictionaryAnalyzer>, 'сорока', 2802, 4),))]

### Собираем все вместе:

Сделаем стандартную предобработку данных с сайта Lenta.ru

In [None]:
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

data = pd.read_csv('./data/lenta-ru-partial.csv', usecols=['text'])
data.sample(5)

Unnamed: 0,text
8930,"Американский миллиардер Уоррен Баффет заявил, что больше не будет предлагать трем крупнейшим страховщикам облигаций перестраховать 800 миллиардов долларов в муниципальных облигациях. Об этом сообщает агентство Reuters. Ранее подобное предложение получили MBIA, Ambac Financial Group и FGIC. В начале февраля 2008 года предложение Уоррена Баффета было воспринято инвесторами с воодушевлением, поскольку они опасались того, что ситуация со страховщиками лишь усугубит положение на кредитных рынках. Однако позже одна из трех страховых компаний от предложения Баффета отказалась, а две другие не дали ответа. Причиной стало то, что перестрахование может стоить на 50 процентов больше, чем компании смогут получить по страховой премии. Ожидаемые убытки, связанные с облигациями, вынудили страховые ко..."
4633,"ВВС Украины приняли на вооружение российские модернизированные штурмовики Су-25, говорится в пресс-релизе Министерства обороны Украины. Точное количество принятых на вооружение самолетов не уточняется, однако сообщается, что речь идет об учебно-боевых самолетах Су-25УБМ1 и боевых Су-25М1. По сведениям Министерства обороны Украины, Су-25УБМ1 предназначен для подготовки пилотов в боевых подразделениях. Этот самолет представляет собой модернизированную версию Су-25УБ. В частности, на самолете установлено новое оборудование, которое позволяет повысить точность применения бомб, ракет и пушечного вооружения Су-25УБМ1. Подробности о том, какое именно оборудование было установлено на модернизированные Су-25УБ не приводятся. Тем не менее, известно, что аналогичная аппаратура была установлена и ..."
3581,"Международная ассоциация легкоатлетических федераций (IAAF) подала апелляцию на решение Российского антидопингового агентства (РУСАДА) не лишать ходоков Сергея Кирдяпкина и Ольгу Каниськину золотой и серебряной медалей Олимпиады в Лондоне соответственно. Об этом сообщается на официальном сайте РУСАДА. IAAF оспорила вердикт российской организации в Спортивном арбитражном суде. Согласно решению РУСАДА, Кирдяпкин и Каниськина были дисквалифицированы на три года и два месяца каждый за употребление допинга, но при этом не лишены олимпийских наград. Российское антидопинговое агентство 20 января объявило об отстранении от соревнований на разные сроки и об аннулировании результатов за отдельные периоды с 2009 по 2012 год нескольких ходоков — олимпийских чемпионов Каниськиной, Кирдяпкина, Валер..."
7589,"Арбитражный суд Башкирии отказал АФК «Система» и «Системе-Инвест» в отмене принятых по просьбе «Роснефти» обеспечительных мер в виде ареста принадлежащих АФК акций трех компаний балансовой стоимостью 185 миллиардов рублей. Об этом сообщает РИА новости. «В удовлетворении заявления АФК ""Система"" и АО ""Система-Инвест"" об отмене обеспечительных мер отказать», — заявила судья Ирина Нурисламова, оглашая определение суда. «Доводы АФК ""Система"" о том, что «действительная стоимость активов ""Системы"" (1,104 миллиарда рублей) более чем 6,5 раза превышает сумму заявленных к ней требований, чего более чем достаточно для исполнения решения суда», основаны на отчетности по МСФО, которая содержит информацию об активах всей группы АФК, включая дочерние и зависимые компании, которые не являются ответчик..."
1757,"Семейный скандал в гостиничном номере Лас-Вегаса привел к тому, что одна его участница - телепродюсер Райан Хэддон - оказалась на 24 часа за решеткой, а другой - киноактер Кристиан Слейтер (Christian Slater) - в больнице, где ему на голову пришлось наложить 20 швов. Предполагается, пишет msnbc.com, что во время потасовки в номере Hard Rock hotel-casino Хэддон разбила о его голову стакан. Других подробностей агентство не сообщает. 34-летний Слейтер известен по таким фильмам-экшн, как ""Сломанная стрела"" и ""3000 миль до Грейсленда"", ""Робин Гуд - Принц воров"" и др. Супруги женаты с февраля 2000 года. Это второй брак актера."


In [None]:
m = MorphAnalyzer()

# убираем все небуквенные символы
regex = re.compile("[А-Яа-яA-z]+")

def words_only(text, regex=regex):
    try:
        return regex.findall(text.lower())
    except:
        return []

In [None]:
print(data.text[0])

В южноафриканском Кейптауне победой сборной России завершился чемпионат мира среди бездомных. В финальном матче российские футболисты, впервые в своей истории ставшие чемпионами мира, обыграли команду Казахстана со счетом 1:0, передает BBC News. В первенстве принимали участие почти 500 человек, которые представляли 48 стран мира. Все матчи, каждый из которых продолжался 15 минут, проходили на асфальтовых полях, причем в одной команде могли играть как мужчины, так и женщины. Сборная России провела на турнире 13 матчей, во всех из которых добилась победы. На предыдущих чемпионатах мира достижения российской команды были скромнее: в 2003-м году – 13-е место, в 2004-м году – 5-е место, в 2005-м году – 12-е место.


In [None]:
print(*words_only(data.text[0]))

в южноафриканском кейптауне победой сборной россии завершился чемпионат мира среди бездомных в финальном матче российские футболисты впервые в своей истории ставшие чемпионами мира обыграли команду казахстана со счетом передает bbc news в первенстве принимали участие почти человек которые представляли стран мира все матчи каждый из которых продолжался минут проходили на асфальтовых полях причем в одной команде могли играть как мужчины так и женщины сборная россии провела на турнире матчей во всех из которых добилась победы на предыдущих чемпионатах мира достижения российской команды были скромнее в м году е место в м году е место в м году е место


Метод @lru_cashe создает для функции lemmatize кэш указанного размера, что позволяет в целом ускорить лемматизацию текста (что очень полезно, так как лемматизация - ресурсоемкий процесс).

In [None]:

def lemmatize_word(token, pymorphy=m):
    return pymorphy.parse(token)[0].normal_form

def lemmatize_text(text):
    return [lemmatize_word(w) for w in text]

In [None]:
tokens = words_only(data.text[0])

print(lemmatize_text(tokens))

['в', 'южноафриканский', 'кейптаун', 'победа', 'сборный', 'россия', 'завершиться', 'чемпионат', 'мир', 'среди', 'бездомный', 'в', 'финальный', 'матч', 'российский', 'футболист', 'впервые', 'в', 'свой', 'история', 'стать', 'чемпион', 'мир', 'обыграть', 'команда', 'казахстан', 'с', 'счёт', 'передавать', 'bbc', 'news', 'в', 'первенство', 'принимать', 'участие', 'почти', 'человек', 'который', 'представлять', 'страна', 'мир', 'весь', 'матч', 'каждый', 'из', 'который', 'продолжаться', 'минута', 'проходить', 'на', 'асфальтовый', 'поле', 'причём', 'в', 'один', 'команда', 'мочь', 'играть', 'как', 'мужчина', 'так', 'и', 'женщина', 'сборная', 'россия', 'провести', 'на', 'турнир', 'матч', 'в', 'весь', 'из', 'который', 'добиться', 'победа', 'на', 'предыдущий', 'чемпионат', 'мир', 'достижение', 'российский', 'команда', 'быть', 'скромный', 'в', 'метр', 'год', 'е', 'место', 'в', 'метр', 'год', 'е', 'место', 'в', 'метр', 'год', 'е', 'место']


In [None]:
mystopwords = stopwords.words('russian')

def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords]

In [None]:
lemmas = lemmatize_text(tokens)

print(*remove_stopwords(lemmas))

южноафриканский кейптаун победа сборный россия завершиться чемпионат мир среди бездомный финальный матч российский футболист впервые свой история стать чемпион мир обыграть команда казахстан счёт передавать bbc news первенство принимать участие человек который представлять страна мир весь матч каждый который продолжаться минута проходить асфальтовый поле причём команда мочь играть мужчина женщина сборная россия провести турнир матч весь который добиться победа предыдущий чемпионат мир достижение российский команда скромный метр год е место метр год е место метр год е место


In [None]:
def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords and len(w) > 3]

In [None]:
print(*remove_stopwords(lemmas))

южноафриканский кейптаун победа сборный россия завершиться чемпионат среди бездомный финальный матч российский футболист впервые свой история стать чемпион обыграть команда казахстан счёт передавать news первенство принимать участие человек который представлять страна весь матч каждый который продолжаться минута проходить асфальтовый поле причём команда мочь играть мужчина женщина сборная россия провести турнир матч весь который добиться победа предыдущий чемпионат достижение российский команда скромный метр место метр место метр место


Если собрать все в одну функцию:

In [None]:
def clean_text(text):
    tokens = words_only(text)
    lemmas = lemmatize_text(tokens)

    return remove_stopwords(lemmas)

In [None]:
print(*clean_text(data.text[3]))

известный голливудский актёр майкл дуглас совершить неожиданный визит сообщать издание cubadebate цель поездка дуглас уточняться утверждаться лишь актёр посетить несколько памятный место число закусочный floridita который некогда любить бывать эрнест хемингуэй майкл дуглас также осмотреть достопримечательность исторический центр гавана понаблюдать процесс изготовление кубинский сигара табачный фабрика стоить отметить свободный посещение куба американский гражданин иметь родственник остров запретить американец поездка требоваться специальный разрешение государственный департамент получать дуглас разрешение сообщаться напомнить дуглас единственный знаменитый голливудский актёр посетить последний время ранее страна качество корреспондент журнал vanity fair прибыть визит пенна двукратный обладатель премия оскар намереваться взять интервью фидель кастро поездка пенный сопровождать известный филантроп дайана дженкинс


Если нужно предобработать большой объем текста, помимо кэширования может помочь распараллеливание, например, методом Pool библиотеки multiprocessing:

In [None]:
from multiprocessing import Pool
from tqdm import tqdm_notebook as tqdm

N = 200

with Pool(4) as p:
    lemmas = list(tqdm(p.imap(clean_text, data['text'][:N]), total=N))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  import sys


HBox(children=(FloatProgress(value=0.0, max=200.0), HTML(value='')))




In [None]:
data = data.head(200)
data['lemmas'] = lemmas
data.sample(3)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,text,lemmas
19,"Предприятия, работающие в арктическом регионе, дают 10 процентов ВВП России. Об этом в четверг, 30 марта, заявил президент Владимир Путин на форуме «Арктика — территория диалога», передает Rambler News Service. «Вряд ли что-то может поменять наши приоритеты в этом регионе. Имею в виду несколько обстоятельств. Первое: уже сегодня 10 процентов ВВП России складывается из результатов работы предприятий, функционирующих в этом регионе. Удельный вес их постоянно растет», — приводит агентство слова главы государства. Президент также назвал еще один фактор, влияющий на развитие арктического региона. «Существенным является следующее обстоятельство: это рост, изменение и повышение эффективности новейших технологий, которые появляются», — добавил президент. Объем экономики по итогам 2016 года сос...","[предприятие, работать, арктический, регион, давать, процент, россия, четверг, март, заявить, президент, владимир, путин, форум, арктика, территория, диалог, передавать, rambler, news, service, вряд, мочь, поменять, приоритет, регион, иметь, несколько, обстоятельство, первое, сегодня, процент, россия, складываться, результат, работа, предприятие, функционировать, регион, удельный, постоянно, расти, приводить, агентство, слово, глава, государство, президент, также, назвать, фактор, влиять, развитие, арктический, регион, существенный, являться, следующий, обстоятельство, рост, изменение, повышение, эффективность, новый, технология, который, появляться, добавить, президент, объесть, экономика, итог, составить, триллион, рубль, согласно, базовый, прогноз, минэкономразвития, увеличиться, пр..."
7,"Букмекеры оценили шансы российского биатлониста Антона Шипулина на победу в Кубке мира. Об этом в субботу, 26 ноября, сообщает «Чемпионат.com». На первое место россиянина можно поставить с коэффициентом 11. В то же время главный фаворит соревнований — француз Мартен Фуркад. Вероятность победы спортсмена оценивается коэффициентом 1,30. Шансы норвежца Йоханнеса Бе на «Хрустальный глобус» равны 7,5. Третьим претендентом на титул букмекеры назвали немецкого биатлониста Симона Шемппа. На его победу можно поставить с коэффициентом 8,4. Шансы еще одного россиянина Евгения Гараничева оценены в 71, а его товарища по команде Дмитрия Малышко — в 301. В сезоне 2015/2016 обладателем «Хрустального глобуса» стал Фуркад. Второе место в общем зачете занял Бе, третьим стал Шипулин. Первый этап Кубка мир...","[букмекер, оценить, шанс, российский, биатлонист, антон, шипулина, победа, кубок, суббота, ноябрь, сообщать, чемпионат, первое, место, россиянин, поставить, коэффициент, время, главный, фаворит, соревнование, француз, мартен, фуркад, вероятность, победа, спортсмен, оцениваться, коэффициент, шанс, норвежец, йоханнес, хрустальный, глобус, равный, претендент, титул, букмекер, назвать, немецкий, биатлонист, симон, шемппа, победа, поставить, коэффициент, шанс, россиянин, евгений, гараничев, оценить, товарищ, команда, дмитрия, малышко, сезон, обладатель, хрустальный, глобус, стать, фуркад, место, общий, зачёт, занять, стать, шипулина, этап, кубок, биатлон, сезон, стартовать, воскресение, ноябрь, шведский, эстерсунд, программа, соревнование, войти, смешанный, эстафета, супермикст, индивидуаль..."
155,"Неполное страховое покрытие вкладов с высокой доходностью может снизить устойчивость российской банковской системы. К такому выводу пришли эксперты в бюллетене Центра развития Высшей школы экономики (ВШЭ). К числу негативных последствий они также отнесли снижение конкуренции между банками. На минувшей неделе премьер-министр России Дмитрий Медведев поддержал увеличение государственной страховки по вкладам до миллиона рублей. В то же время на страховки по вкладам было предложено наложить ряд ограничений. В частности, ЦБ не исключает введения неполной страховки по высокодоходным вкладам. По мнению экспертов ВШЭ, увеличение максимального страхового покрытия может привести к некоторому перетоку средств населения в те банки, которые предлагают клиентам более выгодные условия обслуживания. ""П...","[неполный, страховой, покрытие, вклад, высокий, доходность, мочь, снизить, устойчивость, российский, банковский, система, вывод, прислать, эксперт, бюллетень, центр, развитие, высокий, школа, экономика, число, негативный, последствие, также, отнести, снижение, конкуренция, банка, минувший, неделя, премьер, министр, россия, дмитрий, медведев, поддержать, увеличение, государственный, страховка, вклад, миллион, рубль, время, страховка, вклад, предложить, наложить, ограничение, частность, исключать, введение, неполный, страховка, высокодоходный, вклад, мнение, эксперт, увеличение, максимальный, страховой, покрытие, мочь, привести, некоторый, переток, средство, население, банка, который, предлагать, клиент, выгодный, условие, обслуживание, поэтому, неудивительно, госбанк, привыкнуть, жить, ..."


### Итого:

- посмотрели, как делать все стандартные этапы предобработки текста
- научились работать с морфологоческими парсерами

<h1><center>Простые векторные модели текста</center></h1>

<img src="images/pipeline_vec.png" alt="pipeline_vec.png" style="width: 400px;"/>

### Задача: классификация твитов по тональности

В этом занятии мы познакомимся с распространенной задачей в анализе текстов: с классификацией текстов на классы.

В рассмотренном тут примере классов будет два: положительный и отрицательный, такую постановку этой задачи обычно называют классификацией по тональности или sentiment analysis.

Классификацию по тональности используют, например, в рекомендательных системах и при анализе отзывов клиентов, чтобы понять, понравилось ли людям кафе, кино, etc.

Более подробно мы рассмотрим данную задачу и познакомимся с более сложными методами её решения в семинаре 3, а здесь разберем простые подходы, основанные на методе мешка слов.

У нас есть [данные постов в твиттере](http://study.mokoron.com/), про из которых каждый указано, как он эмоционально окрашен: положительно или отрицательно.

**Задача**: построить модель, которая по тексту поста предсказывает его эмоциональную окраску.


Скачиваем данные: [положительные](https://www.dropbox.com/s/fnpq3z4bcnoktiv/positive.csv?dl=0), [отрицательные](https://www.dropbox.com/s/r6u59ljhhjdg6j0/negative.csv).

In [None]:
# если у вас линукс / мак / collab или ещё какая-то среда, в которой работает wget, можно так:
!wget https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/positive.csv
!wget  https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/negative.csv

In [2]:
import pandas as pd
import numpy as np
from sklearn.metrics import *
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

In [3]:
positive = pd.read_csv('./positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive)
negative = pd.read_csv('./negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative)
df = positive.append(negative)

  df = positive.append(negative)


In [11]:
df.sample(5)

Unnamed: 0,text,label
80251,"Блин! Я все равно помню тебя, я скучаю, иногда мне тебя очень не хватает(",negative
28868,"Сегодня в метро на меня смотрела девушка, как будто мы с ней переспали и я не позвонил:-/",negative
80131,Еслиб б ты толька знал как мне больно делать вид что ты для меня в прошлом.. когда увижу тебя..(((,negative
100836,"@AnnFejka88 ууу эт беда, у наших соседей дете орет всегда, нон-стопом, ночью, утром, днем, вечером, с перерывами минут по 30. И я это слышу(",negative
108310,RT @HA33A_C_MAPCA: @_inna_styles @HarryDarrySt @VeronikaEfron @MorozovaVarya ЗАВТРА ИТОТ ЧУВАК ОПЯТЬ НАС ПРОСЛАВИТ:D,positive


Воспользуемся функцией для предобработки текста, которую мы написали в прошлом семинаре:

In [None]:
# !pip install pymorphy2

In [13]:
import re
from pymorphy2 import MorphAnalyzer
from functools import lru_cache
from nltk.corpus import stopwords

m = MorphAnalyzer()
regex = re.compile("[А-Яа-яA-z]+")

def words_only(text, regex=regex):
    try:
        return regex.findall(text.lower())
    except:
        return []

In [None]:
@lru_cache(maxsize=128)
def lemmatize_word(token, pymorphy=m):
    return pymorphy.parse(token)[0].normal_form

def lemmatize_text(text):
    return [lemmatize_word(w) for w in text]


mystopwords = stopwords.words('russian')
def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords and len(w) > 3]

def clean_text(text):
    tokens = words_only(text)
    lemmas = lemmatize_text(tokens)

    return ' '.join(remove_stopwords(lemmas))

In [None]:
from multiprocessing import Pool
from tqdm import tqdm

with Pool(4) as p:
    lemmas = list(tqdm(p.imap(clean_text, df['text']), total=len(df)))

df['lemmas'] = lemmas
df.sample(5)

100%|██████████| 226834/226834 [00:54<00:00, 4168.88it/s]


Unnamed: 0,text,label,lemmas
75734,мне мало мало мало мне малооо зарядки на плеере:(,negative,мало мало мало малооо зарядка плеер
22310,@ehnevermind Я никогда его не найду &gt;;(,negative,ehnevermind найти
73725,"RT @igajaqytmu: смотрит на вас, как на вебкамеру. И странно скалится при этом %))",positive,igajaqytmu смотреть вебкамера странно скалиться
16467,всё вернулось на свои места))\nопять в чс\nя счастлив\nтварь,positive,вернуться свой место счастливый тварь
9758,@funkyboyakeem я не пила мандариновую водку) и с возрастом не угадал,positive,funkyboyakeem пила мандариновый водка возраст угадать


Разбиваем на train и test:

In [None]:
x_train, x_test, y_train, y_test = train_test_split(df.lemmas, df.label)

## Мешок слов (Bag of Words, BoW)


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

... Но сперва пару слов об n-граммах. Что такое n-граммы:

In [None]:
from nltk import ngrams

In [None]:
sent = 'Факультет компьютерных наук Высшей школы экономики'.split()
list(ngrams(sent, 1)) # униграммы

[('Факультет',),
 ('компьютерных',),
 ('наук',),
 ('Высшей',),
 ('школы',),
 ('экономики',)]

In [None]:
list(ngrams(sent, 2)) # биграммы

[('Факультет', 'компьютерных'),
 ('компьютерных', 'наук'),
 ('наук', 'Высшей'),
 ('Высшей', 'школы'),
 ('школы', 'экономики')]

In [None]:
list(ngrams(sent, 3)) # триграммы

[('Факультет', 'компьютерных', 'наук'),
 ('компьютерных', 'наук', 'Высшей'),
 ('наук', 'Высшей', 'школы'),
 ('Высшей', 'школы', 'экономики')]

In [None]:
list(ngrams(sent, 5)) # ... пентаграммы?

[('Факультет', 'компьютерных', 'наук', 'Высшей', 'школы'),
 ('компьютерных', 'наук', 'Высшей', 'школы', 'экономики')]

Итак, мы хотим преобразовать наши обработанные данные в вектора с помощью мешка слов. Мешок слов можно строить как для отдельных слов (лемм в нашем случае), так и для n-грамм, и это может улучшать качество.

Объект `CountVectorizer` делает простую вещь:
* строит для каждого документа (каждой пришедшей ему строки) вектор размерности `n`, где `n` -- количество слов или n-грам во всём корпусе
* заполняет каждый i-тый элемент количеством вхождений слова в данный документ

In [None]:
vec = CountVectorizer(ngram_range=(1, 1)) # строим BoW для слов
bow = vec.fit_transform(x_train)

ngram_range отвечает за то, какие n-граммы мы используем в качестве признаков:<br/>
ngram_range=(1, 1) -- униграммы<br/>
ngram_range=(3, 3) -- триграммы<br/>
ngram_range=(1, 3) -- униграммы, биграммы и триграммы.

В vec.vocabulary_ лежит словарь: соответствие слов и их индексов в словаре:

In [None]:
list(vec.vocabulary_.items())[:10]

[('жаль', 110128),
 ('стать', 153946),
 ('редко', 147080),
 ('заходить', 112987),
 ('новогодний', 130623),
 ('каникулы', 116354),
 ('пролететь', 144046),
 ('день', 106675),
 ('заметить', 112070),
 ('успеть', 160401)]

In [None]:
bow[0]

<1x169048 sparse matrix of type '<class 'numpy.int64'>'
	with 4 stored elements in Compressed Sparse Row format>

Теперь у нас есть вектора, на которых можно обучать модели!

In [None]:
clf = LogisticRegression(random_state=42, max_iter=500)
clf.fit(bow, y_train)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=500,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=42, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

Посмотрим на качество классификации на тестовой выборке. Для этого выведем classification_report из модуля [sklearn.metrics](https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics)

В качестве целевой метрики качества будем рассматривать macro average f1-score.

In [None]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.74      0.73      0.74     28385
    positive       0.73      0.75      0.74     28324

    accuracy                           0.74     56709
   macro avg       0.74      0.74      0.74     56709
weighted avg       0.74      0.74      0.74     56709



Попробуем сделать то же самое для триграмм:

In [None]:
vec = CountVectorizer(ngram_range=(3, 3))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 300)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))



              precision    recall  f1-score   support

    negative       0.97      0.53      0.68     51252
    positive       0.16      0.84      0.27      5457

    accuracy                           0.56     56709
   macro avg       0.56      0.69      0.48     56709
weighted avg       0.89      0.56      0.64     56709



Видим, что качество существенно хуже. Ниже мы поймем, почему это так.

## TF-IDF векторизация

`TfidfVectorizer` делает то же, что и `CountVectorizer`, но в качестве значений – tf-idf каждого слова.

Как считается tf-idf:

TF (term frequency) – относительная частотность слова в документе:
$$ TF(t,d) = \frac{n_t}{\sum_k n_k} $$

`t` -- слово (term), `d` -- документ, $n_t$ -- количество вхождений слова, $n_k$ -- количество вхождений остальных слов

IDF (inverse document frequency) – обратная частота документов, в которых есть это слово:
$$ IDF(t, D) = \mbox{log} \frac{|D|}{|{d : t \in d}|} $$

`t` -- слово (term), `D` -- коллекция документов

Перемножаем их:
$$TFIDF(t,d,D) = TF(t,d) \times IDF(i, D)$$

Ключевая идея этого подхода – если слово часто встречается в одном документе, но в целом по корпусу встречается в небольшом
количестве документов, у него высокий TF-IDF.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
vec = TfidfVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 500)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))



              precision    recall  f1-score   support

    negative       0.70      0.74      0.72     26327
    positive       0.77      0.72      0.74     30382

    accuracy                           0.73     56709
   macro avg       0.73      0.73      0.73     56709
weighted avg       0.74      0.73      0.73     56709



В этот раз получилось хуже, чем с помощью простого CountVectorizer, то есть использование tf-idf не дало улучшений в качестве.

## О важности эксплоративного анализа

Иногда в ходе стандартного препроцессинга теряются важные признаки. Посмотрим, что будет если не убирать пунктуацию?

In [None]:
df.sample()

Unnamed: 0,text,label,lemmas
52766,"RT @tataholiday: хочу вернуть старые времена, опять :( \n#miss",negative,tataholiday хотеть вернуть старое время miss


In [None]:
df['new_lemmas'] = df.text.apply(lambda x: x.lower())
df.sample(3)

Unnamed: 0,text,label,lemmas,new_lemmas
24694,Q: подпишись\nпожалуйста*) A: http://t.co/XKTaDVlUP2,positive,подписаться пожалуйста http xktadvlup,q: подпишись\nпожалуйста*) a: http://t.co/xktadvlup2
54857,"В свои 11 лет, я встречалась с 18-и летним парнем. Мне так жалко таких парней, их друзья оказывается так издеваются. Мы встречались 2 года((",negative,свой встречаться летний парень жалко парный друг оказываться издеваться встречаться,"в свои 11 лет, я встречалась с 18-и летним парнем. мне так жалко таких парней, их друзья оказывается так издеваются. мы встречались 2 года(("
7777,"Общажный движ закончился тем что все спят, а я нихуя:)",positive,общажный движ закончиться весь спать нихуй,"общажный движ закончился тем что все спят, а я нихуя:)"


In [None]:
x_train, x_test, y_train, y_test = train_test_split(df.new_lemmas, df.label)

In [None]:
from nltk import word_tokenize

vec = TfidfVectorizer(ngram_range=(1, 1), tokenizer=word_tokenize)
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 300)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))



              precision    recall  f1-score   support

    negative       1.00      1.00      1.00     27863
    positive       1.00      1.00      1.00     28846

    accuracy                           1.00     56709
   macro avg       1.00      1.00      1.00     56709
weighted avg       1.00      1.00      1.00     56709



Как можно видеть, если оставить пунктуацию, то все метрики равны 1.

In [None]:
len(vec.vocabulary_), len(clf.coef_[0])

(266706, 266706)

In [None]:
importances = list(zip(vec.vocabulary_, clf.coef_[0]))
importances[0]

('@', 0.1471878855818156)

In [None]:
sorted_importances = sorted(importances, key = lambda x: -x[1])
sorted_importances[:10]

[('что', 58.77436936506602),
 ('//t.co/cuphpysvcp', 27.295181101473574),
 ('у', 12.578240551762557),
 ('daromand77', 10.80497075752631),
 ('кюхенио', 9.111201609919437),
 ('учете', 8.102007005355661),
 ('50', 7.678739507821211),
 ('него', 5.254932152879905),
 ('коллега', 4.744012822521124),
 ('останавливало', 4.679962041879572)]

Посмотрим, как один из наиболее значительных токенов справится с классификацией безо всякого машинного обучения:

In [None]:
cool_token = ')'
pred = ['positive' if cool_token in tweet else 'negative' for tweet in x_test]
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       1.00      0.85      0.92     32901
    positive       0.83      1.00      0.90     23808

    accuracy                           0.91     56709
   macro avg       0.91      0.92      0.91     56709
weighted avg       0.93      0.91      0.91     56709



Можно видеть, что это уже позволяет достаточно хорошо классифицировать тексты.

## Символьные n-граммы

Теперь в качестве признаком используем, например, униграммы символов:

In [None]:
vec = CountVectorizer(analyzer='char', ngram_range=(1, 1))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))



              precision    recall  f1-score   support

    negative       0.99      1.00      0.99     27773
    positive       1.00      0.99      1.00     28936

    accuracy                           0.99     56709
   macro avg       0.99      0.99      0.99     56709
weighted avg       0.99      0.99      0.99     56709



Таким образом, становится понятно, почему на этих данных качество классификации 1. Так или иначе, на символах классифицировать тоже можно.

Ещё одна замечательная особенность символьных признаков: токенизация и лемматизация не нужна, можно использовать такой подход для языков, у которых нет готовых анализаторов.

## Итоги

 На этом занятии мы
* познакомились с задачей бинарной классификации текстов.

* научились строить простые признаки на основе метода "мешка слов" с помощью библиотеки sklearn: CountVectorizer и TfidfVectorizer.

* использовали для классификации линейную модель логистической регрессии.

* поняли, что многое зависит от подхода к предобработки текста и от признаков, которые используются в модели.

* увидели, что в некоторых задачах важно использование каждого символа из текста, в том числе пунктуации.

На следующих занятиях мы рассмотрим более сложные модели построения признаков и классификации текстов.