<h1><center>Предобработка текста</center></h1>

## Основные техники
* Уровень символов:
    * Токенизация: разбиение текста на слова
    * Разбиение текста на предложения
* Уровень слов – морфология:
    * Разметка частей речи
    * Снятие морфологической неоднозначности
    * Нормализация (стемминг или лемматизация)
* Уровень предложений – синтаксис:
    * Выделенние именных или глагольных групп
    * Выделенние семантических ролей
    * Деревья составляющих и зависимостей
* Уровень смысла – семантика и дискурс:
    * Разрешение кореферентных связей
    * Выделение синонимов
    * Анализ аргументативных связей

## Основные проблемы
* Неоднозначность
    * Лексическая неоднозначность: *орган, парить, рожки, атлас*
    * Морфологическая неоднозначность: *Хранение денег в банке. Что делают белки в клетке?*
    * Синтаксическая неоднозначность: *Мужу изменять нельзя. Его удивил простой солдат. Эти типы стали есть в цехе.*
* Неологизмы: *печеньки, заинстаграммить, репостнуть, расшарить, биткоины*
* Разные варианты написания: *Россия, Российская Федерация, РФ*
* Нестандартное написание (в т.ч. орфографические ошибки и опечатки): *каг дила? куптиь телфон*

<img src="images/pipeline.png" alt="pipeline.png" style="width: 400px;"/>


### NLP-библиотеки

NLP-библиотеки для питона:
* Natural Language Toolkit (NLTK)
* Apache OpenNLP
* Stanford NLP suite
* Gate NLP library
* Spacy
* Yargy
* DeepPavlov
* CLTK (для древних языков)
* и т.д.

Самая старая и известная — NLTK. В NLTK есть не только различные инструменты для обработки текста, но и данные — текстовые корпуса, предобученные модели для анализа тональности и морфологической разметки, списки стоп-слов для разных языков и т.п.

* [Учебник по NLTK](https://www.nltk.org/book/) от авторов библиотеки и [тьюториалы](https://github.com/hb20007/hands-on-nltk-tutorial) по решению разных задач NLP с помощью NLTK.
* [Документация Spacy](https://spacy.io/)
* [Документация Yargy](https://yargy.readthedocs.io/)
* [Документация DeepPavlop](http://docs.deeppavlov.ai/)

## Предобработка текста

1. **Токенизация** — самый первый шаг при обработке текста.
2. **Нормализация** — приведение к одному регистру, удаляются пунктуации, исправление опечаток и т.д.
3.
    * **Стемминг** —  выделение псевдоосновы слова.
    * **Лемматизация** — приведение слов к словарной ("начальной") форме.
4. **Удаление стоп-слов** — слов, которые не несут никакой смысловой нагрузки (предлоги, союзы и т.п.) Список зависит от задачи!

**Важно!** Не всегда нужны все этапы, все зависит от задачи!

## Токенизация

#### Сколько слов в этом предложении?

*На дворе трава, на траве дрова, не руби дрова на траве двора.*

* 12 токенов: На, дворе, трава, на, траве, дрова, не, руби, дрова, на, траве, двора
* 8 - 9 словоформ: Н/на, дворе, трава, траве, дрова, не, руби, двора.
* 6  лексем: на, не, двор, трава, дрова, рубить


### Токен и словоформа

**Словоформа**  – уникальное слово из текста

**Токен**  – словоформа и её позиция в тексте

Объем корпуса измеряется в токенах, объем словаря — в словоформах или лексемах.

### Обозначения
$N$ = число токенов

$V$ = словарь (все словоформы)

$|V|$ = количество словоформ в словаре

### Токен ≠ слово

__Рассмотрим пример:__

    Продаётся LADA 4x4. ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега. Комплектация полная. Новая в салоне 750 000, отдам за 650 000. Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.

    * Модификация: 1.6 MT (89 л.с.)
    * Владельцев по ПТС: 4+
    * VIN или номер кузова: XTA21104*50****47
    * Мультимедиа и навигация: CD/DVD/Blu-ray
    * Шины и диски: 14"

    Краснодар, ул. Миклухо-Маклая, д. 4/5, подъезд 1

    Тел. 8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33
    
    e-mail: ivanov.ivan-61@mail.ru
    
    И.И. Иванов (Иван Иванович)

In [1]:
# самая банальная токенизация: разбиение по пробелам

text = '''
Продаётся LADA 4x4. ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега.
Комплектация полная. Новая в салоне 750 000, отдам за 650 000.
Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.
Краснодар, ул. Миклухо-Маклая, д. 4/5, подьезд 1
Тел. 8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33
И.И. Иванов (Иван Иванович)
'''

tokens = text.split()
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018,', 'куплена', '20', 'января', '19', 'года,', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000,', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар,', 'ул.', 'Миклухо-Маклая,', 'д.', '4/5,', 'подьезд', '1', 'Тел.', '8(999)1234567,', '8', '903', '987-65-43,', '+7', '(351)', '111', '22', '33', 'И.И.', 'Иванов', '(Иван', 'Иванович)']


56

In [None]:
!pip install natasha==0.10.0

Collecting natasha==0.10.0
  Downloading natasha-0.10.0-py2.py3-none-any.whl (777 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m777.9/777.9 kB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: natasha
Successfully installed natasha-0.10.0


In [None]:
!pip install yargy==0.11.0

Collecting yargy==0.11.0
  Downloading yargy-0.11.0-py3-none-any.whl (41 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m41.1/41.1 kB[0m [31m425.6 kB/s[0m eta [36m0:00:00[0m
[?25hCollecting pymorphy2==0.8 (from yargy==0.11.0)
  Downloading pymorphy2-0.8-py2.py3-none-any.whl (46 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.1/46.1 kB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting backports.functools-lru-cache==1.3 (from yargy==0.11.0)
  Downloading backports.functools_lru_cache-1.3-py2.py3-none-any.whl (6.2 kB)
Collecting intervaltree==2.1.0 (from yargy==0.11.0)
  Downloading intervaltree-2.1.0.tar.gz (38 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting dawg-python>=0.7 (from pymorphy2==0.8->yargy==0.11.0)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts<3.0,>=2.4 (from pymorphy2==0.8->yargy==0.11.0)
  Downloading pymorphy2_dicts-2.4.393442.3710985-py2.py3-none-any.w

In [None]:
#!pip install --user yargy

In [None]:
# максимально разбивает
from yargy.tokenizer import MorphTokenizer

tknzr = MorphTokenizer()
tokens = [_.value for _ in tknzr(text)]
print(tokens)
len(tokens)

AttributeError: ignored

In [2]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('snowball_data')
nltk.download('perluniprops')
nltk.download('universal_tagset')
nltk.download('stopwords')
nltk.download('nonbreaking_prefixes')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package snowball_data to /root/nltk_data...
[nltk_data] Downloading package perluniprops to /root/nltk_data...
[nltk_data]   Unzipping misc/perluniprops.zip.
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Unzipping taggers/universal_tagset.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package nonbreaking_prefixes to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping corpora/nonbreaking_prefixes.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [3]:
from nltk.tokenize import word_tokenize, ToktokTokenizer

tokens = word_tokenize(text)
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4', '.', 'ПТС', '01.12.2018', ',', 'куплена', '20', 'января', '19', 'года', ',', '10', '000', 'км', 'пробега', '.', 'Комплектация', 'полная', '.', 'Новая', 'в', 'салоне', '750', '000', ',', 'отдам', 'за', '650', '000', '.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой', '.', 'Краснодар', ',', 'ул', '.', 'Миклухо-Маклая', ',', 'д', '.', '4/5', ',', 'подьезд', '1', 'Тел', '.', '8', '(', '999', ')', '1234567', ',', '8', '903', '987-65-43', ',', '+7', '(', '351', ')', '111', '22', '33', 'И.И', '.', 'Иванов', '(', 'Иван', 'Иванович', ')']


81

In [4]:
tknzr = ToktokTokenizer()
tokens = tknzr.tokenize(text)
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018', ',', 'куплена', '20', 'января', '19', 'года', ',', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000', ',', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар', ',', 'ул.', 'Миклухо-Маклая', ',', 'д.', '4/5', ',', 'подьезд', '1', 'Тел.', '8(', '999', ')', '1234567', ',', '8', '903', '987-65-43', ',', '+7', '(', '351', ')', '111', '22', '33', 'И.И.', 'Иванов', '(', 'Иван', 'Иванович', ')']


71

In [5]:
# специальный токенизатор для твитов
from nltk.tokenize import TweetTokenizer

tknzr = TweetTokenizer()
tweet = "@remy This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"
tknzr.tokenize(tweet)

['@remy',
 'This',
 'is',
 'a',
 'cooool',
 '#dummysmiley',
 ':',
 ':-)',
 ':-P',
 '<3',
 'and',
 'some',
 'arrows',
 '<',
 '>',
 '->',
 '<--']

In [6]:
# токенизатор на регулярных выражениях
from nltk.tokenize import RegexpTokenizer

s = "Good muffins cost $3.88 in New York.  Please buy me two of them. \n\nThanks."
tknzr = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
tknzr.tokenize(s)

['Good',
 'muffins',
 'cost',
 '$3.88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.']

В nltk вообще есть довольно много токенизаторов:

In [7]:
from nltk import tokenize
dir(tokenize)[:16]

['BlanklineTokenizer',
 'LegalitySyllableTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'NLTKWordTokenizer',
 'PunktSentenceTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'SyllableTokenizer',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer',
 'TreebankWordDetokenizer']

Они умеют выдавать индексы начала и конца каждого токена:

In [8]:
wh_tok = tokenize.WhitespaceTokenizer()
list(wh_tok.span_tokenize("don't stop me"))

[(0, 5), (6, 10), (11, 13)]

Некторые токенизаторы ведут себя специфично:

In [9]:
tokenize.TreebankWordTokenizer().tokenize("don't stop me")

['do', "n't", 'stop', 'me']

## Сегментация предложений

Сегментацию предложений иногда называют **сплиттингом**.

Основные признаки — знаки препинания. "?", "!" как правило однозначны, проблемы возникают с "."  Возможное решение: бинарный классификатор для сегментации предложений. Для каждой точки "." определить, является ли она концом предложения или нет.


In [10]:
from nltk.tokenize import sent_tokenize

sents = sent_tokenize(text)
print(len(sents))
sents

10


['\nПродаётся LADA 4x4.',
 'ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега.',
 'Комплектация полная.',
 'Новая в салоне 750 000, отдам за 650 000.',
 'Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.',
 'Краснодар, ул.',
 'Миклухо-Маклая, д.',
 '4/5, подьезд 1\nТел.',
 '8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33\nИ.И.',
 'Иванов (Иван Иванович)']

In [11]:

!pip install rusenttokenize # установить библиотеку rusenttokenize

from IPython.display import clear_output
clear_output() # удалить вывод ячейки

from rusenttokenize import ru_sent_tokenize

In [12]:

sents = ru_sent_tokenize(text)

print(len(sents))
sents

6


['Продаётся LADA 4x4.',
 'ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега.',
 'Комплектация полная.',
 'Новая в салоне 750 000, отдам за 650 000.',
 'Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.',
 'Краснодар, ул. Миклухо-Маклая, д. 4/5, подьезд 1\nТел. 8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33\nИ.И. Иванов (Иван Иванович)']

## Нормализация

### Удаление пунктуации

In [13]:
# Способ №1
import re

# набор пунктуационных символов зависит от задачи и текста
punct = '!"#$%&()*\+,-\./:;<=>?@\[\]^_`{|}~„“«»†*\—/\-‘’'
clean_text = re.sub(punct, r'', text)
print(clean_text.split())

# Способ №2
clean_words = [w.strip(punct) for w in word_tokenize(text)]
print(clean_words)

clean_words == clean_text

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018,', 'куплена', '20', 'января', '19', 'года,', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000,', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар,', 'ул.', 'Миклухо-Маклая,', 'д.', '4/5,', 'подьезд', '1', 'Тел.', '8(999)1234567,', '8', '903', '987-65-43,', '+7', '(351)', '111', '22', '33', 'И.И.', 'Иванов', '(Иван', 'Иванович)']
['Продаётся', 'LADA', '4x4', '', 'ПТС', '01.12.2018', '', 'куплена', '20', 'января', '19', 'года', '', '10', '000', 'км', 'пробега', '', 'Комплектация', 'полная', '', 'Новая', 'в', 'салоне', '750', '000', '', 'отдам', 'за', '650', '000', '', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой', '', 'Краснодар', '', 'ул', '', 'Миклухо-Маклая', '', 'д', '', '4/5', '', 'подьезд', '1', 'Тел', '', '8', '', '999', '', '1234567', '', '8', '903', '987-65-43', '', '7

False

### Преобразование регистра

In [14]:
clean_words = [w.lower() for w in clean_words if w != '']
print(clean_words)

['продаётся', 'lada', '4x4', 'птс', '01.12.2018', 'куплена', '20', 'января', '19', 'года', '10', '000', 'км', 'пробега', 'комплектация', 'полная', 'новая', 'в', 'салоне', '750', '000', 'отдам', 'за', '650', '000', 'возможен', 'обмен', 'на', 'ваз-2110', 'или', 'ваз', '2109', 'с', 'вашей', 'доплатой', 'краснодар', 'ул', 'миклухо-маклая', 'д', '4/5', 'подьезд', '1', 'тел', '8', '999', '1234567', '8', '903', '987-65-43', '7', '351', '111', '22', '33', 'и.и', 'иванов', 'иван', 'иванович']


### Стоп-слова

**Стоп-слова** — высокочастотные слова, которые не дают нам никакой информации о конкретном тексте. Они составляют верхушку частотного списка в любом языке. Набор стоп-слов не универсален, он будет зависеть от вашей задачи!

В NLTK есть готовые списки стоп-слов для многих языков.

In [15]:
from nltk.corpus import stopwords

# смотрим, какие языки есть
stopwords.fileids()

['arabic',
 'azerbaijani',
 'basque',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [16]:
sw = stopwords.words('russian')
print(sw)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [17]:
print([w if w not in sw else print(w) for w in clean_words])

в
за
на
или
с
['продаётся', 'lada', '4x4', 'птс', '01.12.2018', 'куплена', '20', 'января', '19', 'года', '10', '000', 'км', 'пробега', 'комплектация', 'полная', 'новая', None, 'салоне', '750', '000', 'отдам', None, '650', '000', 'возможен', 'обмен', None, 'ваз-2110', None, 'ваз', '2109', None, 'вашей', 'доплатой', 'краснодар', 'ул', 'миклухо-маклая', 'д', '4/5', 'подьезд', '1', 'тел', '8', '999', '1234567', '8', '903', '987-65-43', '7', '351', '111', '22', '33', 'и.и', 'иванов', 'иван', 'иванович']


## Стемминг

**Стемминг** — отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Стем необязательно совпадает с морфлогической основой слова. Одинаковый стем может получиться и не у однокоренных слов и наоборот — в этом проблема стемминга.

* 1-ый вид ошибки: белый, белка, белье $\implies$  бел

* 2-ой вид ошибки: трудность, трудный $\implies$  трудност, труд

* 3-ий вид ошибки: быстрый, быстрее $\implies$  быст, побыстрее $\implies$  побыст

Самый простой алгоритм, алгоритм Портера, состоит из 5 циклов команд, на каждом цикле – операция удаления / замены суффикса. Возможны вероятностные расширения алгоритма.

### Snowball stemmer
Улучшенный вариант стеммера Портера; в отличие от него умеет работать не только с английским текстом.

In [18]:
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [19]:
poem = '''
По морям, играя, носится
с миноносцем миноносица.
Льнет, как будто к меду осочка,
к миноносцу миноносочка.
И конца б не довелось ему,
благодушью миноносьему.
Вдруг прожектор, вздев на нос очки,
впился в спину миноносочки.
Как взревет медноголосина:
Р-р-р-астакая миноносина!
'''

words = [w.strip(punct).lower() for w in word_tokenize(poem)]
words = [w for w in words if w not in sw and w != '']

In [20]:
snowball = SnowballStemmer("russian")

for w in words:
    print("%s: %s" % (w, snowball.stem(w)))

морям: мор
играя: игр
носится: нос
миноносцем: миноносц
миноносица: миноносиц
льнет: льнет
меду: мед
осочка: осочк
миноносцу: миноносц
миноносочка: миноносочк
конца: конц
б: б
довелось: довел
благодушью: благодуш
миноносьему: минонос
прожектор: прожектор
вздев: вздев
нос: нос
очки: очк
впился: впил
спину: спин
миноносочки: миноносочк
взревет: взревет
медноголосина: медноголосин
р-р-р-астакая: р-р-р-астак
миноносина: миноносин


## Морфологический анализ

Задачи морфологического анализа:

* Разбор слова — определение нормальной формы (леммы), основы (стема) и грамматических характеристик слова
* Синтез словоформы — генерация словоформы по заданным грамматическим характеристикам из леммы

Морфологический анализ — не самая сильная сторона NLTK.  Для этих задач лучше использовать `pymorphy2` и `pymystem3` для русского языка и, например, `Spacy` для европейских.

## Лемматизация

**Лемматизация** — процесс приведения словоформы к лемме, т.е. нормальной (словарной) форме. Это более сложная задача, чем стемминг, но и результаты дает гораздо более осмысленные, особенно для языков с богатой морфологией.

* кошке, кошку, кошкам, кошкой $\implies$ кошка
* бежал, бежит, бегу $\implies$  бежать
* белому, белым, белыми $\implies$ белый

## POS-tagging

**Частеречная разметка**, или **POS-tagging** _(part of speech tagging)_ —  определение части речи и грамматических характеристик слов в тексте (корпусе) с приписыванием им соответствующих тегов.

Для большинства слов возможно несколько разборов (т.е. несколько разных лемм, несколько разных частей речи и т.п.). Теггер генерирует  все варианты, ранжирует их по вероятности и по умолчанию выдает наиболее вероятный. Выбор одного разбора из нескольких называется **снятием омонимии**, или **дизамбигуацией**.

### Наборы тегов

Существует множество наборов грамматических тегов, или тегсетов:
* НКРЯ
* Mystem
* UPenn
* OpenCorpora (его использует pymorphy2)
* Universal Dependencies
* ...

Есть даже [библиотека](https://github.com/kmike/russian-tagsets) для преобразования тегов из одной системы в другую для русского языка, `russian-tagsets`. Но важно помнить, что любое такое преобразование будет с потерями!

На данный момент стандартом является **Universal Dependencies**. Подробнее про проект можно почитать [вот тут](http://universaldependencies.org/), а про теги — [вот тут](http://universaldependencies.org/u/pos/). Вот список основных (частереных) тегов UD:

* ADJ: adjective
* ADP: adposition
* ADV: adverb
* AUX: auxiliary
* CCONJ: coordinating conjunction
* DET: determiner
* INTJ: interjection
* NOUN: noun
* NUM: numeral
* PART: particle
* PRON: pronoun
* PROPN: proper noun
* PUNCT: punctuation
* SCONJ: subordinating conjunction
* SYM: symbol
* VERB: verb
* X: other

### pymystem3

**pymystem3** — это питоновская обертка для морфологичекого анализатора Mystem, сделанного в Яндексе. Его можно скачать отдельно и использовать из консоли. Отдельный плюс Mystem - он умеет разрешать омонимию (выбирает более релевантный вариант разбора слова для данного контекста).

* [Документация Mystem](https://tech.yandex.ru/mystem/doc/index-docpage/)
* [Документация pymystem3](http://pythonhosted.org/pymystem3/)

Инициализируем Mystem c дефолтными параметрами. А вообще параметры есть такие:
* mystem_bin - путь к `mystem`, если их несколько
* grammar_info - нужна ли грамматическая информация или только леммы (по дефолту нужна)
* disambiguation - нужно ли снятие омонимии - дизамбигуация (по дефолту нужна)
* entire_input - нужно ли сохранять в выводе все (пробелы всякие, например), или можно выкинуть (по дефолту оставляется все)

Методы Mystem принимают строку, токенизатор вшит внутри. Можно, конечно, и пословно анализировать, но тогда он не сможет учитывать контекст.

In [21]:
!pip install pymystem3



In [22]:
from pymystem3 import Mystem

m = Mystem()
lemmas = m.lemmatize(' '.join(words))
print(lemmas)

Installing mystem to /root/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.1-linux-64bit.tar.gz


['море', ' ', 'играть', ' ', 'носиться', ' ', 'миноносец', ' ', 'миноносица', ' ', 'льнуть', ' ', 'мед', ' ', 'осочка', ' ', 'миноносец', ' ', 'миноносочек', ' ', 'конец', ' ', 'б', ' ', 'доводиться', ' ', 'благодушие', ' ', 'миноносий', ' ', 'прожектор', ' ', 'вздевать', ' ', 'нос', ' ', 'очки', ' ', 'впиваться', ' ', 'спина', ' ', 'миноносочек', ' ', 'взреветь', ' ', 'медноголосина', ' ', 'р', '-', 'р', '-', 'р', '-', 'астакать', ' ', 'миноносина', '\n']


In [23]:
parsed = m.analyze(poem)
parsed[:10]

[{'text': '\n'},
 {'analysis': [{'lex': 'по', 'wt': 1, 'gr': 'PR='}], 'text': 'По'},
 {'text': ' '},
 {'analysis': [{'lex': 'море', 'wt': 1, 'gr': 'S,сред,неод=дат,мн'}],
  'text': 'морям'},
 {'text': ', '},
 {'analysis': [{'lex': 'играть', 'wt': 1, 'gr': 'V,несов,пе=непрош,деепр'}],
  'text': 'играя'},
 {'text': ', '},
 {'analysis': [{'lex': 'носиться',
    'wt': 1,
    'gr': 'V,несов,нп=непрош,ед,изъяв,3-л'}],
  'text': 'носится'},
 {'text': '\n'},
 {'analysis': [{'lex': 'с', 'wt': 0.999977831, 'gr': 'PR='}], 'text': 'с'}]

In [24]:
# как достать части речи

for word in parsed[:20]:
    if 'analysis' in word:
        gr = word['analysis'][0]['gr']
        pos = gr.split('=')[0].split(',')[0]
        print(word['text'], pos)

По PR
морям S
играя V
носится V
с PR
миноносцем S
миноносица S
Льнет V
как ADVPRO


###  pymorphy2

**pymorphy2** — это полноценный морфологический анализатор, целиком написанный на Python. В отличие от Mystem, он не учитывает контекст, а значит, вопрос разрешения омонимии надо будет решать нам самим (об этом ниже). Он также умеет ставить слова в нужную форму (спрягать и склонять).

[Документация pymorphy2](https://pymorphy2.readthedocs.io/en/latest/)

In [25]:
!pip install  pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m613.9 kB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m43.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl size=13706 sha256=0597d19b668b19a00abe46622de92a8adfbe563888dd34e91b9eb8453173ea63
  Stored in directory: /root

In [26]:
from pymorphy2 import MorphAnalyzer

morph = MorphAnalyzer()
p = morph.parse('стали')
p

[Parse(word='стали', tag=OpencorporaTag('VERB,perf,intr plur,past,indc'), normal_form='стать', score=0.975342, methods_stack=((DictionaryAnalyzer(), 'стали', 945, 4),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='сталь', score=0.010958, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 1),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='сталь', score=0.005479, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 6),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 2),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 5),)),
 Parse(word='стали', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='сталь', score=0.002739, methods_stack=((DictionaryAnalyzer(), 'стали', 13, 9),))]

In [27]:
first = p[0]  # первый разбор
print('Слово:', first.word)
print('Тэг:', first.tag)
print('Лемма:', first.normal_form)
print('Вероятность:', first.score)

Слово: стали
Тэг: VERB,perf,intr plur,past,indc
Лемма: стать
Вероятность: 0.975342


Из каждого тега можно достать более дробную информацию. Если граммема есть в разборе, то вернется ее значение, если ее нет, то вернется None. [Список граммем](https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html)

In [28]:
print(first.normalized)        # лемма
print(first.tag.POS)           # Part of Speech, часть речи
print(first.tag.animacy)       # одушевленность
print(first.tag.aspect)        # вид: совершенный или несовершенный
print(first.tag.case)          # падеж
print(first.tag.gender)        # род (мужской, женский, средний)
print(first.tag.involvement)   # включенность говорящего в действие
print(first.tag.mood)          # наклонение (повелительное, изъявительное)
print(first.tag.number)        # число (единственное, множественное)
print(first.tag.person)        # лицо (1, 2, 3)
print(first.tag.tense)         # время (настоящее, прошедшее, будущее)
print(first.tag.transitivity)  # переходность (переходный, непереходный)
print(first.tag.voice)         # залог (действительный, страдательный)

Parse(word='стать', tag=OpencorporaTag('INFN,perf,intr'), normal_form='стать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'стать', 945, 0),))
VERB
None
perf
None
None
None
indc
plur
None
past
intr
None


In [29]:
print(first.normalized)
print(first.tag.POS)
print(first.tag.aspect)
print(first.tag.case)

Parse(word='стать', tag=OpencorporaTag('INFN,perf,intr'), normal_form='стать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'стать', 945, 0),))
VERB
perf
None


### mystem vs. pymorphy

1) Оба они могут работать с незнакомыми словами (out-of-vocabulary words, OOV).

2) *Скорость*. Mystem работает невероятно медленно под windows на больших текстах, но очень быстро, елси запускать из консоли в linux / mac os.

3) *Снятие омонимии*. Mystem умеет снимать омонимию по контексту (хотя не всегда преуспевает), pymorphy2 берет на вход одно слово и соответственно вообще не умеет дизамбигуировать по контексту:

In [30]:
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'
mystem_analyzer = Mystem() # инициализирую объект с дефолтными параметрами

print(mystem_analyzer.analyze(homonym1)[-5])
print(mystem_analyzer.analyze(homonym2)[0])

{'analysis': [{'lex': 'сорок', 'wt': 0.8710292664, 'gr': 'NUM=(пр|дат|род|твор)'}], 'text': 'сорока'}
{'analysis': [{'lex': 'сорока', 'wt': 0.1210970041, 'gr': 'S,жен,од=им,ед'}], 'text': 'Сорока'}


In [31]:
p = morph.parse('сорока')

In [32]:
p

[Parse(word='сорока', tag=OpencorporaTag('NUMR gent'), normal_form='сорок', score=0.68, methods_stack=((DictionaryAnalyzer(), 'сорока', 2921, 1),)),
 Parse(word='сорока', tag=OpencorporaTag('NOUN,anim,femn sing,nomn'), normal_form='сорока', score=0.08, methods_stack=((DictionaryAnalyzer(), 'сорока', 421, 0),)),
 Parse(word='сорока', tag=OpencorporaTag('NUMR ablt'), normal_form='сорок', score=0.08, methods_stack=((DictionaryAnalyzer(), 'сорока', 2921, 4),)),
 Parse(word='сорока', tag=OpencorporaTag('NUMR loct'), normal_form='сорок', score=0.08, methods_stack=((DictionaryAnalyzer(), 'сорока', 2921, 5),)),
 Parse(word='сорока', tag=OpencorporaTag('NOUN,inan,femn sing,nomn'), normal_form='сорока', score=0.04, methods_stack=((DictionaryAnalyzer(), 'сорока', 44, 0),)),
 Parse(word='сорока', tag=OpencorporaTag('NUMR datv'), normal_form='сорок', score=0.04, methods_stack=((DictionaryAnalyzer(), 'сорока', 2921, 2),))]

### Собираем все вместе:

Сделаем стандартную предобработку данных с сайта Lenta.ru

In [33]:
import pandas as pd
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

data = pd.read_csv('./lenta-ru-partial.csv', usecols=['text'])
data.sample(5)

Unnamed: 0,text
1989,"В пятницу Тбилисский Мтацминда-Крцанисский районный суд постановил задержать президента Федерации футбола Грузии Мераба Жордания на три месяца для завершения следствия, сообщает РИА ""Новости"". Cуд не удовлетворил ходатайство адвоката об освобождении Жордания под залог в 150 тысяч лари (около 70 тысяч долларов). Мераб Жордания был задержан в пятницу утром в аэропорту Тбилиси при попытке незаконно пересечь государственную границу и вылететь в Париж, минуя паспортный контроль. Пограничники передали Жордания в МВД, где его подвергли семичасовому допросу. Во время допроса Жордания вскрылись новые факты по делу в отношении руководства Федерации футбола, заведенному Генеральной прокуратурой Грузии по статье 160 Уголовного кодекса (сокрытие доходов и уклонение от налогов). Согласно данным след..."
1749,"Утром 23 августа за евро на мировых валютных рынках давали 1,2224 доллара. Курс йены составил 110 йен за доллар. Американские индексы закончили торговую сессию 22 августа в плюсе. Значение индекса Dow Jones выросло на 10,66 пункта (+0,10 процента) и составило 10569,89 пункта. Nasdaq вырос на 5,85 пункта (+0,27 процента) до 2141,41 пункта. Значение S&P 500 составило 1221,73 пункта. Dow поддержал Boeing, заявивший, что российские авиалинии решили приобрести несколько самолетов компании. Кроме того, сильно поднялись ADR PetroKazakhstan, который собираются купить китайцы. 22 августа на Международной нефтяной бирже (Лондон) октябрьские фьючерсы на нефть эталонной марки Brent торговались по 64,50 доллара за баррель. Сентябрьские фьючерсы на NYMEX к концу сессии торговались по 65,45 доллара з..."
2836,"Презентация новой операционной системы Windows 9 под кодовым названием Threshold состоится 30 сентября. Об этом сообщает издание The Verge со ссылкой на информированные источники. По данным The Verge, Microsoft предварительно запланировала на 30 сентября мероприятие для журналистов, на котором представит обновление Windows, хотя дата может и измениться. В то же время, версия Threshold уже находится в разработке, и Microsoft может 30 сентября или чуть позже выпустить превью платформы для разработчиков. Хотя версия Threshold в итоговом варианте, скорее всего, получит название Windows 9, на сентябрьском мероприятии Microsoft вряд ли объявит данное название. Вместо этого компания представит новые функции операционной системы. Аналогичный шаг в июне сделала компания Google, анонсировав прев..."
1365,"Исполнитель роли Сарумана в трилогиях «Властелин колец» и «Хоббит» Кристофер Ли записал рождественскую песню в стиле хеви-метал. Трек носит название Darkest Carols, Faithful Sing. Его фрагмент можно услышать в видео, размещенном на канале лейбла Charlemagne Productions на сервисе YouTube. Видеоролик представляет собой микс из музыкальных композиций 2012, 2013 и 2014 годов — обычных и записанных специально для рождественских праздников. Среди них кавер-версия песни Фрэнка Синатры My Way, которую Ли впервые представил в мае 2014 года. Отрывок из нового трека Darkest Carols, Faithful Sing появляется на отметке 1:50. Кроме того, три версии работы доступны в iTunes. На счету 92-летнего Кристофера Ли более 200 фильмов, но наибольшую известность ему принесли роли злодеев. Ли активно занимаетс..."
3376,"Игорь Захаркин назначен исполняющим обязанности главного тренера уфимского хоккейного клуба «Салават Юлаев». Ранее руководивший командой Анатолий Емелин продолжит работу в тренерском штабе в качестве старшего тренера. Об этом сообщается на официальном сайте «Салавата Юлаева». 57-летний Захаркин, который в качестве помощника Вячеслава Быкова дважды побеждал со сборной России на чемпионатах мира, в августе 2015 года был назначен тренером-координатором «Салавата Юлаева». С 2009 по 2011 год он вместе с Быковым уже работал в уфимском клубе, выиграв с командой Кубок Гагарина. В прошлом сезоне тренерский тандем привел к победе в Кубке Гагарина петербургский СКА. Быков в настоящее время живет в Швейцарии и входит в совет директоров клуба «Фрибург-Готтерон». После 14 матчей регулярного чемпиона..."


In [34]:
m = MorphAnalyzer()

# убираем все небуквенные символы
regex = re.compile("[А-Яа-яA-z]+")

def words_only(text, regex=regex):
    try:
        return regex.findall(text.lower())
    except:
        return []

In [35]:
print(data.text[0])

В южноафриканском Кейптауне победой сборной России завершился чемпионат мира среди бездомных. В финальном матче российские футболисты, впервые в своей истории ставшие чемпионами мира, обыграли команду Казахстана со счетом 1:0, передает BBC News. В первенстве принимали участие почти 500 человек, которые представляли 48 стран мира. Все матчи, каждый из которых продолжался 15 минут, проходили на асфальтовых полях, причем в одной команде могли играть как мужчины, так и женщины. Сборная России провела на турнире 13 матчей, во всех из которых добилась победы. На предыдущих чемпионатах мира достижения российской команды были скромнее: в 2003-м году – 13-е место, в 2004-м году – 5-е место, в 2005-м году – 12-е место.


In [36]:
print(*words_only(data.text[0]))

в южноафриканском кейптауне победой сборной россии завершился чемпионат мира среди бездомных в финальном матче российские футболисты впервые в своей истории ставшие чемпионами мира обыграли команду казахстана со счетом передает bbc news в первенстве принимали участие почти человек которые представляли стран мира все матчи каждый из которых продолжался минут проходили на асфальтовых полях причем в одной команде могли играть как мужчины так и женщины сборная россии провела на турнире матчей во всех из которых добилась победы на предыдущих чемпионатах мира достижения российской команды были скромнее в м году е место в м году е место в м году е место


Метод @lru_cashe создает для функции lemmatize кэш указанного размера, что позволяет в целом ускорить лемматизацию текста (что очень полезно, так как лемматизация - ресурсоемкий процесс).

In [37]:

def lemmatize_word(token, pymorphy=m):
    return pymorphy.parse(token)[0].normal_form

def lemmatize_text(text):
    return [lemmatize_word(w) for w in text]

In [38]:
tokens = words_only(data.text[0])

print(lemmatize_text(tokens))

['в', 'южноафриканский', 'кейптаун', 'победа', 'сборная', 'россия', 'завершиться', 'чемпионат', 'мир', 'среди', 'бездомный', 'в', 'финальный', 'матч', 'российский', 'футболист', 'впервые', 'в', 'свой', 'история', 'стать', 'чемпион', 'мир', 'обыграть', 'команда', 'казахстан', 'с', 'счёт', 'передавать', 'bbc', 'news', 'в', 'первенство', 'принимать', 'участие', 'почти', 'человек', 'который', 'представлять', 'страна', 'мир', 'всё', 'матч', 'каждый', 'из', 'который', 'продолжаться', 'минута', 'проходить', 'на', 'асфальтовый', 'поле', 'причём', 'в', 'один', 'команда', 'мочь', 'играть', 'как', 'мужчина', 'так', 'и', 'женщина', 'сборная', 'россия', 'провести', 'на', 'турнир', 'матч', 'в', 'весь', 'из', 'который', 'добиться', 'победа', 'на', 'предыдущий', 'чемпионат', 'мир', 'достижение', 'российский', 'команда', 'быть', 'скромный', 'в', 'м', 'год', 'быть', 'место', 'в', 'м', 'год', 'быть', 'место', 'в', 'м', 'год', 'быть', 'место']


In [39]:
mystopwords = stopwords.words('russian')

def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords]

In [40]:
lemmas = lemmatize_text(tokens)

print(*remove_stopwords(lemmas))

южноафриканский кейптаун победа сборная россия завершиться чемпионат мир среди бездомный финальный матч российский футболист впервые свой история стать чемпион мир обыграть команда казахстан счёт передавать bbc news первенство принимать участие человек который представлять страна мир всё матч каждый который продолжаться минута проходить асфальтовый поле причём команда мочь играть мужчина женщина сборная россия провести турнир матч весь который добиться победа предыдущий чемпионат мир достижение российский команда скромный м год место м год место м год место


In [41]:
def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords and len(w) > 3]

In [42]:
print(*remove_stopwords(lemmas))

южноафриканский кейптаун победа сборная россия завершиться чемпионат среди бездомный финальный матч российский футболист впервые свой история стать чемпион обыграть команда казахстан счёт передавать news первенство принимать участие человек который представлять страна матч каждый который продолжаться минута проходить асфальтовый поле причём команда мочь играть мужчина женщина сборная россия провести турнир матч весь который добиться победа предыдущий чемпионат достижение российский команда скромный место место место


Если собрать все в одну функцию:

In [43]:
def clean_text(text):
    tokens = words_only(text)
    lemmas = lemmatize_text(tokens)

    return remove_stopwords(lemmas)

In [44]:
print(*clean_text(data.text[3]))

известный голливудский актёр майкл дуглас совершить неожиданный визит куба сообщать издание cubadebate цель поездка дуглас уточняться утверждаться лишь актёр посетить несколько памятный место число закусочный floridita который некогда любить бывать эрнест хемингуэй майкл дуглас также осмотреть достопримечательность исторический центр гавана понаблюдать процесс изготовление кубинский сигара табачный фабрика стоить отметить свободный посещение куба американский гражданин иметь родственник остров запретить американец поездка требоваться специальный разрешение государственный департамент получать дуглас разрешение сообщаться напомнить дуглас единственный знаменитый голливудский актёр посетить куба последний время ранее страна качество корреспондент журнал vanity fair прибыть визит пенна двукратный обладатель премия оскар намереваться взять интервью фидель кастро поездка пенный сопровождать известный филантроп дайана дженкинс


Если нужно предобработать большой объем текста, помимо кэширования может помочь распараллеливание, например, методом Pool библиотеки multiprocessing:

In [45]:
from multiprocessing import Pool
from tqdm import tqdm_notebook as tqdm

N = 200

with Pool(4) as p:
    lemmas = list(tqdm(p.imap(clean_text, data['text'][:N]), total=N))

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  lemmas = list(tqdm(p.imap(clean_text, data['text'][:N]), total=N))


  0%|          | 0/200 [00:00<?, ?it/s]

In [46]:
data = data.head(200)
data['lemmas'] = lemmas
data.sample(3)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['lemmas'] = lemmas


Unnamed: 0,text,lemmas
146,"Русскоязычный рэпер из Латвии Денис Василенко, более известный как Johnyboy, в интервью журналисту Юрию Дудю рассказал о том, чем занимался после поражения в баттле с Мироном Федоровым, более известным как Оксимирон. Ролик опубликован на YouTube-канале «вДудь» в среду, 12 сентября. По словам исполнителя, после баттла, который состоялся в 2015 году, он долгое время жил в Англии, где работал барменом и официантом. Он был занят тем, что отдавал крупные долги. Рэпер также рассказал об одном из своих коллег, 65-летнем бармене, который очень плохо относится к России. Мужчина также в шутку называл своим лучшим другом президента России Владимира Путина и все время рассказывал один и тот же анекдот. «Анекдот был следующим: вчера в Кремле произошло ограбление. Единственное, что украли, — это рез...","[русскоязычный, рэпер, латвия, денис, василенко, известный, johnyboy, интервью, журналист, юрий, дудь, рассказать, заниматься, поражение, баттля, мирон, фёдоров, известный, оксимирон, ролик, опубликовать, youtube, канал, вдудь, среда, сентябрь, слово, исполнитель, баттлый, который, состояться, долгий, время, жить, англия, работать, бармен, официант, занятый, отдавать, крупный, долг, рэпер, также, рассказать, свой, коллега, летний, бармен, который, очень, плохо, относиться, россия, мужчина, также, шутка, называть, свой, хороший, друг, президент, россия, владимир, путин, время, рассказывать, анекдот, анекдот, следующий, вчера, кремль, произойти, ограбление, единственный, украсть, результат, следующий, выборы, процитировать, артист, слово, проявляться, отношение, иностранец, россия, демок..."
22,"Астрофизики из Франции и США представили первое доказательство того, что Млечный Путь, вероятно, начал умирать. Исследование ученых опубликовано в журнале Astronomy & Astrophysics, а кратко о нем сообщает издание New Scientist. Астрономы пришли к выводу, что в течение полутора-двух миллиардов лет после того, как примерно десять миллиардов лет назад сформировался толстый диск Галактики, в ней в десятки раз снизилась скорость звездообразования. После этого рождение светил возобновилось, но шло гораздо более медленными темпами и сформировало тонкий диск. К своим выводам ученые пришли, проанализировав данные каталога SDSS (Sloan Digital Sky Survey). Галактика может перестать расти даже тогда, когда у нее остаются запасы газа для образования новых звезд. Причиной угасания активности Млечног...","[астрофизик, франция, представить, первый, доказательство, млечный, путь, вероятно, начать, умирать, исследование, учёный, опубликовать, журнал, astronomy, astrophysics, кратко, немой, сообщать, издание, scientist, астроном, прислать, вывод, течение, полтора, миллиард, примерно, десять, миллиард, назад, сформироваться, толстый, диск, галактика, десятка, снизиться, скорость, звездообразование, рождение, светить, возобновиться, идти, гораздо, медленный, темп, сформировать, тонкий, диск, свой, вывод, учёный, прислать, проанализировать, дать, каталог, sdss, sloan, digital, survey, галактика, мочь, перестать, расти, оставаться, запас, образование, новый, звезда, причина, угасание, активность, млечный, путь, мнение, астроном, мочь, необычный, динамика, тонкий, толстый, диск, звездообразовани..."
41,"Средневзвешенный курс доллара в ходе торгов на Московской бирже 30 января к 11:30 по московскому времени вырос на 68 копеек по сравнению с предыдущим днем и достиг 35,2448 рубля. К 12:00 по Москве стоимость американской валюты несколько снизилась и составила 35,2130 рубля. Курс евро на валютных торгах по-прежнему колеблется вблизи отметки 48 рублей. В начале торгов стоимость европейской валюты превышала этот уровень, а к 12:05 достигала 47,9670 рубля. Официальные курсы доллара и евро на 31 января в Банке России пока не опубликовали. Последние два дня ЦБ снижает стоимость обеих валют; на 30 января курс доллара был уменьшен на шесть копеек до 34,5633 рубля, а евро — на 15 копеек до 47,2238 рубля. 29 января Федеральная резервная система США объявила о дальнейшем сворачивании антикризисной...","[средневзвешенный, курс, доллар, торг, московский, биржа, январь, московский, время, вырасти, копейка, сравнение, предыдущий, день, достигнуть, рубль, москва, стоимость, американский, валюта, несколько, снизиться, составить, рубль, курс, евро, валютный, торг, прежний, колебаться, вблизи, отметка, рубль, начало, торг, стоимость, европейский, валюта, превышать, уровень, достигать, рубль, официальный, курс, доллар, евро, январь, банк, россия, пока, опубликовать, последний, день, снижать, стоимость, валюта, январь, курс, доллар, уменьшить, шесть, копейка, рубль, евро, копейка, рубль, январь, федеральный, резервный, система, объявить, дальнейший, сворачивание, антикризисный, программа, снижение, ежемесячный, объём, выкуп, облигация, миллиард, доллар, миллиард, сообщение, мировой, фондовый, ..."


### Итого:

- посмотрели, как делать все стандартные этапы предобработки текста
- научились работать с морфологоческими парсерами

<h1><center>Простые векторные модели текста</center></h1>

<img src="images/pipeline_vec.png" alt="pipeline_vec.png" style="width: 400px;"/>

### Задача: классификация твитов по тональности

В этом занятии мы познакомимся с распространенной задачей в анализе текстов: с классификацией текстов на классы.

В рассмотренном тут примере классов будет два: положительный и отрицательный, такую постановку этой задачи обычно называют классификацией по тональности или sentiment analysis.

Классификацию по тональности используют, например, в рекомендательных системах и при анализе отзывов клиентов, чтобы понять, понравилось ли людям кафе, кино, etc.

Более подробно мы рассмотрим данную задачу и познакомимся с более сложными методами её решения в семинаре 3, а здесь разберем простые подходы, основанные на методе мешка слов.

У нас есть [данные постов в твиттере](http://study.mokoron.com/), про из которых каждый указано, как он эмоционально окрашен: положительно или отрицательно.

**Задача**: построить модель, которая по тексту поста предсказывает его эмоциональную окраску.


Скачиваем данные: [положительные](https://www.dropbox.com/s/fnpq3z4bcnoktiv/positive.csv?dl=0), [отрицательные](https://www.dropbox.com/s/r6u59ljhhjdg6j0/negative.csv).

In [47]:
# если у вас линукс / мак / collab или ещё какая-то среда, в которой работает wget, можно так:
!wget https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/positive.csv
!wget  https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/negative.csv

--2023-12-31 18:06:55--  https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/positive.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 26233379 (25M) [text/plain]
Saving to: ‘positive.csv’


2023-12-31 18:06:56 (280 MB/s) - ‘positive.csv’ saved [26233379/26233379]

--2023-12-31 18:06:56--  https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/negative.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.108.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 24450101 (23M) [text/plain]
Saving to: ‘negative.csv’


2023-12-31 18:06:56 (286 MB/s) - ‘negat

In [48]:
import pandas as pd
import numpy as np
from sklearn.metrics import *
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

In [49]:
positive = pd.read_csv('./positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive)
negative = pd.read_csv('./negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative)
df = positive.append(negative)

  df = positive.append(negative)


In [50]:
df.sample(5)

Unnamed: 0,text,label
67861,"закончилсяя 14 сезоонн ((\nблиин , жалкооо",negative
28897,Пора бы начать готовиться к первому экзамену в среду:( http://t.co/6rzOoQwlxB,negative
13379,"Даже мой кот любит Папиков. :D #котики, #papa_roach http://t.co/lK2pYXiM87",positive
49921,"RT @ykilydigsa: жуйка, где в убунте посмотреть все расшаренные папки? а то их две, а нашёл одну только)",positive
40923,"@bathroom_star это после майдана, точно тебе говорю)",positive


Воспользуемся функцией для предобработки текста, которую мы написали в прошлом семинаре:

In [51]:
import re
from pymorphy2 import MorphAnalyzer
from functools import lru_cache
from nltk.corpus import stopwords

m = MorphAnalyzer()
regex = re.compile("[А-Яа-яA-z]+")

def words_only(text, regex=regex):
    try:
        return regex.findall(text.lower())
    except:
        return []

In [52]:
@lru_cache(maxsize=128)
def lemmatize_word(token, pymorphy=m):
    return pymorphy.parse(token)[0].normal_form

def lemmatize_text(text):
    return [lemmatize_word(w) for w in text]


mystopwords = stopwords.words('russian')
def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords and len(w) > 3]

def clean_text(text):
    tokens = words_only(text)
    lemmas = lemmatize_text(tokens)

    return ' '.join(remove_stopwords(lemmas))

In [53]:
from multiprocessing import Pool
from tqdm import tqdm

with Pool(4) as p:
    lemmas = list(tqdm(p.imap(clean_text, df['text']), total=len(df)))

df['lemmas'] = lemmas
df.sample(5)

100%|██████████| 226834/226834 [09:47<00:00, 385.83it/s]


Unnamed: 0,text,label,lemmas
84964,@Ekip_Sport Варя засыпает моментально. И даже дома сидит в нем спокойно ),positive,ekip_sport варя засыпать моментально сидеть немой спокойно
86099,"НУ,ЧТОЖ ВОЛОДЯ - У НАС ХОРОШИЕ ШАНСЫ ЗАХВАТИТЬ ВЕСЬ МИР,НАДЕЮСЬ ТЫ С ПАПОЙ ОБ ЭТОМ ГОВОРИЛ...))) http://t.co/eDBUrFEXsi",positive,чтожий володя хороший шанс захватить весь надеяться папа говорить http edburfexsi
81937,Мама приготовила мне крылышки \nНо мне же нельзя :( \nКак её не обидеть,negative,мама приготовить крылышко обидеть
27682,"@Nata_Oleynik круто вам)) а нам вообще сказали работать в Ростове, пока мы не откроемся.. но с другой стороны я рада, что в январе)",positive,nata_oleynik круто вообще сказать работать ростов пока открыться сторона рада январь
56113,"@dimloblife @megamegadenis это пирамида. В один момент она хлопается и потом вы бежите в асв. Вам нужны деньги, а денег нет ;) и ждете 2 нед",positive,dimloblife megamegadenis пирамида момент хлопаться бежать нужный деньга деньга ждать


Разбиваем на train и test:

In [54]:
x_train, x_test, y_train, y_test = train_test_split(df.lemmas, df.label)

## Мешок слов (Bag of Words, BoW)


In [55]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

... Но сперва пару слов об n-граммах. Что такое n-граммы:

In [56]:
from nltk import ngrams

In [57]:
sent = 'Факультет компьютерных наук Высшей школы экономики'.split()
list(ngrams(sent, 1)) # униграммы

[('Факультет',),
 ('компьютерных',),
 ('наук',),
 ('Высшей',),
 ('школы',),
 ('экономики',)]

In [58]:
list(ngrams(sent, 2)) # биграммы

[('Факультет', 'компьютерных'),
 ('компьютерных', 'наук'),
 ('наук', 'Высшей'),
 ('Высшей', 'школы'),
 ('школы', 'экономики')]

In [59]:
list(ngrams(sent, 3)) # триграммы

[('Факультет', 'компьютерных', 'наук'),
 ('компьютерных', 'наук', 'Высшей'),
 ('наук', 'Высшей', 'школы'),
 ('Высшей', 'школы', 'экономики')]

In [60]:
list(ngrams(sent, 5)) # ... пентаграммы?

[('Факультет', 'компьютерных', 'наук', 'Высшей', 'школы'),
 ('компьютерных', 'наук', 'Высшей', 'школы', 'экономики')]

Итак, мы хотим преобразовать наши обработанные данные в вектора с помощью мешка слов. Мешок слов можно строить как для отдельных слов (лемм в нашем случае), так и для n-грамм, и это может улучшать качество.

Объект `CountVectorizer` делает простую вещь:
* строит для каждого документа (каждой пришедшей ему строки) вектор размерности `n`, где `n` -- количество слов или n-грам во всём корпусе
* заполняет каждый i-тый элемент количеством вхождений слова в данный документ

In [61]:
vec = CountVectorizer(ngram_range=(1, 1)) # строим BoW для слов
bow = vec.fit_transform(x_train)

ngram_range отвечает за то, какие n-граммы мы используем в качестве признаков:<br/>
ngram_range=(1, 1) -- униграммы<br/>
ngram_range=(3, 3) -- триграммы<br/>
ngram_range=(1, 3) -- униграммы, биграммы и триграммы.

В vec.vocabulary_ лежит словарь: соответствие слов и их индексов в словаре:

In [62]:
list(vec.vocabulary_.items())[:10]

[('разбудить', 146038),
 ('убираться', 159337),
 ('мыть', 127074),
 ('отличный', 134916),
 ('день', 107159),
 ('акрополис', 92820),
 ('ждать', 110750),
 ('такси', 156198),
 ('ехать', 110513),
 ('обратно', 132522)]

In [63]:
bow[0]

<1x169395 sparse matrix of type '<class 'numpy.int64'>'
	with 3 stored elements in Compressed Sparse Row format>

Теперь у нас есть вектора, на которых можно обучать модели!

In [64]:
clf = LogisticRegression(random_state=42, max_iter=500)
clf.fit(bow, y_train)

Посмотрим на качество классификации на тестовой выборке. Для этого выведем classification_report из модуля [sklearn.metrics](https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics)

В качестве целевой метрики качества будем рассматривать macro average f1-score.

In [65]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.75      0.73      0.74     28611
    positive       0.73      0.75      0.74     28098

    accuracy                           0.74     56709
   macro avg       0.74      0.74      0.74     56709
weighted avg       0.74      0.74      0.74     56709



Попробуем сделать то же самое для триграмм:

In [66]:
vec = CountVectorizer(ngram_range=(3, 3))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 300)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.97      0.53      0.68     51597
    positive       0.15      0.85      0.26      5112

    accuracy                           0.56     56709
   macro avg       0.56      0.69      0.47     56709
weighted avg       0.90      0.56      0.65     56709



Видим, что качество существенно хуже. Ниже мы поймем, почему это так.

## TF-IDF векторизация

`TfidfVectorizer` делает то же, что и `CountVectorizer`, но в качестве значений – tf-idf каждого слова.

Как считается tf-idf:

TF (term frequency) – относительная частотность слова в документе:
$$ TF(t,d) = \frac{n_t}{\sum_k n_k} $$

`t` -- слово (term), `d` -- документ, $n_t$ -- количество вхождений слова, $n_k$ -- количество вхождений остальных слов

IDF (inverse document frequency) – обратная частота документов, в которых есть это слово:
$$ IDF(t, D) = \mbox{log} \frac{|D|}{|{d : t \in d}|} $$

`t` -- слово (term), `D` -- коллекция документов

Перемножаем их:
$$TFIDF(t,d,D) = TF(t,d) \times IDF(i, D)$$

Ключевая идея этого подхода – если слово часто встречается в одном документе, но в целом по корпусу встречается в небольшом
количестве документов, у него высокий TF-IDF.

In [67]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [68]:
vec = TfidfVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 500)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.70      0.75      0.72     26442
    positive       0.77      0.73      0.75     30267

    accuracy                           0.74     56709
   macro avg       0.73      0.74      0.73     56709
weighted avg       0.74      0.74      0.74     56709



В этот раз получилось хуже, чем с помощью простого CountVectorizer, то есть использование tf-idf не дало улучшений в качестве.

## О важности эксплоративного анализа

Иногда в ходе стандартного препроцессинга теряются важные признаки. Посмотрим, что будет если не убирать пунктуацию?

In [69]:
df.sample()

Unnamed: 0,text,label,lemmas
26964,"RT @dubrovskiy001: Кому сделать сигну жми #RT :3\n\nблин мне не кого читать(( \nребят #читаювзаимно, устроим #взаимныйфолловинг http://t.co/bb…",negative,dubrovskiy сделать сигну жать блин читать ребята читаювзаимно устроить взаимныйфолловинг http


In [70]:
df['new_lemmas'] = df.text.apply(lambda x: x.lower())
df.sample(3)

Unnamed: 0,text,label,lemmas,new_lemmas
110693,"RT @Ryakhovskaya: Парни ушли играть к Мише\nБросили нас\nСидим с Машей, красим ногти\n:(",negative,ryakhovskaya парень уйти играть миша бросить сидеть маша красить ноготь,"rt @ryakhovskaya: парни ушли играть к мише\nбросили нас\nсидим с машей, красим ногти\n:("
71129,"RT @NeZaebalo: Постоянно хочу тыкнуть вилкой в попу моего мужика.\n\nОн по дому в трусах ходит, а попа у него такая хорошая(((\n\nПрям достойно…",negative,nezaebalo постоянно хотеть тыкнуть вилка мужик трус ходить хороший прям достойно,"rt @nezaebalo: постоянно хочу тыкнуть вилкой в попу моего мужика.\n\nон по дому в трусах ходит, а попа у него такая хорошая(((\n\nпрям достойно…"
22921,"Любить надо не ради денег, не ради кого-то, любить надо ради себя и ради второй половинки)) http://t.co/uXxjIJ5JbC",positive,любить ради деньга ради любить ради ради второй половинка http uxxjij,"любить надо не ради денег, не ради кого-то, любить надо ради себя и ради второй половинки)) http://t.co/uxxjij5jbc"


In [71]:
x_train, x_test, y_train, y_test = train_test_split(df.new_lemmas, df.label)

In [72]:
from nltk import word_tokenize

vec = TfidfVectorizer(ngram_range=(1, 1), tokenizer=word_tokenize)
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 300)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))



              precision    recall  f1-score   support

    negative       1.00      1.00      1.00     27755
    positive       1.00      1.00      1.00     28954

    accuracy                           1.00     56709
   macro avg       1.00      1.00      1.00     56709
weighted avg       1.00      1.00      1.00     56709



Как можно видеть, если оставить пунктуацию, то все метрики равны 1.

In [73]:
len(vec.vocabulary_), len(clf.coef_[0])

(260257, 260257)

In [74]:
importances = list(zip(vec.vocabulary_, clf.coef_[0]))
importances[0]

('как', -0.023549075841545666)

In [75]:
sorted_importances = sorted(importances, key = lambda x: -x[1])
sorted_importances[:10]

[('физика', 58.455870101182825),
 ('кашин', 26.92516655723967),
 ('заскринить', 10.624773314843745),
 ('//t.co/vcpbfny3tu', 9.126273431799557),
 ('//t.co/srjvym09vb', 7.7800622703099425),
 ('перед', 7.390267892490738),
 ('и', 7.354414390815188),
 ('биолоооогию', 5.885900299833554),
 ('alikasmekhova', 4.827218834417134),
 ('бюль-бюль-оглы', 3.1714094882536985)]

Посмотрим, как один из наиболее значительных токенов справится с классификацией безо всякого машинного обучения:

In [76]:
cool_token = ')'
pred = ['positive' if cool_token in tweet else 'negative' for tweet in x_test]
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       1.00      0.85      0.92     32755
    positive       0.83      1.00      0.91     23954

    accuracy                           0.91     56709
   macro avg       0.91      0.92      0.91     56709
weighted avg       0.93      0.91      0.91     56709



Можно видеть, что это уже позволяет достаточно хорошо классифицировать тексты.

## Символьные n-граммы

Теперь в качестве признаком используем, например, униграммы символов:

In [77]:
vec = CountVectorizer(analyzer='char', ngram_range=(1, 1))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


              precision    recall  f1-score   support

    negative       0.99      1.00      1.00     27713
    positive       1.00      0.99      1.00     28996

    accuracy                           1.00     56709
   macro avg       1.00      1.00      1.00     56709
weighted avg       1.00      1.00      1.00     56709



Таким образом, становится понятно, почему на этих данных качество классификации 1. Так или иначе, на символах классифицировать тоже можно.

Ещё одна замечательная особенность символьных признаков: токенизация и лемматизация не нужна, можно использовать такой подход для языков, у которых нет готовых анализаторов.

## Итоги

 На этом занятии мы
* познакомились с задачей бинарной классификации текстов.

* научились строить простые признаки на основе метода "мешка слов" с помощью библиотеки sklearn: CountVectorizer и TfidfVectorizer.

* использовали для классификации линейную модель логистической регрессии.

* поняли, что многое зависит от подхода к предобработки текста и от признаков, которые используются в модели.

* увидели, что в некоторых задачах важно использование каждого символа из текста, в том числе пунктуации.

На следующих занятиях мы рассмотрим более сложные модели построения признаков и классификации текстов.