#Использование NLTK в NLP

Предобработка текста

## Основные техники
* Уровень символов:
    * Токенизация: разбиение текста на слова
    * Разбиение текста на предложения
* Уровень слов – морфология:
    * Разметка частей речи
    * Снятие морфологической неоднозначности
    * Нормализация (стемминг или лемматизация)
* Уровень предложений – синтаксис:
    * Выделенние именных или глагольных групп
    * Выделенние семантических ролей
    * Деревья составляющих и зависимостей
* Уровень смысла – семантика и дискурс:
    * Разрешение кореферентных связей
    * Выделение синонимов
    * Анализ аргументативных связей

## Основные проблемы
* Неоднозначность
    * Лексическая неоднозначность: *орган, парить, рожки, атлас*
    * Морфологическая неоднозначность: *Хранение денег в банке. Что делают белки в клетке?*
    * Синтаксическая неоднозначность: *Мужу изменять нельзя. Его удивил простой солдат. Эти типы стали есть в цехе.*
* Неологизмы: *печеньки, заинстаграммить, репостнуть, расшарить, биткоины*
* Разные варианты написания: *Россия, Российская Федерация, РФ*
* Нестандартное написание (в т.ч. орфографические ошибки и опечатки): *каг дила? куптиь телфон*

### NLP-библиотеки

NLP-библиотеки для питона:
* Natural Language Toolkit (NLTK) - будет обзор только на неё))
* Apache OpenNLP
* Stanford NLP suite
* Gate NLP library
* Spacy
* Yargy
* DeepPavlov
* CLTK (для древних языков)
* и т.д.

Самая старая и известная — NLTK. В NLTK есть не только различные инструменты для обработки текста, но и данные — текстовые корпуса, предобученные модели для анализа тональности и морфологической разметки, списки стоп-слов для разных языков и т.п.

* [Учебник по NLTK](https://www.nltk.org/book/) от авторов библиотеки и [тьюториалы](https://github.com/hb20007/hands-on-nltk-tutorial) по решению разных задач NLP с помощью NLTK.

## Предобработка текста

1. **Токенизация** — самый первый шаг при обработке текста.
2. **Нормализация** — приведение к одному регистру, удаляются пунктуации, исправление опечаток и т.д.
3.
    * **Стемминг** —  выделение псевдоосновы слова.
    * **Лемматизация** — приведение слов к словарной ("начальной") форме.
4. **Удаление стоп-слов** — слов, которые не несут никакой смысловой нагрузки (предлоги, союзы и т.п.) Список зависит от задачи!

**Важно!** Не всегда нужны все этапы, все зависит от задачи!

## Токенизация

#### Сколько слов в этом предложении?

*На дворе трава, на траве дрова, не руби дрова на траве двора.*

* 12 токенов: На, дворе, трава, на, траве, дрова, не, руби, дрова, на, траве, двора
* 8 - 9 словоформ: Н/на, дворе, трава, траве, дрова, не, руби, двора.
* 6  лексем: на, не, двор, трава, дрова, рубить


### Токен и словоформа

**Словоформа**  – уникальное слово из текста

**Токен**  – словоформа и её позиция в тексте

Объем корпуса измеряется в токенах, объем словаря — в словоформах или лексемах.

### Обозначения
$N$ = число токенов

$V$ = словарь (все словоформы)

$|V|$ = количество словоформ в словаре

### Токен ≠ слово

__Рассмотрим пример:__

    Продаётся LADA 4x4. ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега. Комплектация полная. Новая в салоне 750 000, отдам за 650 000. Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.

    * Модификация: 1.6 MT (89 л.с.)
    * Владельцев по ПТС: 4+
    * VIN или номер кузова: XTA21104*50****47
    * Мультимедиа и навигация: CD/DVD/Blu-ray
    * Шины и диски: 14"

    Краснодар, ул. Миклухо-Маклая, д. 4/5, подъезд 1

    Тел. 8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33
    
    e-mail: ivanov.ivan-61@mail.ru
    
    И.И. Иванов (Иван Иванович)

In [21]:
# самая банальная токенизация: разбиение по пробелам

text = '''
Продаётся LADA 4x4. ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега.
Комплектация полная. Новая в салоне 750 000, отдам за 650 000.
Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.
Краснодар, ул. Миклухо-Маклая, д. 4/5, подьезд 1
Тел. 8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33
И.И. Иванов (Иван Иванович)
'''

tokens = text.split()
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018,', 'куплена', '20', 'января', '19', 'года,', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000,', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар,', 'ул.', 'Миклухо-Маклая,', 'д.', '4/5,', 'подьезд', '1', 'Тел.', '8(999)1234567,', '8', '903', '987-65-43,', '+7', '(351)', '111', '22', '33', 'И.И.', 'Иванов', '(Иван', 'Иванович)']


56

In [22]:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('snowball_data')
nltk.download('perluniprops')
nltk.download('universal_tagset')
nltk.download('stopwords')
nltk.download('nonbreaking_prefixes')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package snowball_data to /root/nltk_data...
[nltk_data]   Package snowball_data is already up-to-date!
[nltk_data] Downloading package perluniprops to /root/nltk_data...
[nltk_data]   Package perluniprops is already up-to-date!
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package nonbreaking_prefixes to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package nonbreaking_prefixes is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-

True

In [23]:
from nltk.tokenize import word_tokenize, ToktokTokenizer

tokens = word_tokenize(text)
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4', '.', 'ПТС', '01.12.2018', ',', 'куплена', '20', 'января', '19', 'года', ',', '10', '000', 'км', 'пробега', '.', 'Комплектация', 'полная', '.', 'Новая', 'в', 'салоне', '750', '000', ',', 'отдам', 'за', '650', '000', '.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой', '.', 'Краснодар', ',', 'ул', '.', 'Миклухо-Маклая', ',', 'д', '.', '4/5', ',', 'подьезд', '1', 'Тел', '.', '8', '(', '999', ')', '1234567', ',', '8', '903', '987-65-43', ',', '+7', '(', '351', ')', '111', '22', '33', 'И.И', '.', 'Иванов', '(', 'Иван', 'Иванович', ')']


81

In [24]:
tknzr = ToktokTokenizer()
tokens = tknzr.tokenize(text)
print(tokens)
len(tokens)

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018', ',', 'куплена', '20', 'января', '19', 'года', ',', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000', ',', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар', ',', 'ул.', 'Миклухо-Маклая', ',', 'д.', '4/5', ',', 'подьезд', '1', 'Тел.', '8(', '999', ')', '1234567', ',', '8', '903', '987-65-43', ',', '+7', '(', '351', ')', '111', '22', '33', 'И.И.', 'Иванов', '(', 'Иван', 'Иванович', ')']


71

Можно заметить, что различие в количестве токенов обусловлено тем, как каждый метод обрабатывает знаки препинания и специальные случаи в тексте. word_tokenize разделяет больше элементов, в то время как ToktokTokenizer склонен сохранять некоторые элементы вместе, что приводит к меньшему количеству токенов.

In [25]:
# специальный токенизатор для твитов
from nltk.tokenize import TweetTokenizer

tknzr = TweetTokenizer()
tweet = "@remy This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"
tknzr.tokenize(tweet)

['@remy',
 'This',
 'is',
 'a',
 'cooool',
 '#dummysmiley',
 ':',
 ':-)',
 ':-P',
 '<3',
 'and',
 'some',
 'arrows',
 '<',
 '>',
 '->',
 '<--']

In [26]:
# токенизатор на регулярных выражениях
from nltk.tokenize import RegexpTokenizer

s = "Good muffins cost $3.88 in New York.  Please buy me two of them. \n\nThanks."
tknzr = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
tknzr.tokenize(s)

['Good',
 'muffins',
 'cost',
 '$3.88',
 'in',
 'New',
 'York',
 '.',
 'Please',
 'buy',
 'me',
 'two',
 'of',
 'them',
 '.',
 'Thanks',
 '.']

В nltk вообще есть довольно много токенизаторов:

In [27]:
from nltk import tokenize
dir(tokenize)[:16]

['BlanklineTokenizer',
 'LegalitySyllableTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'NLTKWordTokenizer',
 'PunktSentenceTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'SyllableTokenizer',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer',
 'TreebankWordDetokenizer']

Можно, например, нарисовать синтаксическое дерево, но так как колаб не поддерживает GUI, то чтобы нарисовать будем использовать pretty_print()

In [28]:
from nltk import CFG
from nltk.parse import RecursiveDescentParser

# Текст и токены для анализа
text1 = "The dog jumps over the lazy fox"
tokens1 = text1.split()

# Определение грамматики для предложения
grammar = CFG.fromstring("""
  S -> NP VP
  VP -> V PP
  PP -> P NP
  NP -> Det N | Det Adj N
  Det -> "The" | "the"
  N -> "dog" | "fox"
  Adj -> "lazy"
  V -> "jumps"
  P -> "over"
""")
parser = RecursiveDescentParser(grammar)
trees = list(parser.parse(tokens1))
for tree in trees:
    tree.pretty_print()


                   S                   
      _____________|____                
     |                  VP             
     |         _________|___            
     |        |             PP         
     |        |     ________|___        
     NP       |    |            NP     
  ___|___     |    |     _______|____   
Det      N    V    P   Det     Adj   N 
 |       |    |    |    |       |    |  
The     dog jumps over the     lazy fox



Это дерево показывает, как предложение разбивается на составляющие его части речи согласно определённой грамматике:

S (предложение) состоит из NP (именной фразы) и VP (глагольной фразы).
VP (глагольная фраза) содержит глагол V (jumps) и предложную фразу PP.
PP (предложная фраза) состоит из предлога P (over) и NP (именной фразы).
NP может быть простой (состоять из артикля Det и существительного N) или расширенной (с дополнительным прилагательным Adj).
Такое дерево помогает понять структуру предложения и взаимосвязь между словами.

Они умеют выдавать индексы начала и конца каждого токена:

In [29]:
wh_tok = tokenize.WhitespaceTokenizer()
list(wh_tok.span_tokenize("don't stop me"))

[(0, 5), (6, 10), (11, 13)]

Некторые токенизаторы ведут себя специфично:

In [30]:
tokenize.TreebankWordTokenizer().tokenize("don't stop me")
# так и не нашёл где его можно использовать по назначению xD

['do', "n't", 'stop', 'me']

## Сегментация предложений

Сегментацию предложений иногда называют **сплиттингом**.

Основные признаки — знаки препинания. "?", "!" как правило однозначны, проблемы возникают с "."  Возможное решение: бинарный классификатор для сегментации предложений. Для каждой точки "." определить, является ли она концом предложения или нет.


In [31]:
from nltk.tokenize import sent_tokenize

sents = sent_tokenize(text)
print(len(sents))
sents

10


['\nПродаётся LADA 4x4.',
 'ПТС 01.12.2018, куплена 20 января 19 года, 10 000 км пробега.',
 'Комплектация полная.',
 'Новая в салоне 750 000, отдам за 650 000.',
 'Возможен обмен на ВАЗ-2110 или ВАЗ 2109 с вашей доплатой.',
 'Краснодар, ул.',
 'Миклухо-Маклая, д.',
 '4/5, подьезд 1\nТел.',
 '8(999)1234567, 8 903 987-65-43, +7 (351) 111 22 33\nИ.И.',
 'Иванов (Иван Иванович)']

## Нормализация

### Удаление пунктуации

In [32]:
# Способ №1
import re

# набор пунктуационных символов зависит от задачи и текста
punct = '!"#$%&()*\+,-\./:;<=>?@\[\]^_`{|}~„“«»†*\—/\-‘’'
clean_text = re.sub(punct, r'', text)
print(clean_text.split())

# Способ №2
clean_words = [w.strip(punct) for w in word_tokenize(text)]
print(clean_words)

clean_words == clean_text

['Продаётся', 'LADA', '4x4.', 'ПТС', '01.12.2018,', 'куплена', '20', 'января', '19', 'года,', '10', '000', 'км', 'пробега.', 'Комплектация', 'полная.', 'Новая', 'в', 'салоне', '750', '000,', 'отдам', 'за', '650', '000.', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой.', 'Краснодар,', 'ул.', 'Миклухо-Маклая,', 'д.', '4/5,', 'подьезд', '1', 'Тел.', '8(999)1234567,', '8', '903', '987-65-43,', '+7', '(351)', '111', '22', '33', 'И.И.', 'Иванов', '(Иван', 'Иванович)']
['Продаётся', 'LADA', '4x4', '', 'ПТС', '01.12.2018', '', 'куплена', '20', 'января', '19', 'года', '', '10', '000', 'км', 'пробега', '', 'Комплектация', 'полная', '', 'Новая', 'в', 'салоне', '750', '000', '', 'отдам', 'за', '650', '000', '', 'Возможен', 'обмен', 'на', 'ВАЗ-2110', 'или', 'ВАЗ', '2109', 'с', 'вашей', 'доплатой', '', 'Краснодар', '', 'ул', '', 'Миклухо-Маклая', '', 'д', '', '4/5', '', 'подьезд', '1', 'Тел', '', '8', '', '999', '', '1234567', '', '8', '903', '987-65-43', '', '7

False

### Преобразование регистра

In [33]:
clean_words = [w.lower() for w in clean_words if w != '']
print(clean_words)

['продаётся', 'lada', '4x4', 'птс', '01.12.2018', 'куплена', '20', 'января', '19', 'года', '10', '000', 'км', 'пробега', 'комплектация', 'полная', 'новая', 'в', 'салоне', '750', '000', 'отдам', 'за', '650', '000', 'возможен', 'обмен', 'на', 'ваз-2110', 'или', 'ваз', '2109', 'с', 'вашей', 'доплатой', 'краснодар', 'ул', 'миклухо-маклая', 'д', '4/5', 'подьезд', '1', 'тел', '8', '999', '1234567', '8', '903', '987-65-43', '7', '351', '111', '22', '33', 'и.и', 'иванов', 'иван', 'иванович']


### Стоп-слова

**Стоп-слова** — высокочастотные слова, которые не дают нам никакой информации о конкретном тексте. Они составляют верхушку частотного списка в любом языке. Набор стоп-слов не универсален, он будет зависеть от вашей задачи!

В NLTK есть готовые списки стоп-слов для многих языков.

In [34]:
from nltk.corpus import stopwords

# смотрим, какие языки есть
stopwords.fileids()

['arabic',
 'azerbaijani',
 'basque',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [35]:
sw = stopwords.words('russian')
print(sw)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [36]:
print([w if w not in sw else print(w) for w in clean_words])

в
за
на
или
с
['продаётся', 'lada', '4x4', 'птс', '01.12.2018', 'куплена', '20', 'января', '19', 'года', '10', '000', 'км', 'пробега', 'комплектация', 'полная', 'новая', None, 'салоне', '750', '000', 'отдам', None, '650', '000', 'возможен', 'обмен', None, 'ваз-2110', None, 'ваз', '2109', None, 'вашей', 'доплатой', 'краснодар', 'ул', 'миклухо-маклая', 'д', '4/5', 'подьезд', '1', 'тел', '8', '999', '1234567', '8', '903', '987-65-43', '7', '351', '111', '22', '33', 'и.и', 'иванов', 'иван', 'иванович']


Объединим стоп-слова и знаки пунктуации вместе и запишем в переменную noise:

In [37]:
from string import punctuation
print(punctuation)
noise = stopwords.words('russian') + list(punctuation)
print(noise) # весь шум, который может быть в русском языке

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', '

In [38]:
print(stopwords.words('kazakh')) # -_-

['ах', 'ох', 'эх', 'ай', 'эй', 'ой', 'тағы', 'тағыда', 'әрине', 'жоқ', 'сондай', 'осындай', 'осылай', 'солай', 'мұндай', 'бұндай', 'мен', 'сен', 'ол', 'біз', 'біздер', 'олар', 'сіз', 'сіздер', 'маған', 'оған', 'саған', 'біздің', 'сіздің', 'оның', 'бізге', 'сізге', 'оларға', 'біздерге', 'сіздерге', 'оларға', 'менімен', 'сенімен', 'онымен', 'бізбен', 'сізбен', 'олармен', 'біздермен', 'сіздермен', 'менің', 'сенің', 'біздің', 'сіздің', 'оның', 'біздердің', 'сіздердің', 'олардың', 'маған', 'саған', 'оған', 'менен', 'сенен', 'одан', 'бізден', 'сізден', 'олардан', 'біздерден', 'сіздерден', 'олардан', 'айтпақшы', 'сонымен', 'сондықтан', 'бұл', 'осы', 'сол', 'анау', 'мынау', 'сонау', 'осынау', 'ана', 'мына', 'сона', 'әні', 'міне', 'өй', 'үйт', 'бүйт', 'біреу', 'кейбіреу', 'кейбір', 'қайсыбір', 'әрбір', 'бірнеше', 'бірдеме', 'бірнеше', 'әркім', 'әрне', 'әрқайсы', 'әрқалай', 'әлдекім', 'әлдене', 'әлдеқайдан', 'әлденеше', 'әлдеқалай', 'әлдеқашан', 'алдақашан', 'еш', 'ешкім', 'ешбір', 'ештеме', 'дә

In [39]:
print(stopwords.words('arabic')) # ladno.

['إذ', 'إذا', 'إذما', 'إذن', 'أف', 'أقل', 'أكثر', 'ألا', 'إلا', 'التي', 'الذي', 'الذين', 'اللاتي', 'اللائي', 'اللتان', 'اللتيا', 'اللتين', 'اللذان', 'اللذين', 'اللواتي', 'إلى', 'إليك', 'إليكم', 'إليكما', 'إليكن', 'أم', 'أما', 'أما', 'إما', 'أن', 'إن', 'إنا', 'أنا', 'أنت', 'أنتم', 'أنتما', 'أنتن', 'إنما', 'إنه', 'أنى', 'أنى', 'آه', 'آها', 'أو', 'أولاء', 'أولئك', 'أوه', 'آي', 'أي', 'أيها', 'إي', 'أين', 'أين', 'أينما', 'إيه', 'بخ', 'بس', 'بعد', 'بعض', 'بك', 'بكم', 'بكم', 'بكما', 'بكن', 'بل', 'بلى', 'بما', 'بماذا', 'بمن', 'بنا', 'به', 'بها', 'بهم', 'بهما', 'بهن', 'بي', 'بين', 'بيد', 'تلك', 'تلكم', 'تلكما', 'ته', 'تي', 'تين', 'تينك', 'ثم', 'ثمة', 'حاشا', 'حبذا', 'حتى', 'حيث', 'حيثما', 'حين', 'خلا', 'دون', 'ذا', 'ذات', 'ذاك', 'ذان', 'ذانك', 'ذلك', 'ذلكم', 'ذلكما', 'ذلكن', 'ذه', 'ذو', 'ذوا', 'ذواتا', 'ذواتي', 'ذي', 'ذين', 'ذينك', 'ريث', 'سوف', 'سوى', 'شتان', 'عدا', 'عسى', 'عل', 'على', 'عليك', 'عليه', 'عما', 'عن', 'عند', 'غير', 'فإذا', 'فإن', 'فلا', 'فمن', 'في', 'فيم', 'فيما', 'فيه', 'فيها', '

## Стемминг

**Стемминг** — отсечение от слова окончаний и суффиксов, чтобы оставшаяся часть, называемая stem, была одинаковой для всех грамматических форм слова. Стем необязательно совпадает с морфлогической основой слова. Одинаковый стем может получиться и не у однокоренных слов и наоборот — в этом проблема стемминга.

* 1-ый вид ошибки: белый, белка, белье $\implies$  бел

* 2-ой вид ошибки: трудность, трудный $\implies$  трудност, труд

* 3-ий вид ошибки: быстрый, быстрее $\implies$  быст, побыстрее $\implies$  побыст

Самый простой алгоритм, алгоритм Портера, состоит из 5 циклов команд, на каждом цикле – операция удаления / замены суффикса. Возможны вероятностные расширения алгоритма.

### Snowball stemmer
Улучшенный вариант стеммера Портера; в отличие от него умеет работать не только с английским текстом.

In [40]:
from nltk.stem.snowball import SnowballStemmer

SnowballStemmer.languages

('arabic',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'norwegian',
 'porter',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish')

In [42]:
poem = '''
Из вереска напиток
Забыт давным-давно.
А был он слаще меда,
Пьянее, чем вино.
В котлах его варили
И пили всей семьей
Малютки-медовары
В пещерах под землей.
Пришел король шотландский,
Безжалостный к врагам,
Погнал он бедных пиктов
К скалистым берегам.
'''
# кстати, это прекрасная стихотворение(баллада), очень советую прочитать, если не читали
words = [w.strip(punct).lower() for w in word_tokenize(poem)]
words = [w for w in words if w not in sw and w != '']

In [43]:
snowball = SnowballStemmer("russian")

for w in words:
    print("%s: %s" % (w, snowball.stem(w)))

вереска: вереск
напиток: напиток
забыт: заб
давным-давно: давным-давн
слаще: слащ
меда: мед
пьянее: пьян
вино: вин
котлах: котл
варили: вар
пили: пил
всей: все
семьей: сем
малютки-медовары: малютки-медовар
пещерах: пещер
землей: земл
пришел: пришел
король: корол
шотландский: шотландск
безжалостный: безжалостн
врагам: враг
погнал: погна
бедных: бедн
пиктов: пикт
скалистым: скалист
берегам: берег


#Ещё есть n-граммы
Чтобы получить n-грамму для такой последовательности, используем функцию ngrams().

На вход передается два параметра:

лист с разделенным на отдельные слова предложением (у нас он хранится в переменной sent);
параметр n, определяющий, какой тип n-грамм мы хотим получить.
Чтобы полученный объект отобразить, делаем из него list.



In [44]:
from nltk import ngrams

In [45]:
sent = 'Факультет экономических наук Высшей школы экономики'.split()
list(ngrams(sent, 1)) # униграммы

[('Факультет',),
 ('экономических',),
 ('наук',),
 ('Высшей',),
 ('школы',),
 ('экономики',)]

In [46]:
list(ngrams(sent, 2)) # биграммы

[('Факультет', 'экономических'),
 ('экономических', 'наук'),
 ('наук', 'Высшей'),
 ('Высшей', 'школы'),
 ('школы', 'экономики')]

In [47]:
list(ngrams(sent, 3)) # триграммы

[('Факультет', 'экономических', 'наук'),
 ('экономических', 'наук', 'Высшей'),
 ('наук', 'Высшей', 'школы'),
 ('Высшей', 'школы', 'экономики')]

In [48]:
list(ngrams(sent, 5)) # ... пентаграммы? -_-

[('Факультет', 'экономических', 'наук', 'Высшей', 'школы'),
 ('экономических', 'наук', 'Высшей', 'школы', 'экономики')]

## Морфологический анализ

Задачи морфологического анализа:

* Разбор слова — определение нормальной формы (леммы), основы (стема) и грамматических характеристик слова
* Синтез словоформы — генерация словоформы по заданным грамматическим характеристикам из леммы

Морфологический анализ — не самая сильная сторона NLTK.  Для этих задач лучше использовать `pymorphy2` и `pymystem3` для русского языка и, например, `Spacy` для европейских. Но об этом не в этой работе!

## Лемматизация

**Лемматизация** — процесс приведения словоформы к лемме, т.е. нормальной (словарной) форме. Это более сложная задача, чем стемминг, но и результаты дает гораздо более осмысленные, особенно для языков с богатой морфологией.

* кошке, кошку, кошкам, кошкой $\implies$ кошка
* бежал, бежит, бегу $\implies$  бежать
* белому, белым, белыми $\implies$ белый

## POS-tagging

**Частеречная разметка**, или **POS-tagging** _(part of speech tagging)_ —  определение части речи и грамматических характеристик слов в тексте (корпусе) с приписыванием им соответствующих тегов.

Для большинства слов возможно несколько разборов (т.е. несколько разных лемм, несколько разных частей речи и т.п.). Теггер генерирует  все варианты, ранжирует их по вероятности и по умолчанию выдает наиболее вероятный. Выбор одного разбора из нескольких называется **снятием омонимии**, или **дизамбигуацией**.

### Наборы тегов

Существует множество наборов грамматических тегов, или тегсетов:
* НКРЯ
* Mystem
* UPenn
* OpenCorpora (его использует pymorphy2)
* Universal Dependencies
* ...

Есть даже [библиотека](https://github.com/kmike/russian-tagsets) для преобразования тегов из одной системы в другую для русского языка, `russian-tagsets`. Но важно помнить, что любое такое преобразование будет с потерями!

На данный момент стандартом является **Universal Dependencies**. Вот список основных (частереных) тегов UD:

* ADJ: adjective
* ADP: adposition
* ADV: adverb
* AUX: auxiliary
* CCONJ: coordinating conjunction
* DET: determiner
* INTJ: interjection
* NOUN: noun
* NUM: numeral
* PART: particle
* PRON: pronoun
* PROPN: proper noun
* PUNCT: punctuation
* SCONJ: subordinating conjunction
* SYM: symbol
* VERB: verb
* X: other



<h1><center>Простые векторные модели текста</center></h1>



###Классификация твитов по тональности


В рассмотренном тут примере классов будет два: положительный и отрицательный, такую постановку этой задачи обычно называют классификацией по тональности или sentiment analysis.

Классификацию по тональности используют, например, в рекомендательных системах и при анализе отзывов клиентов, чтобы понять, понравилось ли людям кафе, кино, etc.

У нас есть [данные постов в твиттере](http://study.mokoron.com/), про из которых каждый указано, как он эмоционально окрашен: положительно или отрицательно.

Построим модель, которая по тексту поста предсказывает его эмоциональную окраску.

In [49]:
!wget https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/positive.csv
!wget  https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/negative.csv

--2023-11-27 17:45:17--  https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/positive.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 26233379 (25M) [text/plain]
Saving to: ‘positive.csv’


2023-11-27 17:45:20 (53.3 MB/s) - ‘positive.csv’ saved [26233379/26233379]

--2023-11-27 17:45:20--  https://raw.githubusercontent.com/MentatRus/twitter-sentiment/master/negative.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 24450101 (23M) [text/plain]
Saving to: ‘negative.csv’


2023-11-27 17:45:22 (50.7 MB/s) - ‘neg

In [50]:
import pandas as pd
import numpy as np
from sklearn.metrics import *
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', 800)

In [51]:
positive = pd.read_csv('./positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive)
negative = pd.read_csv('./negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative)
df = positive.append(negative)

  df = positive.append(negative)


In [52]:
df.sample(5)

Unnamed: 0,text,label
110491,".....пойду вскроюсь, да ебаный ты ж в рот, я не выспалась((((",negative
24998,@sky_violett взяла поцеловала;-) Потом пощечину влепила-пусть думает за что;)должна же загадочность присутствовать!:),positive
14577,сегодня биатлон а я в пролете((((( не увижу любимого своего((((,negative
22378,Уже завтра я еду с любимой Маней подбирать материал под цвет моих волос! И в конце недели я заплетусь!) наконец-то мне не надо будет мыть...,positive
9916,"Сейчас за телефоном поедим:D\nне ну надо было, за конфетой тянуться и уронить телефон:D",positive


In [53]:
!pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/55.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━[0m [32m51.2/55.5 kB[0m [31m1.2 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m57.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages:

In [54]:
import re
from pymorphy2 import MorphAnalyzer
from functools import lru_cache
from nltk.corpus import stopwords

m = MorphAnalyzer()
regex = re.compile("[А-Яа-яA-z]+")

def words_only(text, regex=regex):
    try:
        return regex.findall(text.lower())
    except:
        return []

In [55]:
@lru_cache(maxsize=128)
def lemmatize_word(token, pymorphy=m):
    return pymorphy.parse(token)[0].normal_form

def lemmatize_text(text):
    return [lemmatize_word(w) for w in text]


mystopwords = stopwords.words('russian')
def remove_stopwords(lemmas, stopwords = mystopwords):
    return [w for w in lemmas if not w in stopwords and len(w) > 3]

def clean_text(text):
    tokens = words_only(text)
    lemmas = lemmatize_text(tokens)

    return ' '.join(remove_stopwords(lemmas))

In [56]:
from multiprocessing import Pool
from tqdm import tqdm

with Pool(4) as p:
    lemmas = list(tqdm(p.imap(clean_text, df['text']), total=len(df)))

df['lemmas'] = lemmas
df.sample(5) # это просто УЛЬТРА долго считается..... прошу понять и простить за неоптимизированность

100%|██████████| 226834/226834 [10:21<00:00, 364.94it/s]


Unnamed: 0,text,label,lemmas
59729,"@flo_rka эльф, один из сыновей феанора %) а жена - ебнутая барышня в фандоме, которая реально считает себя его женой и прикидывается",positive,flo_rka эльф феанор жена ебнутаить барышня фандома который реально считать жена прикидываться
77563,"А если бы я не написал ""Такашима Койю""? \nСука, я бы закопал себя от стыда :-)",positive,написать такашим койя сука закопать стыд
9207,пздц. обновление походу зависло :( прям виндовс какой-то,negative,пздца обновление поход зависнуть прям виндовс
72175,"В общем,этот год был насыщен массой плохих событий.Но были и хорошие,правда маловато их было(",negative,общий насыщенный масса плохой событие хороший правда маловатый
62114,@Its_Good_for_Ya пошёл нахуй уебек любимый:(,negative,its_good_for_ya нахуй уебек любимый


Разбиваем на train и test:

In [57]:
x_train, x_test, y_train, y_test = train_test_split(df.lemmas, df.label)

## Мешок слов (Bag of Words, BoW)


In [58]:
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer

Итак, мы хотим преобразовать наши обработанные данные в вектора с помощью мешка слов. Мешок слов можно строить как для отдельных слов (лемм в нашем случае), так и для n-грамм, и это может улучшать качество.

Объект `CountVectorizer` делает простую вещь:
* строит для каждого документа (каждой пришедшей ему строки) вектор размерности `n`, где `n` -- количество слов или n-грам во всём корпусе
* заполняет каждый i-тый элемент количеством вхождений слова в данный документ

In [59]:
vec = CountVectorizer(ngram_range=(1, 1)) # строим BoW для слов
bow = vec.fit_transform(x_train)

ngram_range отвечает за то, какие n-граммы мы используем в качестве признаков:<br/>
ngram_range=(1, 1) -- униграммы<br/>
ngram_range=(3, 3) -- триграммы<br/>
ngram_range=(1, 3) -- униграммы, биграммы и триграммы.

В vec.vocabulary_ лежит словарь: соответствие слов и их индексов в словаре:

In [60]:
list(vec.vocabulary_.items())[:10]

[('artakulov', 8142),
 ('болеть', 97560),
 ('говорить', 104513),
 ('rrrraaaaaaaaaa', 68150),
 ('оооо', 133266),
 ('лента', 121522),
 ('инострашок', 114978),
 ('спасибоооо', 152984),
 ('вернуться', 99836),
 ('тупой', 158275)]

In [61]:
bow[0]

<1x168858 sparse matrix of type '<class 'numpy.int64'>'
	with 3 stored elements in Compressed Sparse Row format>

Теперь у нас есть вектора, на которых можно обучать модели!

In [62]:
clf = LogisticRegression(random_state=42, max_iter=500)
clf.fit(bow, y_train)

Посмотрим на качество классификации на тестовой выборке. Для этого выведем classification_report

В качестве целевой метрики качества будем рассматривать macro average f1-score.

In [63]:
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.75      0.73      0.74     28497
    positive       0.73      0.75      0.74     28212

    accuracy                           0.74     56709
   macro avg       0.74      0.74      0.74     56709
weighted avg       0.74      0.74      0.74     56709



Попробуем сделать то же самое для триграмм:

In [64]:
vec = CountVectorizer(ngram_range=(3, 3))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 300)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.97      0.53      0.68     51570
    positive       0.15      0.86      0.26      5139

    accuracy                           0.56     56709
   macro avg       0.56      0.69      0.47     56709
weighted avg       0.90      0.56      0.64     56709



Видим, что качество существенно хуже. Ниже мы поймем, почему это так.

## TF-IDF векторизация

`TfidfVectorizer` делает то же, что и `CountVectorizer`, но в качестве значений – tf-idf каждого слова.

Как считается tf-idf:

TF (term frequency) – относительная частотность слова в документе:
$$ TF(t,d) = \frac{n_t}{\sum_k n_k} $$

`t` -- слово (term), `d` -- документ, $n_t$ -- количество вхождений слова, $n_k$ -- количество вхождений остальных слов

IDF (inverse document frequency) – обратная частота документов, в которых есть это слово:
$$ IDF(t, D) = \mbox{log} \frac{|D|}{|{d : t \in d}|} $$

`t` -- слово (term), `D` -- коллекция документов

Перемножаем их:
$$TFIDF(t,d,D) = TF(t,d) \times IDF(i, D)$$

Ключевая идея этого подхода – если слово часто встречается в одном документе, но в целом по корпусу встречается в небольшом
количестве документов, у него высокий TF-IDF.

In [65]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [66]:
vec = TfidfVectorizer(ngram_range=(1, 1))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 500)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       0.70      0.74      0.72     26375
    positive       0.76      0.73      0.74     30334

    accuracy                           0.73     56709
   macro avg       0.73      0.73      0.73     56709
weighted avg       0.73      0.73      0.73     56709



В этот раз получилось хуже, чем с помощью простого CountVectorizer, то есть использование tf-idf не дало улучшений в качестве.

Иногда в ходе стандартного препроцессинга теряются важные признаки. Посмотрим, что будет если не убирать пунктуацию?

In [67]:
df.sample()

Unnamed: 0,text,label,lemmas
77295,"Скучно..гулять холодно, интернет дома не работает, даже посмотреть и почитать нечего(",negative,скучно гулять холодно интернет работать посмотреть почитать нечего


In [68]:
df['new_lemmas'] = df.text.apply(lambda x: x.lower())
df.sample(3)

Unnamed: 0,text,label,lemmas,new_lemmas
105638,@Terrible_parrot мы тоже убираем с сестрой;(((,negative,terrible_parrot убирать сестра,@terrible_parrot мы тоже убираем с сестрой;(((
71473,Какой нахер конец света в 2012?! Пиздёёёж! У меня телефон до 2069:D #FF_RU,positive,нахер конец свет пизда телефон ff_ru,какой нахер конец света в 2012?! пиздёёёж! у меня телефон до 2069:d #ff_ru
42327,"RT @Berdnikova_4: Читаю наши старые переписки, и сразу все вспоминается, и становится дурно, что больше такого не будет...:(",negative,berdnikova_ читать старый переписка сразу вспоминаться становиться дурно большой,"rt @berdnikova_4: читаю наши старые переписки, и сразу все вспоминается, и становится дурно, что больше такого не будет...:("


In [69]:
x_train, x_test, y_train, y_test = train_test_split(df.new_lemmas, df.label)

In [70]:
from nltk import word_tokenize

vec = TfidfVectorizer(ngram_range=(1, 1), tokenizer=word_tokenize)
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42, max_iter = 300)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))



              precision    recall  f1-score   support

    negative       1.00      1.00      1.00     27909
    positive       1.00      1.00      1.00     28800

    accuracy                           1.00     56709
   macro avg       1.00      1.00      1.00     56709
weighted avg       1.00      1.00      1.00     56709



Как можно видеть, если оставить пунктуацию, то все метрики равны 1.

In [71]:
len(vec.vocabulary_), len(clf.coef_[0])

(259989, 259989)

In [72]:
importances = list(zip(vec.vocabulary_, clf.coef_[0]))
importances[0]

('rt', 0.0809693532958092)

In [73]:
sorted_importances = sorted(importances, key = lambda x: -x[1])
sorted_importances[:10]

[('если', 58.53598902688802),
 ('тетрадка', 26.977820824259776),
 ('итальянец', 10.684650401408405),
 ('дубьем', 9.197500722504284),
 ('симптомы', 8.06905183237151),
 ('едет', 7.5115479972449775),
 ('воскресенье', 7.207385750414524),
 ('секретаршу', 5.840161435384169),
 ('экономического', 5.022688953125032),
 ('lupi_dora', 3.2499093583932073)]

Посмотрим, как один из наиболее значительных токенов справится с классификацией без машинки:

In [74]:
cool_token = ')'
pred = ['positive' if cool_token in tweet else 'negative' for tweet in x_test]
print(classification_report(pred, y_test))

              precision    recall  f1-score   support

    negative       1.00      0.85      0.92     32868
    positive       0.83      1.00      0.91     23841

    accuracy                           0.91     56709
   macro avg       0.91      0.93      0.91     56709
weighted avg       0.93      0.91      0.91     56709



Можно видеть, что это уже позволяет достаточно хорошо классифицировать тексты.

## Символьные n-граммы

Теперь в качестве признаком используем, например, униграммы символов:

In [75]:
vec = CountVectorizer(analyzer='char', ngram_range=(1, 1))
bow = vec.fit_transform(x_train)
clf = LogisticRegression(random_state=42)
clf.fit(bow, y_train)
pred = clf.predict(vec.transform(x_test))
print(classification_report(pred, y_test))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


              precision    recall  f1-score   support

    negative       0.99      1.00      0.99     27871
    positive       1.00      0.99      0.99     28838

    accuracy                           0.99     56709
   macro avg       0.99      0.99      0.99     56709
weighted avg       0.99      0.99      0.99     56709



Таким образом, становится понятно, почему на этих данных качество классификации 1. Так или иначе, на символах классифицировать тоже можно.

Ещё одна замечательная особенность символьных признаков: токенизация и лемматизация не нужна, можно использовать такой подход для языков, у которых нет готовых анализаторов.

В этой работе я постарался показать максимально возможный прикладной функционал NLTK и похожих библиотек. Плюс ещё от себя добавил классическую задачку по классификации твитов по тональности.
Спасибо!