# Семинар по обработке текстов

### Методы обработки текстов

Примеры задач автоматической обработки текстов:

- классификация текстов

    - анализ тональности
    - фильтрация спама
    - по теме или жанру

- машинный перевод

- распознавание речи

- извлечение информации

    - именованные сущности
    - факты и события

- кластеризация текстов

- оптическое распознавание символов

- проверка правописания

- вопросно-ответные системы

- суммаризация текстов

- генерация текстов

Одни из классических методов для работы с текстами:

- токенизация

- лемматизация / стемминг

- удаление стоп-слов

- векторное представление текстов (bag of words и TF-IDF)

_Что почитать:_

- Jurafsky, Martin: Speech and Language Processing (2nd or 3rd Edition)

## Токенизация

Токенизировать -- значит, поделить текст на слова, или *токены*.

Самый наивный способ токенизировать текст -- разделить с помощью `split`. Но `split` упускает очень много всего, например, банально не отделяет пунктуацию от слов. Кроме этого, есть ещё много менее тривиальных проблем. Поэтому лучше использовать готовые токенизаторы.

In [1]:
!pip install nltk

[33mYou are using pip version 9.0.1, however version 20.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [41]:
import nltk
from nltk.tokenize import word_tokenize
import numpy as np 
import pandas as pd

In [3]:
example = 'Но не каждый хочет что-то исправлять:('

In [4]:
example.split()

['Но', 'не', 'каждый', 'хочет', 'что-то', 'исправлять:(']

In [37]:
nltk.download('punkt')
# без этой ячейки следующая ячейка выдаст ошибку о том, что 
# ресурс english.pickle не найден

[nltk_data] Downloading package punkt to /Users/user/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [38]:
word_tokenize(example)

['Но', 'не', 'каждый', 'хочет', 'что-то', 'исправлять', ':', '(']

В nltk вообще есть довольно много токенизаторов:

In [39]:
from nltk import tokenize
dir(tokenize)[:16]

['BlanklineTokenizer',
 'LineTokenizer',
 'MWETokenizer',
 'PunktSentenceTokenizer',
 'RegexpTokenizer',
 'ReppTokenizer',
 'SExprTokenizer',
 'SpaceTokenizer',
 'StanfordSegmenter',
 'StanfordTokenizer',
 'TabTokenizer',
 'TextTilingTokenizer',
 'ToktokTokenizer',
 'TreebankWordTokenizer',
 'TweetTokenizer',
 'WhitespaceTokenizer']

In [44]:
from nltk.tokenize import TweetTokenizer

tw = TweetTokenizer()
tw.tokenize(example)

['Но', 'не', 'каждый', 'хочет', 'что-то', 'исправлять', ':(']

In [78]:
en_example = "London is a capital of Great Britain" 
tw.tokenize(en_example)

['London', 'is', 'a', 'capital', 'of', 'Great', 'Britain']

_Что почитать:_

- http://mlexplained.com/2019/11/06/a-deep-dive-into-the-wonderful-world-of-preprocessing-in-nlp/
- https://blog.floydhub.com/tokenization-nlp/

## Стоп-слова и пунктуация

*Стоп-слова* -- это слова, которые часто встречаются практически в любом тексте и ничего интересного не говорят о конретном документе, то есть играют роль шума. Поэтому их принято убирать. По той же причине убирают и пунктуацию.

In [45]:
import nltk
nltk.download("stopwords")

[nltk_data] Downloading package stopwords to /Users/user/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [79]:
from nltk.corpus import stopwords
print(stopwords.words('english'))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [46]:
print(stopwords.words('russian'))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

Больше русских стоп-слов здесь: https://github.com/stopwords-iso/stopwords-ru/blob/master/stopwords-ru.txt

In [47]:
from string import punctuation
punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [49]:
noise = stopwords.words('russian') + list(punctuation)

In [50]:
noise

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

Простой пример удаления стоп-слов из строки:

In [55]:
tokenized_example = word_tokenize(example)
filtered_example = [word for word in tokenized_example if not word in noise]
print(tokenized_example)
print(filtered_example)

['Но', 'не', 'каждый', 'хочет', 'что-то', 'исправлять', ':', '(']
['Но', 'каждый', 'хочет', 'что-то', 'исправлять']


## Лемматизация

Лемматизация – это сведение разных форм одного слова к начальной форме – *лемме*. Например, токены «пью», «пил», «пьет» перейдут в «пить». Почему это хорошо?
* Во-первых, мы хотим рассматривать как отдельный признак каждое *слово*, а не каждую его отдельную форму.
* Во-вторых, некоторые стоп-слова стоят только в начальной форме, и без лемматизации выкидываем мы только её.

Для английского языка можно пользоваться nltk:

In [81]:
nltk.download("wordnet")

[nltk_data] Downloading package wordnet to /Users/user/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [86]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
en_example = "cats running ran cactus cactuses cacti community communities"
en_tokenized = tw.tokenize(en_example)
text_lemmatized = [lemmatizer.lemmatize(w) for w in en_tokenized]
print(' '.join(text_lemmatized))

cat running ran cactus cactus cactus community community


Для русского есть два хороших лемматизатора: mystem и pymorphy.

### [Mystem](https://tech.yandex.ru/mystem/)
Как с ним работать:
* можно скачать mystem и запускать [из терминала с разными параметрами](https://tech.yandex.ru/mystem/doc/)
* [pymystem3](https://pythonhosted.org/pymystem3/pymystem3.html) - обертка для питона, работает медленнее, но это удобно

In [52]:
!pip install pymystem3

Collecting pymystem3
  Downloading https://files.pythonhosted.org/packages/00/8c/98b43c5822620458704e187a1666616c1e21a846ede8ffda493aabe11207/pymystem3-0.2.0-py3-none-any.whl
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0
[33mYou are using pip version 9.0.1, however version 20.1 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [56]:
from pymystem3 import Mystem
mystem_analyzer = Mystem()

Installing mystem to /Users/user/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.1-macosx.tar.gz


Мы инициализировали Mystem c дефолтными параметрами. А вообще параметры есть такие:
* mystem_bin - путь к `mystem`, если их несколько
* grammar_info - нужна ли грамматическая информация или только леммы (по умолчанию нужна)
* disambiguation - нужно ли снятие омонимии - дизамбигуация (по умолчанию нужна)
* entire_input - нужно ли сохранять в выводе все (пробелы всякие, например), или можно выкинуть (по умолчанию оставляется все)

Методы Mystem принимают строку, токенизатор вшит внутри. Можно, конечно, и пословно анализировать, но тогда он не сможет учитывать контекст.

Можно просто лемматизировать текст:

In [57]:
print(mystem_analyzer.lemmatize(example))

['но', ' ', 'не', ' ', 'каждый', ' ', 'хотеть', ' ', 'что-то', ' ', 'исправлять', ':(\n']


Можно запросить больше информации о каждом слове:

In [71]:
print(mystem_analyzer.analyze(example))

[{'analysis': [{'lex': 'но', 'wt': 0.9998906299, 'gr': 'CONJ='}], 'text': 'Но'}, {'text': ' '}, {'analysis': [{'lex': 'не', 'wt': 1, 'gr': 'PART='}], 'text': 'не'}, {'text': ' '}, {'analysis': [{'lex': 'каждый', 'wt': 0.9985975799, 'gr': 'APRO=(вин,ед,муж,неод|им,ед,муж)'}], 'text': 'каждый'}, {'text': ' '}, {'analysis': [{'lex': 'хотеть', 'wt': 1, 'gr': 'V,несов,пе=непрош,ед,изъяв,3-л'}], 'text': 'хочет'}, {'text': ' '}, {'analysis': [{'lex': 'что-то', 'wt': 1, 'gr': 'SPRO,ед,сред,неод=(вин|им)'}], 'text': 'что-то'}, {'text': ' '}, {'analysis': [{'lex': 'исправлять', 'wt': 1, 'gr': 'V,пе=инф,несов'}], 'text': 'исправлять'}, {'text': ':(\n'}]


### [Pymorphy](http://pymorphy2.readthedocs.io/en/latest/)
Это модуль на питоне, довольно быстрый и с множеством функций.

In [58]:
!pip install pymorphy2
!pip install pymorphy2-dicts
!pip install DAWG-Python

Collecting pymorphy2
  Downloading https://files.pythonhosted.org/packages/a3/33/fff9675c68b5f6c63ec8c6e6ff57827dda28a1fa5b2c2d727dffff92dd47/pymorphy2-0.8-py2.py3-none-any.whl (46kB)
[K    100% |████████████████████████████████| 51kB 864kB/s ta 0:00:011
[?25hCollecting pymorphy2-dicts<3.0,>=2.4 (from pymorphy2)
  Downloading https://files.pythonhosted.org/packages/02/51/2465fd4f72328ab50877b54777764d928da8cb15b74e2680fc1bd8cb3173/pymorphy2_dicts-2.4.393442.3710985-py2.py3-none-any.whl (7.1MB)
[K    100% |████████████████████████████████| 7.1MB 152kB/s ta 0:00:011
[?25hCollecting dawg-python>=0.7 (from pymorphy2)
  Downloading https://files.pythonhosted.org/packages/6a/84/ff1ce2071d4c650ec85745766c0047ccc3b5036f1d03559fd46bb38b5eeb/DAWG_Python-0.7.2-py2.py3-none-any.whl
Collecting docopt>=0.6 (from pymorphy2)
  Downloading https://files.pythonhosted.org/packages/a2/55/8f8cab2afd404cf578136ef2cc5dfb50baa1761b68c9da1fb1e4eed343c9/docopt-0.6.2.tar.gz
Building wheels for collected pack

In [59]:
from pymorphy2 import MorphAnalyzer
pymorphy2_analyzer = MorphAnalyzer()

pymorphy2 работает с отдельными словами. Если дать ему на вход предложение - он его просто не лемматизирует, т.к. не понимает

In [60]:
tokenized_example = tw.tokenize(example) 
# токенизатор Твиттера, который мы пробовали выше

In [61]:
tokenized_example

['Но', 'не', 'каждый', 'хочет', 'что-то', 'исправлять', ':(']

In [62]:
ana = pymorphy2_analyzer.parse(tokenized_example[3])
ana

[Parse(word='хочет', tag=OpencorporaTag('VERB,impf,tran sing,3per,pres,indc'), normal_form='хотеть', score=1.0, methods_stack=((<DictionaryAnalyzer>, 'хочет', 2999, 5),))]

In [63]:
ana[0].normal_form

'хотеть'

In [65]:
[pymorphy2_analyzer.parse(word)[0].normal_form \
 for word in tokenized_example]

['но', 'не', 'каждый', 'хотеть', 'что-то', 'исправлять', ':(']

Если у слова несколько вариантов лемматизации, pymorphy выдаст список всех вариантов:

In [66]:
pymorphy2_analyzer.parse("мыла")

[Parse(word='мыла', tag=OpencorporaTag('NOUN,inan,neut sing,gent'), normal_form='мыло', score=0.333333, methods_stack=((<DictionaryAnalyzer>, 'мыла', 54, 1),)),
 Parse(word='мыла', tag=OpencorporaTag('VERB,impf,tran femn,sing,past,indc'), normal_form='мыть', score=0.333333, methods_stack=((<DictionaryAnalyzer>, 'мыла', 1813, 8),)),
 Parse(word='мыла', tag=OpencorporaTag('NOUN,inan,neut plur,nomn'), normal_form='мыло', score=0.166666, methods_stack=((<DictionaryAnalyzer>, 'мыла', 54, 6),)),
 Parse(word='мыла', tag=OpencorporaTag('NOUN,inan,neut plur,accs'), normal_form='мыло', score=0.166666, methods_stack=((<DictionaryAnalyzer>, 'мыла', 54, 9),))]

### mystem vs. pymorphy

1) Mystem работает медленно под windows на больших текстах

2) *Снятие омонимии*. Mystem умеет снимать омонимию по контексту (хотя не всегда преуспевает), pymorphy2 берет на вход одно слово и соответственно вообще не умеет дизамбигуировать по контексту.

In [67]:
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'
mystem_analyzer = Mystem() # инициализируем объект с параметрами по умолчанию

print(mystem_analyzer.analyze(homonym1)[-5])
print(mystem_analyzer.analyze(homonym2)[0])

{'analysis': [{'lex': 'сорок', 'wt': 0.8710292664, 'gr': 'NUM=(пр|дат|род|твор)'}], 'text': 'сорока'}
{'analysis': [{'lex': 'сорока', 'wt': 0.1210970041, 'gr': 'S,жен,од=им,ед'}], 'text': 'Сорока'}


In [68]:
mystem_analyzer.lemmatize(homonym2)

['сорока',
 ' ',
 'своровать',
 ' ',
 'блестящий',
 ' ',
 'украшение',
 ' ',
 'со',
 ' ',
 'стол',
 '.',
 '\n']

## Стемминг

В отличие от лемматизации, при применении стемминга у всех слов отбрасываются аффиксы (окончания и суффиксы), что необязательно приводит слова к формам, существующим в рассматриваемом языке.

In [72]:
from nltk.stem.snowball import SnowballStemmer

In [73]:
stemmer = SnowballStemmer('russian')
stemmed_example = [stemmer.stem(w) for w in tokenized_example]
print(' '.join(stemmed_example))

но не кажд хочет что-т исправля :(


In [74]:
text = "In my younger and more vulnerable years my father gave me some advice that I've been turning over in my mind ever since.\n\"Whenever you feel like criticizing any one,\" he told me, \"just remember that all the people in this world haven't had the advantages that you've had.\""
print(text)
text_tokenized = [w for w in word_tokenize(text) if w.isalpha()]

In my younger and more vulnerable years my father gave me some advice that I've been turning over in my mind ever since.
"Whenever you feel like criticizing any one," he told me, "just remember that all the people in this world haven't had the advantages that you've had."


In [75]:
stemmer = SnowballStemmer('english')
text_stemmed = [stemmer.stem(w) for w in text_tokenized]
print(' '.join(text_stemmed))

in my younger and more vulner year my father gave me some advic that i been turn over in my mind ever sinc whenev you feel like critic ani one he told me just rememb that all the peopl in this world have had the advantag that you had


_Что почитать:_

- https://en.wikipedia.org/wiki/Stemming
- https://en.wikipedia.org/wiki/Lemmatisation
- https://www.datacamp.com/community/tutorials/stemming-lemmatization-python

## Bag-of-words и TF-IDF

Но как же все-таки работать с текстами, используя стандартные методы машинного обучения? Нужна выборка!

Модель bag-of-words: считаем, сколько раз каждое слово встретилось в тексте. Число слов = число признаков (число признаков одинаковое для всех текстов, много нулевых признаков). Вместо частоты встречаемости можно использовать другие характеристики, например, бинарная (встретилось слово / не встретилось) и другие.

In [87]:
texts = ['I like my cat.', 'My cat is the most perfect cat.', 'is this cat or is this bread?']

In [88]:
texts_tokenized = [' '.join([w for w in word_tokenize(t) if w.isalpha()]) for t in texts]
texts_tokenized

['I like my cat',
 'My cat is the most perfect cat',
 'is this cat or is this bread']

In [89]:
from sklearn.feature_extraction.text import CountVectorizer
cnt_vec = CountVectorizer()
X = cnt_vec.fit_transform(texts_tokenized)

In [90]:
cnt_vec.get_feature_names()

['bread', 'cat', 'is', 'like', 'most', 'my', 'or', 'perfect', 'the', 'this']

In [91]:
X

<3x10 sparse matrix of type '<class 'numpy.int64'>'
	with 14 stored elements in Compressed Sparse Row format>

In [92]:
X.toarray()

array([[0, 1, 0, 1, 0, 1, 0, 0, 0, 0],
       [0, 2, 1, 0, 1, 1, 0, 1, 1, 0],
       [1, 1, 2, 0, 0, 0, 1, 0, 0, 2]], dtype=int64)

In [93]:
pd.DataFrame(X.toarray(), columns=cnt_vec.get_feature_names())

Unnamed: 0,bread,cat,is,like,most,my,or,perfect,the,this
0,0,1,0,1,0,1,0,0,0,0
1,0,2,1,0,1,1,0,1,1,0
2,1,1,2,0,0,0,1,0,0,2


Заметим, что если слово часто встречается в одном тексте, но почти не встречается в других, то оно получает для данного текста большой вес, ровно так же, как и слова, которые часто встречаются в каждом тексте. Для того, чтобы разделять такие слова, можно использовать статистическую меру TF-IDF, характеризующую важность слова для конкретного текста. Для каждого слова из текста $d$ рассчитаем относительную частоту встречаемости в нем (Term Frequency):
$$
\text{TF}(t, d) = \frac{n_{td}}{\sum\limits_{k \in d} n_{kd}},
$$
где $n_{td}$ - число вхождений слова $t$ в текст $d$.

Также для каждого слова из текста $d$ рассчитаем обратную частоту встречаемости в корпусе текстов $D$ (Inverse Document Frequency):
$$
\text{IDF}(t, D) = \log\left(\frac{|D|}{|\{d \in D \mid t \in d\}|}\right).
$$
Здесь $\{d \in D \mid t \in d\}$ - множество документов, в которых встречается слово $t$.
Логарифмирование здесь проводится с целью уменьшить масштаб весов, ибо зачастую в корпусах присутствует очень много текстов.

В итоге каждому слову $t$ из текста $d$ теперь можно присвоить вес
$$
\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)
$$
Интерпретировать формулу выше несложно: действительно, __чем чаще__ данное слово встречается __в данном тексте__ и __чем реже в остальных__, тем __важнее__ оно для __этого__ текста.

Отметим, что в качестве TF и IDF можно использовать другие определения (https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition).

In [94]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vec = TfidfVectorizer()
X = tfidf_vec.fit_transform(texts_tokenized)

In [95]:
tfidf_vec.get_feature_names()

['bread', 'cat', 'is', 'like', 'most', 'my', 'or', 'perfect', 'the', 'this']

In [96]:
X

<3x10 sparse matrix of type '<class 'numpy.float64'>'
	with 14 stored elements in Compressed Sparse Row format>

In [97]:
X.toarray()

array([[0.        , 0.42544054, 0.        , 0.72033345, 0.        ,
        0.54783215, 0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.50130994, 0.32276391, 0.        , 0.42439575,
        0.32276391, 0.        , 0.42439575, 0.42439575, 0.        ],
       [0.33976626, 0.20067143, 0.516802  , 0.        , 0.        ,
        0.        , 0.33976626, 0.        , 0.        , 0.67953252]])

In [98]:
pd.DataFrame(X.toarray(), columns=tfidf_vec.get_feature_names())

Unnamed: 0,bread,cat,is,like,most,my,or,perfect,the,this
0,0.0,0.425441,0.0,0.720333,0.0,0.547832,0.0,0.0,0.0,0.0
1,0.0,0.50131,0.322764,0.0,0.424396,0.322764,0.0,0.424396,0.424396,0.0
2,0.339766,0.200671,0.516802,0.0,0.0,0.0,0.339766,0.0,0.0,0.679533


Что изменилось по сравнению с методом `CountVectorizer`? Интерпретируйте результат.

_Что почитать:_

- https://en.wikipedia.org/wiki/Tf%E2%80%93idf
- https://programminghistorian.org/en/lessons/analyzing-documents-with-tfidf

### N-граммы

Что такое n-граммы:

In [100]:
from nltk import ngrams

In [101]:
sent = 'Если б мне платили каждый раз'.split()
list(ngrams(sent, 1)) # униграммы

[('Если',), ('б',), ('мне',), ('платили',), ('каждый',), ('раз',)]

In [102]:
list(ngrams(sent, 2)) # биграммы

[('Если', 'б'),
 ('б', 'мне'),
 ('мне', 'платили'),
 ('платили', 'каждый'),
 ('каждый', 'раз')]

In [103]:
list(ngrams(sent, 3)) # триграммы

[('Если', 'б', 'мне'),
 ('б', 'мне', 'платили'),
 ('мне', 'платили', 'каждый'),
 ('платили', 'каждый', 'раз')]

In [104]:
list(ngrams(sent, 5)) # ... пентаграммы?

[('Если', 'б', 'мне', 'платили', 'каждый'),
 ('б', 'мне', 'платили', 'каждый', 'раз')]

В CountVectorizer можно задать ngram_range, чтобы получился мешок n-грамм:<br/>
ngram_range=(1, 1) -- униграммы<br/>
ngram_range=(3, 3) -- триграммы<br/>
ngram_range=(1, 3) -- униграммы, биграммы и триграммы.

## Задача: классификация твитов по тональности

У нас есть датасет из твитов, про каждый указано, как он эмоционально окрашен: положительно или отрицательно. Задача: предсказывать эмоциональную окраску.

Классификацию по тональности используют, например, в рекомендательных системах, чтобы понять, понравилось ли людям кафе, кино, etc.

[Источник данных](http://study.mokoron.com/)

In [156]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer

In [154]:
# считываем данные и заполняем общий датасет
positive = pd.read_csv('https://github.com/blacKitten13/minor2020-iad4/raw/master/sem10_texts/positive.csv', 
                       sep=';', usecols=[3], names=['text'])
positive['label'] = [1] * len(positive)
negative = pd.read_csv('https://github.com/blacKitten13/minor2020-iad4/raw/master/sem10_texts/negative.csv', \
                       sep=';', usecols=[3], names=['text'])
negative['label'] = [0] * len(negative)
df = positive.append(negative)

In [155]:
df.tail()

Unnamed: 0,text,label
111918,Но не каждый хочет что то исправлять:( http://...,0
111919,скучаю так :-( только @taaannyaaa вправляет мо...,0
111920,"Вот и в школу, в говно это идти уже надо(",0
111921,"RT @_Them__: @LisaBeroud Тауриэль, не грусти :...",0
111922,Такси везет меня на работу. Раздумываю приплат...,0


In [158]:
df["label"].value_counts()

1    114911
0    111923
Name: label, dtype: int64

In [157]:
df.shape

(226834, 2)

In [137]:
x_train, x_test, y_train, y_test = train_test_split(df.text, df.label, random_state=13)

Задание:
1. Преобразуйте данные с помощью CountVectorizer (fit на train, transform на обеих выборках)
1. Сколько признаков получилось?
1. Напечатайте 10 любых слов (хранятся в векторайзере, см. соответствующую секцию)
1. Обучите логистическую регрессию.
1. Выведите качество на обучении и контроле.
1. (опционально) выведите самые влиятельные признаки (согласно весам модели)

In [163]:
vec = CountVectorizer(ngram_range=(1, 1))
x_train_bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)
x_test_bow = vec.transform(x_test)
print("Число признаков:", x_train_bow.shape[1])
print("Пример слов:", vec.get_feature_names()[579:589])
clf = LogisticRegression(max_iter=300, random_state=42)
clf.fit(x_train_bow, y_train)
pred = clf.predict(vec.transform(x_test))
print('ACC: %.3f' % \
      accuracy_score(y_test, pred))

Число признаков: 243421
Пример слов: ['100р', '100респектов', '100тыс', '100хан', '101', '10110000', '102', '1020', '1023зс', '103']
ACC: 0.765


In [164]:
fnames = vec.get_feature_names()
weights = clf.coef_[0]
pd.DataFrame({"w":weights, "fnames":fnames}).sort_values("w")

Unnamed: 0,fnames,w
64845,o_o,-5.485647
21179,cio_optimal,-4.407953
84049,to_over_kill,-4.373000
26275,do_or_die_xxx,-4.166842
70243,prisonero_o,-4.156347
37639,horanso_on,-3.684225
72988,reno_oppa,-3.670594
7130,_do_or_die__,-3.553882
7833,_ooo_ooo__,-3.451456
64850,o_obnulyay,-3.403966


Попробуйте использовать следующие модификации модели:
* Используйте Tf-Idf
* Используйте токенизатор и удаление стоп-слов (векторизатор уже создан ниже) 
* Обучите модель на биграммах и триграммах

(рекомендуется написать функцию, которая берет на вход токенизатор и возвращает модель)

In [168]:
def do_everything(vec):
    x_train_bow = vec.fit_transform(x_train) # bow -- bag of words (мешок слов)
    x_test_bow = vec.transform(x_test)
    print("Число признаков:", x_train_bow.shape[1])
    print("Пример слов:", vec.get_feature_names()[579:589])
    clf = LogisticRegression(max_iter=300, random_state=42)
    clf.fit(x_train_bow, y_train)
    pred = clf.predict(vec.transform(x_test))
    print('ACC: %.3f' % \
          accuracy_score(y_test, pred))
    return clf

In [169]:
# Tf-Idf
vec = TfidfVectorizer(ngram_range=(1, 1))
clf = do_everything(vec)

Число признаков: 243421
Пример слов: ['100р', '100респектов', '100тыс', '100хан', '101', '10110000', '102', '1020', '1023зс', '103']
ACC: 0.758


In [176]:
# Count + min_df
vec = CountVectorizer(ngram_range=(1, 1), min_df=2)
clf = do_everything(vec)

Число признаков: 82090
Пример слов: ['3oae2fgxba', '3qruyahwqz', '3slona', '3tns5amgog', '3v8suc04u7', '3wazrgzycn', '3xl', '3xqdra27md', '3z54s8absp', '3zc7exqlcw']
ACC: 0.760


In [177]:
# Tfidf + min_df
vec = TfidfVectorizer(ngram_range=(1, 1), min_df=2)
clf = do_everything(vec)

Число признаков: 82090
Пример слов: ['3oae2fgxba', '3qruyahwqz', '3slona', '3tns5amgog', '3v8suc04u7', '3wazrgzycn', '3xl', '3xqdra27md', '3z54s8absp', '3zc7exqlcw']
ACC: 0.758


In [167]:
vec = CountVectorizer(ngram_range=(1, 1), \
                      tokenizer=word_tokenize, \
                      stop_words=noise)
clf = do_everything(vec)

Число признаков: 266053
Пример слов: ['-13ºс', '-14', '-15', '-15-16', '-15.', '-15..', '-1500', '-15=0', '-16', '-17']
ACC: 0.780


In [173]:
vec = CountVectorizer(ngram_range=(1, 1), \
                      tokenizer=word_tokenize, \
                      stop_words=noise,\
                      min_df=5)
clf = do_everything(vec)

Число признаков: 29448
Пример слов: ['464raza', '47', '48', '49', '4:0.', '4:30', '4attyakatilla', '4g', '4post', '4s']
ACC: 0.767


In [172]:
vec = TfidfVectorizer(ngram_range=(2, 2))
clf = do_everything(vec)

Число признаков: 1003360
Пример слов: ['09 2013', '09 26', '09 30', '09 69', '09 http', '09 вас', '09 дек', '09 когда', '09 мне', '09 не']
ACC: 0.707


In [171]:
vec = CountVectorizer(ngram_range=(3, 3))
clf = do_everything(vec)

Число признаков: 1328679
Пример слов: ['04 на 10', '04 на всякий', '04 нельзя обновить', '04 ни gnome', '04 орлец не', '04 рисую совсем', '04 россия вам', '04 сразу апгрейдиться', '04 такое месево', '04032379 0060 спасибо']
ACC: 0.648


Тем, кто все сделал, рекомендуется посмотреть [соревнование майнора](https://www.kaggle.com/t/9f493c11e0b24931996e5a8aec870a49) про классификацию объявлений на категории. На странице соревнования выложено [базовое решение](https://colab.research.google.com/drive/14PeTbhiOinYy_7aonQB-8bCAZqOIC-VD#scrollTo=HXWGHGdhzTT7), можно его скачать и выполнить простейшие модификации, например те же, что в этом задании.