In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

**Bag-of-words (CountVectorizer)**

Рассмотрим  самый простой способ приведения текста к набору чисел. Для каждого слова посчитаем, как часто оно встречается в тексте. Результаты запишем в таблицу. Строки будут представлять тексты, столбцы -- слова. Если на пересечении строки с столбца стоит число 5, значит данное слово встретилось в данном тексте 5 раз. В большинстве ячеек будут нули. Поэтому хранить это всё удобнее в виде разреженных матриц (т.е. хранить только ненулевые значения).

Таким образом, при построении "мешка слов" можно выделить следующие действия:

Токенизация.

Построение словаря: собираем все слова, которые встречались в текстах и пронумеровываем их (по алфавиту, например).

Построение разреженной матрицы.
В sklearn алгоритм приведения текста в bag-of-words реализован в виде класса CountVectorizer. Рассмотрим пример.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()
texts = ["Великолепный сериал, который поможет успокоить нервы при любых стрессах и просто скрасит серые будни",
         "Пожалуй, если бы я посмотрел только первые пару сезонов этого сериала, я бы с легкой руки написал ему положительную рецензию",
         "В общем, если создатели этого сериала не вернут всё на круги своя, то рейтинги следующих сезонов будут становится все ниже и ниже, а зрительская аудитория будет все меньше и меньше."]

bow = count_vectorizer.fit_transform(texts)
bow.shape

(3, 48)

In [None]:
texts

['Великолепный сериал, который поможет успокоить нервы при любых стрессах и просто скрасит серые будни',
 'Пожалуй, если бы я посмотрел только первые пару сезонов этого сериала, я бы с легкой руки написал ему положительную рецензию',
 'В общем, если создатели этого сериала не вернут всё на круги своя, то рейтинги следующих сезонов будут становится все ниже и ниже, а зрительская аудитория будет все меньше и меньше.']

Результат содержит 3 строки (для 3 текстов) и 48 столбцов (для 48 разных слов). Посмотрим словарь (для иллюстрации):


In [None]:
count_vectorizer.vocabulary_

{'аудитория': 0,
 'будет': 1,
 'будни': 2,
 'будут': 3,
 'бы': 4,
 'великолепный': 5,
 'вернут': 6,
 'все': 7,
 'всё': 8,
 'ему': 9,
 'если': 10,
 'зрительская': 11,
 'который': 12,
 'круги': 13,
 'легкой': 14,
 'любых': 15,
 'меньше': 16,
 'на': 17,
 'написал': 18,
 'не': 19,
 'нервы': 20,
 'ниже': 21,
 'общем': 22,
 'пару': 23,
 'первые': 24,
 'пожалуй': 25,
 'положительную': 26,
 'поможет': 27,
 'посмотрел': 28,
 'при': 29,
 'просто': 30,
 'рейтинги': 31,
 'рецензию': 32,
 'руки': 33,
 'своя': 34,
 'сезонов': 35,
 'сериал': 36,
 'сериала': 37,
 'серые': 38,
 'скрасит': 39,
 'следующих': 40,
 'создатели': 41,
 'становится': 42,
 'стрессах': 43,
 'то': 44,
 'только': 45,
 'успокоить': 46,
 'этого': 47}

Как видим, ни стемминга, ни лемматизации по умолчанию не производится.

Результат преобразования (для иллюстрации):


In [None]:
bow.todense()

matrix([[0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1,
         0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0,
         0, 1, 0, 0, 1, 0],
        [0, 0, 0, 0, 2, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
         0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0,
         0, 0, 0, 1, 0, 1],
        [1, 1, 0, 1, 0, 0, 1, 2, 1, 0, 1, 1, 0, 1, 0, 0, 2, 1, 0, 1, 0,
         2, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1,
         1, 0, 1, 0, 0, 1]])

**Стоп-слова**

Можно легко включить отсечение стоп-слов (иллюстрация):


In [None]:
nltk.download('stopwords')
from nltk.corpus import stopwords
s= stopwords.words("russian")
s

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

In [None]:
count_vectorizer = CountVectorizer(stop_words=s)
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'аудитория': 0,
 'будни': 1,
 'будут': 2,
 'великолепный': 3,
 'вернут': 4,
 'всё': 5,
 'зрительская': 6,
 'который': 7,
 'круги': 8,
 'легкой': 9,
 'любых': 10,
 'меньше': 11,
 'написал': 12,
 'нервы': 13,
 'ниже': 14,
 'общем': 15,
 'пару': 16,
 'первые': 17,
 'пожалуй': 18,
 'положительную': 19,
 'поможет': 20,
 'посмотрел': 21,
 'просто': 22,
 'рейтинги': 23,
 'рецензию': 24,
 'руки': 25,
 'своя': 26,
 'сезонов': 27,
 'сериал': 28,
 'сериала': 29,
 'серые': 30,
 'скрасит': 31,
 'следующих': 32,
 'создатели': 33,
 'становится': 34,
 'стрессах': 35,
 'успокоить': 36}

In [None]:
bow.todense()

matrix([[0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1,
         0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0,
         1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0],
        [1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 2, 0, 0, 2, 1, 0, 0, 0, 0, 0,
         0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0]])

**Параметр min_df**

Помимо стоп-слов есть и другие способы отсечения лишнего. Например, можно откидывать слова, которые встречаются слишком редко, с помощью параметра min_df. 
Установив min_df=2 мы откинем, все слова, которые встречаются менее, чем в 2 документах.

In [None]:
count_vectorizer = CountVectorizer(min_df=2)
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'если': 0, 'сезонов': 1, 'сериала': 2, 'этого': 3}

**Биграммы, триграммы, n-граммы**

По умолчанию bag-of-words (как следует из названия) представляет собой просто мешок слов. То есть для него предложения "It's not good, it's bad!" и "It's not bad, it's good!" абсолютно эквивалентны. Понятно, что при этом теряется много информации. Можно рассматривать не только отдельные слова, а последовательности длиной из 2 слов (биграммы), из 3 слов (триграммы) или в общем случае из n слов (n-граммы). На практике обычно задаётся диапазон от 1 до n.

Рассмотрим пример:

In [None]:
count_vectorizer = CountVectorizer(ngram_range=(1,2),  min_df=2)
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'если': 0, 'сезонов': 1, 'сериала': 2, 'этого': 3, 'этого сериала': 4}

**Ограничение количества признаков**

Понятно, что с ростом n количество выделенных n-грамм быстро растёт. Для ограничения количества признаков можно использовать параметр max_features. В этом случае будет создано не более max_features признаков (будут выбраны самые часто встречающиеся слова и последовательности слов). Например:

In [None]:
count_vectorizer = CountVectorizer(ngram_range=(1,2),  max_features=25)
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'бы': 0,
 'все': 1,
 'если': 2,
 'меньше': 3,
 'ниже': 4,
 'положительную': 5,
 'положительную рецензию': 6,
 'поможет': 7,
 'поможет успокоить': 8,
 'посмотрел': 9,
 'посмотрел только': 10,
 'при': 11,
 'при любых': 12,
 'просто': 13,
 'просто скрасит': 14,
 'рейтинги следующих': 15,
 'рецензию': 16,
 'руки': 17,
 'руки написал': 18,
 'своя': 19,
 'своя то': 20,
 'сезонов': 21,
 'сериала': 22,
 'этого': 23,
 'этого сериала': 24}

**TF-IDF**

У подхода bag-of-words есть существенный недостаток. Если слово встречается 5 раз в конкретном документе, но и в других документах тоже встречается часто, то его наличие в документе не особо-то о чём-то говорит. Если же слово 5 раз встречается в конкретном документе, но в других документах встречается редко, то его наличие (да ещё и многократное) позволяет хорошо отличать этот документ от других. Однако с точки зрения bag-of-words различий не будет: в обеих ячейках будет просто число 5.

Отчасти это решается исключением стоп-слов (и слишком часто встречающихся слов), но лишь отчасти. Другой идеей является отмасштабировать получившуюся таблицу с учётом "редкости" слова в наборе документов (т.е. с учётом информативности слова).

tfidf=tf∗idf

idf=log((N+1)/(Nw+1))+1

Здесь tf это частота слова в тексте (то же самое, что в bag of words), N - общее число документов, Nw - число документов, содержащих данное слово.

То есть для каждого слова считается отношение общего количества документов к количеству документов, содержащих данное слово (для частых слов оно будет ближе к 1, для редких слов оно будет стремиться к числу, равному количеству документов), и на логарифм от этого числа умножается исходное значение bag-of-words (к числителю и знаменателю прибавляется единичка, чтобы не делить на 0, и к логарифму тоже прибавляется единичка, но это уже технические детали). После этого в sklearn ещё проводится L2-нормализация каждой строки.

В sklearn есть  класс для поддержки TF-IDF: TfidfVectorizer, рассмотрим его.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
tfidf = tfidf_vectorizer.fit_transform(texts)
tfidf_vectorizer.vocabulary_

{'аудитория': 0,
 'будет': 1,
 'будни': 2,
 'будут': 3,
 'бы': 4,
 'великолепный': 5,
 'вернут': 6,
 'все': 7,
 'всё': 8,
 'ему': 9,
 'если': 10,
 'зрительская': 11,
 'который': 12,
 'круги': 13,
 'легкой': 14,
 'любых': 15,
 'меньше': 16,
 'на': 17,
 'написал': 18,
 'не': 19,
 'нервы': 20,
 'ниже': 21,
 'общем': 22,
 'пару': 23,
 'первые': 24,
 'пожалуй': 25,
 'положительную': 26,
 'поможет': 27,
 'посмотрел': 28,
 'при': 29,
 'просто': 30,
 'рейтинги': 31,
 'рецензию': 32,
 'руки': 33,
 'своя': 34,
 'сезонов': 35,
 'сериал': 36,
 'сериала': 37,
 'серые': 38,
 'скрасит': 39,
 'следующих': 40,
 'создатели': 41,
 'становится': 42,
 'стрессах': 43,
 'то': 44,
 'только': 45,
 'успокоить': 46,
 'этого': 47}

Словарь содержит те же 48 значений, которые были бы и для CountVectorizer. Но значения в таблице другие:

In [None]:
tfidf.todense()

matrix([[0.        , 0.        , 0.2773501 , 0.        , 0.        ,
         0.2773501 , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.2773501 , 0.        , 0.        ,
         0.2773501 , 0.        , 0.        , 0.        , 0.        ,
         0.2773501 , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.2773501 , 0.        , 0.2773501 ,
         0.2773501 , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.2773501 , 0.        , 0.2773501 , 0.2773501 ,
         0.        , 0.        , 0.        , 0.2773501 , 0.        ,
         0.        , 0.2773501 , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.48065817,
         0.        , 0.        , 0.        , 0.        , 0.24032909,
         0.18277647, 0.        , 0.        , 0.        , 0.24032909,
         0.        , 0.        , 0.        , 0.24032909, 0.        ,
         0.        , 0.        , 0.        , 0.24032909, 

Ненулевые значения находятся на тех же местах, но отмасштабированы в зависимости от частоты слов.

**Параметр sublinear_tf**

Большая часть параметров у CountVectorizer и TfidfVectorizer одинакова. Но у TfidfVectorizer есть один важный дополнительный параметр.

Как видно из формулы tfidf = tf * idf, если слово будет встречаться не один, а два раза, то tfidf вырастет в два раза. Если слово будет встречаться не один, а 10 раз, то tfidf вырастет почти в 10 раз.  В качестве примера добавим в третью строку ещё пару слов меньше

In [None]:
texts = ["Великолепный сериал, который поможет успокоить нервы при любых стрессах и просто скрасит серые будни",
         "Пожалуй, если бы я посмотрел только первые пару сезонов этого сериала, я бы с легкой руки написал ему положительную рецензию",
         "В общем, если создатели этого сериала не вернут всё на круги своя, то рейтинги следующих сезонов будут становится все ниже и ниже, а зрительская аудитория будет все меньше и меньше и меньше и меньше."]
TfidfVectorizer().fit_transform(texts).todense()[2]         

matrix([[0.15373049, 0.15373049, 0.        , 0.15373049, 0.        ,
         0.        , 0.15373049, 0.30746099, 0.15373049, 0.        ,
         0.116916  , 0.15373049, 0.        , 0.15373049, 0.        ,
         0.        , 0.61492198, 0.15373049, 0.        , 0.15373049,
         0.        , 0.30746099, 0.15373049, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.15373049, 0.        , 0.        , 0.15373049,
         0.116916  , 0.        , 0.116916  , 0.        , 0.        ,
         0.15373049, 0.15373049, 0.15373049, 0.        , 0.15373049,
         0.        , 0.        , 0.116916  ]])

Значение tfidf слова "меньше" выросло с 0.36325471 до 0.61492198, а остальные  упали .

Вопрос - хотим ли мы таких сильных изменений. Если не хотим, то можно использовать параметр sublinear_tf=True. При его использовании вместо tf будет браться 1 + log(tf). То есть по-прежнему с ростом tf будет расти и tfidf, но уже не так радикально (и соответственно остальные значения будут уменьшаться не так быстро). Для некоторых задач это может дать прирост в качестве.

In [None]:
TfidfVectorizer(sublinear_tf=True).fit_transform(texts).todense()[2]

matrix([[0.18336592, 0.18336592, 0.        , 0.18336592, 0.        ,
         0.        , 0.18336592, 0.31046549, 0.18336592, 0.        ,
         0.13945451, 0.18336592, 0.        , 0.18336592, 0.        ,
         0.        , 0.43756505, 0.18336592, 0.        , 0.18336592,
         0.        , 0.31046549, 0.18336592, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.18336592, 0.        , 0.        , 0.18336592,
         0.13945451, 0.        , 0.13945451, 0.        , 0.        ,
         0.18336592, 0.18336592, 0.18336592, 0.        , 0.18336592,
         0.        , 0.        , 0.13945451]])

**Стемминг**

Стемминг просто отсекает то, что посчитает изменяемым окончанием слова. 

In [None]:
from nltk.stem import SnowballStemmer
snowball = SnowballStemmer(language="russian")
snowball.stem("сериал")


'сериа'

Метод word_tokenize библиотеки nltk добавляет в словарь знаки пунктуации и слова из одной буквы!


In [None]:
tokenized = nltk.word_tokenize(texts[0])
tokenized

['Великолепный',
 'сериал',
 ',',
 'который',
 'поможет',
 'успокоить',
 'нервы',
 'при',
 'любых',
 'стрессах',
 'и',
 'просто',
 'скрасит',
 'серые',
 'будни']

In [None]:
text1=[snowball.stem(w) for w in tokenized]
text1

['великолепн',
 'сериа',
 ',',
 'котор',
 'поможет',
 'успоко',
 'нерв',
 'при',
 'люб',
 'стресс',
 'и',
 'прост',
 'скрас',
 'сер',
 'будн']

**Лемматизация**

Лемматизация русских слов реализована в библиотеке pymorphy2

In [None]:
! pip install pymorphy2
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[?25l[K     |██████                          | 10 kB 19.0 MB/s eta 0:00:01[K     |███████████▉                    | 20 kB 12.1 MB/s eta 0:00:01[K     |█████████████████▊              | 30 kB 9.2 MB/s eta 0:00:01[K     |███████████████████████▋        | 40 kB 8.4 MB/s eta 0:00:01[K     |█████████████████████████████▌  | 51 kB 5.4 MB/s eta 0:00:01[K     |████████████████████████████████| 55 kB 2.0 MB/s 
[?25hCollecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[K     |████████████████████████████████| 8.2 MB 7.6 MB/s 
Collecting dawg-python>=0.7.1
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Installing collected packages: pymorphy2-dicts-ru, dawg-python, pymorphy2
Successfully installed dawg-python-0.7.2 pymorphy2-0.9.1 pymorphy2-dicts-ru-2.4.417127.4579844


In [None]:
morph.parse("маленького")[0].normal_form

'маленький'

In [None]:
text2=[morph.parse(w)[0].normal_form for w in tokenized]
text2

['великолепный',
 'сериал',
 ',',
 'который',
 'помочь',
 'успокоить',
 'нерв',
 'при',
 'любой',
 'стресс',
 'и',
 'просто',
 'скрасить',
 'серый',
 'будни']

В библиотеке nltk есть еще  RegexpTokenizer. Он не добавляет знаки пунктуации в словарь. И в нем можно указать минимальную длину слова, добавляемого в  словарь


In [None]:
from nltk.tokenize import RegexpTokenizer
tokeniz = RegexpTokenizer(r'\w{2,}')
text3=tokeniz.tokenize(texts[0])
text3

['Великолепный',
 'сериал',
 'который',
 'поможет',
 'успокоить',
 'нервы',
 'при',
 'любых',
 'стрессах',
 'просто',
 'скрасит',
 'серые',
 'будни']

In [None]:
text4=[morph.parse(w)[0].normal_form for w in text3]
text4

['великолепный',
 'сериал',
 'который',
 'помочь',
 'успокоить',
 'нерв',
 'при',
 'любой',
 'стресс',
 'просто',
 'скрасить',
 'серый',
 'будни']

Несмотря на то что в библиотеке scikit-learn не реализован ни один из способов нормализации (ни стемминг, ни лемматизация), CountVectorizer позволяет задать собственный токенизатор, который преобразует каждый документ в список токенов с помощью параметра tokenizer.

In [None]:
def custom_tokenizer(text):
  tokeniz = RegexpTokenizer(r'\w{2,}')
  text1=tokeniz.tokenize(text)
  return [morph.parse(w)[0].normal_form for w in text1]


In [None]:
tfidf_vectorizer = TfidfVectorizer(tokenizer=custom_tokenizer)
tfidf = tfidf_vectorizer.fit_transform(texts)
tfidf_vectorizer.vocabulary_


{'аудитория': 0,
 'будни': 1,
 'бы': 2,
 'быть': 3,
 'великолепный': 4,
 'вернуть': 5,
 'всё': 6,
 'если': 7,
 'зрительский': 8,
 'который': 9,
 'круг': 10,
 'любой': 11,
 'лёгкий': 12,
 'маленький': 13,
 'на': 14,
 'написать': 15,
 'не': 16,
 'нерв': 17,
 'ниже': 18,
 'общий': 19,
 'он': 20,
 'пара': 21,
 'первый': 22,
 'пожалуй': 23,
 'положительный': 24,
 'помочь': 25,
 'посмотреть': 26,
 'при': 27,
 'просто': 28,
 'рейтинг': 29,
 'рецензия': 30,
 'рука': 31,
 'свой': 32,
 'сезон': 33,
 'сериал': 34,
 'серый': 35,
 'скрасить': 36,
 'следующий': 37,
 'создатель': 38,
 'становиться': 39,
 'стресс': 40,
 'то': 41,
 'только': 42,
 'успокоить': 43,
 'это': 44}

In [None]:
TfidfVectorizer(sublinear_tf=True).fit_transform(texts).todense()[2]

matrix([[0.19275789, 0.19275789, 0.        , 0.19275789, 0.        ,
         0.        , 0.19275789, 0.32636748, 0.19275789, 0.        ,
         0.14659734, 0.19275789, 0.        , 0.19275789, 0.        ,
         0.        , 0.32636748, 0.19275789, 0.        , 0.19275789,
         0.        , 0.32636748, 0.19275789, 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.19275789, 0.        , 0.        , 0.19275789,
         0.14659734, 0.        , 0.14659734, 0.        , 0.        ,
         0.19275789, 0.19275789, 0.19275789, 0.        , 0.19275789,
         0.        , 0.        , 0.14659734]])

https://ai.stanford.edu/~amaas/data/sentiment/
