<img src="../../img/ods_stickers.jpg">
## <center>Открытый курс по машинному обучению</center>
<center>Автор материала: Максим Самсонов (@mvsamsonov)</center>

# Подробно о CountVectorizer, TfIdfVectorizer и базовой обработке текстов

Алгоритмы машинного обучения работают с числовыми и категориальными данными. Если же у нас текст, его надо как-то привести к числовому виду. Для этого текст проходит предобработку, в которой можно выделить следующие стадии:

1. <b>Токенизация</b>: выделение из текста слов (токенов), например с помощью регулярных выражений.
2. <b>Отсечение стоп-слов</b>: слова, которые встречаются слишком часто, не несут никакой информации, только зашумляют данные, и их можно удалить. Это можно сделать с помощью словаря стоп-слов или просто отсекая слова, которые встречаются в обрабатываемых текстах чаще всего.
3. <b>Стемминг/лемматизация</b>: приведение слов к начальной форме, чтобы игрорировать различия во временах, числах, падежах и прочее. При стемминге используется алгоритм, отсекающий суффиксы (который, например, преобразует books в book, leaves в leav, а was в wa), при лемматизации - словарь, который позволит выполнить эту работу более точно (но за большее время, и, собственно, нужен словарь).
4. <b>Векторизация</b>: собственно то, ради чего всё затевалось, преобразование набора слов в набор чисел. Двумя простейшими подходами являются bag-of-words, при котором просто считается, как часто встретилось каждое слово, и TF-IDF (term frequency - inverse document frequency), при котором больший вес даётся тем словам, которые встречаются в обрабатываемых текстах более редко.

Второй и третий этапы можно пропускать.

## Токенизация
Токенизация часто делается автоматически в рамках векторизации. Но рассмотрим, как её можно делать отдельно. Если бы тексты не содержали пунктуации, можно было бы просто воспользоваться методом split, но с пунтуацией всё чуть сложнее. Воспользуемся проверенной временем библиотекой NLTK.

In [1]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Maxim\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
tokenized = nltk.word_tokenize("It's a picture (painting) of goddess Ma'at")
tokenized

['It', "'s", 'a', 'picture', '(', 'painting', ')', 'of', 'goddess', "Ma'at"]

Как мы видим, NLTK рассматривает пунктуацию как отдельные токены (что в каких-то случаях может быть полезно). Интересно, что имя с апострофом правильно распозналось как одно слово, а "it's" корректно разбилось на два токена.

## Стоп-слова
Произведём отсечение стоп-слов по словарю.

In [3]:
stopwords = nltk.corpus.stopwords.words('english')
stopwords[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [4]:
[w for w in tokenized if w.lower() not in stopwords]

["'s", 'picture', '(', 'painting', ')', 'goddess', "Ma'at"]

Отфильтровались местоимение, артикль и предлог.

## Стемминг
Стемминг просто отсекает то, что посчитает изменяемым окончанием слова.

В качестве примера рассмотрим стеммер Портера (алгоритм, предложенный Мартином Портером ещё в 1979 году).

In [5]:
stemmer = nltk.stem.PorterStemmer()
[stemmer.stem(w) for w in ["plays", "played", "playing"]]

['play', 'play', 'play']

Как видим, разные формы слова успешно приводятся к начальной форме. Применим стеммер к тексту.

In [6]:
text = "When you have eliminated all which is impossible, then whatever remains, however improbable, must be the truth."
[stemmer.stem(w) for w in nltk.word_tokenize(text)]

['when',
 'you',
 'have',
 'elimin',
 'all',
 'which',
 'is',
 'imposs',
 ',',
 'then',
 'whatev',
 'remain',
 ',',
 'howev',
 'improb',
 ',',
 'must',
 'be',
 'the',
 'truth',
 '.']

Как мы видим, стеммер просто откидывает суффиксы. То, что получается в результате, не всегда является словом. Но раз наша цель привести текст к числам, то почему бы и нет. Конечно, при этом разные слова могут вдруг оказаться одинаковыми. Будет ли от стемминга больше вреда или пользы - зависит от задачи.

Стеммер Портера является одним из первых и простейших алгоритмов стемминга. Есть и другие, например, Snowball.

## Лемматизация
В отличие от стемминга, при лемматизации происходит не откидывание суффикса, а приведение слова к начальной форме с помощью словаря. Рассмотрим пример.

In [7]:
from nltk.stem import WordNetLemmatizer
lemm = WordNetLemmatizer()
[lemm.lemmatize(w) for w in ['wolves', 'women', 'eliminated', 'went']]

['wolf', 'woman', 'eliminated', 'went']

Как видим, данный lemmatizer отлично справляется с существительными, но не справляется с глаголами. Это происходит потому что он по умолчанию считает всё существительными. Если явно подсказать ему, что это глагол, то он справится тоже:

In [8]:
[lemm.lemmatize(w, pos='v') for w in ['eliminated', 'went']]

['eliminate', 'go']

## Bag-of-words (CountVectorizer)
Рассмотрим теперь самый простой способ приведения текста к набору чисел. Для каждого слова посчитаем, как часто оно встречается в тексте. Результаты запишем в таблицу. Строки будут представлять тексты, столбцы -- слова. Если на пересечении строки с столбца стоит число 5, значит данное слово встретилось в данном тексте 5 раз. В большинстве ячеек будут нули. Поэтому хранить это всё удобнее в виде разреженных матриц (т.е. хранить только ненулевые значения).

Таким образом, при построении "мешка слов" можно выделить следующие действия:
1. Токенизация.
2. Построение словаря: собираем все слова, которые встречались в текстах и пронумеровываем их (по алфавиту, например).
3. Построение разреженной матрицы.

В sklearn алгоритм приведения текста в bag-of-words реализован в виде класса CountVectorizer. Рассмотрим пример.

In [9]:
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()
texts = ["It is a capital mistake to theorize before one has data.",
         "One begins to twist facts to suit theories, instead of theories to suit facts."]

bow = count_vectorizer.fit_transform(texts)
bow.shape

(2, 17)

Результат содержит 2 строки (для 2 текстов) и 18 столбцов (для 18 разных слов). Посмотрим словарь:

In [10]:
count_vectorizer.vocabulary_

{'before': 0,
 'begins': 1,
 'capital': 2,
 'data': 3,
 'facts': 4,
 'has': 5,
 'instead': 6,
 'is': 7,
 'it': 8,
 'mistake': 9,
 'of': 10,
 'one': 11,
 'suit': 12,
 'theories': 13,
 'theorize': 14,
 'to': 15,
 'twist': 16}

Как видим, ни стемминга, ни лемматизации по умолчанию не производится.

Результат преобразования:

In [11]:
bow.todense()

matrix([[1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0],
        [0, 1, 0, 0, 2, 0, 1, 0, 0, 0, 1, 1, 2, 2, 0, 3, 1]], dtype=int64)

Т.о. "before" только в первом тексте, "begins" только во втором, (...) , "to" один раз в первом и 3 раза во втором, "twist" только во втором.

### Стоп-слова и другие методы отсечения лишнего

#### Стоп-слова
Можно легко включить отсечение стоп-слов:

In [12]:
count_vectorizer = CountVectorizer(stop_words='english')
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'begins': 0,
 'capital': 1,
 'data': 2,
 'facts': 3,
 'instead': 4,
 'mistake': 5,
 'suit': 6,
 'theories': 7,
 'theorize': 8,
 'twist': 9}

In [13]:
bow.todense()

matrix([[0, 1, 1, 0, 0, 1, 0, 0, 1, 0],
        [1, 0, 0, 2, 1, 0, 2, 2, 0, 1]], dtype=int64)

#### Параметр max_df

Помимо стоп-слов есть и другие способы отсечения лишнего. Например, можно откидывать слова, которые встречаются слишком часто, с помощью параметра max_df. Установив max_df=2 мы откинем, все слова, которые встречаются более, чем в 2 документах.

In [14]:
texts = ["Soft kitty lyrics:", "Soft kitty, warm kitty", "Little ball of fur", "Happy kitty, sleepy kitty", "Purr, purr, purr"] 
count_vectorizer = CountVectorizer(max_df=2)
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'ball': 0,
 'fur': 1,
 'happy': 2,
 'little': 3,
 'lyrics': 4,
 'of': 5,
 'purr': 6,
 'sleepy': 7,
 'soft': 8,
 'warm': 9}

Как видим, в словаре нет "kitty", т.к. оно встречается аж в 3 текстах, а мы поставили max_df=2.

max_df может быть вещественным числом, тогда оно интерпретируется как доля документов.

#### Параметр min_df
С другой стороны, если слово встречается очень редко, оно скорее всего тоже не представляет интереса. Такие слова можно откидывать с помощью параметра min_df:

In [15]:
count_vectorizer = CountVectorizer(min_df=2)
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'kitty': 0, 'soft': 1}

Как видим, в словаре остались только слова, которые встретились не менее, чем в 2 документах.

### Token pattern
Построим bag of words для простого предложения и посмотрим словарь.

In [16]:
count_vectorizer = CountVectorizer()
bow = count_vectorizer.fit_transform(["I am a cat"])
count_vectorizer.vocabulary_

{'am': 0, 'cat': 1}

Что-то не так. Слов было 4, а тут только 2.

По умолчанию CountVectorizer считает словами только слова длины не менее 2. Для того чтобы это изменить, используется параметр token_pattern. По умолчанию он равен регулярному выражению '(?u)\b\w\w+\b' (\b обозначает границы слов, \w обозначает букву, \w+ - непустую последовательность букв). Значит, удалив первую \w, получим то, что нужно:

In [17]:
count_vectorizer = CountVectorizer(token_pattern=r'(?u)\b\w+\b')
bow = count_vectorizer.fit_transform(["I am a cat"])
count_vectorizer.vocabulary_

{'a': 0, 'am': 1, 'cat': 2, 'i': 3}

### Биграммы, триграммы, n-граммы
По умолчанию bag-of-words (как следует из названия) представляет собой просто мешок слов. То есть для него предложения "It's not good, it's bad!" и "It's not bad, it's good!" абсолютно эквивалентны. Понятно, что при этом теряется много информации. Можно рассматривать не только отдельные слова, а последовательности длиной из 2 слов (биграммы), из 3 слов (триграммы) или в общем случае из n слов (n-граммы). На практике обычно задаётся диапазон от 1 до n.

Рассмотрим пример:

In [18]:
texts = ["Soft kitty lyrics:", "Soft kitty, warm kitty", "Little ball of fur", "Happy kitty, sleepy kitty", "Purr, purr, purr"]
count_vectorizer = CountVectorizer(ngram_range=(1,2))
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'ball': 0,
 'ball of': 1,
 'fur': 2,
 'happy': 3,
 'happy kitty': 4,
 'kitty': 5,
 'kitty lyrics': 6,
 'kitty sleepy': 7,
 'kitty warm': 8,
 'little': 9,
 'little ball': 10,
 'lyrics': 11,
 'of': 12,
 'of fur': 13,
 'purr': 14,
 'purr purr': 15,
 'sleepy': 16,
 'sleepy kitty': 17,
 'soft': 18,
 'soft kitty': 19,
 'warm': 20,
 'warm kitty': 21}

На практике вряд ли есть большой смысл выделять последовательности более, чем из 5 слов, но n-граммы для n равного 3 или 4 вполне полезны.

### Ограничение количества признаков
Понятно, что с ростом n количество выделенных n-грамм быстро растёт. Для ограничения количества признаков можно использовать параметр max_features. В этом случае будет создано не более max_features признаков (будут выбраны самые часто встречающиеся слова и последовательности слов). Например:

In [19]:
count_vectorizer = CountVectorizer(ngram_range=(1,3), max_features=10)
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{'ball': 0,
 'kitty': 1,
 'purr': 2,
 'purr purr': 3,
 'sleepy': 4,
 'sleepy kitty': 5,
 'soft': 6,
 'soft kitty': 7,
 'soft kitty lyrics': 8,
 'soft kitty warm': 9}

n-грамы выбираются из интервала от 1 до 3, из было бы больше 30, но мы оставляем только 10 самых важных.

### Слова или символы
До сих пор мы в качестве элементов текста рассматривали слова. Но иногда бывает полезно рассматривать текст как последовательность отдельных букв. Если мы объединим эту идею с n-граммов, то получится, что нас интересует, насколько часто в тексте встречаются отдельные буквы, сочетания из двух букв, трёх букв, и т.д.

Чтобы переключиться "в режим отдельных букв" используется параметр analyzer='char'. Очевидно, что количество вариантов будет относительно большим даже для небольшого текста, поэтому тут особенно важно не забыть ограничить max_features.

In [20]:
count_vectorizer = CountVectorizer(ngram_range=(1,6), analyzer='char', max_features=10)
bow = count_vectorizer.fit_transform(texts)
count_vectorizer.vocabulary_

{' ': 0,
 'i': 1,
 'it': 2,
 'itt': 3,
 'l': 4,
 'p': 5,
 'r': 6,
 't': 7,
 'tt': 8,
 'y': 9}

Несмотря на то, что разрешалось использовать последовательности длиной от 1 до 6, длина самых частых оказалась от 1 до 3.

### Слова И символы
На практике бывает полезно попробовать рассматривать как слова, так и буквы. Или даже использовать оба варианта вместе: построить представления на основе букв, на основе слов и объединить их с помощью hstack.

## TF-IDF
У подхода bag-of-words есть существенный недостаток. Если слово встречается 5 раз в конкретном документе, но и в других документах тоже встречается часто, то его наличие в документе не особо-то о чём-то говорит. Если же слово 5 раз встречается в конкретном документе, но в других документах встречается редко, то его наличие (да ещё и многократное) позволяет хорошо отличать этот документ от других. Однако с точки зрения bag-of-words различий не будет: в обеих ячейках будет просто число 5.

Отчасти это решается исключением стоп-слов (и слишком часто встречающихся слов), но лишь отчасти. Другой идеей является отмасштабировать получившуюся таблицу с учётом "редкости" слова в наборе документов (т.е. с учётом информативности слова).

\begin{equation*}
tfidf = tf * idf \\
idf = log \frac {N + 1}{N_w + 1} + 1
\end{equation*}

Здесь tf это частота слова в тексте (то же самое, что в bag of words), N - общее число документов, Nw - число документов, содержащих данное слово.

То есть для каждого слова считается отношение общего количества документов к количеству документов, содержащих данное слово (для частых слов оно будет ближе к 1, для редких слов оно будет стремиться к числу, равному количеству документов), и на логарифм от этого числа умножается исходное значение bag-of-words (к числителю и знаменателю прибавляется единичка, чтобы не делить на 0, и к логарифму тоже прибавляется единичка, но это уже технические детали). После этого в sklearn ещё проводится L2-нормализация каждой строки.

В sklearn есть два класса для поддержки TF-IDF: TfidfVectorizer и TfidfTransformer, рассмотрим их.

### TfidfVectorizer
Этот класс применяется аналогично CountVectorizer:

In [21]:
from sklearn.feature_extraction.text import TfidfVectorizer

texts = ["Soft kitty lyrics:", "Soft kitty, warm kitty", "Little ball of fur", "Happy kitty, sleepy kitty", "Purr, purr, purr"] 
tfidf_vectorizer = TfidfVectorizer()
tfidf = tfidf_vectorizer.fit_transform(texts)
tfidf_vectorizer.vocabulary_

{'ball': 0,
 'fur': 1,
 'happy': 2,
 'kitty': 3,
 'little': 4,
 'lyrics': 5,
 'of': 6,
 'purr': 7,
 'sleepy': 8,
 'soft': 9,
 'warm': 10}

Словарь содержит те же 10 значений, которые были бы и для CountVectorizer. Но значения в таблице другие:

In [22]:
tfidf.todense()

matrix([[ 0.        ,  0.        ,  0.        ,  0.4622077 ,  0.        ,
          0.69015927,  0.        ,  0.        ,  0.        ,  0.55681615,
          0.        ],
        [ 0.        ,  0.        ,  0.        ,  0.72164744,  0.        ,
          0.        ,  0.        ,  0.        ,  0.        ,  0.43468006,
          0.53877474],
        [ 0.5       ,  0.5       ,  0.        ,  0.        ,  0.5       ,
          0.        ,  0.5       ,  0.        ,  0.        ,  0.        ,
          0.        ],
        [ 0.        ,  0.        ,  0.51339094,  0.68764779,  0.        ,
          0.        ,  0.        ,  0.        ,  0.51339094,  0.        ,
          0.        ],
        [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
          0.        ,  0.        ,  1.        ,  0.        ,  0.        ,
          0.        ]])

сравним результат с результатом работы CountVectorizer:

In [23]:
CountVectorizer().fit_transform(texts).todense()

matrix([[0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0],
        [0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 1],
        [1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0],
        [0, 0, 1, 2, 0, 0, 0, 0, 1, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0]], dtype=int64)

Ненулевые значения находятся на тех же местах, но отмасштабированы в зависимости от частоты слов.

Рассмотрим для примера первую строку. В ней три ненулевых значения, с индексами 3, 5 и 9 (kitty, lyrics и soft). Все три слова встречаются в тексте по одному разу, поэтому в bag-of-words для каждого из них стоит значение 1. Но kitty встречается ещё в двух документах, поэтому tfidf для неё лишь 0.46; слово lyrics встречается только в этом документе, поэтому у него значение выше: 0.69; soft встречается ещё в одном документе, у него 0.56 (меньше 0.69, но больше 0.46).

### Параметр sublinear_tf
Большая часть параметров у CountVectorizer и TfidfVectorizer одинакова. Но у TfidfVectorizer есть один важный дополнительный параметр.

Как видно из формулы tfidf = tf * idf, если слово будет встречаться не один, а два раза, то tfidf вырастет в два раза. Если слово будет встречаться не один, а 10 раз, то tfidf вырастет в 10 раз. На итоговой строке, конечно, производится нормализация, так что значение всё равно останется в пределах единицы, но за счёт других значений в этой строке. В качестве примера добавим в первую строку ещё пару слов lyrics:

In [24]:
texts = ["Soft kitty lyrics lyrics lyrics:", 
         "Soft kitty, warm kitty", "Little ball of fur", "Happy kitty, sleepy kitty", "Purr, purr, purr"] 

TfidfVectorizer().fit_transform(texts).todense()[0]

matrix([[ 0.        ,  0.        ,  0.        ,  0.21073634,  0.        ,
          0.94400181,  0.        ,  0.        ,  0.        ,  0.25387157,
          0.        ]])

Значение tfidf выросло с 0.69015927 до 0.94400181, а остальные два упали почти в 2 раза.

Вопрос - хотим ли мы таких драматических изменений. Если не хотим, то можно использовать параметр sublinear_tf=True. При его использовании вместо tf будет браться 1 + log(tf). То есть по-прежнему с ростом tf будет расти и tfidf, но уже не так радикально (и соответственно остальные значения будут уменьшаться не так быстро):

In [25]:
TfidfVectorizer(sublinear_tf=True).fit_transform(texts).todense()[0]

matrix([[ 0.        ,  0.        ,  0.        ,  0.28547251,  0.        ,
          0.8945583 ,  0.        ,  0.        ,  0.        ,  0.34390535,
          0.        ]])

Для некоторых задач это может дать прирост в качестве.

### TfidfTransformer
Как мы видели, tfidf строится на основе tf, т.е. bag-of-words. Что если у нас уже есть готовый bag-of-words, обязательно ли строить tfidf на сыром тексте или воспользоваться готовым промежуточным результатом?

TfidfTransformer строит tfidf на основе результата работы CountVectorizer. В качестве примера построим CountVectorizer:

In [26]:
texts = ["Soft kitty lyrics:", "Soft kitty, warm kitty", "Little ball of fur", "Happy kitty, sleepy kitty", "Purr, purr, purr"] 
count_vectorizer = CountVectorizer()
bow = count_vectorizer.fit_transform(texts)
bow.todense()

matrix([[0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0],
        [0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 1],
        [1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0],
        [0, 0, 1, 2, 0, 0, 0, 0, 1, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 0]], dtype=int64)

и применим преобразование:

In [27]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer().fit_transform(bow)
tfidf.todense()

matrix([[ 0.        ,  0.        ,  0.        ,  0.4622077 ,  0.        ,
          0.69015927,  0.        ,  0.        ,  0.        ,  0.55681615,
          0.        ],
        [ 0.        ,  0.        ,  0.        ,  0.72164744,  0.        ,
          0.        ,  0.        ,  0.        ,  0.        ,  0.43468006,
          0.53877474],
        [ 0.5       ,  0.5       ,  0.        ,  0.        ,  0.5       ,
          0.        ,  0.5       ,  0.        ,  0.        ,  0.        ,
          0.        ],
        [ 0.        ,  0.        ,  0.51339094,  0.68764779,  0.        ,
          0.        ,  0.        ,  0.        ,  0.51339094,  0.        ,
          0.        ],
        [ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
          0.        ,  0.        ,  1.        ,  0.        ,  0.        ,
          0.        ]])

Получилась та же матрица, что и при использовании TfidfVectorizer напрямую.

Параметры, отвечающие за построение tf, настраиваются в CountVectorizer; а параметры, специфичные для TF-IDF (такие как sublinear_tf), настраиваются уже в TfidfTransformer.

## Краткие итоги

* Для работы с текстами надо как-то преобразовывать их к числовому представлению
* Классическими и самыми простыми средствами для этого являются bag-of-words и tf-idf
* В sklearn есть удобные классы-векторайзеры, реализующие bag-of-words и tf-idf (и трансформер для преобразования от bag-of-words к tf-idf)
* Они реализуют токенизацию, векторизацию и при желании отсечение стоп-слов
* У векторайзеров много параметров, позволяющих добиваться наиболее удачного представления текста. Знание этих параметров (и понимание того, как они работают) может сильно повысить эффективность обучения и качество результата
* Отдельно токенизацию, стемминг и прочее можно делать, например, средствами NLTK