<h1>Методы векторизации текста</h1>

<h4>Частотное кодирование</h4>

Частотное кодирование заключается в составлении вектора признаков по текстовому документу, каждому выделенному токену соответствует один признак, в качестве значения признака - количестве вхождений токена в документ.

Рассмотрим класс CountVectorizer из библиотеки sklearn и исследуем его возможности. Сам класс преобразует коллекцию текстовых документов в матрицу количества токенов.

In [50]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.datasets import fetch_20newsgroups

In [29]:
newsgroups = fetch_20newsgroups(subset='all',remove=['headers','footers', 'quotes'])

In [30]:
data = newsgroups['data'][0]
data

"\n\nI am sure some bashers of Pens fans are pretty confused about the lack\nof any kind of posts about the recent Pens massacre of the Devils. Actually,\nI am  bit puzzled too and a bit relieved. However, I am going to put an end\nto non-PIttsburghers' relief with a bit of praise for the Pens. Man, they\nare killing those Devils worse than I thought. Jagr just showed you why\nhe is much better than his regular season stats. He is also a lot\nfo fun to watch in the playoffs. Bowman should let JAgr have a lot of\nfun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final\nregular season game.          PENS RULE!!!\n\n"

In [31]:
cv = CountVectorizer()

Препроцессинг текста перед токенизацией:

In [32]:
data = cv.build_preprocessor()(data)
data

"\n\ni am sure some bashers of pens fans are pretty confused about the lack\nof any kind of posts about the recent pens massacre of the devils. actually,\ni am  bit puzzled too and a bit relieved. however, i am going to put an end\nto non-pittsburghers' relief with a bit of praise for the pens. man, they\nare killing those devils worse than i thought. jagr just showed you why\nhe is much better than his regular season stats. he is also a lot\nfo fun to watch in the playoffs. bowman should let jagr have a lot of\nfun in the next couple of games since the pens are going to beat the pulp out of jersey anyway. i was very disappointed not to see the islanders lose the final\nregular season game.          pens rule!!!\n\n"

Токенизация(удаляются слова длиной меньше 2):

In [17]:
data

"\n\nI am sure some bashers of Pens fans are pretty confused about the lack\nof any kind of posts about the recent Pens massacre of the Devils. Actually,\nI am  bit puzzled too and a bit relieved. However, I am going to put an end\nto non-PIttsburghers' relief with a bit of praise for the Pens. Man, they\nare killing those Devils worse than I thought. Jagr just showed you why\nhe is much better than his regular season stats. He is also a lot\nfo fun to watch in the playoffs. Bowman should let JAgr have a lot of\nfun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final\nregular season game.          PENS RULE!!!\n\n"

In [33]:
data = cv.build_tokenizer()(data)
data

['am',
 'sure',
 'some',
 'bashers',
 'of',
 'pens',
 'fans',
 'are',
 'pretty',
 'confused',
 'about',
 'the',
 'lack',
 'of',
 'any',
 'kind',
 'of',
 'posts',
 'about',
 'the',
 'recent',
 'pens',
 'massacre',
 'of',
 'the',
 'devils',
 'actually',
 'am',
 'bit',
 'puzzled',
 'too',
 'and',
 'bit',
 'relieved',
 'however',
 'am',
 'going',
 'to',
 'put',
 'an',
 'end',
 'to',
 'non',
 'pittsburghers',
 'relief',
 'with',
 'bit',
 'of',
 'praise',
 'for',
 'the',
 'pens',
 'man',
 'they',
 'are',
 'killing',
 'those',
 'devils',
 'worse',
 'than',
 'thought',
 'jagr',
 'just',
 'showed',
 'you',
 'why',
 'he',
 'is',
 'much',
 'better',
 'than',
 'his',
 'regular',
 'season',
 'stats',
 'he',
 'is',
 'also',
 'lot',
 'fo',
 'fun',
 'to',
 'watch',
 'in',
 'the',
 'playoffs',
 'bowman',
 'should',
 'let',
 'jagr',
 'have',
 'lot',
 'of',
 'fun',
 'in',
 'the',
 'next',
 'couple',
 'of',
 'games',
 'since',
 'the',
 'pens',
 'are',
 'going',
 'to',
 'beat',
 'the',
 'pulp',
 'out',
 'o

Теперь "обучим" векторизацию на нашим данным, и посмотрим, что теперь может объект cv. 

TypeError: get_stop_words() takes 1 positional argument but 2 were given

In [38]:
cv.fit(data)

CountVectorizer()

Токены(отсортированные лексикографически) теперь определяют отдельные признаки объекта "документ":

In [40]:
cv.get_feature_names()

['about',
 'actually',
 'also',
 'am',
 'an',
 'and',
 'any',
 'anyway',
 'are',
 'bashers',
 'beat',
 'better',
 'bit',
 'bowman',
 'confused',
 'couple',
 'devils',
 'disappointed',
 'end',
 'fans',
 'final',
 'fo',
 'for',
 'fun',
 'game',
 'games',
 'going',
 'have',
 'he',
 'his',
 'however',
 'in',
 'is',
 'islanders',
 'jagr',
 'jersey',
 'just',
 'killing',
 'kind',
 'lack',
 'let',
 'lose',
 'lot',
 'man',
 'massacre',
 'much',
 'next',
 'non',
 'not',
 'of',
 'out',
 'pens',
 'pittsburghers',
 'playoffs',
 'posts',
 'praise',
 'pretty',
 'pulp',
 'put',
 'puzzled',
 'recent',
 'regular',
 'relief',
 'relieved',
 'rule',
 'season',
 'see',
 'should',
 'showed',
 'since',
 'some',
 'stats',
 'sure',
 'than',
 'the',
 'they',
 'those',
 'thought',
 'to',
 'too',
 'very',
 'was',
 'watch',
 'why',
 'with',
 'worse',
 'you']

In [41]:
cv.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.int64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 1.0,
 'max_features': None,
 'min_df': 1,
 'ngram_range': (1, 1),
 'preprocessor': None,
 'stop_words': None,
 'strip_accents': None,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'vocabulary': None}

Рассмотрим сами векторы признаков.

In [58]:
data = ['I very very glad to see you here, writing the text vectorization methods']

In [64]:
cv = CountVectorizer()
print(cv.fit_transform(data).toarray())
print(cv.get_feature_names())

[[1 1 1 1 1 1 1 1 2 1 1]]
['glad', 'here', 'methods', 'see', 'text', 'the', 'to', 'vectorization', 'very', 'writing', 'you']


Как мы видим, признаки соответствуют количеству вхождений в документ токенов из отсортированного списка.

Попробуем теперь векторизовать текст, не содержащий общих слов с первый документом.

In [66]:
data2 = ["No, i don't wanna sleep"]

In [68]:
print(cv.transform(data2).toarray())
print(cv.get_feature_names())

[[0 0 0 0 0 0 0 0 0 0 0]]
['glad', 'here', 'methods', 'see', 'text', 'the', 'to', 'vectorization', 'very', 'writing', 'you']


Логично, что с словаре, составленным по первому документу, 0 совпадающих признаков.

Можно ограничить размер словаря(количество признаков), тогда в векторизации будут использоваться самые частые слова.

In [69]:
data = ['first second first three first four five five six']

In [70]:
cv = CountVectorizer(max_features=3)
print(cv.fit_transform(data).toarray())
print(cv.get_feature_names())

[[3 2 1]]
['first', 'five', 'four']


Также можно задавать свой словарь.

In [71]:
cv = CountVectorizer(vocabulary=['five', 'six', 'three'], max_features=4)
print(cv.fit_transform(data).toarray())
print(cv.get_feature_names())

[[2 1 1]]
['five', 'six', 'three']


Можно менять шаблон, согласно которому мы отбираем токены при токенизации.

In [80]:
data = ['<div>ну так вот:<p><a>текст<br><a><p><div>']

In [81]:
cv = CountVectorizer(token_pattern=r'<\w*>')
print(cv.fit_transform(data).toarray())
print(cv.get_feature_names())

[[2 1 2 2]]
['<a>', '<br>', '<div>', '<p>']


А также добавлять стоп-слова:

In [88]:
data = ['I very very glad to see you here, writing the text vectorization methods']

In [89]:
cv = CountVectorizer(stop_words=frozenset(['to', 'the']))
print(cv.fit_transform(data).toarray())
print(cv.get_feature_names())

[[1 1 1 1 1 1 2 1 1]]
['glad', 'here', 'methods', 'see', 'text', 'vectorization', 'very', 'writing', 'you']


<h4>One-hot кодирование</h4>

Считаем признак, соответствующий токену, равным единице, если слово есть в словаре, иначе 0. Осуществляется также через CountVectorizer с помощью добавление флага <i>binary</i>. 

In [122]:
data = ['I very very glad to see you here, writing the text vectorization methods']
data2 = ['I not very glad to write this message, do you?']

In [123]:
cv = CountVectorizer(binary=True)
cv.fit(data)
print(cv.get_feature_names())
print(cv.transform(data).toarray())
print(cv.transform(data2).toarray())

['glad', 'here', 'methods', 'see', 'text', 'the', 'to', 'vectorization', 'very', 'writing', 'you']
[[1 1 1 1 1 1 1 1 1 1 1]]
[[1 0 0 0 0 0 1 0 1 0 1]]


Соответственно, доступна вся функциональность CountVectorizer.

<h4>Применение на больших текстовых данных</h4>

Рассмотрим поведение векторизации на текстовых данных(роман "Идиот" Ф.М.Достоевского). 

In [132]:
f = open('idiot.txt', 'r')
data = f.readlines()

In [149]:
%%time
cv = CountVectorizer(max_features=100)
cv.fit(data)
cv.get_feature_names()[:15]

CPU times: user 429 ms, sys: 7.15 ms, total: 437 ms
Wall time: 440 ms


['аглая',
 'без',
 'бы',
 'был',
 'была',
 'было',
 'быть',
 'вам',
 'вас',
 'вдруг',
 'ведь',
 'во',
 'вот',
 'впрочем',
 'время']

In [154]:
vect = cv.transform(data).toarray()
vect.shape

(9549, 100)

In [160]:
vect[:5]

array([[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0,
        0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0,
        1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0,
        0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1,
        0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0,
        0, 0, 0, 0, 1,

In [164]:
%%time
cv = CountVectorizer(max_features=100, binary=True)
cv.fit(data)
cv.get_feature_names()[:15]

CPU times: user 396 ms, sys: 22.2 ms, total: 418 ms
Wall time: 425 ms


['аглая',
 'без',
 'бы',
 'был',
 'была',
 'было',
 'быть',
 'вам',
 'вас',
 'вдруг',
 'ведь',
 'во',
 'вот',
 'впрочем',
 'время']

In [165]:
vect = cv.transform(data).toarray()
vect.shape

(9549, 100)

In [166]:
vect[:5]

array([[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0,
        0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0,
        1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0,
        0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 1,
        0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0,
        0, 0, 0, 0, 1,

В данном случае произведение у нас является корпусом, а параграфы в нем - документами. В коде мы составляет словарь из токенов со всего текста, а дальше векторизуем параграфы(оставляя только 100 самых приоритетных признаков). 

Таким образом, мы рассмотрели как можно осуществлять частотное и one-hot кодирование с помощью класса такого CountVectorizer библиотеки sklearn.