# 10.3 Статистики текста

С "сырым" текстом аналитику невозможно работать - нужно как-то преобразовать его в численный вид - этот процесс называется *векторизацией*.

Чтобы продемострировать, как применять векторизацию, решим задачу прогнозирования жанра фильма по его описанию.

Для начала разобъём текст на слова с помощью регулярных выражений

In [3]:
import re
import pandas as pd

text_df = pd.read_csv("./data-2/content_description.csv", sep='\t')
text_df.head()

Unnamed: 0,content,description
0,https://www.ivi.ru/watch/157318/description,"Лучший подарок, который только можно было прид..."
1,https://www.ivi.ru/watch/98336/description,Через какие трудности приходится проходить Сан...
2,https://www.ivi.ru/watch/183533/description,Миловидный Давид - позор для своего отца. Не в...
3,https://www.ivi.ru/watch/157319/description,Экранизация сатирического бестселлера Стивена ...
4,https://www.ivi.ru/watch/51342/description,«Леди удача» – авантюрная романтическая комеди...


In [None]:
corpus = []
# регулярка для поиска слов
regular_expr = r'\w+'
reg_expr_compiled = re.compile(regular_expr)

for raw_text in text_df.description.values:
    # приводим к нижнему регистру
    raw_text_lower = raw_text.lower()
    # разбиваем текст на слова
    text_by_words = reg_expr_compiled.findall(raw_text_lower) 
    corpus.append(text_by_words)
print(corpus[1])


['через', 'какие', 'трудности', 'приходится', 'проходить', 'санта', 'клаусу', 'каждый', 'год', 'чтобы', 'под', 'каждой', 'елкой', 'появился', 'тот', 'самый', 'подарок', 'расскажет', 'мульт', 'нико', '2', 'маленький', 'олененок', 'нико', 'мечтает', 'продолжить', 'дело', 'отца', 'ведь', 'его', 'папа', 'самый', 'знаменитый', 'и', 'уважаемый', 'олень', 'на', 'свете', 'о', 'его', 'работе', 'мечтает', 'каждый', 'он', 'трудится', 'в', 'упряжке', 'самого', 'санта', 'клауса', 'но', 'сам', 'нико', 'пока', 'еще', 'слишком', 'маленький', 'для', 'такого', 'тяжелого', 'и', 'ответственного', 'дела', 'так', 'что', 'пока', 'он', 'сам', 'ждет', 'санту', 'с', 'подарками', 'накануне', 'рождества', 'он', 'встречается', 'со', 'своими', 'самыми', 'близкими', 'друзьями', 'белкой', 'джулиусом', 'лаской', 'вилмой', 'и', 'сводным', 'братишкой', 'джонни', 'чтобы', 'вместе', 'встречать', 'рождество', 'и', 'не', 'пропустить', 'заветную', 'оленью', 'упряжку', 'но', 'как', 'всегда', 'в', 'пути', 'санту', 'ждут', 'нев

In [7]:
len(corpus)

8

Как видно, слова в тексте могут находиться в разных формах. Например `друзьями` и `друзьям` - это, очевидно, одно и то же слово. Чтобы учесть этот факт, приведём каждое слово к нормальной форме.

In [10]:
pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.6-py3-none-any.whl.metadata (2.4 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.6-py3-none-any.whl (53 kB)
Downloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m6.0 MB/s[0m  [33m0:00:01[0m eta [36m0:00:01[0m
[?25hInstalling collected packages: pymorphy3-dicts-ru, dawg2-python, pymorphy3
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3/3[0m [pymorphy3]/3[0m [pymorphy3]
[1A[2KSuccessfully installed dawg2-python-0.9.0 pymorphy3-2.0.6 pymorphy3-dicts-ru-2.4.417150.4580142
Note: you may need to restart the kernel to use upd

In [11]:
import pymorphy3

morph = pymorphy3.MorphAnalyzer()
normalized_corpus = []

for token_list in corpus:
    normalized_token_list = []
    for word in token_list:
        normal_form = morph.parse(word)[0].normal_form
        normalized_token_list.append(normal_form)
    normalized_corpus.append(normalized_token_list)
print(normalized_corpus[1])

['через', 'какой', 'трудность', 'приходиться', 'проходить', 'сант', 'клаус', 'каждый', 'год', 'чтобы', 'под', 'каждый', 'ёлка', 'появиться', 'тот', 'самый', 'подарок', 'рассказать', 'мульт', 'нико', '2', 'маленький', 'оленёнок', 'нико', 'мечтать', 'продолжить', 'дело', 'отец', 'ведь', 'он', 'папа', 'самый', 'знаменитый', 'и', 'уважаемый', 'олень', 'на', 'свет', 'о', 'он', 'работа', 'мечтать', 'каждый', 'он', 'трудиться', 'в', 'упряжка', 'сам', 'сант', 'клаус', 'но', 'сам', 'нико', 'пока', 'ещё', 'слишком', 'маленький', 'для', 'такой', 'тяжёлый', 'и', 'ответственный', 'дело', 'так', 'что', 'пока', 'он', 'сам', 'ждать', 'сант', 'с', 'подарок', 'накануне', 'рождество', 'он', 'встречаться', 'с', 'свой', 'самый', 'близкий', 'друг', 'белка', 'джулиус', 'ласка', 'вилма', 'и', 'сводный', 'братишка', 'джонни', 'чтобы', 'вместе', 'встречать', 'рождество', 'и', 'не', 'пропустить', 'заветный', 'олений', 'упряжка', 'но', 'как', 'всегда', 'в', 'путь', 'сант', 'ждать', 'невероятный', 'приключение', '

Итак, мы преобразовали слова в каждом доступном докумоменте к нормальной форме. Чтобы было удобнее считать статистиски, преобразуем текстовый корпус в pandas.DataFrame с колонками `doc_id | word | dummy` где столбец `dummy` - вспомогательный, он будет содержать всегда единицу

In [12]:
doc_count = len(normalized_corpus)
doc_ids = []
tokens = []

for doc_id in range(doc_count):
    for token in normalized_corpus[doc_id]:
        doc_ids.append(doc_id)
        tokens.append(token)

tokens_df = pd.DataFrame({
    'doc_id': doc_ids,
    'word': tokens
})

tokens_df = tokens_df.assign(dummy = 1)

tokens_df.head()

Unnamed: 0,doc_id,word,dummy
0,0,хороший,1
1,0,подарок,1
2,0,который,1
3,0,только,1
4,0,можно,1


In [14]:
tokens_df.shape

(1088, 3)

Пользуясь этой таблицей, можно считать по тексту разнообразные статистики. Например, вычислим top-5 самых употребляемых слов в документа `doc_id==0`

In [15]:
word_count_df = tokens_df.groupby(['doc_id','word'])['dummy'].count().reset_index()

word_count_df[word_count_df.doc_id==0].sort_values(by='dummy', ascending=False).head(10)

Unnamed: 0,doc_id,word,dummy
6,0,в,10
29,0,и,7
37,0,который,5
111,0,шерлок,4
77,0,с,4
84,0,сериал,4
75,0,риколетти,3
31,0,история,2
21,0,для,2
49,0,о,2


По часто встречаемым словам видно, что это Сериал про Шерлока Холмса