# Создание мешка слов

*В этом блоке описывается создание мешка слов и поиск стоп-слова (англ. stopwords).*

*Для начала прочтем корпус текстов из файла "tweets_lemm.csv".*
*Этот файл содержит — 5000 записей.* 
*Каждая запись содержит текст поста,лемматизированный текс и оценку его тональности. Если пост позитивный, то метка «1», если негативный — «0».*

In [4]:
import pandas as pd

In [7]:
data = pd.read_csv("tweets_lemm.csv")
corpus = list(data['lemm_text'])

*В качестве примера данных возьмём корпус про Греку:*

In [15]:
corpus = [
    'ехать Гpека чеpез pека',
    'видеть Гpека в pека pак', 
    'сунуть Гpека pука в pека',
    'pак за pука Гpека цап'
] 

*Чтобы преобразовать корпус текстов в мешок слов, обратимся к классу **CountVectorizer()** (англ. count vectorizer, «счётчик слов для создания векторов»).*

*Он находится в модуле **sklearn.feature_extraction.text** (англ. «построение признаков текста»).*

*Импортируем его:*

In [16]:
from sklearn.feature_extraction.text import CountVectorizer 

*Создадим счётчик:*

In [17]:
count_vect = CountVectorizer()

*Передадим счётчику корпус текстов.*
*Для этого вызовем знакомую вам функцию **fit_transform()**.*
*Счётчик выделит из корпуса уникальные слова и посчитает количество их вхождений в каждом тексте корпуса.*
*Отдельные буквы счётчик как слова не учитывает.*

In [18]:
# bow, от англ. bag of words
bow = count_vect.fit_transform(corpus)

*Метод вернёт матрицу, в которой одна строка — это текст, а столбец — уникальное слово из всего корпуса.*
*Число на их пересечении покажет, сколько раз в тексте встречалось нужное слово.*

*Создадим для него мешок слов. Чтобы получить размер матрицы, посмотрим атрибут **shape**:*

In [19]:
bow.shape 

(4, 10)

*Всё верно, у нас 4 текста и 10 уникальных слов (предлог «в» не учитывается).*

*Представим мешок слов в виде матрицы:*

In [20]:
print(bow.toarray())

[[0 1 0 0 1 1 0 0 0 1]
 [1 1 0 1 1 0 0 0 0 0]
 [0 1 1 0 1 0 0 1 0 0]
 [1 0 1 0 1 0 1 0 1 0]]


*Список уникальных слов в мешке образует словарь.* 
*Он хранится в счётчике и вызывается методом **get_feature_names()** (англ. «получить имена признаков»):*

In [21]:
count_vect.get_feature_names()

['pак',
 'pека',
 'pука',
 'видеть',
 'гpека',
 'ехать',
 'за',
 'сунуть',
 'цап',
 'чеpез']

**_CountVectorizer()_** *также нужен для расчёта N-грамм.*
*Чтобы он считал словосочетания, укажем размер N-граммы через аргумент ngram_range (англ. «диапазон N-грамм»).*
*Например, если мы ищем словосочетания по два слова в фразе, то диапазон зададим такой:*

In [22]:
count_vect = CountVectorizer(ngram_range=(2, 2))

*Со словосочетаниями счётчик работает так же, как и со словами.*

*У больших корпусов и мешки слов выходят большие, но часть слов в них может быть бессмысленной. Например, что можно сказать о тексте по местоимениям, союзам и предлогам? Чаще всего от них можно избавиться, причём тема текста и смысл предложения не изменятся. Когда мешок слов меньше и чище, проще найти слова, важные для классификации текстов.*

*Чтобы почистить мешок слов, найдём стоп-слова, то есть слова без смысловой нагрузки. Их много, и для каждого языка — свои.*

*Разберём пакет stopwords, который находится в модуле **nltk.corpus** библиотеки **nltk** (англ. Natural Language Toolkit, «инструментарий естественного языка»):*

In [23]:
from nltk.corpus import stopwords

*Чтобы пакет заработал, загрузим список стоп-слов:*

In [24]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\iakulov\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

*Вызовем функцию **stopwords.words()**, передадим ей аргумент **'russian'**, то есть русскоязычные стоп-слова:*

In [25]:
stop_words = set(stopwords.words('russian'))

*При создании счётчика передадим список стоп-слов в счётчик векторов CountVectorizer():*

In [26]:
count_vect = CountVectorizer(stop_words=stop_words) 

*Проверим удаление стоп-слов на изначальном корпусе:*

In [33]:
bow = count_vect.fit_transform(corpus)
bow.shape

(4, 9)

In [34]:
count_vect.get_feature_names()

['pак', 'pека', 'pука', 'видеть', 'гpека', 'ехать', 'сунуть', 'цап', 'чеpез']

*Как видим был удален предлог 'за'*