Модель «мешок слов» (BoW) в НЛП

Давайте возьмем этот пример абзаца для нашей задачи:

Фасоль. Я пытался объяснить кому-то, когда мы летели, что это кукуруза. Это фасоль. И они были очень впечатлены моими сельскохозяйственными познаниями. Пожалуйста, еще раз поаплодируйте Амори за это выдающееся представление. У меня здесь сегодня много хороших друзей, включая того, с кем я служил, кто является одним из лучших сенаторов в стране, и нам повезло, что он, ваш сенатор Дик Дурбин, здесь. Кстати, я также заметил бывшего губернатора Эдгара, которого я давно не видел, и каким-то образом он не постарел, а я постарел. И здорово видеть вас, губернатор. Я хочу поблагодарить президента Киллина и всех в системе университета Иллинойса за то, что вы сделали возможным мое присутствие здесь сегодня. И я глубоко польщен премией Пола Дугласа, которая мне вручается. Он тот, кто проложил путь к столь выдающейся государственной службе здесь, в Иллинойсе. Теперь я хочу начать с обращения к слону в комнате. Я знаю, что люди до сих пор задаются вопросом, почему я не выступил на церемонии вручения дипломов.

Шаг №1: Сначала мы выполним предварительную обработку данных, чтобы:

- Преобразовать текст в нижний регистр.
- Удалите все несловесные символы.
- Удалите все знаки препинания.

In [None]:
import nltk 
import re 
import numpy as np 

nltk.download('all')

# execute the text here as : 
text = "Фасоль. Я пытался объяснить кому-то, когда мы летели, что это кукуруза. Это фасоль. И они были очень впечатлены моими сельскохозяйственными познаниями. Пожалуйста, еще раз поаплодируйте Амори за это выдающееся представление. У меня здесь сегодня много хороших друзей, включая того, с кем я служил, кто является одним из лучших сенаторов в стране, и нам повезло, что он, ваш сенатор Дик Дурбин, здесь. Кстати, я также заметил бывшего губернатора Эдгара, которого я давно не видел, и каким-то образом он не постарел, а я постарел. И здорово видеть вас, губернатор. Я хочу поблагодарить президента Киллина и всех в системе университета Иллинойса за то, что вы сделали возможным мое присутствие здесь сегодня. И я глубоко польщен премией Пола Дугласа, которая мне вручается. Он тот, кто проложил путь к столь выдающейся государственной службе здесь, в Иллинойсе. Теперь я хочу начать с обращения к слону в комнате. Я знаю, что люди до сих пор задаются вопросом, почему я не выступил на церемонии вручения дипломов." 
dataset = nltk.sent_tokenize(text, language='russian') 
for i in range(len(dataset)): 
    dataset[i] = dataset[i].lower() 
    dataset[i] = re.sub(r'\W', ' ', dataset[i]) 
    dataset[i] = re.sub(r'\s+', ' ', dataset[i]) 

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\abc.zip.
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping corpora\alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping taggers\averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers\averaged_perceptron_tagger_eng.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\Ivan\AppData\Roaming\nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers\av

Шаг №2: Получение наиболее часто встречающихся слов в тексте.

Для создания нашей модели мы применим следующие шаги.

- Мы объявляем словарь хранителем наших слов.
- Далее мы разбиваем каждое предложение на слова.
- Теперь для каждого слова в предложении мы проверяем, существует ли это слово в нашем словаре.
- Если это так, то мы увеличиваем его счетчик на 1. Если нет, то мы добавляем его в наш словарь и устанавливаем его счетчик равным 1.

In [None]:
# Creating the Bag of Words model 
word2count = {} 
for data in dataset: 
	words = nltk.word_tokenize(data) 
	for word in words: 
		if word not in word2count.keys(): 
			word2count[word] = 1
		else: 
			word2count[word] += 1

В нашей модели всего 118 слов. Однако при обработке больших текстов количество слов может достигать миллионов. Нам не нужно использовать все эти слова. Поэтому мы выбираем определенное количество наиболее часто используемых слов. Для реализации этого мы используем:

In [None]:
import heapq 
freq_words = heapq.nlargest(100, word2count, key=word2count.get)

где 100 обозначает количество слов, которое мы хотим. Если наш текст большой, мы вводим большее число.

Шаг №3: Создание модели «мешка слов»

На этом шаге мы строим вектор, который скажет нам, является ли слово в каждом предложении частым словом или нет. Если слово в предложении является частым словом, мы устанавливаем его как 1, в противном случае мы устанавливаем его как 0.

In [None]:
X = [] 
for data in dataset: 
	vector = [] 
	for word in freq_words: 
		if word in nltk.word_tokenize(data): 
			vector.append(1) 
		else: 
			vector.append(0) 
	X.append(vector) 
X = np.asarray(X) 
