In [1]:
# возьмём исходный текст для анализа
corpus = 'When we were in Paris we visited a lot of museums. We first went to the Louvre, the largest art museum in the world. I have always been interested in art so I spent many hours there. The museum is enourmous, so a week there would not be enough.'


In [2]:
# импортируем основную библиотеку для работы с текстом
import nltk

import pandas as pd
import numpy as np

Предварительная обработка текста

Шаг 1. Разделение на предложения

In [3]:
# импортируем метод sent_tokenize
from nltk.tokenize import sent_tokenize

# скачиваем модель которая будет делить на предложения
nltk.download('punkt')
print('')

# и применяем метод к нашему тексту
sentences = sent_tokenize(corpus)
sentences




[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['When we were in Paris we visited a lot of museums.',
 'We first went to the Louvre, the largest art museum in the world.',
 'I have always been interested in art so I spent many hours there.',
 'The museum is enourmous, so a week there would not be enough.']

Шаг 2. Разделение на слова

In [4]:
# импортируем метод word_tokenize
from nltk.tokenize import word_tokenize

# разобъем на слова первое предложение
print(word_tokenize(sentences[0]))

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.']


In [5]:
# теперь проделаем это со всеми предложениями

tokens = []

for sentence in sentences:
    t = word_tokenize(sentence)
    tokens.extend(t)
print(tokens)

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.', 'We', 'first', 'went', 'to', 'the', 'Louvre', ',', 'the', 'largest', 'art', 'museum', 'in', 'the', 'world', '.', 'I', 'have', 'always', 'been', 'interested', 'in', 'art', 'so', 'I', 'spent', 'many', 'hours', 'there', '.', 'The', 'museum', 'is', 'enourmous', ',', 'so', 'a', 'week', 'there', 'would', 'not', 'be', 'enough', '.']


Шаг 3. Перевод в нижний регистр, удаление стоп-слов и знаков пунктуации

In [6]:
# импортируем модуль стоп-слов
from nltk.corpus import stopwords

# скачаем словарь стоп слов
nltk.download('stopwords')
print('')

# используем set, чтобы оставить только уникальные значения
unique_stops = set(stopwords.words('english'))

# создаем пустой список без стоп-слов
no_stops = []

for token in tokens:
    token = token.lower()
    # если токен не в списке стоп-слов и не является знаком пунктуации
    if token not in unique_stops and token.isalpha():
        no_stops.append(token)
print(no_stops)


['paris', 'visited', 'lot', 'museums', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hours', 'museum', 'enourmous', 'week', 'would', 'enough']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


__Лемматизация__


In [7]:
# импортируем класс дл лемматизации
from nltk.stem import WordNetLemmatizer 

# импортируем словарь
nltk.download('wordnet')

# создаем объект этого класса
lemmatizer = WordNetLemmatizer()

# и пустой список для слов после лемматизации
lemmatized = []

# проходимся по всем токенам
for token in no_stops:
    token = lemmatizer.lemmatize(token)
    lemmatized.append(token)
print(lemmatized)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


['paris', 'visited', 'lot', 'museum', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hour', 'museum', 'enourmous', 'week', 'would', 'enough']


__Стемминг (поиск основы слова)__


In [8]:
# импортируем класс стеммера Porter и создаём объект этого класса
from nltk.stem import PorterStemmer
porter = PorterStemmer()

# используем list comprehension вместо цикла for для стемминга и создание нового списка
stemmed_p = [porter.stem(s) for s in lemmatized]
print(stemmed_p)

['pari', 'visit', 'lot', 'museum', 'first', 'went', 'louvr', 'largest', 'art', 'museum', 'world', 'alway', 'interest', 'art', 'spent', 'mani', 'hour', 'museum', 'enourm', 'week', 'would', 'enough']


In [9]:
# аналогично импортируем класс Lancaster и создаем объект этого класса
from nltk.stem import LancasterStemmer
lancaster = LancasterStemmer()

# так же используем list comprehension вместо цикла for для стемминга и создание нового списка
stemmed_l = [lancaster.stem(s) for s in lemmatized]
print(stemmed_l)

['par', 'visit', 'lot', 'muse', 'first', 'went', 'louvr', 'largest', 'art', 'muse', 'world', 'alway', 'interest', 'art', 'spent', 'many', 'hour', 'muse', 'enourm', 'week', 'would', 'enough']


__Мешок слов (bag of words, bow)__


С помощью Counter

In [10]:
# из модуля collections импортируем класс Counter
from collections import Counter

# применяем класс Counter к словам после лемматизации
# на выходе нам возвращается словарь {слово: его частота в тексте}
bow_counter = Counter(lemmatized)

# функция most_common() упорядочивает словарь по значению
print(bow_counter.most_common(10))

[('museum', 3), ('art', 2), ('paris', 1), ('visited', 1), ('lot', 1), ('first', 1), ('went', 1), ('louvre', 1), ('largest', 1), ('world', 1)]


С помощью CountVectorizer

In [11]:
# импортируем соответствующий класс
from sklearn.feature_extraction.text import CountVectorizer

# создаем объект этого класса и указываем, что хотим перевести слова в нижний регистр
# а также отфильтровать стоп слова через stop_words = {'english'}
vectorizer = CountVectorizer(analyzer = 'word',
                             lowercase = True,
                             tokenizer = None,
                             stop_words = 'english',
                             max_features = 5000)

In [12]:
# Применяем этот объект к предложениям (документам)
bow_cv = vectorizer.fit_transform(sentences)

# на выходе получается матрица csr
print(type(bow_cv))

<class 'scipy.sparse._csr.csr_matrix'>


In [13]:
# преобразуем матрицу csr в привычный формат массива Numpy
# для этого можно использовать toarray () или todense()

print(bow_cv.toarray())

[[0 0 0 0 0 1 0 0 1 1 0 1 0 0 0]
 [1 0 0 0 1 0 1 1 0 0 0 0 0 1 1]
 [1 0 1 1 0 0 0 0 0 0 1 0 0 0 0]
 [0 1 0 0 0 0 0 1 0 0 0 0 1 0 0]]


In [14]:
# строки это предложения (документы), столбцы - слова (токены)
bow_cv.shape

(4, 15)

In [16]:
# посмотрим на используемые токены (слова)
# здесь числа не частотность, а просто порядковый номер (индекс)

vocab = vectorizer.vocabulary_
print(vocab)

# можно вывести слова без индекса
tokens = vectorizer.get_feature_names_out()
print(tokens)

{'paris': 9, 'visited': 11, 'lot': 5, 'museums': 8, 'went': 13, 'louvre': 6, 'largest': 4, 'art': 0, 'museum': 7, 'world': 14, 'interested': 3, 'spent': 10, 'hours': 2, 'enourmous': 1, 'week': 12}
['art' 'enourmous' 'hours' 'interested' 'largest' 'lot' 'louvre' 'museum'
 'museums' 'paris' 'spent' 'visited' 'week' 'went' 'world']


In [18]:
# для удобства визуализации преобразуем матрицу в дата фрейм

index_list = []
for i, _ in enumerate(bow_cv):
    index_list.append(f'Sentence_{i}')

bow_cv_df = pd.DataFrame(data = bow_cv.toarray(),
                         index = index_list,
                         columns = tokens)
bow_cv_df


Unnamed: 0,art,enourmous,hours,interested,largest,lot,louvre,museum,museums,paris,spent,visited,week,went,world
Sentence_0,0,0,0,0,0,1,0,0,1,1,0,1,0,0,0
Sentence_1,1,0,0,0,1,0,1,1,0,0,0,0,0,1,1
Sentence_2,1,0,1,1,0,0,0,0,0,0,1,0,0,0,0
Sentence_3,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0


__TF-IDF__

Способ 1. CountVectorizer + TfidfTransformer

1) Расчет TF, term frequency, частоты слов

In [19]:
# этот шаг мы уже сделали
bow_cv 

<4x15 sparse matrix of type '<class 'numpy.int64'>'
	with 17 stored elements in Compressed Sparse Row format>

2) Теперь нужно расчитать IDF

In [21]:
# Импортируем TfidfTransformer 
from sklearn.feature_extraction.text import TfidfTransformer

# создадим объект класса TfidfTransformer 
tfidf_trans = TfidfTransformer(smooth_idf = True, use_idf = True)

# расчитаем IDF слов
tfidf_trans.fit(bow_cv) 

# поместим результат в датафрейм
df_idf = pd.DataFrame(tfidf_trans.idf_, index = tokens, columns = ['idf_weights'])
df_idf.T

Unnamed: 0,art,enourmous,hours,interested,largest,lot,louvre,museum,museums,paris,spent,visited,week,went,world
idf_weights,1.510826,1.916291,1.916291,1.916291,1.916291,1.916291,1.916291,1.510826,1.916291,1.916291,1.916291,1.916291,1.916291,1.916291,1.916291


3) Остаётся TF x IDF 

In [22]:
# расчитаем TF x IDF
tf_idf_vector = tfidf_trans.transform(bow_cv) 
tf_idf_vector

<4x15 sparse matrix of type '<class 'numpy.float64'>'
	with 17 stored elements in Compressed Sparse Row format>