#### TF-IDF - Если слово часто встречается во всех документах (это в первую очередь касается предлогов, союзов и других стоп-слов), то вряд ли эти слова имеют большое значение. И наоборот, если слово встречаться только в одном документе, вероятно оно в большей степени определяет его содержание.

#### Word2vec - Программа для анализа текста. Используется для анализа семантики естественных языков, основанный на дистрибутивной семантике, машинном обучении и векторном представлении слов.

#### Bert - это метод машинного обучения на основе трансформера для предварительной подготовки к обработке естественного языка (NLP), разработанный Google. 

In [49]:
# импортируем метод word_tokenize - Токенизаторы делят строки на списки подстроек
from nltk.tokenize import word_tokenize
tokens = []
# в цикле for пройдемся по каждому предложению
for sentence in sentences:
 
    # создадим списки из токенов
    t = word_tokenize(sentence)
 
    # и присоединим списки друг к другу
    tokens.extend(t)
 
print(tokens)

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.', 'We', 'first', 'went', 'to', 'the', 'Louvre', ',', 'the', 'largest', 'art', 'museum', 'in', 'the', 'world', '.', 'I', 'have', 'always', 'been', 'interested', 'in', 'art', 'so', 'I', 'spent', 'many', 'hours', 'there', '.', 'The', 'museum', 'is', 'enourmous', ',', 'so', 'a', 'week', 'there', 'would', 'not', 'be', 'enough', '.']


In [48]:
# исходный текст для анализа
corpus = 'When we were in Paris we visited a lot of museums. We first went to the Louvre, the largest art museum in the world. I have always been interested in art so I spent many hours there. The museum is enourmous, so a week there would not be enough.'
import nltk
import pandas as pd
import numpy as np
# импортируем метод sent_tokenize - используется для разделения строки или абзаца на предложения
from nltk.tokenize import sent_tokenize
# модель, которая будет делить на предложения
nltk.download('punkt')
# применяем метод к тексту
sentences = sent_tokenize(corpus)
sentences

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\elena\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['When we were in Paris we visited a lot of museums.',
 'We first went to the Louvre, the largest art museum in the world.',
 'I have always been interested in art so I spent many hours there.',
 'The museum is enourmous, so a week there would not be enough.']

In [50]:
# импортируем модуль стоп-слов
from nltk.corpus import stopwords
 
# скачаем словарь стоп-слов
nltk.download('stopwords')
 
# используем set, чтобы оставить только уникальные значения
unique_stops = set(stopwords.words('english'))
 
# создаём пустой список без стоп-слов
no_stops = []
 
# проходимся по всем токенам
for token in tokens:
 
    # переводим все слова в нижний регистр
    token = token.lower()
 
    # если токен не в списке стоп-слов и не является знаком пунктуации
    if token not in unique_stops and token.isalpha():
 
        # добавляем его в список
        no_stops.append(token)
 
print(no_stops)

['paris', 'visited', 'lot', 'museums', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hours', 'museum', 'enourmous', 'week', 'would', 'enough']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\elena\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [51]:
# импортируем класс для лемматизации
from nltk.stem import WordNetLemmatizer
 
# импортируем словарь
nltk.download('omw-1.4')

# создаём объект этого класса
lemmatizer = WordNetLemmatizer()
 
# и пустой список для слов после лемматизации
lemmatized = []
 
# проходимся по всем токенам
for token in no_stops:
 
    # применяем лемматизацию
    token = lemmatizer.lemmatize(token)
 
    # добавляем слово после лемматизации в список
    lemmatized.append(token)
    
print(lemmatized)

['paris', 'visited', 'lot', 'museum', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hour', 'museum', 'enourmous', 'week', 'would', 'enough']


[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\elena\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [52]:
# импортируем класс стеммера Porter и создаём объект этого класса
from nltk.stem import PorterStemmer
porter = PorterStemmer()
 
# используем list comprehension вместо цикла for для стемминга и создания нового списка
# такая запись намного короче
stemmed_p = [porter.stem(s) for s in lemmatized]
print(stemmed_p)

['pari', 'visit', 'lot', 'museum', 'first', 'went', 'louvr', 'largest', 'art', 'museum', 'world', 'alway', 'interest', 'art', 'spent', 'mani', 'hour', 'museum', 'enourm', 'week', 'would', 'enough']


In [53]:
# аналогично импортируем класс Lancaster и создаём объект этого класса
from nltk.stem import LancasterStemmer
lancaster = LancasterStemmer()
 
# также используем list_comprehension
stemmed_l = [lancaster.stem(s) for s in lemmatized]
print(stemmed_l)

['par', 'visit', 'lot', 'muse', 'first', 'went', 'louvr', 'largest', 'art', 'muse', 'world', 'alway', 'interest', 'art', 'spent', 'many', 'hour', 'muse', 'enourm', 'week', 'would', 'enough']


In [54]:
# из модуля collections импортируем класс Counter
from collections import Counter
 
# применяем класс Counter к словам после лемматизации
# на выходе нам возвращается словарь { слово : его частота в тексте }
bow_counter = Counter(lemmatized)
# print(bow_counter)
 
# функция most_common() упорядочивает словарь по значению
# посмотрим на первые 10 наиболее частотных слов
print(bow_counter.most_common(10))

[('museum', 3), ('art', 2), ('paris', 1), ('visited', 1), ('lot', 1), ('first', 1), ('went', 1), ('louvre', 1), ('largest', 1), ('world', 1)]


In [55]:
# импортируем класс CountVectorizer из библиотеки Scikit-learn
from sklearn.feature_extraction.text import CountVectorizer
 
# создаём объект этого класса и
# указываем, что хотим перевести слова в нижний регистр, а также
# отфильтровать стоп-слова через stop_words = {'english'}
vectorizer = CountVectorizer(analyzer = "word", 
                             lowercase = True, 
                             tokenizer = None, 
                             preprocessor = None, 
                             stop_words = {'english'}, 
                             max_features = 5000)

In [56]:
# применяем этот объект к предложениям 
bow_cv = vectorizer.fit_transform(sentences)
 
# на выходе получается матрица csr
print(type(bow_cv))


<class 'scipy.sparse.csr.csr_matrix'>


In [57]:
# для этого можно использовать .toarray()
print(bow_cv.toarray())

[[0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 0 0 0 0 1 2 0 0 1 1 0 0]
 [0 1 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 3 0 1 0 1 0 1 0 0 1 0]
 [1 1 0 1 0 0 0 1 1 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 1 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 1 1 0 0 0 1 0 0 0 0 1]]


In [58]:
bow_cv.shape

(4, 34)

In [59]:
tokens = vectorizer.get_feature_names_out()
tokens

array(['always', 'art', 'be', 'been', 'enough', 'enourmous', 'first',
       'have', 'hours', 'in', 'interested', 'is', 'largest', 'lot',
       'louvre', 'many', 'museum', 'museums', 'not', 'of', 'paris', 'so',
       'spent', 'the', 'there', 'to', 'visited', 'we', 'week', 'went',
       'were', 'when', 'world', 'would'], dtype=object)

In [65]:
# вначале создадим индекс предложений
index_list = []
 
# в цикле пройдемся по элементам матрицы, обозначим их через '_'
# функция enumerate задаст каждому элементу индекс, начиная с 0
for i, _ in enumerate(bow_cv):
 
    # прибавим наш индекс к слову Sentence 
    index_list.append(f'Sentence_{i}')
 
bow_cv_df = pd.DataFrame(data = bow_cv.toarray(), 
                         index = index_list, 
                         columns = tokens)
bow_cv_df

Unnamed: 0,always,art,be,been,enough,enourmous,first,have,hours,in,...,there,to,visited,we,week,went,were,when,world,would
Sentence_0,0,0,0,0,0,0,0,0,0,1,...,0,0,1,2,0,0,1,1,0,0
Sentence_1,0,1,0,0,0,0,1,0,0,1,...,0,1,0,1,0,1,0,0,1,0
Sentence_2,1,1,0,1,0,0,0,1,1,1,...,1,0,0,0,0,0,0,0,0,0
Sentence_3,0,0,1,0,1,1,0,0,0,0,...,1,0,0,0,1,0,0,0,0,1


In [61]:
bow_cv

<4x34 sparse matrix of type '<class 'numpy.int64'>'
	with 42 stored elements in Compressed Sparse Row format>

In [62]:
# импортируем TfidfTransformer (CountVectorizer уже импортирован)
from sklearn.feature_extraction.text import TfidfTransformer
 
# создадим объект класса TfidfTransformer
tfidf_trans = TfidfTransformer(smooth_idf = True, use_idf = True)
 
# и рассчитаем IDF слов
tfidf_trans.fit(bow_cv)
 
# поместим результат в датафрейм
df_idf = pd.DataFrame(tfidf_trans.idf_, index = tokens, columns = ["idf_weights"])

# рассчитаем TF-IDF (по сути умножим TF на IDF)
tf_idf_vector = tfidf_trans.transform(bow_cv)
tf_idf_vector

<4x34 sparse matrix of type '<class 'numpy.float64'>'
	with 42 stored elements in Compressed Sparse Row format>

In [63]:
# для этого переведем матрицу csr в обычный массив Numpy
df_tfidf = pd.DataFrame(tf_idf_vector.toarray(), columns = vectorizer.get_feature_names_out())
 
# и траспонируем его (запишем столбцы в виде строк) 
print(df_tfidf.T)

                   0         1         2         3
always      0.000000  0.000000  0.328404  0.000000
art         0.000000  0.211724  0.258918  0.000000
be          0.000000  0.000000  0.000000  0.324676
been        0.000000  0.000000  0.328404  0.000000
enough      0.000000  0.000000  0.000000  0.324676
enourmous   0.000000  0.000000  0.000000  0.324676
first       0.000000  0.268544  0.000000  0.000000
have        0.000000  0.000000  0.328404  0.000000
hours       0.000000  0.000000  0.328404  0.000000
in          0.202925  0.171408  0.209616  0.000000
interested  0.000000  0.000000  0.328404  0.000000
is          0.000000  0.000000  0.000000  0.324676
largest     0.000000  0.268544  0.000000  0.000000
lot         0.317921  0.000000  0.000000  0.000000
louvre      0.000000  0.268544  0.000000  0.000000
many        0.000000  0.000000  0.328404  0.000000
museum      0.000000  0.211724  0.000000  0.255978
museums     0.317921  0.000000  0.000000  0.000000
not         0.000000  0.000000 

In [64]:
df_tfidf.T.shape

(34, 4)