In [1]:
# возьмём исходный текст для анализа
corpus = 'When we were in Paris we visited a lot of museums. We first went to the Louvre, the largest art museum in the world. I have always been interested in art so I spent many hours there. The museum is enourmous, so a week there would not be enough.'


In [2]:
# импортируем основную библиотеку для работы с текстом
import nltk

import pandas as pd
import numpy as np

Предварительная обработка текста

Шаг 1. Разделение на предложения

In [3]:
# импортируем метод sent_tokenize
from nltk.tokenize import sent_tokenize

# скачиваем модель которая будет делить на предложения
nltk.download('punkt')
print('')

# и применяем метод к нашему тексту
sentences = sent_tokenize(corpus)
sentences




[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['When we were in Paris we visited a lot of museums.',
 'We first went to the Louvre, the largest art museum in the world.',
 'I have always been interested in art so I spent many hours there.',
 'The museum is enourmous, so a week there would not be enough.']

Шаг 2. Разделение на слова

In [4]:
# импортируем метод word_tokenize
from nltk.tokenize import word_tokenize

# разобъем на слова первое предложение
print(word_tokenize(sentences[0]))

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.']


In [5]:
# теперь проделаем это со всеми предложениями

tokens = []

for sentence in sentences:
    t = word_tokenize(sentence)
    tokens.extend(t)
print(tokens)

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.', 'We', 'first', 'went', 'to', 'the', 'Louvre', ',', 'the', 'largest', 'art', 'museum', 'in', 'the', 'world', '.', 'I', 'have', 'always', 'been', 'interested', 'in', 'art', 'so', 'I', 'spent', 'many', 'hours', 'there', '.', 'The', 'museum', 'is', 'enourmous', ',', 'so', 'a', 'week', 'there', 'would', 'not', 'be', 'enough', '.']


Шаг 3. Перевод в нижний регистр, удаление стоп-слов и знаков пунктуации

In [6]:
# импортируем модуль стоп-слов
from nltk.corpus import stopwords

# скачаем словарь стоп слов
nltk.download('stopwords')
print('')

# используем set, чтобы оставить только уникальные значения
unique_stops = set(stopwords.words('english'))

# создаем пустой список без стоп-слов
no_stops = []

for token in tokens:
    token = token.lower()
    # если токен не в списке стоп-слов и не является знаком пунктуации
    if token not in unique_stops and token.isalpha():
        no_stops.append(token)
print(no_stops)


['paris', 'visited', 'lot', 'museums', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hours', 'museum', 'enourmous', 'week', 'would', 'enough']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


__Лемматизация__


In [7]:
# импортируем класс дл лемматизации
from nltk.stem import WordNetLemmatizer 

# импортируем словарь
nltk.download('wordnet')

# создаем объект этого класса
lemmatizer = WordNetLemmatizer()

# и пустой список для слов после лемматизации
lemmatized = []

# проходимся по всем токенам
for token in no_stops:
    token = lemmatizer.lemmatize(token)
    lemmatized.append(token)
print(lemmatized)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\GIGABYTE\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


['paris', 'visited', 'lot', 'museum', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hour', 'museum', 'enourmous', 'week', 'would', 'enough']


__Стемминг (поиск основы слова)__


In [8]:
# импортируем класс стеммера Porter и создаём объект этого класса
from nltk.stem import PorterStemmer
porter = PorterStemmer()

# используем list comprehension вместо цикла for для стемминга и создание нового списка
stemmed_p = [porter.stem(s) for s in lemmatized]
print(stemmed_p)

['pari', 'visit', 'lot', 'museum', 'first', 'went', 'louvr', 'largest', 'art', 'museum', 'world', 'alway', 'interest', 'art', 'spent', 'mani', 'hour', 'museum', 'enourm', 'week', 'would', 'enough']


In [9]:
# аналогично импортируем класс Lancaster и создаем объект этого класса
from nltk.stem import LancasterStemmer
lancaster = LancasterStemmer()

# так же используем list comprehension вместо цикла for для стемминга и создание нового списка
stemmed_l = [lancaster.stem(s) for s in lemmatized]
print(stemmed_l)

['par', 'visit', 'lot', 'muse', 'first', 'went', 'louvr', 'largest', 'art', 'muse', 'world', 'alway', 'interest', 'art', 'spent', 'many', 'hour', 'muse', 'enourm', 'week', 'would', 'enough']


__Мешок слов (bag of words, bow)__


С помощью Counter

In [10]:
# из модуля collections импортируем класс Counter
from collections import Counter

# применяем класс Counter к словам после лемматизации
# на выходе нам возвращается словарь {слово: его частота в тексте}
bow_counter = Counter(lemmatized)

# функция most_common() упорядочивает словарь по значению
print(bow_counter.most_common(10))

[('museum', 3), ('art', 2), ('paris', 1), ('visited', 1), ('lot', 1), ('first', 1), ('went', 1), ('louvre', 1), ('largest', 1), ('world', 1)]


С помощью CountVectorizer

In [11]:
# импортируем соответствующий класс
from sklearn.feature_extraction.text import CountVectorizer

# создаем объект этого класса и указываем, что хотим перевести слова в нижний регистр
# а также отфильтровать стоп слова через stop_words = {'english'}
vectorizer = CountVectorizer(analyzer = 'word',
                             lowercase = True,
                             tokenizer = None,
                             stop_words = 'english',
                             max_features = 5000)

In [12]:
# Применяем этот объект к предложениям (документам)
bow_cv = vectorizer.fit_transform(sentences)

# на выходе получается матрица csr
print(type(bow_cv))

<class 'scipy.sparse._csr.csr_matrix'>


In [13]:
# преобразуем матрицу csr в привычный формат массива Numpy
# для этого можно использовать toarray () или todense()

print(bow_cv.toarray())

[[0 0 0 0 0 1 0 0 1 1 0 1 0 0 0]
 [1 0 0 0 1 0 1 1 0 0 0 0 0 1 1]
 [1 0 1 1 0 0 0 0 0 0 1 0 0 0 0]
 [0 1 0 0 0 0 0 1 0 0 0 0 1 0 0]]


In [14]:
# строки это предложения (документы), столбцы - слова (токены)
bow_cv.shape

(4, 15)

In [15]:
# посмотрим на используемые токены (слова)
# здесь числа не частотность, а просто порядковый номер (индекс)

vocab = vectorizer.vocabulary_
print(vocab)

# можно вывести слова без индекса
tokens = vectorizer.get_feature_names_out()
print(tokens)

{'paris': 9, 'visited': 11, 'lot': 5, 'museums': 8, 'went': 13, 'louvre': 6, 'largest': 4, 'art': 0, 'museum': 7, 'world': 14, 'interested': 3, 'spent': 10, 'hours': 2, 'enourmous': 1, 'week': 12}
['art' 'enourmous' 'hours' 'interested' 'largest' 'lot' 'louvre' 'museum'
 'museums' 'paris' 'spent' 'visited' 'week' 'went' 'world']


In [16]:
# для удобства визуализации преобразуем матрицу в дата фрейм

index_list = []
for i, _ in enumerate(bow_cv):
    index_list.append(f'Sentence_{i}')

bow_cv_df = pd.DataFrame(data = bow_cv.toarray(),
                         index = index_list,
                         columns = tokens)
bow_cv_df


Unnamed: 0,art,enourmous,hours,interested,largest,lot,louvre,museum,museums,paris,spent,visited,week,went,world
Sentence_0,0,0,0,0,0,1,0,0,1,1,0,1,0,0,0
Sentence_1,1,0,0,0,1,0,1,1,0,0,0,0,0,1,1
Sentence_2,1,0,1,1,0,0,0,0,0,0,1,0,0,0,0
Sentence_3,0,1,0,0,0,0,0,1,0,0,0,0,1,0,0


__TF-IDF__

Способ 1. CountVectorizer + TfidfTransformer

1) Расчет TF, term frequency, частоты слов

In [17]:
# этот шаг мы уже сделали
bow_cv 

<4x15 sparse matrix of type '<class 'numpy.int64'>'
	with 17 stored elements in Compressed Sparse Row format>

2) Теперь нужно расчитать IDF

In [18]:
# Импортируем TfidfTransformer 
from sklearn.feature_extraction.text import TfidfTransformer

# создадим объект класса TfidfTransformer 
tfidf_trans = TfidfTransformer(smooth_idf = True, use_idf = True)

# расчитаем IDF слов
tfidf_trans.fit(bow_cv) 

# поместим результат в датафрейм
df_idf = pd.DataFrame(tfidf_trans.idf_, index = tokens, columns = ['idf_weights'])
df_idf.T

Unnamed: 0,art,enourmous,hours,interested,largest,lot,louvre,museum,museums,paris,spent,visited,week,went,world
idf_weights,1.510826,1.916291,1.916291,1.916291,1.916291,1.916291,1.916291,1.510826,1.916291,1.916291,1.916291,1.916291,1.916291,1.916291,1.916291


3) Остаётся TF x IDF 

In [19]:
# расчитаем TF x IDF
tf_idf_vector = tfidf_trans.transform(bow_cv) 
tf_idf_vector

<4x15 sparse matrix of type '<class 'numpy.float64'>'
	with 17 stored elements in Compressed Sparse Row format>

In [20]:
# теперь мы можем посмотреть на показатель TF-IDF для конкретного слова в конкретном документе

# для этого переведем матрицу csr в обычный массив Numpy
df_tfidf = pd.DataFrame(tf_idf_vector.toarray(), columns = vectorizer.get_feature_names_out())

# и транспонируем его
print(df_tfidf.T)

              0         1         2         3
art         0.0  0.344315  0.414289  0.000000
enourmous   0.0  0.000000  0.000000  0.617614
hours       0.0  0.000000  0.525473  0.000000
interested  0.0  0.000000  0.525473  0.000000
largest     0.0  0.436719  0.000000  0.000000
lot         0.5  0.000000  0.000000  0.000000
louvre      0.0  0.436719  0.000000  0.000000
museum      0.0  0.344315  0.000000  0.486934
museums     0.5  0.000000  0.000000  0.000000
paris       0.5  0.000000  0.000000  0.000000
spent       0.0  0.000000  0.525473  0.000000
visited     0.5  0.000000  0.000000  0.000000
week        0.0  0.000000  0.000000  0.617614
went        0.0  0.436719  0.000000  0.000000
world       0.0  0.436719  0.000000  0.000000


Способ 2. TfidfVectorizer

In [21]:
# импортируем класс TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [22]:
# создаем объект класса TfidfVectorizer
tfIdfVectorizer = TfidfVectorizer(use_idf = True, stop_words= 'english')
 
# сразу рассчитываем TF-IDF слов
tfIdf = tfIdfVectorizer.fit_transform(sentences)
tfIdf


<4x15 sparse matrix of type '<class 'numpy.float64'>'
	with 17 stored elements in Compressed Sparse Row format>

In [23]:
# посмотрим на результат фильтрации
print(tfIdfVectorizer.get_feature_names_out())

['art' 'enourmous' 'hours' 'interested' 'largest' 'lot' 'louvre' 'museum'
 'museums' 'paris' 'spent' 'visited' 'week' 'went' 'world']


In [24]:
# посмотрим IDF слов
tfIdfVectorizer.idf_

array([1.51082562, 1.91629073, 1.91629073, 1.91629073, 1.91629073,
       1.91629073, 1.91629073, 1.51082562, 1.91629073, 1.91629073,
       1.91629073, 1.91629073, 1.91629073, 1.91629073, 1.91629073])

In [25]:
# количество предложений (документов) х количество слов
tfIdf.shape

(4, 15)

Расчет значения TF-IDF для каждого слова по каждому тексту 

In [26]:
# чем значение уникальнее для конкретного документа, тым выше показатель
df_tfidf = pd.DataFrame(tfIdf.toarray(), columns = tfIdfVectorizer.get_feature_names_out())
print(df_tfidf.T)

              0         1         2         3
art         0.0  0.344315  0.414289  0.000000
enourmous   0.0  0.000000  0.000000  0.617614
hours       0.0  0.000000  0.525473  0.000000
interested  0.0  0.000000  0.525473  0.000000
largest     0.0  0.436719  0.000000  0.000000
lot         0.5  0.000000  0.000000  0.000000
louvre      0.0  0.436719  0.000000  0.000000
museum      0.0  0.344315  0.000000  0.486934
museums     0.5  0.000000  0.000000  0.000000
paris       0.5  0.000000  0.000000  0.000000
spent       0.0  0.000000  0.525473  0.000000
visited     0.5  0.000000  0.000000  0.000000
week        0.0  0.000000  0.000000  0.617614
went        0.0  0.436719  0.000000  0.000000
world       0.0  0.436719  0.000000  0.000000


In [27]:
# рассчитаем среднее арифметическое по строкам (axis = 0)
tfIdf.mean(axis = 0)

matrix([[0.18965082, 0.15440359, 0.13136819, 0.13136819, 0.10917983,
         0.125     , 0.10917983, 0.2078122 , 0.125     , 0.125     ,
         0.13136819, 0.125     , 0.15440359, 0.10917983, 0.10917983]])

In [28]:
# преобразуем матрицу в массив Numpy
np.asarray(tfIdf.mean(axis = 0))

array([[0.18965082, 0.15440359, 0.13136819, 0.13136819, 0.10917983,
        0.125     , 0.10917983, 0.2078122 , 0.125     , 0.125     ,
        0.13136819, 0.125     , 0.15440359, 0.10917983, 0.10917983]])

In [29]:
# посмотрим сколько измерений
np.asarray(tfIdf.mean(axis = 0)).shape

(1, 15)

In [30]:
# уберем второе измерение массива
np.asarray(tfIdf.mean(axis = 0)).ravel()

array([0.18965082, 0.15440359, 0.13136819, 0.13136819, 0.10917983,
       0.125     , 0.10917983, 0.2078122 , 0.125     , 0.125     ,
       0.13136819, 0.125     , 0.15440359, 0.10917983, 0.10917983])

In [31]:
# посмотрим сколько измерений
np.asarray(tfIdf.mean(axis = 0)).ravel().shape

(15,)

In [32]:
# преобразуем в список
mean_weight = np.asarray(tfIdf.mean(axis = 0)).ravel().tolist()
print(mean_weight)

[0.18965081782108964, 0.15440359274390048, 0.13136818731601646, 0.13136818731601646, 0.10917982746877804, 0.125, 0.10917982746877804, 0.2078121960479979, 0.125, 0.125, 0.13136818731601646, 0.125, 0.15440359274390048, 0.10917982746877804, 0.10917982746877804]


In [33]:
# создаем датафрейм из словаря
mean_weight_df = pd.DataFrame({'term': tfIdfVectorizer.get_feature_names_out(), 
                               'mean_weight': mean_weight})

# сортируем по убыванию 10 слов с максимальным средним TF-IDF
mean_weight_df.sort_values(by = 'mean_weight', ascending = False).reset_index(drop = True).head(10)

Unnamed: 0,term,mean_weight
0,museum,0.207812
1,art,0.189651
2,enourmous,0.154404
3,week,0.154404
4,hours,0.131368
5,interested,0.131368
6,spent,0.131368
7,lot,0.125
8,museums,0.125
9,paris,0.125


Косинусное расстояние между текстовыми векторами

In [34]:
# возьмем для простоты два текста (предложения)
text1 = 'all the world`s a stage, and all the men and women merely players'
text2 = 'you must be the change you wish to see in the world'

# объеденим им в корпус
corpus = [text1, text2]

# создадим объект класса TfidfVectorizer
tfIdfVectorizer = TfidfVectorizer(use_idf = True, stop_words = 'english')

# на выходе получаем два вектора, где каждое значение - это вес слова
X = tfIdfVectorizer.fit_transform(corpus)

# преобразуем данные в формат массива Numpy
print(X.toarray())

[[0.         0.4261596  0.4261596  0.4261596  0.4261596  0.
  0.4261596  0.30321606]
 [0.6316672  0.         0.         0.         0.         0.6316672
  0.         0.44943642]]


In [35]:
# для удобства можем посмотреть на веса в формате датафрейма
vectors_df = pd.DataFrame(data = X.toarray(),
                          index = ['vector1', 'vector2'],
                          columns = tfIdfVectorizer.get_feature_names_out())
vectors_df

Unnamed: 0,change,men,merely,players,stage,wish,women,world
vector1,0.0,0.42616,0.42616,0.42616,0.42616,0.0,0.42616,0.303216
vector2,0.631667,0.0,0.0,0.0,0.0,0.631667,0.0,0.449436


In [36]:
# возьмем вектора по отдельности
vector1 = X.toarray()[0]
vector2 = X.toarray()[1]

In [37]:
# вначале выполним операции в числителе формулы
numerator = np.dot(vector1, vector2)

In [38]:
# теперь займемся знаменателем и
# (1) рассчитаем длины (по большому счету, это теорема Пифагора)
vector1Len = np.linalg.norm(vector1)
vector2Len = np.linalg.norm(vector2)

# (2) перемножим их
denominator = vector1Len * vector2Len

In [39]:
# помотрим чему равен косинус угла между векторами
cosine = numerator/denominator
cosine

0.13627634143908643

In [40]:
# найдем угол в градусах по его косинусу
# вычислим угол в радианах
angle_radians = np.arccos(cosine)

# затем в градусах
angle_degrees = angle_radians * 360/2/np.pi
round(angle_degrees, 2)

82.17

Кластерный анализ текста

In [41]:
# в тексте ниже две темы: наука о данных и Большой театр (Википедия)
text = '''
Data science is an interdisciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from noisy, structured and unstructured data.
It applies knowledge and actionable insights from data across a broad range of application domains.
Data science is related to data mining, machine learning and big data.
The Bolshoi Theatre is a historic theatre in Moscow, Russia.
It was originally designed by architect Joseph Bové, which holds ballet and opera performances.
Before the October Revolution it was a part of the Imperial Theatres of the Russian Empire along with Maly Theatre in Moscow and a few theatres in Saint Petersburg.
Data science is a concept to unify statistics, data analysis, informatics, and their related methods in order to understand and analyze actual phenomena with data.
However, data science is different from computer science and information science.
The main building of the theatre, rebuilt and renovated several times during its history, is a landmark of Moscow and Russia.
On 28 October 2011, the Bolshoi re-opened after an extensive six-year renovation.
'''

In [42]:
# создадим список из предложений
corpus = []

# для этого в цикле for пройдемся по тексту, разделяя его по символу новой строки \n
for line in text.split('\n'):
    if line:
        line = line.lower()
        corpus.append(line)

In [43]:
corpus

['data science is an interdisciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from noisy, structured and unstructured data.',
 'it applies knowledge and actionable insights from data across a broad range of application domains.',
 'data science is related to data mining, machine learning and big data.',
 'the bolshoi theatre is a historic theatre in moscow, russia.',
 'it was originally designed by architect joseph bové, which holds ballet and opera performances.',
 'before the october revolution it was a part of the imperial theatres of the russian empire along with maly theatre in moscow and a few theatres in saint petersburg.',
 'data science is a concept to unify statistics, data analysis, informatics, and their related methods in order to understand and analyze actual phenomena with data.',
 'however, data science is different from computer science and information science.',
 'the main building of the theatre, rebuil

In [44]:
# Применим TfidfVectorizer
tfIdfVectorizer = TfidfVectorizer(use_idf = True, stop_words = 'english')

# на выжоде получаем векторы предложений
X = tfIdfVectorizer.fit_transform(corpus)

In [46]:
# импортируем алгоритм k-средних из библиотеки sklearn
from sklearn.cluster import KMeans

# так как мы знаем, что темы две, используем гиперпараметр k = 2
kmeans = KMeans(n_clusters = 2).fit(X)



In [47]:
# возмем новые предложения
prediction = ['Many statisticians, including Nate Silver, have argued that data science is not a new field, but rather another name for statistics.',
              'Urusov set up the theatre in collaboration with English tightrope walker Michael Maddox.',
              'Until the mid-1990s, most foreign operas were sung in Russian, but Italian and other languages have been heard more frequently on the Bolshoi stage in recent years.']
 
# применим две модели, сначала создадим векторы новых предложений (tfIdfVectorizer.transform),
# затем отнесем их к одному из кластеров (kmeans.predict)
kmeans.predict(tfIdfVectorizer.transform(prediction))


array([1, 0, 0])