<a href="https://colab.research.google.com/github/CodeHunterOfficial/NLP_Spacy_Python/blob/main/NLTK_TopicIdentification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Обработка естественного языка
##https://www.dmitrymakarov.ru/intro/topic-identification-19/
##https://coderlessons.com/tutorials/devops/uchitsia-git/git-klonirovanie

### Предварительная обработка текста

In [None]:
# возьмём исходный текст для анализа
corpus = 'When we were in Paris we visited a lot of museums. We first went to the Louvre, the largest art museum in the world. I have always been interested in art so I spent many hours there. The museum is enourmous, so a week there would not be enough.'

In [None]:
# импортируем основную библиотеку для работы с текстом
import nltk
 
# и другие уже известные нам библиотеки
import pandas as pd
import numpy as np

#### Шаг 1. Разделение на предложения

In [None]:
# импортируем метод sent_tokenize
from nltk.tokenize import sent_tokenize
 
# скачиваем модель, которая будет делить на предложения
nltk.download('punkt')
print('')
 
# и применяем метод к нашему тексту
sentences = sent_tokenize(corpus)
sentences

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!



['When we were in Paris we visited a lot of museums.',
 'We first went to the Louvre, the largest art museum in the world.',
 'I have always been interested in art so I spent many hours there.',
 'The museum is enourmous, so a week there would not be enough.']

#### Шаг 2. Разделение на слова

In [None]:
# импортируем метод word_tokenize
from nltk.tokenize import word_tokenize
 
# и разобьём на слова первое предложение
print(word_tokenize(sentences[0]))

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.']


In [None]:
# теперь проделаем это со всеми предложениями
 
# для этого создадим пустой список
tokens = []
 
# в цикле for пройдемся по каждому предложению
for sentence in sentences:
 
    # создадим списки из токенов
    t = word_tokenize(sentence)
 
    # и присоединим списки друг к другу
    tokens.extend(t)
 
print(tokens)

['When', 'we', 'were', 'in', 'Paris', 'we', 'visited', 'a', 'lot', 'of', 'museums', '.', 'We', 'first', 'went', 'to', 'the', 'Louvre', ',', 'the', 'largest', 'art', 'museum', 'in', 'the', 'world', '.', 'I', 'have', 'always', 'been', 'interested', 'in', 'art', 'so', 'I', 'spent', 'many', 'hours', 'there', '.', 'The', 'museum', 'is', 'enourmous', ',', 'so', 'a', 'week', 'there', 'would', 'not', 'be', 'enough', '.']


#### Шаг 3. Перевод в нижний регистр, удаление стоп-слов и знаков пунктуации

In [None]:
# импортируем модуль стоп-слов
from nltk.corpus import stopwords
 
# скачаем словарь стоп-слов
nltk.download('stopwords')
print('')
 
# мы используем set, чтобы оставить только уникальные значения
unique_stops = set(stopwords.words('english'))
 
# создаём пустой список без стоп-слов
no_stops = []
 
# проходимся по всем токенам
for token in tokens:
 
    # переводим все слова в нижний регистр
    token = token.lower()
 
    # если токен не в списке стоп-слов и не является знаком пунктуации
    if token not in unique_stops and token.isalpha():
 
        # добавляем его в список
        no_stops.append(token)
 
print(no_stops)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!

['paris', 'visited', 'lot', 'museums', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hours', 'museum', 'enourmous', 'week', 'would', 'enough']


#### Шаг 4. Лемматизация

In [None]:
# импортируем класс для лемматизации
from nltk.stem import WordNetLemmatizer
 
# импортируем словарь
nltk.download('wordnet')
print('')

# создаём объект этого класса
lemmatizer = WordNetLemmatizer()
 
# и пустой список для слов после лемматизации
lemmatized = []
 
# проходимся по всем токенам
for token in no_stops:
 
    # применяем лемматизацию
    token = lemmatizer.lemmatize(token)
 
    # добавляем слово после лемматизации в список
    lemmatized.append(token)
    
print(lemmatized)

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!

['paris', 'visited', 'lot', 'museum', 'first', 'went', 'louvre', 'largest', 'art', 'museum', 'world', 'always', 'interested', 'art', 'spent', 'many', 'hour', 'museum', 'enourmous', 'week', 'would', 'enough']


#### Шаг 5. Стемминг

In [None]:
# импортируем класс стеммера Porter и создаём объект этого класса
from nltk.stem import PorterStemmer
porter = PorterStemmer()
 
# используем list comprehension вместо цикла for для стемминга и создание нового списка
# такая запись намного короче
stemmed_p = [porter.stem(s) for s in lemmatized]
print(stemmed_p)

['pari', 'visit', 'lot', 'museum', 'first', 'went', 'louvr', 'largest', 'art', 'museum', 'world', 'alway', 'interest', 'art', 'spent', 'mani', 'hour', 'museum', 'enourm', 'week', 'would', 'enough']


In [None]:
# аналогично импортируем класс Lancaster и создаём объект этого класса
from nltk.stem import LancasterStemmer
lancaster = LancasterStemmer()
 
# также используем list_comprehension
stemmed_l = [lancaster.stem(s) for s in lemmatized]
print(stemmed_l)

['par', 'visit', 'lot', 'muse', 'first', 'went', 'louvr', 'largest', 'art', 'muse', 'world', 'alway', 'interest', 'art', 'spent', 'many', 'hour', 'muse', 'enourm', 'week', 'would', 'enough']


### Мешок слов (bag of words, bow)

С помощью Counter

In [None]:
# из модуля collections импортируем класс Counter
from collections import Counter
 
# применяем класс Counter к словам после лемматизации
# на выходе нам возвращается словарь { слово : его частота в тексте }
bow_counter = Counter(lemmatized)
# print(bow_counter)
 
# функция most_common() упорядочивает словарь по значению
# посмотрим на первые 10 наиболее частотных слов
print(bow_counter.most_common(10))

[('museum', 3), ('art', 2), ('paris', 1), ('visited', 1), ('lot', 1), ('first', 1), ('went', 1), ('louvre', 1), ('largest', 1), ('world', 1)]


С помощью CountVectorizer

In [None]:
# импортируем класс CountVectorizer из библиотеки Scikit-learn
from sklearn.feature_extraction.text import CountVectorizer
 
# создаём объект этого класса и
# указываем, что хотим перевести слова в нижний регистр, а также
# отфильтровать стоп-слова через stop_words = {'english'}
vectorizer = CountVectorizer(analyzer = "word", 
                             lowercase = True, 
                             tokenizer = None, 
                             preprocessor = None, 
                             stop_words = {'english'}, 
                             max_features = 5000)

In [None]:
# применяем этот объект к предложениям (ещё говорят документам)
bow_cv = vectorizer.fit_transform(sentences)

# на выходе получается матрица csr
print(type(bow_cv))

<class 'scipy.sparse.csr.csr_matrix'>


In [None]:
# преобразуем матрицу csr в привычный формат массива Numpy
# для этого можно использовать .toarray()
print(bow_cv.toarray())

[[0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 0 0 0 0 1 2 0 0 1 1 0 0]
 [0 1 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 3 0 1 0 1 0 1 0 0 1 0]
 [1 1 0 1 0 0 0 1 1 1 1 0 0 0 0 1 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0]
 [0 0 1 0 1 1 0 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 1 1 0 0 0 1 0 0 0 0 1]]


In [None]:
# строки это предложения (документы), столбцы - слова (токены)
bow_cv.shape

(4, 34)

In [None]:
# мы можем посмотреть на используемые токены (слова)
 
# здесь числа это не частотность, а просто порядковый номер (индекс)
vocab = vectorizer.vocabulary_
print(vocab)
 
# можно вывести слова и без индекса
tokens = vectorizer.get_feature_names_out()
print(tokens)

{'when': 31, 'we': 27, 'were': 30, 'in': 9, 'paris': 20, 'visited': 26, 'lot': 13, 'of': 19, 'museums': 17, 'first': 6, 'went': 29, 'to': 25, 'the': 23, 'louvre': 14, 'largest': 12, 'art': 1, 'museum': 16, 'world': 32, 'have': 7, 'always': 0, 'been': 3, 'interested': 10, 'so': 21, 'spent': 22, 'many': 15, 'hours': 8, 'there': 24, 'is': 11, 'enourmous': 5, 'week': 28, 'would': 33, 'not': 18, 'be': 2, 'enough': 4}
['always' 'art' 'be' 'been' 'enough' 'enourmous' 'first' 'have' 'hours'
 'in' 'interested' 'is' 'largest' 'lot' 'louvre' 'many' 'museum' 'museums'
 'not' 'of' 'paris' 'so' 'spent' 'the' 'there' 'to' 'visited' 'we' 'week'
 'went' 'were' 'when' 'world' 'would']


In [None]:
# для удобства преобразуем матрицу в датафрейм
 
# вначале создадим индекс предложений (документов)
index_list = []
 
# в цикле пройдемся по элементам матрицы, обозначим их через '_'
# функция enumerate задаст каждому элементу индекс, начиная с 0
for i, _ in enumerate(bow_cv):
 
    # прибавим наш индекс к слову Sentence 
    index_list.append(f'Sentence_{i}')
 
# print(index_list)
 
# теперь можно использовать pd.DataFrame
bow_cv_df = pd.DataFrame(data = bow_cv.toarray(), 
                         index = index_list, 
                         columns = tokens)
bow_cv_df

Unnamed: 0,always,art,be,been,enough,enourmous,first,have,hours,in,interested,is,largest,lot,louvre,many,museum,museums,not,of,paris,so,spent,the,there,to,visited,we,week,went,were,when,world,would
Sentence_0,0,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,0,1,0,1,1,0,0,0,0,0,1,2,0,0,1,1,0,0
Sentence_1,0,1,0,0,0,0,1,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,3,0,1,0,1,0,1,0,0,1,0
Sentence_2,1,1,0,1,0,0,0,1,1,1,1,0,0,0,0,1,0,0,0,0,0,1,1,0,1,0,0,0,0,0,0,0,0,0
Sentence_3,0,0,1,0,1,1,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,1,0,1,1,0,0,0,1,0,0,0,0,1


### TF-IDF

#### Способ 1. CountVectorizer + TfidfTransformer

1) Расчет TF, term frequency, частоты слов

In [None]:
# этот шаг мы уже выполнили выше
bow_cv

<4x34 sparse matrix of type '<class 'numpy.int64'>'
	with 42 stored elements in Compressed Sparse Row format>

2) Теперь нужно рассчитать IDF

In [None]:
# импортируем TfidfTransformer (CountVectorizer уже импортирован)
from sklearn.feature_extraction.text import TfidfTransformer
 
# создадим объект класса TfidfTransformer
tfidf_trans = TfidfTransformer(smooth_idf = True, use_idf = True)
 
# и рассчитаем IDF слов
tfidf_trans.fit(bow_cv)
 
# поместим результат в датафрейм
df_idf = pd.DataFrame(tfidf_trans.idf_, index = tokens, columns = ["idf_weights"])
#df_idf

3) Остаётся TF x IDF

In [None]:
# рассчитаем TF-IDF (по сути умножим TF на IDF)
tf_idf_vector = tfidf_trans.transform(bow_cv)
tf_idf_vector

<4x34 sparse matrix of type '<class 'numpy.float64'>'
	with 42 stored elements in Compressed Sparse Row format>

In [None]:
# теперь мы можем посмотреть на показатель TF-IDF для конкретного слова в конкретном документе

# для этого переведем матрицу csr в обычный массив Numpy
df_tfidf = pd.DataFrame(tf_idf_vector.toarray(), columns = vectorizer.get_feature_names_out())

# и траспонируем его (запишем столбцы в виде строк) 
print(df_tfidf.T)

                   0         1         2         3
always      0.000000  0.000000  0.328404  0.000000
art         0.000000  0.211724  0.258918  0.000000
be          0.000000  0.000000  0.000000  0.324676
been        0.000000  0.000000  0.328404  0.000000
enough      0.000000  0.000000  0.000000  0.324676
enourmous   0.000000  0.000000  0.000000  0.324676
first       0.000000  0.268544  0.000000  0.000000
have        0.000000  0.000000  0.328404  0.000000
hours       0.000000  0.000000  0.328404  0.000000
in          0.202925  0.171408  0.209616  0.000000
interested  0.000000  0.000000  0.328404  0.000000
is          0.000000  0.000000  0.000000  0.324676
largest     0.000000  0.268544  0.000000  0.000000
lot         0.317921  0.000000  0.000000  0.000000
louvre      0.000000  0.268544  0.000000  0.000000
many        0.000000  0.000000  0.328404  0.000000
museum      0.000000  0.211724  0.000000  0.255978
museums     0.317921  0.000000  0.000000  0.000000
not         0.000000  0.000000 

In [None]:
# посмотрим сколько слов оставил нам этот метод после обработки
df_tfidf.T.shape

(34, 4)

#### Способ 2. TfidfVectorizer

In [None]:
# импортируем класс TfidfVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
# создаем объект класса TfidfVectorizer
tfIdfVectorizer = TfidfVectorizer(use_idf = True, stop_words= 'english')
 
# сразу рассчитываем TF-IDF слов
tfIdf = tfIdfVectorizer.fit_transform(sentences)
tfIdf

<4x15 sparse matrix of type '<class 'numpy.float64'>'
	with 17 stored elements in Compressed Sparse Row format>

In [None]:
# можно посмотреть какие слова остались после фильтрации
print(tfIdfVectorizer.get_feature_names_out())
 
# например по сравнению со способом 1 выпало наречие always

['art' 'enourmous' 'hours' 'interested' 'largest' 'lot' 'louvre' 'museum'
 'museums' 'paris' 'spent' 'visited' 'week' 'went' 'world']


In [None]:
# также можно посмотреть IDF слов
tfIdfVectorizer.idf_

array([1.51082562, 1.91629073, 1.91629073, 1.91629073, 1.91629073,
       1.91629073, 1.91629073, 1.51082562, 1.91629073, 1.91629073,
       1.91629073, 1.91629073, 1.91629073, 1.91629073, 1.91629073])

In [None]:
# через датафрейм мы можем связать слова и их IDF
df_idf = pd.DataFrame(tfIdfVectorizer.idf_, index = tfIdfVectorizer.get_feature_names_out(), columns = ['idf_weights'])
# df_idf.sort_values(by = 'idf_weights', ascending = False)

In [None]:
# количество предложений (документов) х количество слов
tfIdf.shape

(4, 15)

Расчет значения TF-IDF для каждого слова по каждому тексту

In [None]:
# и наконец само значение TF-IDF для конкретного слова в конкретном документе
# чем оно уникальнее для конкретного документа, тем выше показатель
df_tfidf = pd.DataFrame(tfIdf.toarray(), columns = tfIdfVectorizer.get_feature_names_out())
print(df_tfidf.T)

              0         1         2         3
art         0.0  0.344315  0.414289  0.000000
enourmous   0.0  0.000000  0.000000  0.617614
hours       0.0  0.000000  0.525473  0.000000
interested  0.0  0.000000  0.525473  0.000000
largest     0.0  0.436719  0.000000  0.000000
lot         0.5  0.000000  0.000000  0.000000
louvre      0.0  0.436719  0.000000  0.000000
museum      0.0  0.344315  0.000000  0.486934
museums     0.5  0.000000  0.000000  0.000000
paris       0.5  0.000000  0.000000  0.000000
spent       0.0  0.000000  0.525473  0.000000
visited     0.5  0.000000  0.000000  0.000000
week        0.0  0.000000  0.000000  0.617614
went        0.0  0.436719  0.000000  0.000000
world       0.0  0.436719  0.000000  0.000000


Расчет среднего значения TF-IDF для каждого слова по всем текстам

In [None]:
# рассчитаем среднее арифметическое по строкам (axis = 0)
tfIdf.mean(axis = 0)

matrix([[0.18965082, 0.15440359, 0.13136819, 0.13136819, 0.10917983,
         0.125     , 0.10917983, 0.2078122 , 0.125     , 0.125     ,
         0.13136819, 0.125     , 0.15440359, 0.10917983, 0.10917983]])

In [None]:
# преобразуем матрицу в массив Numpy
np.asarray(tfIdf.mean(axis = 0))

array([[0.18965082, 0.15440359, 0.13136819, 0.13136819, 0.10917983,
        0.125     , 0.10917983, 0.2078122 , 0.125     , 0.125     ,
        0.13136819, 0.125     , 0.15440359, 0.10917983, 0.10917983]])

In [None]:
# посмотрим сколько измерений
np.asarray(tfIdf.mean(axis = 0)).shape

(1, 15)

In [None]:
# уберем второе измерение
np.asarray(tfIdf.mean(axis = 0)).ravel()

array([0.18965082, 0.15440359, 0.13136819, 0.13136819, 0.10917983,
       0.125     , 0.10917983, 0.2078122 , 0.125     , 0.125     ,
       0.13136819, 0.125     , 0.15440359, 0.10917983, 0.10917983])

In [None]:
# снова смотрим на размерность
np.asarray(tfIdf.mean(axis = 0)).ravel().shape

(15,)

In [None]:
# преобразуем в список
mean_weights = np.asarray(tfIdf.mean(axis = 0)).ravel().tolist()
print(mean_weights)

[0.18965081782108964, 0.15440359274390048, 0.13136818731601646, 0.13136818731601646, 0.10917982746877804, 0.125, 0.10917982746877804, 0.2078121960479979, 0.125, 0.125, 0.13136818731601646, 0.125, 0.15440359274390048, 0.10917982746877804, 0.10917982746877804]


In [None]:
# создаём датафрейм из словаря
mean_weights_df = pd.DataFrame({'term': tfIdfVectorizer.get_feature_names_out(), 'mean_weights': mean_weights})
 
# сортируем по убыванию 10 слов с максимальным средним TF-IDF
mean_weights_df.sort_values(by = 'mean_weights', ascending = False).reset_index(drop = True).head(10)

Unnamed: 0,term,mean_weights
0,museum,0.207812
1,art,0.189651
2,enourmous,0.154404
3,week,0.154404
4,hours,0.131368
5,interested,0.131368
6,spent,0.131368
7,lot,0.125
8,museums,0.125
9,paris,0.125


### Дополнительные примеры

#### Косинусное расстояние между текстовыми векторами

In [None]:
# from sklearn.feature_extraction.text import TfidfVectorizer
# from scipy.sparse.csr import csr_matrix
# import numpy as np
# import pandas as pd

In [None]:
# возьмем для простоты два текста (предложения)
text1 = 'all the world’s a stage, and all the men and women merely players'
text2 = 'you must be the change you wish to see in the world'

# объединим их в корпус
corpus = [text1, text2]

# создадим объект класса TfidfVectorizer
tfIdfVectorizer = TfidfVectorizer(use_idf = True, stop_words = 'english')

# на выходе получаем два вектора, где каждое значение - это вес (показатель tf-idf) слова
X = tfIdfVectorizer.fit_transform(corpus)

# преобразуем данные формат массива Numpy
print(X.toarray())

[[0.         0.4261596  0.4261596  0.4261596  0.4261596  0.
  0.4261596  0.30321606]
 [0.6316672  0.         0.         0.         0.         0.6316672
  0.         0.44943642]]


In [None]:
# для удобства можем посмотреть на веса в формате датафрейма
vectors_df = pd.DataFrame(data = X.toarray(), 
                          index = ['vector1', 'vector2'], 
                          columns = tfIdfVectorizer.get_feature_names_out())
vectors_df

Unnamed: 0,change,men,merely,players,stage,wish,women,world
vector1,0.0,0.42616,0.42616,0.42616,0.42616,0.0,0.42616,0.303216
vector2,0.631667,0.0,0.0,0.0,0.0,0.631667,0.0,0.449436


Напомню формулу косинусного расстояния:

$$ \cos(\theta )={\mathbf {a} \cdot \mathbf {b} \over \|\mathbf {a} \|\|\mathbf {b} \|} $$

In [None]:
# возьмем вектора по отдельности
vector1 = X.toarray()[0]
vector2 = X.toarray()[1]

In [None]:
# вначале выполним операции в числителе формулы
numerator = np.dot(vector1, vector2)

In [None]:
# теперь займемся знаменателем и
# (1) рассчитаем длины (по большому счету, это теорема Пифагора)
vector1Len = np.linalg.norm(vector1)
vector2Len = np.linalg.norm(vector2)

# (2) перемножим их
denominator = vector1Len * vector2Len

In [None]:
# посмотрим, чему равен косинус угла между векторами
cosine = numerator/denominator
cosine

0.13627634143908643

In [None]:
# найдем угол в градусах по его косинусу
# для этого вначале вычислим угол в радианах
angle_radians = np.arccos(cosine)

# затем в градусах
angle_degrees = angle_radians * 360/2/np.pi
round(angle_degrees, 2)

82.17

#### Кластерный анализ текста

In [None]:
# в тексте ниже две темы: наука о данных и Большой театр (источник: Википедия)
text = '''
Data science is an interdisciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from noisy, structured and unstructured data.
It applies knowledge and actionable insights from data across a broad range of application domains.
Data science is related to data mining, machine learning and big data.
The Bolshoi Theatre is a historic theatre in Moscow, Russia.
It was originally designed by architect Joseph Bové, which holds ballet and opera performances.
Before the October Revolution it was a part of the Imperial Theatres of the Russian Empire along with Maly Theatre in Moscow and a few theatres in Saint Petersburg.
Data science is a concept to unify statistics, data analysis, informatics, and their related methods in order to understand and analyze actual phenomena with data.
However, data science is different from computer science and information science.
The main building of the theatre, rebuilt and renovated several times during its history, is a landmark of Moscow and Russia.
On 28 October 2011, the Bolshoi re-opened after an extensive six-year renovation.
'''

In [None]:
# создадим список из предложений
corpus = []

# для этого в цикле for пройдемся по тексту, разделив его по символу новой строки \n
for line in text.split('\n'):

  # если строка не пустая (т.е. True)
  if line:

    # переводим ее в нижний регистр
    line = line.lower()
    # и добавляем в список
    corpus.append(line)

In [None]:
corpus

['data science is an interdisciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from noisy, structured and unstructured data.',
 'it applies knowledge and actionable insights from data across a broad range of application domains.',
 'data science is related to data mining, machine learning and big data.',
 'the bolshoi theatre is a historic theatre in moscow, russia.',
 'it was originally designed by architect joseph bové, which holds ballet and opera performances.',
 'before the october revolution it was a part of the imperial theatres of the russian empire along with maly theatre in moscow and a few theatres in saint petersburg.',
 'data science is a concept to unify statistics, data analysis, informatics, and their related methods in order to understand and analyze actual phenomena with data.',
 'however, data science is different from computer science and information science.',
 'the main building of the theatre, rebuil

In [None]:
# применим TfidfVectorizer
tfIdfVectorizer = TfidfVectorizer(use_idf = True, stop_words= 'english')

# на выходе получаем векторы предложений
X = tfIdfVectorizer.fit_transform(corpus)
# print(X.toarray())

In [None]:
# импортируем алгоритм k-средних из библиотеки sklearn
from sklearn.cluster import KMeans

# так как мы знаем, что темы две, используем гиперпараметр k = 2
kmeans = KMeans(n_clusters = 2).fit(X)

In [None]:
# возьмем новые предложения, одно из области Data Science и два про Большой театр
prediction = ['Many statisticians, including Nate Silver, have argued that data science is not a new field, but rather another name for statistics.',
              'Urusov set up the theatre in collaboration with English tightrope walker Michael Maddox.',
              'Until the mid-1990s, most foreign operas were sung in Russian, but Italian and other languages have been heard more frequently on the Bolshoi stage in recent years.']

# применим две модели, сначала создадим векторы новых предложений (tfIdfVectorizer.transform),
# затем отнесем их к одному из кластеров (kmeans.predict)
kmeans.predict(tfIdfVectorizer.transform(prediction))

array([1, 0, 0], dtype=int32)