### TF = вхождение термина / все слова в документе
### IDF = -log(число документов, в которых есть термин / все документы)

### Из массива текстов мы делаем векторы

In [None]:
import sklearn # библиотека для машинного обучения

In [None]:
from sklearn.datasets import fetch_20newsgroups

In [None]:
# Уже готовый датасет

dataset = fetch_20newsgroups(subset ='all', 
                             categories=['alt.atheism',
                                        'comp.graphics',
                                        'comp.os.ms-windows.misc'],
                             shuffle=True, random_state=42)

In [None]:
len(dataset['data']) # список строчек с сообщениями

In [None]:
dataset['target_names']

In [None]:
import numpy as np

In [None]:
np.bincount(dataset['target']) # Количество текстов в каждой категории

### Далее мы векторизуем каждый текст, создаём таблицу

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
vectorizer = TfidfVectorizer(max_df=0.5, min_df=2, # Если слово встречается болше чем в половине документов или менее, чем в двух, то мы его игнорируем 
                            stop_words='english',
                            use_idf=True)

In [None]:
X = vectorizer.fit_transform(dataset['data'])

In [None]:
X

In [None]:
feature_names = vectorizer.get_feature_names() # Названия столбцов в таблице, feature – это название столбца

In [None]:
feature_names.index('data') # Инднекс feature, ищем слово 'data'

In [None]:
(X[:, 7826] > 0).sum() # указываем номер столбца, в 180 текстах встречается слово 'data'

In [None]:
X # Это огромная матрица

In [None]:
from sklearn.cluster import KMeans

km = KMeans(n_clusters=3, init='k-means++',
           n_init=1, max_iter=300)

In [None]:
km.fit(X)

In [None]:
len(km.labels_)

In [None]:
km.labels_[:10] # Кластеризованные тексты, номера кластеров, они могут не совпадать с номерами категории

In [None]:
dataset['target'][:10] # Настоящие категории текстов

In [None]:
from sklearn.metrics import homogeneity_score

In [None]:
homogeneity_score(dataset['target'], km.labels_) # Проверяем соответствие

In [None]:
from sklearn.decomposition import TruncatedSVD

In [None]:
pca = TruncatedSVD()

In [None]:
transformed_texts = pca.fit_transform(X)

In [None]:
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
plt.scatter(transformed_texts[:,0], 
            transformed_texts[:,1],
            c=km.labels_, alpha=0.8, cmap='rainbow')
plt.colorbar()

In [None]:
dataset['target_names']

### Общеупотребительная лексика отсеивается при помощи TF IDF

In [None]:
centers = pca.transform(km.cluster_centers_)

In [None]:
# Визуализируем центроиды

plt.scatter(transformed_texts[: ,0],
            transformed_texts[: ,1], 
            c = km.labels_,
           alpha=0.2) #а это кластеризация
centers = pca.transform(km.cluster_centers_) 
plt.scatter(centers[:,0],centers[:,1],c = [0,1,2],cmap = "rainbow", edgecolor = "black")