In [2]:
import numpy as np
import pandas as pd
import joblib
from sklearn.feature_extraction.text import CountVectorizer


In [4]:
PATH_TO_DF = "../data/dataset.csv"

In [14]:
df = pd.read_csv(PATH_TO_DF)
df.head(30)

Unnamed: 0,id,time,estimation,text,textLemmas
0,0,24.09.2025 17:36,5,Решила заказать карту этого банка,решить заказать карта банк
1,1,22.09.2025 11:53,5,"Карту получила, доставка очень быстрая. Утром ...",карта получить доставка очень быстрый утро поз...
2,2,19.09.2025 14:39,5,Наконец-то я являюсь клиентом Газпромбанка. До...,наконецто являться клиент газпромбанк дорого с...
3,3,21.09.2025 21:29,5,На сайте газпромбанка заказала дебетовую карту...,сайт газпромбанк заказать дебетовый карта запо...
4,5,24.09.2025 13:46,5,Выражаю ОГРОМНУЮ благодарность работнику конта...,выражать огромный благодарность работник конта...
5,6,24.09.2025 10:44,5,Я в восторге от того как быстро доставили карт...,восторг быстро доставить карта дом сделать зая...
6,8,24.09.2025 14:12,5,Сегодня получил карту Хочу выразить благодарно...,сегодня получить карта хотеть выразить благода...
7,9,21.09.2025 07:46,5,"Я решил открыть накопительный счёт ""Ежедневный...",решить открыть накопительный счет ежедневный п...
8,10,21.09.2025 07:17,5,Очень быстро отработали вопрос о переводе дене...,очень быстро отработать вопрос перевод денежны...
9,11,24.09.2025 10:00,5,"Карту получил, доставка супер. Утром позвонила...",карта получить доставка супер утро позвонить д...


In [17]:
lemTexts = df["textLemmas"].dropna().to_list()

In [21]:
vectorizer = CountVectorizer(ngram_range=(1,2))

# обучаем count векторизатор
x = vectorizer.fit_transform(lemTexts)

print(f"Len of one vector: {x.shape[1]}")

# Смотрим на индексы комбинаций слов
features = vectorizer.get_feature_names_out()

words = {"key word": features}
index = [f for f in range(len(features))]

keyWordsDf = pd.DataFrame(data=words)

keyWordsDf.head(20)

Len of one vector: 314287


Unnamed: 0,key word
0,00
1,00 22
2,00 56
3,00 вечер
4,00 дозвонится
5,00 копа
6,00 копейка
7,00 мочь
8,00 руб
9,00 самый


In [22]:
keyWordsDf.to_csv("../data/keyWords.csv")

In [23]:
# Save
joblib.dump(vectorizer, "../data/CountVectLemmText.joblib")

['../data/CountVectLemmText.joblib']

In [72]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline
from sklearn.cluster import KMeans
from time import time

clustersCount = 35
maxIter = 500
nInit = 10

In [73]:
maxDF = 0.5
minDF = 10


In [74]:
idfVectorizer = TfidfVectorizer(max_df=maxDF, min_df=minDF)
t0 = time()
X_tfidf = idfVectorizer.fit_transform(lemTexts)

print(f"vectorization done in {time() - t0:.3f} s")
print(f"n_samples: {X_tfidf.shape[0]}, n_features: {X_tfidf.shape[1]}")

vectorization done in 0.503 s
n_samples: 9567, n_features: 3589


In [75]:
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer

lsa = make_pipeline(TruncatedSVD(n_components=400), Normalizer(copy=False))
t0 = time()
X_lsa = lsa.fit_transform(X_tfidf)
explained_variance = lsa[0].explained_variance_ratio_.sum()

print(f"LSA done in {time() - t0:.3f} s")
print(f"Explained variance of the SVD step: {explained_variance * 100:.1f}%")

LSA done in 3.319 s
Explained variance of the SVD step: 54.4%


In [76]:
print(f"n_samples: {X_lsa.shape[0]}, n_features: {X_lsa.shape[1]}")

n_samples: 9567, n_features: 400


In [77]:
kmeans = KMeans(
   n_clusters=clustersCount,
    max_iter=maxIter,
    n_init=nInit,
)

In [78]:
kmeans.fit(X_lsa)

0,1,2
,n_clusters,35
,init,'k-means++'
,n_init,10
,max_iter,500
,tol,0.0001
,verbose,0
,random_state,
,copy_x,True
,algorithm,'lloyd'


In [82]:
original_space_centroids = lsa[0].inverse_transform(kmeans.cluster_centers_)
order_centroids = original_space_centroids.argsort()[:, ::-1]
terms = idfVectorizer.get_feature_names_out()

numC = [i for i in range(clustersCount)]

tops = []

for i in range(clustersCount):
    print(f"Cluster {i}: ", end="")
    clusterTop = []
    for ind in order_centroids[i, :10]:
        print(f"{terms[ind]} ", end="")
        clusterTop += [terms[ind]] 
    tops += [clusterTop] 
    print()

Cluster 0: премиум пакет подключить привилегия условие клиент менеджер 2990 обслуживание спорт 
Cluster 1: сертификат 1000 акция озон покупка ссылка оформить условие газпромбанк прислать 
Cluster 2: кэшбэк акция 35 условие покупка важный самый выполнить начислить месяц 
Cluster 3: подписка газпром привилегия отключить списать деньга подключить 2990 премиум бонус 
Cluster 4: заявка дебетовый оформить сайт оформление кредитный получение газпромбанк день подать 
Cluster 5: офис очередь сотрудник талон час клиент обслуживание человек работать время 
Cluster 6: услуга отключить подключить списать 2990 платный мой списание деньга согласие 
Cluster 7: рассказать очень представитель спасибо помочь быстро сотрудник объяснить подробно вопрос 
Cluster 8: средство денежный счет мой газпромбанк день списать деньга обращение возврат 
Cluster 9: деньга перевести счет перевод свой операция мой это газпромбанк день 
Cluster 10: премиальный менеджер клиент обслуживание являться персональный премиум паке

In [86]:
mlDf = {"Cluster": numC, "TopWords": tops}
mlClusterResDF = pd.DataFrame(data=mlDf)

In [87]:
mlClusterResDF.head(20)

Unnamed: 0,Cluster,TopWords
0,0,"[премиум, пакет, подключить, привилегия, услов..."
1,1,"[сертификат, 1000, акция, озон, покупка, ссылк..."
2,2,"[кэшбэк, акция, 35, условие, покупка, важный, ..."
3,3,"[подписка, газпром, привилегия, отключить, спи..."
4,4,"[заявка, дебетовый, оформить, сайт, оформление..."
5,5,"[офис, очередь, сотрудник, талон, час, клиент,..."
6,6,"[услуга, отключить, подключить, списать, 2990,..."
7,7,"[рассказать, очень, представитель, спасибо, по..."
8,8,"[средство, денежный, счет, мой, газпромбанк, д..."
9,9,"[деньга, перевести, счет, перевод, свой, опера..."


In [88]:
mlClusterResDF.to_csv("../data/mlClusterRes.csv")

In [89]:
mlClusterizator = make_pipeline(idfVectorizer, lsa, kmeans)

In [90]:
print(lemTexts[32])

2330 проведение денежный перевод мой карта газпромбанк сбп свой счет другой банк заблокировать мой счет вход мобильный приложение причина проведение операция указание мошенник проводить операция находиться дома квартира чужой человек звонок посетить офис банк проспект вернадский д 37 2 сотрудник отказаться разблокировать счет мой объяснение удовлетворить подтверждение телефон сын пытаться забрать телефон проверка личный звонок вообще незаконно основание пенсионерка какой иметь право вести сомневаться мой финансовый грамотность удерживать мой деньга стаж работа банк 23 год такой обращение клиент еще сталкиваться написать заявление банк прислать сообщение рассматривать быть 3 неделя вопрос это правомерно банк лишать процент пользоваться мой деньга деньга идти лечение покупка лекарство больной муж лишить собственный деньга выдумать причина рекомендовать пользоваться никто услуга газпромбанк попасть подобный ситуация


In [92]:
cluster = mlClusterizator.predict([lemTexts[32]])

In [93]:
cluster

array([9], dtype=int32)

In [94]:
# Save
joblib.dump(mlClusterizator, "../data/mlClusterizatorLemmText.joblib")

['../data/mlClusterizatorLemmText.joblib']