In [1]:
from sklearn.externals import joblib
from sklearn.cluster import KMeans
from sklearn.feature_extraction.text import TfidfVectorizer

import sqlite3
from db_api import get_records_by_field

db = sqlite3.connect('db/users.db')
cursor = db.cursor()

In [2]:
cluster_fields = ['about', 'activities', 'books', 'communities',
                  'games', 'interests', 'personal_inspired_by', 'movies',
                  'music', 'status']

In [3]:
cluster_field = cluster_fields[3]
data = get_records_by_field(cursor, cluster_field)
ids, words = map(list, zip(*data))
flattened = [' '.join(sublist) for sublist in words]

total: 84995
0.0 0.05
0.0%
1.1765397964586153%
2.3530795929172306%
3.5296193893758456%
4.706159185834461%
5.882698982293076%
7.059238778751691%
8.235778575210306%
9.412318371668922%
10.588858168127537%
11.765397964586152%
12.941937761044768%
14.118477557503383%
15.295017353961997%
16.47155715042061%
17.648096946879228%
18.824636743337845%
20.001176539796457%
21.177716336255074%
22.35425613271369%
23.530795929172303%
24.70733572563092%
25.883875522089536%
27.06041531854815%
28.236955115006765%
29.41349491146538%
30.590034707923994%
31.76657450438261%
32.94311430084122%
34.11965409729984%
35.296193893758456%
36.47273369021707%
37.64927348667569%
38.8258132831343%
40.002353079592915%
41.178892876051535%
42.35543267251015%
43.53197246896876%
44.70851226542738%
45.88505206188599%
47.061591858344606%
48.238131654803226%
49.41467145126184%
50.59121124772045%
51.76775104417907%
52.944290840637684%
54.1208306370963%
55.29737043355492%
56.47391023001353%
57.65045002647214%
58.82698982293076%
60.

In [4]:
vectorizer = TfidfVectorizer(max_df=0.3, min_df=0.005)
X = vectorizer.fit_transform(flattened)

In [5]:
true_k = 20

model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1, verbose=1)
model.fit(X)
print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(true_k):
    print(i)
    st = ''
    arr = []
    for ind in order_centroids[i, :25]:
        arr.append(terms[ind])
    print(' '.join(arr))
    print()

Top terms per cluster:
0
животные животным животных бездомных им собак требуется отлов страдают живущих приводит станьте животными делать семью способом помогают кошек друг улице стороны помощь находят помочь случае

1
комментарии размещению vkcomekbrepost коммерческому удаляются оставлять предлагать vkcompage менеджеру почему подпишитесь страницу урала нашу происшествия паблика несчастного пожара свидетелем аварии vkcomkalininamarinka incekb разбану случая пожаловаться

2
новостей мемы приколы типичный эксклюзивам серьёзное котиков типичного оперативности ежедневную xaхалеву idмилолике teekb idсeргeю третьяковой произошло концепция предлагаемые использовании качеству обязательна пользу такая расскажем обратиться

3
палаты её хэштегов читая сможешь эмоций можешь стену можем мой среди значит друг тебе тебя когда читать присылают откровений прочитанного моментами читатели откровения откровение сумасшествия

4
детей родителей мам рецепты ребенка дети мастеров родители мама здоровье ярмарк

In [6]:
true_k = 30

model = KMeans(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1, verbose=1)
model.fit(X)
print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(true_k):
    print(i)
    st = ''
    arr = []
    for ind in order_centroids[i, :25]:
        arr.append(terms[ind])
    print(' '.join(arr))
    print()

Initialization complete
Iteration  0, inertia 83970.798
Iteration  1, inertia 78347.516
Iteration  2, inertia 77612.692
Iteration  3, inertia 77331.816
Iteration  4, inertia 77207.202
Iteration  5, inertia 76993.982
Iteration  6, inertia 76881.870
Iteration  7, inertia 76751.210
Iteration  8, inertia 76669.362
Iteration  9, inertia 76636.819
Iteration 10, inertia 76615.952
Iteration 11, inertia 76604.985
Iteration 12, inertia 76600.870
Iteration 13, inertia 76599.200
Iteration 14, inertia 76597.775
Iteration 15, inertia 76596.072
Iteration 16, inertia 76593.955
Iteration 17, inertia 76590.684
Iteration 18, inertia 76584.563
Iteration 19, inertia 76571.111
Iteration 20, inertia 76552.341
Iteration 21, inertia 76546.025
Iteration 22, inertia 76540.088
Iteration 23, inertia 76526.661
Iteration 24, inertia 76485.249
Iteration 25, inertia 76345.609
Iteration 26, inertia 76282.050
Iteration 27, inertia 76233.486
Iteration 28, inertia 76186.550
Iteration 29, inertia 76158.232
Iteration 30, in

In [1]:
from clustering import load_model
model = load_model('communities.pkl')
vec = load_model('communities_vec.pkl')



In [4]:
X = vec.transform(['музыка'])
model.predict(X)

array([33], dtype=int32)

In [4]:
true_k = 40
print("Top terms per cluster:")
order_centroids = model.cluster_centers_.argsort()[:, ::-1]
terms = vec.get_feature_names()
for i in range(true_k):
    print(i)
    st = ''
    arr = []
    for ind in order_centroids[i, :25]:
        arr.append(terms[ind])
    print(' '.join(arr))
    print()

Top terms per cluster:
0
знакомства общение общения знакомств друзей встречи девушки любовь свою отношений познакомиться создана реальные себе девушек чат объявления вступайте возраст друзья любви поиск фотографии анонимно людьми

1
объявления объявлений объявление доска продаже продать размещайте барахолка стене купить размещения бесплатно частные продам размещать бесплатные размещение публикуются авто куплю разместить репост бан покупке бесплатных

2
такое когда знает он снова ли бы вот еще даже любовь человека тебя себе она да именно том этот кого нужно этого люди этой бывает

3
премьера сериал сезона октября фильма ноября сезон фильм песни сентября сша декабря февраля году марта нового official шоу концертов серии тнт канале апреля мая год

4
будут удаляться опубликованы этой бан фотографии конкурсы участников посты стене будем проходить друзья рады игры либо других материалы ссылки внимание администрация создана предлагайте участники выкладывать

5
тел ул адрес этаж mail пн пт адр

In [3]:
model.get_params()

{'algorithm': 'auto',
 'copy_x': True,
 'init': 'random',
 'max_iter': 300,
 'n_clusters': 40,
 'n_init': 10,
 'n_jobs': None,
 'precompute_distances': 'auto',
 'random_state': None,
 'tol': 1e-07,
 'verbose': True}

In [2]:
print(len(list(vec.stop_words_)))
'кино' in vec.stop_words_

952841


False

In [4]:
print(len(list(vec.vocabulary_)))
vec.vocabulary_

3143


{'girls': 85,
 'миллионами': 1367,
 'na': 157,
 'портал': 1974,
 'практически': 2034,
 'исключительно': 998,
 'сотрудничестве': 2601,
 'снять': 2541,
 'источник': 1021,
 'кафе': 1061,
 'направлениям': 1474,
 'традиции': 2823,
 'сложные': 2514,
 'свобода': 2424,
 'it': 121,
 'твоих': 2744,
 'эксклюзивные': 3103,
 'крупный': 1192,
 'оставлять': 1721,
 'граждан': 605,
 'info': 114,
 'темах': 2782,
 'стараемся': 2653,
 'бронирование': 388,
 'нравится': 1586,
 'хочет': 3011,
 'сладкие': 2503,
 'rem': 197,
 'магазине': 1296,
 'art': 16,
 'услуги': 2923,
 'употребление': 2907,
 'мебели': 1334,
 'делайте': 658,
 'правда': 2020,
 'сохранить': 2604,
 'поисках': 1889,
 'напрямую': 1476,
 'каждым': 1040,
 'твои': 2743,
 'ваше': 418,
 'свадебные': 2411,
 'шапке': 3090,
 'забывайте': 837,
 'пробуй': 2108,
 'высказывания': 547,
 'оперативности': 1678,
 'esquire': 60,
 'практические': 2035,
 'качественный': 1067,
 'эмоции': 3109,
 'теме': 2783,
 'свадебный': 2412,
 'pubauto': 191,
 'отношений': 1760,


In [5]:
vec.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.float64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 0.35,
 'max_features': None,
 'min_df': 0.025,
 'ngram_range': (1, 1),
 'norm': 'l2',
 'preprocessor': None,
 'smooth_idf': True,
 'stop_words': None,
 'strip_accents': None,
 'sublinear_tf': False,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'use_idf': True,
 'vocabulary': None}

In [6]:
'кино' in vec.vocabulary_

True

In [7]:
'музыка' in vec.vocabulary_

True

In [2]:
vec.get_params()

{'analyzer': 'word',
 'binary': False,
 'decode_error': 'strict',
 'dtype': numpy.float64,
 'encoding': 'utf-8',
 'input': 'content',
 'lowercase': True,
 'max_df': 0.4,
 'max_features': None,
 'min_df': 10,
 'ngram_range': (1, 1),
 'norm': 'l2',
 'preprocessor': None,
 'smooth_idf': True,
 'stop_words': None,
 'strip_accents': None,
 'sublinear_tf': False,
 'token_pattern': '(?u)\\b\\w\\w+\\b',
 'tokenizer': None,
 'use_idf': True,
 'vocabulary': None}

In [4]:
len(vec.get_feature_names())

207624

In [1]:
from clustering import save_model
from sklearn.decomposition import TruncatedSVD
pca = TruncatedSVD()
save_model(pca, 'pca.pkl')

In [2]:
from clustering import load_model
pca = load_model('pca.pkl')
pca.get_params()

{'algorithm': 'randomized',
 'n_components': 2,
 'n_iter': 5,
 'random_state': None,
 'tol': 0.0}