In [0]:
import pandas as pd
from sklearn.cluster import AffinityPropagation, AgglomerativeClustering, DBSCAN, \
                            KMeans, MiniBatchKMeans, Birch, MeanShift, SpectralClustering
from sklearn.metrics import adjusted_rand_score, adjusted_mutual_info_score, \
                            silhouette_score

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.decomposition import TruncatedSVD, NMF
from sklearn import metrics
from sklearn.datasets import make_blobs
import numpy as np

In [0]:
from google.colab import files
datafile = files.upload()

На нескольких алгоритмах кластеризации, умеющих работать с sparse матрицами, проверьте, что работает лучше Count_Vectorizer или TfidfVectorizer (попробуйте выжать максимум из каждого - попробуйте нграммы, символьные нграммы, разные значения max_features и min_df)


In [0]:
data = pd.read_csv('data.csv')

In [0]:
data = data[['category_name', 'title']]

Напишем специальные функции, которые сравнивают векторизацию Count_Vectorizer и TfidfVectorizer при одном и том же способе кластеризации и изменяющемся параметре векторизации (на вход подается кластеризация и список значений параметра, для которого написана функция, на выходе - v_measure )

In [0]:
def try_vectorizer(v, cluster_alg):
  X = v.fit_transform(sample['title'])
  cluster = cluster_alg
  cluster.fit(X)
  labels = cluster.labels_
  return metrics.v_measure_score(y, labels)

In [0]:
def compare_min_df (cluster_alg, param_values):
  cv, tfidf = CountVectorizer, TfidfVectorizer
  cv_score, tfidf_score = 0, 0
  for value in param_values:
    measure_cv = try_vectorizer(cv(min_df=value), cluster_alg)
    measure_tfidf = try_vectorizer(tfidf(min_df=value), cluster_alg)
    print('min_df={:.4f}, cv:{:.4f}, tfidf: {:.4f}'.format( value,  measure_cv, measure_tfidf))
    if measure_cv > measure_tfidf:
      cv_score += 1 
    if measure_tfidf > measure_cv:
      tfidf_score += 1
  print('cv_score:{}, tfidf_score:{}'.format(cv_score,  tfidf_score))

In [0]:
def compare_max_df (cluster_alg, param_values):
  cv, tfidf = CountVectorizer, TfidfVectorizer
  cv_score, tfidf_score = 0, 0
  for value in param_values:
    measure_cv = try_vectorizer(cv(max_df=value), cluster_alg)
    measure_tfidf = try_vectorizer(tfidf(max_df=value), cluster_alg)
    print('max_df={:.3f}, cv: {:.4f}, tfidf: {:.4f}'.format( value,  measure_cv, measure_tfidf))
    if measure_cv > measure_tfidf:
      cv_score += 1 
    if measure_tfidf > measure_cv:
      tfidf_score += 1
  print('cv_score:{}, tfidf_score:{}'.format(cv_score,  tfidf_score))

In [0]:
def compare_ngram_range (cluster_alg, param_values):
  cv, tfidf = CountVectorizer, TfidfVectorizer
  cv_score, tfidf_score = 0, 0
  for value in param_values:
    measure_cv = try_vectorizer(cv(ngram_range=value), cluster_alg)
    measure_tfidf = try_vectorizer(tfidf(ngram_range=value), cluster_alg)
    print('ngram_range={}, cv: {:.4f}, tfidf: {:.4f}'.format( value,  measure_cv, measure_tfidf))
    if measure_cv > measure_tfidf:
      cv_score += 1 
    if measure_tfidf > measure_cv:
      tfidf_score += 1
  print('cv_score:{}, tfidf_score:{}'.format(cv_score,  tfidf_score))

In [0]:
def compare (cluster_alg):
  compare_min_df(cluster_alg, min_df_values)
  compare_max_df(cluster_alg, max_df_values)
  compare_ngram_range(cluster_alg, ngram_range_values)

In [0]:
min_df_values = np.arange(0.001, 0.01, 0.001)

In [0]:
max_df_values = np.arange(0.01, 0.1, 0.01)

In [0]:
ngram_range_values = [(1,1), (1,2), (2,2), (1,3), (2,3), (3,3)]

##K-means

In [0]:
sample = data.sample(frac=0.1)
y = sample['category_name']

In [0]:
cluster = KMeans(n_clusters=47, random_state=42)

In [25]:
compare(cluster)

min_df=0.001, cv:0.3174, tfidf: 0.3182
min_df=0.002, cv:0.3237, tfidf: 0.3288
min_df=0.003, cv:0.3260, tfidf: 0.3328
min_df=0.004, cv:0.3187, tfidf: 0.3312
min_df=0.005, cv:0.3198, tfidf: 0.3311
min_df=0.006, cv:0.3107, tfidf: 0.3132
min_df=0.007, cv:0.3046, tfidf: 0.3117
min_df=0.008, cv:0.3033, tfidf: 0.3105
min_df=0.009, cv:0.2957, tfidf: 0.3025
cv_score:0, tfidf_score:9
max_df=0.010, cv: 0.1906, tfidf: 0.1773
max_df=0.020, cv: 0.2446, tfidf: 0.2732
max_df=0.030, cv: 0.2446, tfidf: 0.2732
max_df=0.040, cv: 0.2674, tfidf: 0.2872
max_df=0.050, cv: 0.2620, tfidf: 0.2870
max_df=0.060, cv: 0.3051, tfidf: 0.3385
max_df=0.070, cv: 0.3120, tfidf: 0.3370
max_df=0.080, cv: 0.3120, tfidf: 0.3370
max_df=0.090, cv: 0.3222, tfidf: 0.3196
cv_score:2, tfidf_score:7
ngram_range=(1, 1), cv: 0.3222, tfidf: 0.3196
ngram_range=(1, 2), cv: 0.2411, tfidf: 0.3006
ngram_range=(2, 2), cv: 0.1105, tfidf: 0.1087
ngram_range=(1, 3), cv: 0.2183, tfidf: 0.2931
ngram_range=(2, 3), cv: 0.0983, tfidf: 0.1045
ngram_r

При разных параметрах max_df и min_df векторизация tfidf показывает лучший результат. При изменении параметра ngram_range всё не так однозначно. В целом, для кластеризации K-Means tfidf кажется предпочтительнее

##Mini Batch K-means

In [0]:
sample = data.sample(frac=1)
y = sample['category_name']

In [0]:
cluster_MKB = MiniBatchKMeans(n_clusters=1000, init_size=5000, max_iter=5000, 
                          max_no_improvement=100, reassignment_ratio=0.3)


In [0]:
compare(cluster_MKB)

min_df=0.001, cv:0.3932, tfidf: 0.3927
min_df=0.002, cv:0.3692, tfidf: 0.3651
min_df=0.003, cv:0.3549, tfidf: 0.3549
min_df=0.004, cv:0.3406, tfidf: 0.3400
min_df=0.005, cv:0.3200, tfidf: 0.3190
min_df=0.006, cv:0.3055, tfidf: 0.3045
min_df=0.007, cv:0.3058, tfidf: 0.3052
min_df=0.008, cv:0.3030, tfidf: 0.3027
min_df=0.009, cv:0.3005, tfidf: 0.3008
cv_score:8, tfidf_score:1
max_df=0.010, cv: 0.3842, tfidf: 0.3517
max_df=0.020, cv: 0.3987, tfidf: 0.3763
max_df=0.030, cv: 0.3988, tfidf: 0.4064
max_df=0.040, cv: 0.4024, tfidf: 0.4195
max_df=0.050, cv: 0.3927, tfidf: 0.4085
max_df=0.060, cv: 0.4136, tfidf: 0.4226
max_df=0.070, cv: 0.4061, tfidf: 0.4210
max_df=0.080, cv: 0.4111, tfidf: 0.4199
max_df=0.090, cv: 0.4066, tfidf: 0.4223
cv_score:2, tfidf_score:7
ngram_range=(1, 1), cv: 0.4131, tfidf: 0.4241
ngram_range=(1, 2), cv: 0.3955, tfidf: 0.4060
ngram_range=(2, 2), cv: 0.3033, tfidf: 0.2487


In [0]:
sample = data.sample(frac=0.1) #всё скрашилось, поэтому уменьшим выборку и сравним разные ngram_range заново
y = sample['category_name']

In [20]:
compare_ngram_range (cluster_MKB, ngram_range_values)

ngram_range=(1, 1), cv: 0.4229, tfidf: 0.4349
ngram_range=(1, 2), cv: 0.4002, tfidf: 0.4080
ngram_range=(2, 2), cv: 0.2522, tfidf: 0.2795
ngram_range=(1, 3), cv: 0.3862, tfidf: 0.3865
ngram_range=(2, 3), cv: 0.2329, tfidf: 0.2245
ngram_range=(3, 3), cv: 0.2250, tfidf: 0.2139
cv_score:2, tfidf_score:4


Здесь был другой тип кластеризации и размер выборки. При изменении параметра min_df чаще оказывался лучше Countvectorizer, однако разница почти всегда незначительная(меньше 1%). При изменении max_df лучше оказывался tfidf с более значительным перевесом (7 из 9 раз). При 6 разных параметрах ngram_range в 4 случаях лучше оказалось tfidf. Результаты менее однозначные, чем для K-means, но можно сказать, что tfidf всё же лучше. 


##Affinity Propagation

In [0]:
sample = data.sample(frac=0.005)
y = sample['category_name']

In [0]:
cluster_AP = AffinityPropagation(damping=0.7, preference=-2, 
                              max_iter=400, convergence_iter=10)

In [0]:
min_df_values = np.arange(0.0005, 0.003, 0.0005) # поменяем значения min_df, иначе возникает ConvergenceWarning

In [31]:
compare(cluster_AP)

min_df=0.0005, cv:0.6045, tfidf: 0.5412
min_df=0.0010, cv:0.4960, tfidf: 0.5614
min_df=0.0015, cv:0.4960, tfidf: 0.5614
min_df=0.0020, cv:0.4776, tfidf: 0.4758
min_df=0.0025, cv:0.4719, tfidf: 0.4753
cv_score:2, tfidf_score:3
max_df=0.010, cv: 0.5743, tfidf: 0.2568
max_df=0.020, cv: 0.5911, tfidf: 0.2985
max_df=0.030, cv: 0.5946, tfidf: 0.2909
max_df=0.040, cv: 0.5954, tfidf: 0.3096
max_df=0.050, cv: 0.6030, tfidf: 0.5369
max_df=0.060, cv: 0.6033, tfidf: 0.5372
max_df=0.070, cv: 0.6033, tfidf: 0.5372
max_df=0.080, cv: 0.6045, tfidf: 0.5368
max_df=0.090, cv: 0.6045, tfidf: 0.5412
cv_score:9, tfidf_score:0
ngram_range=(1, 1), cv: 0.6045, tfidf: 0.5412
ngram_range=(1, 2), cv: 0.5962, tfidf: 0.5377
ngram_range=(2, 2), cv: 0.5388, tfidf: 0.3867
ngram_range=(1, 3), cv: 0.5959, tfidf: 0.5345
ngram_range=(2, 3), cv: 0.5692, tfidf: 0.3845
ngram_range=(3, 3), cv: 0.5689, tfidf: 0.4832
cv_score:6, tfidf_score:0


CountVectorizer выглядит определенно лучше для данного типа кластеризации

На нескольких алгоритмах кластеризации проверьте, какое матричное разложение (TruncatedSVD или NMF) работает лучше для кластеризации. (3 балла)

In [0]:
def try_SVD(cluster, v):
  X_cv = v.fit_transform(sample['title'])
  svd = TruncatedSVD(50, random_state=42)
  X_svd = svd.fit_transform(X_cv)
  cluster.fit(X_svd)
  labels = cluster.labels_
  print('SVD: ', metrics.v_measure_score(y, labels))

In [0]:
def try_NMF(cluster, v):
  X_cv = v.fit_transform(sample['title'])
  nmf = NMF(50, random_state=42)
  X_nmf = nmf.fit_transform(X_cv)
  cluster.fit(X_nmf)
  labels = cluster.labels_
  print('NMF: ', metrics.v_measure_score(y, labels))

In [0]:
def SVD_or_NMF(cluster, v):
  try_SVD (cluster, v)
  try_NMF(cluster, v)


## AgglomerativeClustering

In [0]:
cv = CountVectorizer(min_df=2, max_df=0.4)
tfidf = TfidfVectorizer(min_df=2, max_df=0.4)

In [0]:
sample = data.sample(frac=0.05)
y = sample['category_name']

In [0]:
cluster_A = AgglomerativeClustering(n_clusters=47)

In [78]:
SVD_or_NMF(cluster_A, cv)

SVD:  0.3392612049780693
NMF:  0.3294212382847426


In [79]:
SVD_or_NMF(cluster_A, tfidf)

SVD:  0.35379590715189563
NMF:  0.3507134040964364


##DBSCAN

In [0]:
cluster_DB = DBSCAN(min_samples=10, eps=0.3) 

In [80]:
SVD_or_NMF(cluster_DB, cv)

SVD:  0.31572876997343213
NMF:  0.008809883748288422


In [81]:
SVD_or_NMF(cluster_DB, tfidf)

SVD:  0.15860834128120185
NMF:  -3.760773223866692e-16


##Mean Shift

In [0]:
cluster_MS = MeanShift(cluster_all=False, bandwidth=0.5)

In [82]:
SVD_or_NMF(cluster_MS, cv)

SVD:  0.34766448142697637
NMF:  0.019167016079662716


In [83]:
SVD_or_NMF(cluster_MS, tfidf)

SVD:  0.30921393963454474
NMF:  -3.760773223866692e-16


Во всех случаях TruncatedSVD разложение оказалось лучше. 

С помощью алгоритмов, умеющих выделять выбросы, попробуйте найти необычные объявления (необычные - это такие, которые непонятно к какой категории можно вообще отнести, что-то с ошибками или вообще какая-то дичь). В этом задании можно использовать любую векторизацию. (4 балла)

In [0]:
def labels(cluster_alg):
  cv = CountVectorizer(min_df = 0.001, max_df=0.4)
  X = cv.fit_transform(sample['title'])
  svd = TruncatedSVD(50)
  cluster = cluster_alg
  X_svd = svd.fit_transform(X)
  cluster.fit(X_svd)
  labels = cluster.labels_
  #sample['cluster'] = cluster.labels_
  #print(sample[sample.cluster==-1].head(20))
  return labels

In [0]:
sample = data.sample(frac=0.05)
y = sample['category_name']


In [0]:
sample['cluster'] = labels(cluster_DB)

In [140]:
sample[sample.cluster==-1].head(20)

Unnamed: 0,category_name,title,cluster
214317,Детская одежда и обувь,Продам комбинезон,-1
20337,Предложение услуг,Ремонт под ключ,-1
109491,"Одежда, обувь, аксессуары",Отдам Ботинки кожа осень и босоножки,-1
93583,Телефоны,iPhone 4s/5s/6 Новые/Гарантия/Доставка,-1
203161,Квартиры,"Студия, 22 м², 10/19 эт.",-1
91133,Детская одежда и обувь,"Костюм крокид, размер 86",-1
74067,"Одежда, обувь, аксессуары",Пакет с 6 рубашками 48-50 размера (по плечам),-1
208520,Товары для животных,Спрей для приучения к туалету для собак,-1
149525,Товары для животных,Вальтрап для лошади. Белый для конкурса,-1
87719,Квартиры,"Студия, 29 м², 2/18 эт.",-1


"Ремонт под ключ" слова "ремонт" и "ключ" можно встретить в описании недвижимости, а не услуги. "Отдам Ботинки кожа осень и босоножки" - возможно слишком много слов, "отдам" встречается часто и в других объявлениях. Непонятно детская это обувь или взрослая(есть отдельные категории). "Пакет с 6 рубашками 48-50 размера (по плечам)" возможно слово "пакет" в одежде все портит, "пакет" может быть как какой-нибудь тариф. "Вальтрап для лошади. Белый для конкурса" - лошади определенно не самые частотные животные. "белый для конкурса" - слишком непонятно без контекста. Лошадь может чаще встречаться как детская игрушка. "Новый чехол для Huawei Ascend G630 G 630" стоит ли относить аксессуар к категории "телефоны"? "Кабель (нейлоновый) для iPod, iPhone и iPad" - кабель может быть строительный и относиться к категории "ремонт, товары для дома". 

In [0]:
sample['cluster'] = labels(cluster_MS)

In [144]:
sample[sample.cluster==-1].head(20)

Unnamed: 0,category_name,title,cluster
20337,Предложение услуг,Ремонт под ключ,-1
229561,Собаки,Отдам щенят в добрые руки,-1
250185,Мебель и интерьер,Диван+кресло,-1
197068,Кошки,Отдам в добрые руки,-1
113255,Бытовая техника,Бак от стиральной машины. Материал - нержавеющая,-1
151268,Мебель и интерьер,Угловой диван-кровать,-1
144199,Предложение услуг,Избавим от насекомых,-1
224097,Красота и здоровье,Продам новую парфюмерную воду от avon - Premie...,-1
69618,Квартиры,"Студия, 32 м², 6/6 эт.",-1
45735,Предложение услуг,"Ремонт ванной комнаты ""под ключ""",-1


"Отдам в добрые руки" в категории "кошки". Отдать в добрые руки можно и любое другое животное или даже вещь. "Ремонт под ключ" дважды встречается в описаниях услуг, слово "ремонт" неоднозначно и может быть в объявлении типа "квартира, хороший ремонт". 