# Лабораторная работа №5. Алгоритмы кластеризации данных
## Общее задание

Перед выполнением лабораторной работы необходимо загрузить набор данных в соответствии с вариантом на диск.

1. Произвести масштабирование признаков (scaling).
2. С использованием библиотеки scikit-learn написать программу с использованием алгоритмов кластеризации данных, позволяющую разделить исходную выборку на классы, соответствующие предложенной вариантом задаче (http://scikit-learn.org/stable/modules/clustering.html).
3. Провести эксперименты и определить наилучший алгоритм кластеризации, параметры алгоритма. Необходимо использовать не менее 3-х алгоритмов. Данные экспериментов необходимо представить в отчете (графики, ход проведения эксперимента, выводы).


## Варианты
Массивы данных берутся из UCI Machine Learning Repository

Вариант определяется набором данных, который можно загрузить по ссылке выше:
1. Sponge
2. Water Treatment Plant
3. Synthetic Control Chart Time Series
4. Character Trajectories
5. Plants
6. Libras Movement
7. KEGG Metabolic Relation Network (Directed)
8. SMS Spam Collection
9. seeds
10. Human Activity Recognition Using Smartphones
11. User Knowledge Modeling
12. NYSK
13. Activities of Daily Living (ADLs) Recognition Using Binary Sensors
14. Dresses_Attribute_Sales
15. Wholesale customers
16. StoneFlakes
17. Gesture Phase Segmentation
18. AAAI 2014 Accepted Papers
19. Dow Jones Index
20. AAAI 2013 Accepted Papers
21. wiki4HE
22. Folio
23. Mice Protein Expression
24. Improved Spiral Test Using Digitized Graphics Tablet for Monitoring Parkinson’s Disease

## Вариант 2


In [22]:
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.metrics import normalized_mutual_info_score
from sklearn.cluster import KMeans
from sklearn.cluster import MiniBatchKMeans
from sklearn.cluster import AffinityPropagation

Загрузка данных.

In [23]:
df = pd.read_csv('dataset.csv')
x_data = np.array(df.drop('class', axis=1)) 
y_data = np.array(df['class']) 

class_names = ['Kama', 'Rosa', 'Canadian'] # Названия классов

1. Произвести масштабирование признаков (scaling).

In [24]:
scaler = preprocessing.StandardScaler()
x_data = scaler.fit_transform(x_data)

2. С использованием библиотеки scikit-learn написать программу с использованием алгоритмов кластеризации данных, позволяющую разделить исходную выборку на классы, соответствующие предложенной вариантом задаче.

In [25]:
#KMeans
kmeans = KMeans(n_clusters=3)
kmeans.fit(x_data)
kmeans_score = normalized_mutual_info_score(y_data, kmeans.labels_)

print(kmeans.labels_)

print("Точность кластеризации KMeans: ", kmeans_score)

#MiniBatchKMeans
mini_batch_kmeans = MiniBatchKMeans(n_clusters=3)
mini_batch_kmeans.fit(x_data)
mini_batch_kmeans_score = normalized_mutual_info_score(y_data, mini_batch_kmeans.labels_)

print("Точность кластеризации MiniBatchKMeans: ", kmeans_score)

#AffinityPropagation
affinity_propagation = AffinityPropagation()
affinity_propagation.fit(x_data)
affinity_propagation_score = normalized_mutual_info_score(y_data, affinity_propagation.labels_)

print("Точность кластеризации AffinityPropagation: ", affinity_propagation_score)

[2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 0 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 0 2 2 2 2 2 2 2 2 0 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1 1 2 1 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0
 0 0 0 0 0 0 0 2 0 0 2 0 2 0 2 0 2 0 0 0 2 0 0 0 0]
Точность кластеризации KMeans:  0.7307315088111603
Точность кластеризации MiniBatchKMeans:  0.7307315088111603
Точность кластеризации AffinityPropagation:  0.49702914705936635


3. Провести эксперименты и определить наилучший алгоритм кластеризации, параметры алгоритма. Необходимо использовать не менее 3-х алгоритмов. Данные экспериментов необходимо представить в отчете (графики, ход проведения эксперимента, выводы).

#### Подбор параметров для KMeans.

In [26]:
best_n_clusters = 1
best_n_init = 1
best_kmeans_score = -1e20
for n_clusters in range(1, 5):
    for n_init in range(1, 20):
        kmeans = KMeans(n_clusters=n_clusters, n_init=n_init)
        kmeans.fit(x_data)
        kmeans_score = normalized_mutual_info_score(y_data, kmeans.labels_)
        
        if kmeans_score > best_kmeans_score:
            best_kmeans_score = kmeans_score
            best_n_clusters = n_clusters
            best_n_init = n_init

print('Лучшая точность KMeans: ', best_kmeans_score)
print('Лучшее значение параметра n_clusters: ', best_n_clusters)
print('Лучшее значение параметра n_init: ', best_n_init)

Лучшая точность KMeans:  0.750181981646104
Лучшее значение параметра n_clusters:  3
Лучшее значение параметра n_init:  7


#### Подбор параметров для MiniBatchKMeans.

In [27]:
best_n_clusters = 1
best_n_init = 1
best_mini_batch_kmeans_score = -1e20
for n_clusters in range(1, 5):
    for n_init in range(1, 20):
        mini_batch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, n_init=n_init)
        mini_batch_kmeans.fit(x_data)
        mini_batch_kmeans_score = normalized_mutual_info_score(y_data, mini_batch_kmeans.labels_)
        
        if mini_batch_kmeans_score > best_mini_batch_kmeans_score:
            best_mini_batch_kmeans_score = mini_batch_kmeans_score
            best_n_clusters = n_clusters
            best_n_init = n_init

print('Лучшая точность MiniBatchKMeans: ', best_mini_batch_kmeans_score)
print('Лучшее значение параметра n_clusters: ', best_n_clusters)
print('Лучшее значение параметра n_init: ', best_n_init)

Лучшая точность MiniBatchKMeans:  0.7630377164150979
Лучшее значение параметра n_clusters:  3
Лучшее значение параметра n_init:  18


#### Подбор параметров для AffinityPropagation.

In [28]:
best_damping = 1
best_preference = 1
best_affinity_propagation_score = -1e20
for damping in np.linspace(0.5, 0.8, 20):
    for preference in np.linspace(-50, 50, 20):
        affinity_propagation = AffinityPropagation(damping=damping, preference=preference)
        affinity_propagation.fit(x_data)
        affinity_propagation_score = normalized_mutual_info_score(y_data, affinity_propagation.labels_)
        
        if affinity_propagation_score > best_affinity_propagation_score:
            best_affinity_propagation_score = affinity_propagation_score
            best_damping = damping
            best_preference = preference

print('Лучшая точность AffinityPropagation: ', best_affinity_propagation_score)
print('Лучшее значение параметра damping: ', best_damping)
print('Лучшее значение параметра preference: ', best_preference)

Лучшая точность AffinityPropagation:  0.6830524671669383
Лучшее значение параметра damping:  0.7526315789473685
Лучшее значение параметра preference:  -50.0


#### Вывод

In [29]:
method_name = ['KMeans', 'MiniBatchKMeans', 'AffinityPropagation']
scores = [best_kmeans_score, best_mini_batch_kmeans_score, best_affinity_propagation_score]
best_method_name = method_name[np.argmax(scores)]

for id, name in enumerate(method_name):
    print(f'Точность метода {name}: {scores[id]}')

print(f'\nИтог: лучшим оказался метод {best_method_name}')

Точность метода KMeans: 0.750181981646104
Точность метода MiniBatchKMeans: 0.7630377164150979
Точность метода AffinityPropagation: 0.6830524671669383

Итог: лучшим оказался метод MiniBatchKMeans
