# Лабораторная работа №5. Алгоритмы кластеризации данных
## Общее задание

Перед выполнением лабораторной работы необходимо загрузить набор данных в соответствии с вариантом на диск.

1. Произвести масштабирование признаков (scaling).
2. С использованием библиотеки scikit-learn написать программу с использованием алгоритмов кластеризации данных, позволяющую разделить исходную выборку на классы, соответствующие предложенной вариантом задаче (http://scikit-learn.org/stable/modules/clustering.html).
3. Провести эксперименты и определить наилучший алгоритм кластеризации, параметры алгоритма. Необходимо использовать не менее 3-х алгоритмов. Данные экспериментов необходимо представить в отчете (графики, ход проведения эксперимента, выводы).


## Варианты
Массивы данных берутся из UCI Machine Learning Repository

Вариант определяется набором данных, который можно загрузить по ссылке выше:
1. Sponge
2. Water Treatment Plant
3. Synthetic Control Chart Time Series
4. Character Trajectories
5. Plants
6. Libras Movement
7. KEGG Metabolic Relation Network (Directed)
8. SMS Spam Collection
9. seeds
10. Human Activity Recognition Using Smartphones
11. User Knowledge Modeling
12. NYSK
13. Activities of Daily Living (ADLs) Recognition Using Binary Sensors
14. Dresses_Attribute_Sales
15. Wholesale customers
16. StoneFlakes
17. Gesture Phase Segmentation
18. AAAI 2014 Accepted Papers
19. Dow Jones Index
20. AAAI 2013 Accepted Papers
21. wiki4HE
22. Folio
23. Mice Protein Expression
24. Improved Spiral Test Using Digitized Graphics Tablet for Monitoring Parkinson’s Disease

## Вариант 6

Датасет: Libras Movement

In [1]:
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.metrics import normalized_mutual_info_score
from sklearn.cluster import KMeans
from sklearn.cluster import MiniBatchKMeans
from sklearn.cluster import AffinityPropagation

Загрузка данных.

In [2]:
df = pd.read_csv('movement_libras.csv')
x_data = np.array(df.drop('class', axis=1)) # Данные 
y_data = np.array(df['class']) # Класс 


1. Произвести масштабирование признаков (scaling).

In [3]:
scaler = preprocessing.StandardScaler()
x_data = scaler.fit_transform(x_data)

2. С использованием библиотеки scikit-learn написать программу с использованием алгоритмов кластеризации данных, позволяющую разделить исходную выборку на классы, соответствующие предложенной вариантом задаче.

In [4]:
#KMeans
kmeans = KMeans(n_clusters=15)  # Создание объекта KMeans
kmeans.fit(x_data)  # Применение алгоритма кластеризации KMeans к масштабированным данным
kmeans_score = normalized_mutual_info_score(y_data, kmeans.labels_)  # Вычисление нормализованного взаимного информационного коэффициента для оценки точности кластеризации

#print(kmeans.labels_) # Вывод меток кластеров KMeans
print("Точность кластеризации KMeans: ", kmeans_score)


#MiniBatchKMeans
mini_batch_kmeans = MiniBatchKMeans(n_clusters=15) # Создание объекта MiniBatchKMeans 
mini_batch_kmeans.fit(x_data)  # Применение алгоритма кластеризации MiniBatchKMeans
mini_batch_kmeans_score = normalized_mutual_info_score(y_data, mini_batch_kmeans.labels_)  # Вычисление нормализованного взаимного информационного коэффициента для оценки точности кластеризации

print("Точность кластеризации MiniBatchKMeans: ", mini_batch_kmeans_score)


#AffinityPropagation
affinity_propagation = AffinityPropagation()  # Создание объекта AffinityPropagation
affinity_propagation.fit(x_data)  # Применение алгоритма кластеризации AffinityPropagation
affinity_propagation_score = normalized_mutual_info_score(y_data, affinity_propagation.labels_) # Вычисление нормализованного взаимного информационного коэффициента для оценки точности кластеризации

print("Точность кластеризации AffinityPropagation: ", affinity_propagation_score)



Точность кластеризации KMeans:  0.5843906008605559
Точность кластеризации MiniBatchKMeans:  0.5378774349840285
Точность кластеризации AffinityPropagation:  0.6347278357013262


3. Провести эксперименты и определить наилучший алгоритм кластеризации, параметры алгоритма. Необходимо использовать не менее 3-х алгоритмов. Данные экспериментов необходимо представить в отчете (графики, ход проведения эксперимента, выводы).

#### Подбор параметров для KMeans.

In [5]:
# Инициализация переменных для хранения лучших значений параметров и точности кластеризации
best_n_clusters = 1
best_n_init = 1
best_kmeans_score = -1e20

# Цикл для перебора возможных значений параметров n_clusters и n_init
for n_clusters in range(1, 16):
    for n_init in range(1, 20):     # n_init определяет, сколько раз алгоритм будет запускаться с различными начальными центрами кластеров. Это полезно для нахождения глобального минимума.
        # Создание объекта KMeans с текущими значениями параметров
        kmeans = KMeans(n_clusters=n_clusters, n_init=n_init)
        
        # Применение алгоритма кластеризации KMeans к масштабированным данным
        kmeans.fit(x_data)
        
        # Вычисление нормализованного взаимного информационного коэффициента для оценки точности кластеризации
        kmeans_score = normalized_mutual_info_score(y_data, kmeans.labels_)
        
        # Обновление лучших значений параметров и точности кластеризации, если текущая точность выше
        if kmeans_score > best_kmeans_score:
            best_kmeans_score = kmeans_score
            best_n_clusters = n_clusters
            best_n_init = n_init

# Вывод лучших значений параметров и точности кластеризации
print('Лучшая точность KMeans: ', best_kmeans_score)
print('Лучшее значение параметра n_clusters: ', best_n_clusters)
print('Лучшее значение параметра n_init: ', best_n_init)


Лучшая точность KMeans:  0.6180195978989597
Лучшее значение параметра n_clusters:  15
Лучшее значение параметра n_init:  3


#### Подбор параметров для MiniBatchKMeans.

In [6]:
# Инициализация переменных для хранения лучших значений параметров и точности кластеризации
best_n_clusters = 1
best_n_init = 1
best_mini_batch_kmeans_score = -1e20

# Цикл для перебора возможных значений параметров n_clusters и n_init
for n_clusters in range(1, 16):
    for n_init in range(1, 20):        # n_init определяет, сколько раз алгоритм будет запускаться с различными начальными центрами кластеров. Это полезно для нахождения глобального минимума.
        # Создание объекта MiniBatchKMeans с текущими значениями параметров
        mini_batch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, n_init=n_init)
        
        # Применение алгоритма кластеризации MiniBatchKMeans к масштабированным данным
        mini_batch_kmeans.fit(x_data)
        
        # Вычисление нормализованного взаимного информационного коэффициента для оценки точности кластеризации
        mini_batch_kmeans_score = normalized_mutual_info_score(y_data, mini_batch_kmeans.labels_)
        
        # Обновление лучших значений параметров и точности кластеризации, если текущая точность выше
        if mini_batch_kmeans_score > best_mini_batch_kmeans_score:
            best_mini_batch_kmeans_score = mini_batch_kmeans_score
            best_n_clusters = n_clusters
            best_n_init = n_init

# Вывод лучших значений параметров и точности кластеризации
print('Лучшая точность MiniBatchKMeans: ', best_mini_batch_kmeans_score)
print('Лучшее значение параметра n_clusters: ', best_n_clusters)
print('Лучшее значение параметра n_init: ', best_n_init)


Лучшая точность MiniBatchKMeans:  0.6058983213175402
Лучшее значение параметра n_clusters:  15
Лучшее значение параметра n_init:  6


#### Подбор параметров для AffinityPropagation.

In [7]:
# Инициализация переменных для хранения лучших значений параметров и точности кластеризации
best_damping = 1
best_preference = 1
best_affinity_propagation_score = -1e20

# Цикл для перебора возможных значений параметров damping и preference
for damping in np.linspace(0.5, 0.8, 20):  # Перебор значений параметра damping от 0.5 до 0.8
    for preference in np.linspace(-50, 50, 20):  # Перебор значений параметра preference от -50 до 50
        # Создание объекта AffinityPropagation с текущими значениями параметров damping и preference
        affinity_propagation = AffinityPropagation(damping=damping, preference=preference)
        
        # Применение алгоритма кластеризации AffinityPropagation к масштабированным данным
        affinity_propagation.fit(x_data)
        
        # Вычисление нормализованного взаимного информационного коэффициента для оценки точности кластеризации
        affinity_propagation_score = normalized_mutual_info_score(y_data, affinity_propagation.labels_)
        
        # Обновление лучших значений параметров и точности кластеризации, если текущая точность выше
        if affinity_propagation_score > best_affinity_propagation_score:
            best_affinity_propagation_score = affinity_propagation_score
            best_damping = damping
            best_preference = preference

# Вывод лучших значений параметров и точности кластеризации
print('Лучшая точность AffinityPropagation: ', best_affinity_propagation_score)
print('Лучшее значение параметра damping: ', best_damping)
print('Лучшее значение параметра preference: ', best_preference)



Лучшая точность AffinityPropagation:  0.6904947978030197
Лучшее значение параметра damping:  0.7842105263157895
Лучшее значение параметра preference:  -23.684210526315788


#### Вывод

In [8]:
method_name = ['KMeans', 'MiniBatchKMeans', 'AffinityPropagation']
scores = [best_kmeans_score, best_mini_batch_kmeans_score, best_affinity_propagation_score]

# Выбор лучшего метода по максимальной точности
best_method_name = method_name[np.argmax(scores)]

for id, name in enumerate(method_name):
    print(f'Точность метода {name}: {scores[id]}')

print(f'\nИтог: лучшим оказался метод {best_method_name}')

Точность метода KMeans: 0.6180195978989597
Точность метода MiniBatchKMeans: 0.6058983213175402
Точность метода AffinityPropagation: 0.6904947978030197

Итог: лучшим оказался метод AffinityPropagation
