Датасет: wiki4HE

In [38]:
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.metrics import normalized_mutual_info_score
from sklearn.cluster import KMeans
from sklearn.cluster import MiniBatchKMeans
from sklearn.cluster import AffinityPropagation

Загрузка данных.

In [39]:
df = pd.read_csv('wiki4HE.csv', sep=';')
df = df.apply(pd.to_numeric, errors='coerce')
df.dropna(how="any", inplace=True, axis=0)
df.head()
x_data = np.array(df.drop('YEARSEXP', axis=1))
y_data = np.array(df['YEARSEXP'])

1. Произвести масштабирование признаков (scaling).

In [40]:
scaler = preprocessing.StandardScaler()
x_data = scaler.fit_transform(x_data)

2. С использованием библиотеки scikit-learn написать программу с использованием алгоритмов кластеризации данных, позволяющую разделить исходную выборку на классы, соответствующие предложенной вариантом задаче.

In [41]:
#KMeans
kmeans = KMeans(n_clusters=3)
kmeans.fit(x_data)
kmeans_score = normalized_mutual_info_score(y_data, kmeans.labels_)

print(kmeans.labels_)

print("Точность кластеризации KMeans: ", kmeans_score)

#MiniBatchKMeans
mini_batch_kmeans = MiniBatchKMeans(n_clusters=3)
mini_batch_kmeans.fit(x_data)
mini_batch_kmeans_score = normalized_mutual_info_score(y_data, mini_batch_kmeans.labels_)

print("Точность кластеризации MiniBatchKMeans: ", kmeans_score)

#AffinityPropagation
affinity_propagation = AffinityPropagation()
affinity_propagation.fit(x_data)
affinity_propagation_score = normalized_mutual_info_score(y_data, affinity_propagation.labels_)

print("Точность кластеризации AffinityPropagation: ", affinity_propagation_score)

[0 2 1 2 0 0 0 0 0 0 2 0 0 2 0 0 1 2 0 1 1 2 2 0 0 0 0 1 0 0 1 0 1 1 0 0 0
 0 0 0 0 0 2 0 2 0 0 1 1 2 1 0 1 0 1 0 2 0 2 0 1 1 2 2 1 0 0 1 2 0 1 1 2 2
 1 2 0 2 0 0 2 2 1 2 2 0 0 2 1 0 2 2 1 0 2 2 2 0 0 2 1 1 2 0 1 2 0 2 2 0 2
 0 0 1 2 0 2 2 0 0 2 1 2 2 2 1 2 0 0 0 2 2 0 2 0 2 2 2 2 2 0 2 0 1 2 2 2 2
 1 2 2 2 2 2 2 2 0 0 0 1 2 2 1 0 1 0 0 2 2 0 2 0 2 2 0 2]
Точность кластеризации KMeans:  0.09077047153492059
Точность кластеризации MiniBatchKMeans:  0.09077047153492059
Точность кластеризации AffinityPropagation:  0.29648072054094216


3. Провести эксперименты и определить наилучший алгоритм кластеризации, параметры алгоритма. Необходимо использовать не менее 3-х алгоритмов. Данные экспериментов необходимо представить в отчете (графики, ход проведения эксперимента, выводы).

#### Подбор параметров для KMeans.

In [42]:
best_n_clusters = 1
best_n_init = 1
best_kmeans_score = -1e20
for n_clusters in range(1, 5):
    for n_init in range(1, 20):
        kmeans = KMeans(n_clusters=n_clusters, n_init=n_init)
        kmeans.fit(x_data)
        kmeans_score = normalized_mutual_info_score(y_data, kmeans.labels_)
        
        if kmeans_score > best_kmeans_score:
            best_kmeans_score = kmeans_score
            best_n_clusters = n_clusters
            best_n_init = n_init

print('Лучшая точность KMeans: ', best_kmeans_score)
print('Лучшее значение параметра n_clusters: ', best_n_clusters)
print('Лучшее значение параметра n_init: ', best_n_init)

Лучшая точность KMeans:  0.1315131025811878
Лучшее значение параметра n_clusters:  4
Лучшее значение параметра n_init:  1


#### Подбор параметров для MiniBatchKMeans.

In [43]:
best_n_clusters = 1
best_n_init = 1
best_mini_batch_kmeans_score = -1e20
for n_clusters in range(1, 5):
    for n_init in range(1, 20):
        mini_batch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, n_init=n_init)
        mini_batch_kmeans.fit(x_data)
        mini_batch_kmeans_score = normalized_mutual_info_score(y_data, mini_batch_kmeans.labels_)
        
        if mini_batch_kmeans_score > best_mini_batch_kmeans_score:
            best_mini_batch_kmeans_score = mini_batch_kmeans_score
            best_n_clusters = n_clusters
            best_n_init = n_init

print('Лучшая точность MiniBatchKMeans: ', best_mini_batch_kmeans_score)
print('Лучшее значение параметра n_clusters: ', best_n_clusters)
print('Лучшее значение параметра n_init: ', best_n_init)

Лучшая точность MiniBatchKMeans:  0.12948074029485257
Лучшее значение параметра n_clusters:  4
Лучшее значение параметра n_init:  5


#### Подбор параметров для AffinityPropagation.

In [44]:
best_damping = 1
best_preference = 1
best_affinity_propagation_score = -1e20
for damping in np.linspace(0.5, 0.8, 20):
    for preference in np.linspace(-50, 50, 20):
        affinity_propagation = AffinityPropagation(damping=damping, preference=preference)
        affinity_propagation.fit(x_data)
        affinity_propagation_score = normalized_mutual_info_score(y_data, affinity_propagation.labels_)
        
        if affinity_propagation_score > best_affinity_propagation_score:
            best_affinity_propagation_score = affinity_propagation_score
            best_damping = damping
            best_preference = preference

print('Лучшая точность AffinityPropagation: ', best_affinity_propagation_score)
print('Лучшее значение параметра damping: ', best_damping)
print('Лучшее значение параметра preference: ', best_preference)



Лучшая точность AffinityPropagation:  0.7349951252603437
Лучшее значение параметра damping:  0.5
Лучшее значение параметра preference:  -7.89473684210526


#### Вывод

In [45]:
method_name = ['KMeans', 'MiniBatchKMeans', 'AffinityPropagation']
scores = [best_kmeans_score, best_mini_batch_kmeans_score, best_affinity_propagation_score]
best_method_name = method_name[np.argmax(scores)]

for id, name in enumerate(method_name):
    print(f'Точность метода {name}: {scores[id]}')

print(f'\nИтог: лучшим оказался метод {best_method_name}')

Точность метода KMeans: 0.1315131025811878
Точность метода MiniBatchKMeans: 0.12948074029485257
Точность метода AffinityPropagation: 0.7349951252603437

Итог: лучшим оказался метод AffinityPropagation
