# 1)Чтение данных.

In [29]:
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_blobs
from sklearn.cluster import AgglomerativeClustering

In [30]:
# Загрузка данных
data = pd.read_csv('C:/Users/shemy/Downloads/master2.csv')

# Предобработка данных
# Удалим ненужные столбцы и пропуски
data = data.drop(columns=['country', 'year', 'sex', 'age', 'population', 'gdp_for_year', 'gdp_per_capita'], errors='ignore')

# Заполним пропуски
data.fillna(0, inplace=True)

# Вытаскиваем числовые признаки
numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns
X = data[numeric_columns]

# 2)KMeans.

In [31]:
# Определяем количество кластеров
n_clusters = 3  # Вы можете изменить это значение, если хотите
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
kmeans_labels = kmeans.fit_predict(X)

# Подсчет количества найденных кластеров
unique_clusters = np.unique(kmeans_labels)
num_clusters = len(unique_clusters) - (1 if -1 in unique_clusters else 0)  # Исключаем шум, если он есть

# Оценка качества кластеризации
silhouette_kmeans = silhouette_score(X, kmeans_labels)

# Вывод результатов
print(f'Количество обнаруженных кластеров: {num_clusters}')
print(f'Silhouette Score для KMeans: {silhouette_kmeans}')

Количество обнаруженных кластеров: 3
Silhouette Score для KMeans: 0.8832307929120485


# 3)DBSCAN.

In [35]:
# Создадим некоторые данные для кластеризации
X, y = make_blobs(n_samples=100, centers=3, cluster_std=0.60, random_state=0)

# Превращаем в DataFrame для удобства
df = pd.DataFrame(X, columns=['feature1', 'feature2'])

# Масштабируем данные
scaler = StandardScaler()
scaled_features = scaler.fit_transform(df)

# Применяем DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
dbscan.fit(scaled_features)

# Получаем метки кластеров
labels = dbscan.labels_

# Подсчет количества обнаруженных кластеров, исключая шум (-1)
n_clusters = len(set(labels)) - (1 if -1 in labels else 0)

# Проверим, были ли найдены кластеры
if n_clusters > 0:  # Убедимся, что найдены кластеры
    silhouette_avg = silhouette_score(scaled_features, labels)
    print(f"Количество обнаруженных кластеров: {n_clusters}")
    print(f"Silhouette Score для DBSCAN: {silhouette_avg}")
else:
    print("Недостаточно кластеров, чтобы рассчитать Silhouette Score.")

Количество обнаруженных кластеров: 2
Silhouette Score для DBSCAN: 0.49556618120318274


# 4)AgglomerativeClustering.

In [27]:
# Применение агломеративной кластеризации
n_clusters = 3  # Задаем желаемое количество кластеров
agglo = AgglomerativeClustering(n_clusters=n_clusters)
agglo_labels = agglo.fit_predict(X)

# Определение уникальных меток кластеров и подсчет количества обнаруженных кластеров
unique_clusters = np.unique(agglo_labels)
num_clusters = len(unique_clusters)  # Общее количество обнаруженных кластеров

# Оценка качества кластеризации
silhouette_agglo = silhouette_score(X, agglo_labels)

# Вывод результатов
print(f'Количество обнаруженных кластеров: {num_clusters}')
print(f'Silhouette Score для агломеративной кластеризации: {silhouette_agglo}')

Количество обнаруженных кластеров: 3
Silhouette Score для агломеративной кластеризации: 0.9097997548299109


# 5)Сравнение методов.

In [36]:
table1 = [["KMeans", 88.32],
         ["DBSCAN", 49.55],
         ["AgglomerativeClustering", 90.97]]
df = pd.DataFrame(table1, columns=["Метод", "Корректность в %"])
print(df)

                     Метод  Корректность в %
0                   KMeans             88.32
1                   DBSCAN             49.55
2  AgglomerativeClustering             90.97


# 6)Вывод

Лучший результат получился с использованием метода кластеризации AgglomerativeClustering