# 1)Чтение данных.

In [29]:
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_blobs
from sklearn.cluster import AgglomerativeClustering

In [30]:
# Загрузка данных
data = pd.read_csv('C:/Users/shemy/Downloads/master2.csv')

# Удалим ненужные столбцы и пропуски
data = data.drop(columns=['country', 'year', 'sex', 'age', 'population', 'gdp_for_year', 'gdp_per_capita'], errors='ignore')

# Заполним пропуски
data.fillna(0, inplace=True)

# Вытаскиваем числовые признаки
numeric_columns = data.select_dtypes(include=['float64', 'int64']).columns
X = data[numeric_columns]

# 2)KMeans.

In [31]:
# Определяем количество кластеров
n_clusters = 3
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
kmeans_labels = kmeans.fit_predict(X)

# Подсчет количества найденных кластеров
unique_clusters = np.unique(kmeans_labels)
num_clusters = len(unique_clusters) - (1 if -1 in unique_clusters else 0)  # Исключаем шум, если он есть

# Оценка качества кластеризации
silhouette_kmeans = silhouette_score(X, kmeans_labels)

# Вывод результатов
print(f'Количество обнаруженных кластеров: {num_clusters}')
print(f'Silhouette Score для KMeans: {silhouette_kmeans}')

Количество обнаруженных кластеров: 3
Silhouette Score для KMeans: 0.8832307929120485


# 3)DBSCAN.

In [35]:
# Применение DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
dbscan_labels = dbscan.fit_predict(X)

# Подсчет количества обнаруженных кластеров, исключая шум (-1)
num_clusters = len(set(dbscan_labels)) - (1 if -1 in dbscan_labels else 0)
print(f'Количество обнаруженных кластеров: {num_clusters}')

# Оценка качества кластеризации
silhouette_dbscan = silhouette_score(X, dbscan_labels) if num_clusters > 1 else -1
print(f'Silhouette Score для DBSCAN: {silhouette_dbscan}')

Количество обнаруженных кластеров: 3
Silhouette Score для DBSCAN: 0.46298987638528877


# 4)AgglomerativeClustering.

In [27]:
n_clusters = 3  # Задаем желаемое количество кластеров
agglo = AgglomerativeClustering(n_clusters=n_clusters)
agglo_labels = agglo.fit_predict(X)

# Определение уникальных меток кластеров и подсчет количества обнаруженных кластеров
unique_clusters = np.unique(agglo_labels)
num_clusters = len(unique_clusters)  # Общее количество обнаруженных кластеров

# Оценка качества кластеризации
silhouette_agglo = silhouette_score(X, agglo_labels)

print(f'Количество обнаруженных кластеров: {num_clusters}')
print(f'Silhouette Score для агломеративной кластеризации: {silhouette_agglo}')

Количество обнаруженных кластеров: 3
Silhouette Score для агломеративной кластеризации: 0.638644225802982


# 5)Сравнение методов.

In [36]:
table1 = [["KMeans", 88.32],
         ["DBSCAN", 46.29],
         ["AgglomerativeClustering", 63.86]]
df = pd.DataFrame(table1, columns=["Метод", "Корректность в %"])
print(df)

                     Метод  Корректность в %
0                   KMeans             88.32
1                   DBSCAN             46.29
2  AgglomerativeClustering             63.86


# 6)Вывод

Лучший результат получился с использованием метода кластеризации KMeans