In [None]:
# Импорт необходимых библиотек
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.metrics import silhouette_score
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.mixture import GaussianMixture

In [None]:
# Настройка стилей для графиков
sns.set(style="whitegrid")

In [None]:
# Загрузка данных Iris (замените на свой датасет, если нужно)
iris = load_iris()
X = iris.data
y = iris.target

In [None]:
# Преобразование в DataFrame для удобства работы
df = pd.DataFrame(X, columns=iris.feature_names)

In [None]:
# Функция для визуализации кластеров
def plot_clusters(X, y_pred, title, centroids=None):
    plt.figure(figsize=(8, 6))
    plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', marker='o', edgecolor='k')
    if centroids is not None:
        plt.scatter(centroids[:, 0], centroids[:, 1], s=300, c='red', label='Centroids')
    plt.title(title)
    plt.xlabel('Feature 1: Sepal Length')
    plt.ylabel('Feature 2: Sepal Width')
    plt.legend()
    plt.show()

In [None]:
# 1. Алгоритм K-Means (частичная кластеризация)
print("1. K-Means Clustering")
kmeans = KMeans(n_clusters=3, random_state=42)
y_kmeans = kmeans.fit_predict(X)

In [None]:
# Визуализация кластеров
plot_clusters(X, y_kmeans, 'K-Means Clustering (Iris Dataset)', kmeans.cluster_centers_)

In [None]:
# Оценка качества кластеризации с помощью силуэтного коэффициента
print(f'Silhouette Score for K-Means: {silhouette_score(X, y_kmeans)}\n')

In [None]:
# 2. DBSCAN (кластеризация, основанная на плотности)
print("2. DBSCAN Clustering")
dbscan = DBSCAN(eps=0.5, min_samples=5)
y_dbscan = dbscan.fit_predict(X)

In [None]:
# Визуализация кластеров
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=y_dbscan, cmap='plasma', marker='o', edgecolor='k')
plt.title('DBSCAN Clustering (Iris Dataset)')
plt.xlabel('Feature 1: Sepal Length')
plt.ylabel('Feature 2: Sepal Width')
plt.show()

In [None]:
# Оценка качества кластеризации для DBSCAN
print(f'Silhouette Score for DBSCAN: {silhouette_score(X[y_dbscan != -1], y_dbscan[y_dbscan != -1])}\n')

In [None]:
# 3. Агломеративная кластеризация (иерархическая кластеризация)
print("3. Agglomerative Clustering")
agg_clust = AgglomerativeClustering(n_clusters=3, linkage='ward')
y_agg = agg_clust.fit_predict(X)

In [None]:
# Визуализация кластеров
plot_clusters(X, y_agg, 'Agglomerative Clustering (Iris Dataset)')

In [None]:
# Дендрограмма для агломеративной кластеризации
plt.figure(figsize=(10, 7))
linkage_matrix = linkage(X, method='ward')
dendrogram(linkage_matrix)
plt.title('Dendrogram for Agglomerative Clustering (Iris Dataset)')
plt.xlabel('Sample index')
plt.ylabel('Distance')
plt.show()

In [None]:
# Оценка качества кластеризации
print(f'Silhouette Score for Agglomerative Clustering: {silhouette_score(X, y_agg)}\n')

In [None]:
# 4. Gaussian Mixture Model (GMM, вероятностная кластеризация)
print("4. Gaussian Mixture Model Clustering")
gmm = GaussianMixture(n_components=3, random_state=42)
y_gmm = gmm.fit_predict(X)

In [None]:
# Визуализация кластеров
plot_clusters(X, y_gmm, 'Gaussian Mixture Model Clustering (Iris Dataset)')

In [None]:
# Оценка качества кластеризации
print(f'Silhouette Score for GMM: {silhouette_score(X, y_gmm)}\n')