In [1]:
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.mixture import GaussianMixture
from sklearn.metrics import homogeneity_score, completeness_score
import numpy as np

In [2]:
# Загрузка датасета IRIS
iris = datasets.load_iris()
X = iris.data  # Исключение информации о классах
y = iris.target  # Истинные классы для сравнения

In [3]:
# Нормировка данных
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [4]:
# Определение оптимального числа компонент для PCA
n_components = range(1, X.shape[1] + 1)
best_homogeneity = 0
best_completeness = 0
best_n_components = 0

In [5]:
for n in n_components:
    # Анализ главных компонент
    pca = PCA(n_components=n)
    X_pca = pca.fit_transform(X_scaled)

    # Кластеризация с использованием Gaussian Mixture (EM)
    gmm = GaussianMixture(n_components=len(np.unique(y)))
    gmm.fit(X_pca)
    y_pred = gmm.predict(X_pca)

    # Оценка качества кластеризации
    homogeneity = homogeneity_score(y, y_pred)
    completeness = completeness_score(y, y_pred)

    # Выбор лучшего результата
    if homogeneity + completeness > best_homogeneity + best_completeness:
        best_homogeneity = homogeneity
        best_completeness = completeness
        best_n_components = n

In [6]:
best_homogeneity, best_completeness, best_n_components

(0.8983263672602775, 0.9010648908640206, 4)