In [None]:
# Questão 10
import numpy as np
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import adjusted_rand_score, normalized_mutual_info_score, silhouette_score
import warnings

warnings.filterwarnings("ignore")

def avaliacao(nome, labels):
    ari = adjusted_rand_score(y, labels)
    nmi = normalized_mutual_info_score(y, labels)
    sil = silhouette_score(X_pca, labels) if len(set(labels)) > 1 else -1
    print(f"{nome}: ARI={ari:.3f}, NMI={nmi:.3f}, Silhouette={sil:.3f}")

X = np.load("olivetti_faces.npy")              
y = np.load("olivetti_faces_target.npy")   

X_achatado = X.reshape((X.shape[0], -1))

std      = StandardScaler()
X_scaled = std.fit_transform(X_achatado)

pca     = PCA(n_components=0.9, whiten=True, random_state=42)
X_pca   = pca.fit_transform(X_scaled)

kmeans        = KMeans(n_clusters=40, random_state=42)
labels_kmeans = kmeans.fit_predict(X_pca)

agg         = AgglomerativeClustering(n_clusters=40, linkage="ward")
labels_agg  = agg.fit_predict(X_pca)

dbscan        = DBSCAN(eps=3, min_samples=5) 
labels_dbscan = dbscan.fit_predict(X_pca)

avaliacao("K-Means", labels_kmeans)
avaliacao("Agglomerative", labels_agg)
avaliacao("DBSCAN", labels_dbscan)

"""
O K-Means obteve resultados medianos (ARI=0.289, NMI=0.716), mas com silhueta baixa (0.112), indicando clusters pouco separados.

O Agglomerative apresentou desempenho superior (ARI=0.470, NMI=0.850), ainda que com silhueta baixa (0.117), 
mostrando um maior alinhamento com as classes verdadeiras, mas com dificuldade em separar geometricamente os grupos.

O DBSCAN falhou miseravelmente (ARI=0.000, NMI=0.000, silhouette=-1.000), formando um cluster único e tratando a maior parte dos pontos como ruído.

Assim, conclui-se que Agglomerative Clustering foi o mais adequado para este dataset, seguido do K-Means, enquanto o DBSCAN não conseguiu capturar a estrutura dos dados.
"""

K-Means: ARI=0.289, NMI=0.716, Silhouette=0.112
Agglomerative: ARI=0.470, NMI=0.850, Silhouette=0.117
DBSCAN: ARI=0.000, NMI=0.000, Silhouette=-1.000


'\nO K-Means obteve resultados medianos (ARI=0.289, NMI=0.716), mas com silhueta baixa (0.112), indicando clusters pouco separados.\n\nO Agglomerative apresentou desempenho superior (ARI=0.470, NMI=0.850), ainda que com silhueta baixa (0.117), \nmostrando um maior alinhamento com as classes verdadeiras, mas com dificuldade em separar geometricamente os grupos.\n\nO DBSCAN falhou miseravelmente (ARI=0.000, NMI=0.000, silhouette=-1.000), formando um cluster único e tratando a maior parte dos pontos como ruído.\n\nAssim, conclui-se que Agglomerative Clustering foi o mais adequado para este dataset, seguido do K-Means, enquanto o DBSCAN não conseguiu capturar a estrutura dos dados.\n'