In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, adjusted_rand_score, normalized_mutual_info_score
from sklearn.metrics import calinski_harabasz_score, davies_bouldin_score

# Crear un conjunto de datos sintético
X, y_true = make_blobs(n_samples=500, centers=4, cluster_std=0.60, random_state=42)

# Aplicar K-means con 4 clusters
kmeans = KMeans(n_clusters=4, random_state=42)
y_kmeans = kmeans.fit_predict(X)

# Visualización inicial
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], c='red', s=200, alpha=0.75, label='Centroides')
plt.legend()
plt.title("Clusters obtenidos con K-means")
plt.show()


# METRICAS

Score de Silhouette

El Score de Silhouette mide qué tan similares son los puntos dentro del mismo cluster en comparación con otros clusters.

In [None]:
silhouette_avg = silhouette_score(X, y_kmeans)
print(f"Score de Silhouette: {silhouette_avg:.2f}")


Índice de Rand

El Índice de Rand (RI) mide la similitud entre las etiquetas reales y las etiquetas predichas.

In [None]:
rand_index = adjusted_rand_score(y_true, y_kmeans)
print(f"Índice de Rand: {rand_index:.2f}")


Índice de Rand Ajustado

El Índice de Rand Ajustado (ARI) ajusta el RI para evitar resultados inflados debido al azar.

In [None]:
adjusted_rand_index = adjusted_rand_score(y_true, y_kmeans)
print(f"Índice de Rand Ajustado: {adjusted_rand_index:.2f}")


Criterio de Información Mutua

El Criterio de Información Mutua (NMI) mide la cantidad de información compartida entre las etiquetas verdaderas y las predichas.

In [None]:
mutual_info = normalized_mutual_info_score(y_true, y_kmeans)
print(f"Criterio de Información Mutua: {mutual_info:.2f}")


Índice de Calinski-Harabasz

El Índice de Calinski-Harabasz (CH) mide la compacidad y separación entre clusters. Valores altos indican clusters bien definidos.

In [None]:
calinski_harabasz = calinski_harabasz_score(X, y_kmeans)
print(f"Índice de Calinski-Harabasz: {calinski_harabasz:.2f}")


Índice de Davies-Bouldin

El Índice de Davies-Bouldin (DB) mide la relación entre la dispersión dentro del cluster y la distancia entre clusters. Valores bajos son mejores.

In [None]:

davies_bouldin = davies_bouldin_score(X, y_kmeans)
print(f"Índice de Davies-Bouldin: {davies_bouldin:.2f}")


---