# K-Means

Importamos lo necesario

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.metrics import silhouette_score

Creamos un toy dataset de 3 clusters

In [None]:
X, y = make_blobs(n_samples=500, centers=3, random_state=100)

Añadimos ruido

In [None]:
X = X + np.random.normal(0, 1, X.shape)

Definimos nuestro KMeans con valor de k=3

In [None]:
k = 3
kmeans_best = KMeans(n_clusters=k, random_state=100)
y_kmeans = kmeans_best.fit_predict(X)

Graficamos el clustering con el k número de clusters

In [None]:
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis', s=50, alpha=0.7)
centers = kmeans_best.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.9, marker='x')
plt.title(f'Clustering with K = {k}')
plt.show()

### A) Encontrar el mejor valor de K con Elbow Method

Calculamos la inertia.

Inertia en KMeans es una medida de la suma de las distancias cuadradas entre cada punto de un cluster y su centroide más cercano.

In [None]:
inertia = []
K_range = range(1, 11)

for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=100)
    kmeans.fit(X)
    inertia.append(kmeans.inertia_)

In [None]:
inertia

Graficamos el Elbow Method


In [None]:
plt.figure(figsize=(8, 4))
plt.plot(K_range, inertia, 'bo-')
plt.xlabel('Number of clusters (k)')
plt.ylabel('Inertia')
plt.title('Elbow Method for Optimal k')
plt.grid(True)
plt.show()

### B) Encontar el mejor K con Silhouette Score

Calculamos el coeficiente de silueta para diferentes valores de k

In [None]:
silhouette_scores = []

for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=100)
    y_kmeans = kmeans.fit_predict(X)

    if k > 1:  # El Silhouette Score no se define para k = 1
        silhouette_scores.append(silhouette_score(X, y_kmeans))
    else:
        silhouette_scores.append(0)  # Ponemos 0 para k=1 por conveniencia


In [None]:
silhouette_scores

Graficamos el Silhoutte Coefficient

In [None]:
plt.figure(figsize=(8, 4))
plt.plot(K_range, silhouette_scores, 'bo-')
plt.xlabel('Number of clusters (k)')
plt.ylabel('Silhouette Score')
plt.title('Silhouette Score for Optimal k')
plt.grid(True)
plt.show()

Final

In [None]:
# Elegimos el mejor número de clusters
best_k = K_range[np.argmax(silhouette_scores)]

kmeans_best = KMeans(n_clusters=best_k, random_state=100)
y_kmeans = kmeans_best.fit_predict(X)

# Graficamos el clustering con el mejor número de clusters
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis', s=50, alpha=0.7)
centers = kmeans_best.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.9, marker='x')
plt.title(f'Clustering with K = {best_k}')
plt.show()
