<a href="https://colab.research.google.com/github/abxda/COLMEX-ML/blob/main/Semana_05_00_COLMEX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìö Tutorial Interactivo de K-means: Entiende y Visualiza el Algoritmo

En este tutorial aprender√°s de forma interactiva c√≥mo K-means agrupa datos y encuentra centroides utilizando Python en Google Colab.

**Objetivos:**
- Comprender el proceso iterativo de asignaci√≥n y actualizaci√≥n de centroides.
- Visualizar la formaci√≥n de clusters en datos sint√©ticos y reales.
- Explorar el "M√©todo del Codo" para elegir el n√∫mero √≥ptimo de clusters.

## üî∞ Paso 1: Configurar el Entorno
Importamos las librer√≠as esenciales para el an√°lisis num√©rico y la visualizaci√≥n.

In [None]:
!pip install scikit-learn --quiet
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs, load_iris
plt.style.use('ggplot')

## üé® Paso 2: Crear Datos de Prueba
Generamos datos sint√©ticos con 300 puntos distribuidos en 3 grupos (clusters).
Ajusta `cluster_std` para modificar la dispersi√≥n de los puntos.


In [None]:
X, _ = make_blobs(
    n_samples=300,      # 300 puntos
    centers=3,          # 3 clusters
    cluster_std=0.8,    # Desviaci√≥n est√°ndar de cada cluster
    random_state=10     # Semilla para reproducibilidad
)

In [None]:
# Visualizamos los datos originales:
plt.figure(figsize=(8,6))
plt.scatter(X[:, 0], X[:, 1], s=50, color='skyblue')
plt.title("Datos Originales")
plt.xlabel("Caracter√≠stica 1")
plt.ylabel("Caracter√≠stica 2")
plt.show()

## ü§ñ Paso 3: Aplicar K-means
Configuramos y entrenamos el modelo K-means con 3 clusters.
Par√°metros clave:
- **init='random'**: Inicializaci√≥n aleatoria de los centroides.
- **n_init=10**: Se realizan 10 ejecuciones para elegir la mejor soluci√≥n.
- **max_iter=300**: M√°ximo n√∫mero de iteraciones por ejecuci√≥n.


In [None]:
kmeans = KMeans(
    n_clusters=3,
    init='random',
    n_init=10,
    max_iter=300,
    random_state=42
)
kmeans.fit(X)

## üîç Paso 4: Visualizar los Resultados
Mostramos c√≥mo K-means ha agrupado los datos y la ubicaci√≥n final de los centroides.


In [None]:
plt.figure(figsize=(8,6))

# Definimos colores para distinguir los clusters:
colores = ['#FF6B6B', '#4ECDC4', '#45B7D1']
etiquetas = kmeans.labels_

# Graficamos cada cluster:
for i in range(3):
    plt.scatter(
        X[etiquetas == i, 0],
        X[etiquetas == i, 1],
        s=50,
        color=colores[i],
        label=f'Cluster {i+1}'
    )

# Graficamos los centroides con una estrella dorada:
plt.scatter(
    kmeans.cluster_centers_[:, 0],
    kmeans.cluster_centers_[:, 1],
    s=200,
    marker='*',
    color='gold',
    edgecolor='black',
    linewidth=1,
    label='Centroides'
)

plt.title("üîç Resultado del Clustering")
plt.xlabel("Caracter√≠stica 1")
plt.ylabel("Caracter√≠stica 2")
plt.legend()
plt.show()

## üîÑ Paso 5: Evoluci√≥n de los Centroides
Visualizamos c√≥mo se mueven los centroides a lo largo de las iteraciones.
Esta funci√≥n muestra el estado del clustering tras 1, 2 y 3 iteraciones.

A grandes rasgos, el algoritmo K-means sigue este flujo:

1. **Inicializaci√≥n Aleatoria de Centroides**  
   - Se eligen aleatoriamente $k$ posiciones en el espacio de los datos para ubicar los centroides iniciales.  
   - Estos centroides representan el ‚Äúcentro‚Äù temporal de cada uno de los $k$ grupos (clusters) que queremos encontrar.

2. **Asignaci√≥n de Puntos**  
   - En cada iteraci√≥n, cada dato se asigna al grupo cuyo centroide est√© m√°s cerca.  
   - En la pr√°ctica, esto se hace calculando la distancia (generalmente Euclidiana) entre el punto y cada centroide, y luego seleccionando el m√≠nimo.

3. **Actualizaci√≥n de Centroides**  
   - Para cada grupo, se recalcula la posici√≥n del centroide como el promedio (media) de todos los puntos que han sido asignados a ese grupo.  

4. **Iteraci√≥n y Convergencia**  
   - Con las nuevas posiciones de los centroides, se repite el proceso de asignaci√≥n y actualizaci√≥n.  
   - A medida que avanzan las iteraciones, los centroides ‚Äúmigran‚Äù hacia la regi√≥n donde se concentra la mayor parte de los puntos de cada grupo.  
   - Este movimiento se va haciendo m√°s peque√±o hasta que los centroides se estabilizan (o se llega al n√∫mero m√°ximo de iteraciones), indicando que los clusters est√°n bien definidos.

---

### ¬øPor qu√© converge tan r√°pido en la pr√°ctica?

- **Implementaciones Eficientes:**  
  Bibliotecas como *scikit-learn* utilizan versiones optimizadas del algoritmo (conocidas como variantes de *Lloyd‚Äôs algorithm* o *Elkan‚Äôs algorithm*). Estas implementaciones est√°n escritas en C/C++ y aprovechan estructuras de datos eficientes para minimizar los c√°lculos de distancia, reduciendo el tiempo de ejecuci√≥n.

- **Vectorizaci√≥n y C√°lculo en Bloque:**  
  Muchas operaciones (como la asignaci√≥n de puntos a centroides) se realizan en forma vectorizada, usando *NumPy* u otras librer√≠as de √°lgebra lineal, lo que aprovecha la velocidad de operaciones a nivel de bajo nivel (SIMD, paralelismo, etc.).

- **Heur√≠sticas de Inicializaci√≥n (k-means++):**  
  Aunque el ejemplo usa inicializaci√≥n aleatoria, en la pr√°ctica se suele usar *k-means++* para elegir centroides iniciales ‚Äúinteligentemente‚Äù. Esto suele acelerar la convergencia y mejorar la calidad de los clusters.

- **Reducci√≥n de C√°lculos Innecesarios:**  
  Algunas implementaciones evitan recalcular distancias para puntos que se sabe que no cambiar√°n de cluster en la siguiente iteraci√≥n, acelerando as√≠ la convergencia.

En conjunto, estos factores hacen que K-means, aun siendo un algoritmo iterativo, **tienda a converger r√°pidamente** y a encontrar clusters √∫tiles en un n√∫mero relativamente bajo de pasos.

In [None]:
def visualizar_iteraciones(n_iteraciones):
    plt.figure(figsize=(15, 4))

    for i in range(n_iteraciones):
        # Ejecutamos K-means con (i+1) iteraciones
        km = KMeans(n_clusters=3, max_iter=i+1, init='random', n_init=1)
        km.fit(X)

        plt.subplot(1, n_iteraciones, i+1)
        plt.scatter(X[:, 0], X[:, 1], c=km.labels_, cmap='viridis', s=30)
        plt.scatter(km.cluster_centers_[:, 0], km.cluster_centers_[:, 1],
                    marker='X', s=100, c='red')
        plt.title(f'Iteraci√≥n {i+1}')
    plt.tight_layout()

visualizar_iteraciones(3)
plt.show()

## üìâ Paso 6: M√©todo del Codo
Utilizamos el m√©todo del codo para determinar el n√∫mero √≥ptimo de clusters.
Calculamos la inercia (la suma de las distancias al cuadrado entre cada punto y su centroide) para distintos valores de k.


In [None]:
inercias = []
rang_k = range(1, 10)

for k in rang_k:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    inercias.append(kmeans.inertia_)

plt.figure(figsize=(8,5))
plt.plot(rang_k, inercias, 'bo-')
plt.xlabel('N√∫mero de Clusters (k)')
plt.ylabel('Inercia')
plt.title('M√©todo del Codo')
plt.xticks(rang_k)
plt.grid(True)
plt.show()

En el **M√©todo del Codo**, se calcula la *inercia* (o suma de distancias al cuadrado de cada punto a su centroide) para distintos valores de $k$. El objetivo es encontrar un punto en la gr√°fica donde a√±adir m√°s clusters deje de reducir significativamente la inercia, es decir, donde la curva ‚Äúse doble‚Äù y la disminuci√≥n de inercia empiece a ser menos pronunciada.

Observando la gr√°fica adjunta:

1. **Dr√°stica ca√≠da al principio (de $k=1$ a $k=3$)**  
   - Cuando $k$ pasa de 1 a 2 y luego a 3, la inercia baja de forma muy notable. Esto indica que el agrupamiento est√° mejorando sustancialmente al aumentar el n√∫mero de clusters en esas primeras etapas.

2. **Punto de Inflexi√≥n alrededor de $k=3$**  
   - Despu√©s de $k=3$, la reducci√≥n en la inercia es cada vez menor. El salto de inercia entre $k=3$ y $k=4$ es m√°s leve que los saltos anteriores.  
   - Ese ‚Äúdoble‚Äù o ‚Äúcodo‚Äù que se aprecia en la curva alrededor de $k=3$ es la se√±al de que, a partir de ah√≠, a√±adir m√°s clusters ya no aporta una mejora tan significativa en la compactaci√≥n de los grupos.

3. **Interpretaci√≥n Pr√°ctica**  
   - Con $k=3$, se logra un buen equilibrio entre complejidad (tener m√°s clusters) y calidad de la agrupaci√≥n (baja inercia).  
   - Si se escogen m√°s clusters (por ejemplo, 4, 5, etc.), la inercia seguir√° bajando, pero la ganancia es mucho menor comparada con el salto que obtienes al pasar de 2 a 3.  
   - En muchos casos de uso, la elecci√≥n de un $k\ m√°s alto puede significar una sobresegmentaci√≥n de los datos (clusters demasiado peque√±os o menos interpretables).

4. **Limitaciones**  
   - El m√©todo del codo es un **criterio heur√≠stico**. No siempre el ‚Äúcodo‚Äù est√° perfectamente definido. Aun as√≠, en la gr√°fica mostrada, el codo es bastante claro en $k=3$.  
   - Se recomienda complementar con otros m√©todos (como el √≠ndice de silhouette) o con un criterio basado en el contexto de los datos para validar la elecci√≥n de $k$.

En resumen, **elegir $k=3$** en este caso se justifica porque la inercia desciende marcadamente hasta ese punto y, a partir de ah√≠, la mejora adicional es mucho m√°s peque√±a. Esto indica que **3 clusters** describen razonablemente bien la estructura de los datos sin a√±adir complejidad innecesaria.