<a href="https://colab.research.google.com/github/andres-merino/AprendizajeAutomaticoInicial-05-N0105/blob/main/2-Notebooks/09-Agrupamiento-kMeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<table style="border: none; border-collapse: collapse;">
    <tr>
        <td style="width: 20%; vertical-align: middle; padding-right: 10px;">
            <img src="https://i.imgur.com/nt7hloA.png" width="100">
        </td>
        <td style="width: 2px; text-align: center;">
            <font color="#0030A1" size="7">|</font><br>
            <font color="#0030A1" size="7">|</font>
        </td>
        <td>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="5">
                <b>Escuela de Ciencias Físicas y Matemática</b>
            </font> </p>
            <p style="font-variant: small-caps;"><font color="#0030A1" size="4">
                Aprendizaje Automático Inicial &bull; Agrupamiento k-Means
            </font></p>
            <p style="font-style: oblique;"><font color="#0030A1" size="3">
                Andrés Merino &bull; 2025-04
            </font></p>
        </td>  
    </tr>
</table>

---
## <font color='264CC7'> Introducción </font>

Este notebook está diseñado como una guía introductoria para implementar el algoritmo de agrupamiento K-means en Python.


Los paquetes necesarios son:

In [None]:
import pandas as pd  # Manejo de datos
import numpy as np  # Operaciones matemáticas y arreglos
import matplotlib.pyplot as plt  # Visualización
import plotly.express as px # Para visualización interactiva

from sklearn.preprocessing import StandardScaler  # Estandarización de datos

from sklearn.datasets import make_blobs # Creación de datos de prueba
from sklearn.cluster import KMeans  # Algoritmo K-means
from sklearn.decomposition import PCA # Análisis de componentes principales

---
## <font color='264CC7'> Ejemplo </font>

En el siguiente código, se agrupan datos generados artificialmente en cuatro grupos utilizando el algoritmo K-means.  Se muestran los resultados mediante un gráfico de dispersión, destacando los centroides de los grupos.

In [None]:
# Generar datos de ejemplo
X, y_true = make_blobs(n_samples=300, centers=4, cluster_std=1.5, random_state=42)

# Visualizar los datos
plt.figure(figsize=(5, 4))
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.title('Datos de ejemplo')
plt.show()

El código para generar el agrupamiento es el siguiente:

In [None]:
# Implementación de K-means
modelo = KMeans(n_clusters=4, random_state=42)
modelo.fit(X)
labels = modelo.labels_
print(labels)

Revisemos el resultado de la ejecución del código:

In [None]:
# Visualizar los clusters
plt.figure(figsize=(5, 4))
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50)
plt.title('Clusters')
plt.show()

Podemos obtener los centroides de los grupos con el siguiente código:

In [None]:
# Centroides
centroids = modelo.cluster_centers_
print(centroids)

Agreguemos los centroides al gráfico de dispersión:

In [None]:
# Gráfico con centroides
plt.figure(figsize=(5, 4))
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50)
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', s=200, marker='x')
plt.title('Clusters con centroides')
plt.show()

Podemos calcular la inercia de los grupos con el siguiente código:

In [None]:
# Inercia
modelo.inertia_

<div style="background-color: #edf1f8; border-color: #264CC7; border-left: 5px solid #264CC7; padding: 0.5em;">
<strong>Ejercicio:</strong><br>
Utilizar k = 3 y comparar el resultado con k = 4.
</div>
</br>

<div style="background-color: #edf1f8; border-color: #264CC7; border-left: 5px solid #264CC7; padding: 0.5em;">
<strong>Ejercicio:</strong><br>
Cambiar el método de inicialización a `'random'` y observar los efectos en la convergencia. Revisa la documentación de la función `KMeans` para obtener más información sobre este y otros parámetros.
</div>

### <font color='264CC7'> Método del codo </font>

Para seleccionar el número de clusters, se puede utilizar el método del codo. Este método consiste en graficar la suma de las distancias al cuadrado de cada punto al centroide más cercano en función del número de clusters. El punto en el que la pendiente de la curva disminuye drásticamente se considera el número óptimo de clusters.

In [None]:
# Metodo del codo
inertia = []
for i in range(1, 11):
    modelo = KMeans(n_clusters=i, random_state=42)
    modelo.fit(X)
    inertia.append(modelo.inertia_)
plt.figure(figsize=(5, 3))
plt.plot(range(1, 11), inertia, marker='o')
 

<div style="background-color: #edf1f8; border-color: #264CC7; border-left: 5px solid #264CC7; padding: 0.5em;">
<strong>Ejercicio:</strong><br>
Realiza el agrupamiento con el número de clusters que consideres óptimo con la gráfica del método del codo.
</div>

---
## <font color='264CC7'> Ejemplo práctico </font>


### <font color='264CC7'> Preprocesamiento de datos </font>

Primero leamos los datos y seleccionemos las columnas que utilizaremos:

In [None]:
# Leer los datos
data = pd.read_csv('https://raw.githubusercontent.com/andres-merino/AprendizajeAutomaticoInicial-05-N0105/refs/heads/main/2-Notebooks/datos/Pokemon.csv')
# Tomo las columnas de interés
numeric_cols = ['Attack', 'Defense', 'Speed', 'Sp. Atk', 'Sp. Def', 'HP']
data = data[['Name', *numeric_cols]]
# Muestro los primeros registros
display(data.head())

Revisemos los datos:

In [None]:
data.describe()

Escalemos los datos:

In [None]:
# Escalar los datos
scaler = StandardScaler()
X = scaler.fit_transform(data.iloc[:, 1:])

### <font color='264CC7'> Determinación del número de clusters </font>

Realicemos el método del codo para determinar el número de clusters óptimo:

In [None]:
# Metodo del codo
inertia = []
for i in range(1, 11):
    modelo = KMeans(n_clusters=i, random_state=42)
    modelo.fit(X)
    inertia.append(modelo.inertia_)
plt.figure(figsize=(5, 3))
plt.plot(range(1, 11), inertia, marker='o')

El número óptimo de clusters parece ser 4 o 6. Utilicemos 6 clusters para el agrupamiento.

### <font color='264CC7'> k-Means </font>

Generamos el agrupamiento:

In [None]:
# Realizamos el agrupamiento
modelo = KMeans(n_clusters=6, random_state=42)
modelo.fit(X)

# Asignamos las etiquetas
labels = modelo.labels_

# Agregar la información de clúster como C1, C2, C3, etc.
data['Cluster'] = ['C' + str(c) for c in labels]

# Revisar los primeros registros
display(data.head())

### <font color='264CC7'> Análisis de clústers </font>

Revisemos la cantidad de cada cluster:

In [None]:
# Cantidades de elementos por clúster
data['Cluster'].value_counts()

Podemos analizar las características de cada cluster:

In [None]:
# Podemos ver las medias de cada clúster
data.groupby('Cluster')[numeric_cols].mean()


Revisemos los cinco primeros elementos de cada cluster:

In [None]:
# Mostremos los nombres de 5 pokemones de cada clúster
for cluster in data['Cluster'].unique():
    print(f'Cluster {cluster}: cantidad de elementos {data[data["Cluster"] == cluster].shape[0]}')
    display(data[data['Cluster'] == cluster].head(5))

### <font color='264CC7'> Visualizaciones  </font>

In [None]:
# Realizo un PCA
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

# Crear un DataFrame para graficar fácilmente
df_pca = pd.DataFrame(X_pca, columns=['PC1', 'PC2'])
df_pca['Name'] = data['Name'].values
df_pca['Cluster'] = data['Cluster'].values

# Crear el scatterplot interactivo con Plotly Express
fig = px.scatter(
    df_pca, 
    x='PC1', 
    y='PC2', 
    color='Cluster',
    hover_data=['Name'],  # Mostrará 'Name'
)

# Personalizar apariencia
fig.update_traces(marker=dict(opacity=0.8))
fig.update_layout(
    title='Clústeres visualizados en 2D (PCA)',
    width=800,
    height=600,
)

fig.show()

<div style="background-color: #edf1f8; border-color: #264CC7; border-left: 5px solid #264CC7; padding: 0.5em;">
<strong>Ejercicio:</strong><br>
Genera el agrupamiento con otro número de clusters que consideraste óptimo.
</div>