
# Agrupamiento con K-Means  
**Curso de Análisis de Datos con IA — Doribel Rodríguez y Antonio Vantaggiato**

En este cuaderno aprenderás a aplicar el algoritmo **K-Means** para agrupar datos en grupos o *clusters* según su similitud.  
Este método pertenece al **aprendizaje no supervisado**, porque los datos no tienen etiquetas predefinidas.  



## Definiciones clave

- **Cluster**: grupo de elementos similares entre sí, más cercanos a su centro (*centroide*) que a los de otros grupos.
- **Centroide**: punto medio de un grupo, calculado como el promedio de sus miembros.
- **Aprendizaje no supervisado**: técnica en la que el modelo busca estructuras o patrones sin etiquetas previas.
- **Escalamiento**: proceso de normalizar valores para que todas las variables contribuyan de manera similar.


## 1) Importar librerías

In [None]:

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

%matplotlib inline


## 2) Crear un conjunto de datos de ejemplo

In [None]:

# Datos ficticios: horas de estudio y asistencia de estudiantes
datos = {
    'Horas de estudio': [2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
    'Asistencia (%)': [50, 55, 60, 65, 70, 80, 85, 90, 95, 100]
}
df = pd.DataFrame(datos)
df.head()


## 3) Escalamiento de los datos

In [None]:

# Escalamos los datos para que todas las variables estén en la misma escala
scaler = StandardScaler()
datos_escalados = scaler.fit_transform(df)

# Creamos un nuevo DataFrame para visualizar los datos escalados
df_escalado = pd.DataFrame(datos_escalados, columns=df.columns)
df_escalado.head()


## 4) Aplicar K-Means con k=2

In [None]:

# Definimos el modelo con 2 clusters
kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)
kmeans.fit(datos_escalados)

# Agregamos la columna de cluster asignado al DataFrame original
df['Cluster'] = kmeans.labels_
df


## 5) Visualizar los clusters

In [None]:

plt.figure(figsize=(8,6))
plt.scatter(df['Horas de estudio'], df['Asistencia (%)'], c=df['Cluster'], cmap='viridis', s=100)
plt.title('Agrupamiento de estudiantes con K-Means')
plt.xlabel('Horas de estudio')
plt.ylabel('Asistencia (%)')
plt.grid(True)
plt.show()



## 6) Reflexión
- Los puntos del mismo color representan estudiantes con características similares.
- El algoritmo K-Means intenta minimizar la distancia entre los puntos y su centroide.
- Elegir el número de clusters (*k*) es una decisión importante: puede hacerse probando diferentes valores y observando el "codo" en la gráfica de inercia (método del codo).



## 7) Actividad sugerida
1. Cambia el valor de `n_clusters` a 3 y observa los nuevos grupos.
2. Añade más datos (por ejemplo, un grupo con baja asistencia y muchas horas de estudio).
3. ¿Qué conclusiones puedes sacar sobre los patrones de comportamiento estudiantil?
