<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/03machinelearning/clase_18.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Guía Paso a Paso: K-Means Clustering y Segmentación de Clientes

## Objetivo de la clase

Aprender a usar algoritmos no supervisados, específicamente **K-Means**, para descubrir patrones ocultos en los datos. Aplicaremos este método para **segmentar clientes** y luego realizaremos nuevos ejercicios con distintos contextos y datasets.

---

## 🔧 Parte 1: Caso práctico con dataset real

### 1. Cargar y explorar el dataset

```python
import pandas as pd

url = "https://gist.githubusercontent.com/pravalliyaram/5c05f43d2351249927b8a3f3cc3e5ecf/raw/Mall_Customers.csv"
df = pd.read_csv(url)

df.head()
```

### 2. Preprocesamiento y selección de variables

```python
from sklearn.preprocessing import StandardScaler

X = df[["Age", "Annual Income (k$)", "Spending Score (1-100)"]]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
```

### 3. Método del Codo (Elbow Method)

```python
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42, n_init=10)
    kmeans.fit(X_scaled)
    wcss.append(kmeans.inertia_)

plt.plot(range(1, 11), wcss, marker='o')
plt.title("Método del Codo para elegir K")
plt.xlabel("Número de Clusters")
plt.ylabel("WCSS")
plt.grid(True)
plt.show()
```

### 4. Entrenar modelo y crear clusters

```python
kmeans = KMeans(n_clusters=5, init='k-means++', random_state=42, n_init=10)
df["Cluster"] = kmeans.fit_predict(X_scaled)
```

### 5. Visualización con PCA

```python
from sklearn.decomposition import PCA
import seaborn as sns

pca = PCA(n_components=2)
components = pca.fit_transform(X_scaled)
df["PCA1"], df["PCA2"] = components[:, 0], components[:, 1]

sns.scatterplot(data=df, x="PCA1", y="PCA2", hue="Cluster", palette="Set2", s=80)
plt.title("Segmentación de Clientes (K-Means + PCA)")
plt.show()
```

### 6. Interpretación y propuesta de estrategias

```python
df.groupby("Cluster")[["Age", "Annual Income (k$)", "Spending Score (1-100)"]].mean()
```



---

## Parte 2: Actividades posteriores por grupos

Cada grupo debe elegir un nuevo dataset y aplicar K-Means o una técnica alternativa como DBSCAN o Agglomerative Clustering. Aquí algunos casos sugeridos:

---

### Ejercicio 1: Segmentación de vinos

- **Objetivo:** Agrupar distintos tipos de vino en función de sus características químicas.
- **Extensión:** Comparar resultados de K-Means con clustering jerárquico.

```python
from sklearn.datasets import load_wine
import pandas as pd

# Cargar datos
data = load_wine()
df = pd.DataFrame(data.data, columns=data.feature_names)

# (Opcional) Ver etiquetas originales (clases)
df["target"] = data.target

df.head()
```

---

### Ejercicio 2: Agrupamiento de países por desarrollo humano

- **Objetivo:** Agrupar países según indicadores como educación, ingreso, esperanza de vida.
- **Extensión:** Analizar similitudes regionales y brechas globales.

```python
import pandas as pd

url = "https://raw.githubusercontent.com/bromero26/human-development-index/master/hdi_human_development_index.csv"
df = pd.read_csv(url)

# Seleccionar columnas más recientes (por ej. 'geo', '2015' o '2019')
df = df[['geo', '2015']].dropna()
df.head()
```

---

### Ejercicio 3: Agrupamiento de canciones por características musicales

- **Objetivo:** Agrupar canciones según tempo, energía, baileabilidad, etc.
- **Extensión:** Proponer una playlist personalizada para cada cluster.

```python
import pandas as pd

url = "https://raw.githubusercontent.com/gabminamedez/spotify-data/master/data.csv"
df = pd.read_csv(url)

# Seleccionar variables musicales relevantes
df = df[["danceability","energy","tempo","valence","loudness"]].dropna()

df.head()
```

---

### Ejercicio 4: Segmentación de estudiantes

- **Objetivo:** Agrupar estudiantes según hábitos de estudio, rendimiento y contexto social.
- **Extensión:** Proponer estrategias de apoyo personalizadas para cada grupo.

```python
import pandas as pd

url = "https://raw.githubusercontent.com/yogeshsachdeva223/Student_mat_exploration_and_visualisation/main/student-mat.csv"
df = pd.read_csv(url)

# Verificar estructura
df.head()
```

---

## Recomendaciones para grupos

1. **Analicen bien las variables:** ¿Cuáles son numéricas, cuáles deben codificarse?
2. **Visualicen sus clusters:** Con `PCA`, `t-SNE` o `Seaborn pairplot`.
3. **Interpreten los resultados:** ¿Qué patrones encontraron? ¿Qué caracteriza a cada grupo?
4. **Propongan acciones concretas:** Desde marketing a intervenciones educativas.
