# Notebook ‚Äî Clustering para descubrir grupos

### K-means y jer√°rquico (R, comparando con Python)

En clasificaci√≥n (como Titanic) ten√≠amos una etiqueta: `Survived`.
En clustering no hay etiqueta: solo tenemos datos y queremos responder algo como:

> ‚Äú¬øHay grupos naturales aqu√≠ dentro?‚Äù

Eso sirve para segmentaci√≥n de clientes, detecci√≥n de comportamientos, agrupaci√≥n de sensores, etc.

Hoy vamos a hacer dos m√©todos cl√°sicos:

* **K-means** (r√°pido, pero hay que decir cu√°ntos grupos)
* **Jer√°rquico** (exploratorio, se ve como un √°rbol)

Y en ambos casos haremos algo que en IA es obligatorio: **escalar** los datos.

---

## Preparar el entorno

En Python normalmente har√≠amos:

* `pandas` para datos
* `StandardScaler`, `KMeans` y alguna funci√≥n de `scipy` para jer√°rquico

En R:

* `tidyverse` para datos y gr√°ficos
* `cluster` para silhouette
* `stats` (viene con R) para `kmeans`, `dist`, `hclust`


In [None]:
library(tidyverse)  # Para manipulaci√≥n de datos
library(cluster)    # Algoritmos base
library(factoextra) # üöÄ Para visualizaci√≥n y automatizaci√≥n

---

## Cargamos los datos

Vamos a usar un dataset sencillo de clientes con dos variables:

* ingresos
* gasto anual

In [None]:
clientes <- read_csv(
  "https://gist.githubusercontent.com/pravalliyaram/5c05f43d2351249927b8a3f3cc3e5ecf/raw/8bd6144a87988213693754baaa13fb204933282d/Mall_Customers.csv"
)

En Python habr√≠amos hecho:

```python
pd.read_csv("mall_customers.csv")

Vemos que las columnas importantes est√°n con nombres ‚Äúinc√≥modos‚Äù:

* `Annual Income (k$)`
* `Spending Score (1-100)`

En Python esto suele ser m√°s tolerable (pero tambi√©n molesto).
En R se puede usar con comillas invertidas, pero para un cuaderno did√°ctico es mejor renombrar.

---

## Renombrar para trabajar c√≥modos

Esta parte es muy pr√°ctica para que el alumnado aprenda ‚Äúhigiene de datos‚Äù.

In [None]:
clientes <- clientes %>%
  rename(
    Annual_Income = `Annual Income (k$)`,
    Spending_Score = `Spending Score (1-100)`
  )
glimpse(clientes)

Ahora ya podemos usar `Annual_Income` y `Spending_Score` sin dolores.


## Primer vistazo a los datos

Como siempre, antes de hacer IA, miramos los datos.

En Python us√°bamos `info()`.
En R usamos `glimpse()`.

In [None]:
glimpse(clientes)

Y un gr√°fico:


In [None]:
ggplot(clientes, aes(x = Annual_Income, y = Spending_Score)) +
  geom_point(alpha = 0.7)

##  Elegir variables (y por qu√©)

Para clustering necesitamos columnas num√©ricas.
Aqu√≠ vamos a empezar con una pregunta sencilla:

> ‚Äú¬øSe pueden agrupar clientes por ingresos y gasto?‚Äù

Por eso usamos solo:

- Annual_Income
- Spending_Score

In [None]:
datos <- clientes %>% select(Annual_Income, Spending_Score)


---

## Una advertencia importante antes de hacer clustering

En Python ya vimos que **K-means depende mucho de la escala** de los datos.
Si una variable tiene valores mucho m√°s grandes que otra, domina el resultado.

Por eso, antes de hacer clustering, **escalamos los datos**.

En Python us√°bamos `StandardScaler`.
En R usamos `scale()`.

In [None]:
datos_scaled <- scale(datos)


# K-means

## Elegir el n√∫mero de clusters: ‚Äúm√©todo del codo‚Äù

En Python normalmente:

* entrenamos K-means con distintos k
* miramos la ‚Äúinercia‚Äù
* elegimos el ‚Äúcodo‚Äù

En Python, para elegir el n√∫mero de grupos ($k$), se suele hacer un bucle `for` para calcular la inercia.
En R con `factoextra`, es una sola l√≠nea

In [None]:
# Gr√°fico del Codo (Elbow Method) autom√°tico
# Busca d√≥nde la curva deja de bajar bruscamente
fviz_nbclust(datos_scaled, kmeans, method = "wss") +
  labs(title = "M√©todo del Codo")

# Gr√°fico de la Silueta (Silhouette) autom√°tico
# Busca la barra m√°s alta (mejor separaci√≥n)
fviz_nbclust(datos_scaled, kmeans, method = "silhouette") +
  labs(title = "M√©todo de la Silueta")

No hay un ‚Äúk perfecto‚Äù, pero buscamos un punto donde a partir de ah√≠ mejorar cuesta mucho.


---

## Entrenar K-means con un k elegido

Parece que $k=5$ es un buen n√∫mero seg√∫n los gr√°ficos.Python: `KMeans(n_clusters=5).fit(X)`

In [None]:
set.seed(123) # Para resultados reproducibles
km_model <- kmeans(datos_scaled, centers = 5, nstart = 25)

# Ver tama√±os de los grupos
km_model$size

Aqu√≠ es donde R brilla. En Python pintar las elipses de confianza requiere mucho c√≥digo. Aqu√≠:

In [None]:
fviz_cluster(km_model, data = datos_scaled,
             palette = "jco",         # Paleta de colores acad√©mica
             geom = "point",          # Solo puntos (quita 'text' si se ve sucio)
             ellipse.type = "convex", # Dibuja el contorno del grupo
             ggtheme = theme_minimal())

Observa c√≥mo detecta perfectamente los grupos: bajo ingreso/bajo gasto, bajo ingreso/alto gasto, etc.

Aqu√≠ ya podemos empezar a hablar de perfiles:
clientes con ingresos altos y gasto bajo, etc.

---

# Clustering jer√°rquico

A diferencia de K-Means, que intenta encontrar centros, el clustering jer√°rquico conecta puntos bas√°ndose en su cercan√≠a. Es un proceso de tres pasos obligatorios:

## Medir distancias

¬øCu√°n lejos est√° cada cliente de todos los dem√°s?


In [None]:
# 1. Matriz de distancias
distancias <- dist(datos_scaled, method = "euclidean")



## Agrupar (Linkage)

Unir los puntos m√°s cercanos poco a poco hasta formar un gran √°rbol.

In [None]:
# 2. Crear el √°rbol (Linkage)
hc_model <- hclust(distancias, method = "ward.D2")



## Cortar

Decidir d√≥nde podar el √°rbol para quedarnos con los grupos finales.

In [None]:
# 3. Visualizar Dendrograma coloreado
fviz_dend(hc_model, k = 5,  # Cortamos en 5 grupos
          cex = 0.5,        # Tama√±o de texto peque√±o
          k_colors = "jco",
          rect = TRUE,      # Recuadros alrededor de grupos
          main = "Dendrograma de Clientes")

---

## Interpretaci√≥n de Negocio (Lo m√°s importante)

El algoritmo dice "Grupo 1". Tu trabajo es decir "Clientes VIP". Para esto, volvemos a unir los clusters con los datos originales (¬°sin escalar!) y usamos dplyr.

In [None]:
clientes_final %>%
  group_by(cluster) %>%
  summarise(
    n_clientes = n(),
    # Usamos los nombres en ingl√©s/originales
    ingresos_promedio = mean(Annual_Income), 
    gasto_promedio = mean(Spending_Score)
  ) %>%
  arrange(desc(ingresos_promedio))

### üß† Resumen: Python vs R (Clustering)

| Tarea | Python (Scikit-Learn/Matplotlib) | R (Factoextra/Tidyverse) |
| --- | --- | --- |
| **Escalar** | `StandardScaler().fit_transform()` | `scale()` |
| **Codo (Elbow)** | Bucle `for` + lista de inercia | `fviz_nbclust(..., method="wss")` |
| **Modelo** | `KMeans(n_clusters=k)` | `kmeans(centers=k)` |
| **Gr√°fico Cluster** | `plt.scatter` (manual colores) | `fviz_cluster` (elipses auto) |
| **Dendrograma** | `scipy.cluster.hierarchy` | `fviz_dend` |
| **Perfiles** | `df.groupby()` | `df %>% group_by() %>% summarise()` |


# Ejercicio

Ahora vas a repetir el mismo flujo con un dataset diferente, como hicimos antes con Housing.

Vamos a usar un dataset muy conocido: **Iris** (cl√°sico de ML).
En Python lo habr√°s visto muchas veces; en R viene incluido.

La idea:

* elegir dos variables num√©ricas
* escalar
* K-means + silhouette
* jer√°rquico + dendrograma
* comparar

## Cargar Iris

In [None]:
data(iris)
glimpse(iris)

Nos quedamos con dos columnas (para poder visualizar f√°cil):

* `Sepal.Length`
* `Petal.Length`

In [None]:
iris2 <- iris %>% select(Sepal.Length, Petal.Length)
iris2_scaled <- scale(iris2)

## K-means + silhouette


In [None]:
set.seed(123)
km_iris <- kmeans(iris2_scaled, centers = 3, nstart = 25)

sil_iris <- silhouette(km_iris$cluster, dist(iris2_scaled))
mean(sil_iris[, 3])
plot(sil_iris, border = NA)

Visualiza:


In [None]:
iris_plot <- iris %>%
  mutate(cluster_kmeans = factor(km_iris$cluster))

ggplot(iris_plot, aes(x = Sepal.Length, y = Petal.Length, color = cluster_kmeans)) +
  geom_point(size = 2, alpha = 0.8)

## Jer√°rquico + corte


In [None]:
hc_iris <- hclust(dist(iris2_scaled), method = "ward.D2")
plot(hc_iris, labels = FALSE, main = "Dendrograma Iris")

iris_plot$cluster_hc <- factor(cutree(hc_iris, k = 3))

ggplot(iris_plot, aes(x = Sepal.Length, y = Petal.Length, color = cluster_hc)) +
  geom_point(size = 2, alpha = 0.8)

### Preguntas de interpretaci√≥n

1. ¬øCu√°l de los dos m√©todos separa mejor los grupos?
2. ¬øQu√© silhouette medio te sale con k = 2, 3 y 4?
3. Si tuvieras que explicar los clusters en palabras, ¬øc√≥mo los describir√≠as?

---

## Chuleta Python ‚Üî R (clustering)

| Lo que hacemos   | Python               | R               |
| ---------------- | -------------------- | --------------- |
| Escalar          | `StandardScaler()`   | `scale()`       |
| K-means          | `KMeans()`           | `kmeans()`      |
| Etiquetas        | `labels_`            | `$cluster`      |
| Elbow            | `inertia_`           | `tot.withinss`  |
| Silhouette score | `silhouette_score()` | `mean(sil[,3])` |
| Silhouette plot  | (var√≠a)              | `plot(sil)`     |
| Distancias       | `scipy` / `sklearn`  | `dist()`        |
| Jer√°rquico       | `linkage()`          | `hclust()`      |
| Cortar √°rbol     | `fcluster()`         | `cutree()`      |