<a href="https://colab.research.google.com/github/LinaMariaCastro/curso-ia-para-economia/blob/main/clases/4_Aprendizaje_no_supervisado/1_Clustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Inteligencia Artificial con Aplicaciones en Econom√≠a I**

- üë©‚Äçüè´ **Profesora:** [Lina Mar√≠a Castro](https://www.linkedin.com/in/lina-maria-castro)  
- üìß **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- üéì **Universidad:** Universidad Externado de Colombia - Facultad de Econom√≠a

# üîµüü¢üü† **An√°lisis de Clusters**

**Objetivos de Aprendizaje**

Al finalizar este notebook, ser√°s capaz de:

1.  **Entender la intuici√≥n econ√≥mica** detr√°s del an√°lisis de clustering y su aplicaci√≥n en la segmentaci√≥n de mercados.
2. **Implementar** dos algoritmos de agrupamiento fundamentales: K-Means y K-prototypes.
3. **Determinar el n√∫mero √≥ptimo de clusters** utilizando t√©cnicas como el M√©todo del Codo y el Coeficiente de Silueta.
4. **Interpretar los resultados** de los algoritmos de clustering para extraer conclusiones de negocio y econ√≥micas valiosas.

**Introducci√≥n**

Imagina que eres el gerente de un centro comercial. Tienes datos sobre tus clientes: cu√°nto ganan y cu√°nto gastan. Quieres lanzar campa√±as de marketing, pero enviar el mismo mensaje a todos es ineficiente. A un cliente que gana mucho y gasta poco (un ahorrador) no le interesar√° la misma promoci√≥n que a un cliente que gana poco pero gasta mucho (un entusiasta de las ofertas).

El an√°lisis de clustering es una t√©cnica de machine learning no supervisado que nos permite hacer exactamente esto: descubrir grupos (o clusters) naturales en nuestros datos sin que nos digan previamente cu√°les son esos grupos. El algoritmo "mira" los datos y agrupa a los clientes que se parecen entre s√≠.

## Importar librer√≠as

In [None]:
# Importaci√≥n de librer√≠as est√°ndar
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Importaci√≥n de modelos y m√©tricas de Scikit-Learn
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

## Mejorar visualizaci√≥n de dataframes y gr√°ficos

In [None]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

# Configuraciones para una mejor visualizaci√≥n
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)

## Cargar el dataset

In [None]:
from google.colab import drive, files
drive.mount('/content/drive')

In [None]:
path = '/content/drive/MyDrive/2025_ii_curso_ia_economia/datasets'

In [None]:
# Para establecer el directorio de los archivos
os.chdir(path)

In [None]:
df = pd.read_csv('Mall_Customers.csv')
df

In [None]:
# Renombrar columnas para facilidad de uso
df.rename(columns={
    'Annual Income (k$)': 'Annual_Income',
    'Spending Score (1-100)': 'Spending_Score'
}, inplace=True)

In [None]:
df.info()

In [None]:
print("\nEstad√≠sticas Descriptivas:")
print(df.describe())

Los datos est√°n limpios (no hay nulos) y listos para el an√°lisis.

## Visualizaci√≥n: ¬øPodemos "Ver" los Clusters?

La mejor forma de empezar es visualizando la relaci√≥n entre el ingreso anual y la puntuaci√≥n de gasto.

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Annual_Income', y='Spending_Score', data=df)
plt.title('Ingreso Anual vs. Puntuaci√≥n de Gasto')
plt.xlabel('Ingreso Anual (en miles de $)')
plt.ylabel('Puntuaci√≥n de Gasto (1-100)')
plt.show()

A simple vista, podemos identificar 5 grupos de clientes. Esto es una gran ventaja, ya que nos da una hip√≥tesis clara para probar con nuestros algoritmos.

## Preprocesamiento: preparando los datos para el Clustering

Para este an√°lisis, nos enfocaremos en las dos variables que visualizamos.

Debido a que los algoritmos de clustering se basan en distancias, se deben estandarizar las variables para que ninguna domine a la otra solo por su escala.

In [None]:
# Seleccionamos las caracter√≠sticas para el clustering
X = df[['Annual_Income', 'Spending_Score']]

# Estandarizamos las caracter√≠sticas
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Convertimos a DataFrame para facilidad de uso posterior
X_scaled_df = pd.DataFrame(X_scaled, columns=['Annual_Income', 'Spending_Score'])
X_scaled_df


In [None]:
sns.pairplot(X)
plt.suptitle('Pairplot de Datos Originales', y=1.02)
plt.show()

In [None]:
# Generar un pairplot de los datos escalados
sns.pairplot(X_scaled_df)
plt.suptitle('Pairplot de Datos Estandarizados', y=1.02) # A√±adir un t√≠tulo general
plt.show()

## K-Means

- K-Means es el algoritmo de clustering m√°s popular por su simplicidad y eficiencia.

- Divide una muestra n en K clases.

- Solo se aplica a variables num√©ricas.

Pasos que sigue el algoritmo:

1. El algoritmo asigna aleatoriamente 'k' puntos como centros de cada cluster (centroides).

2. Asigna cada observaci√≥n al centroide m√°s cercano.

3. Recalcula la posici√≥n de cada centroide como el promedio de todos los puntos asignados a √©l.

4. Repite los pasos 2 y 3 hasta que los centroides ya no se mueven o hasta que se alcance el n√∫mero de iteraciones que le indiquemos.



In [None]:
from IPython.display import YouTubeVideo

# ID del video: https://www.youtube.com/watch?v=mICySHB0fh4
YouTubeVideo('mICySHB0fh4', width=800, height=450)

**K-Means utiliza la Distancia Euclidiana**

Es la que todos conocemos de la geometr√≠a. La distancia m√°s corta entre dos puntos: la hipotenusa de un tri√°ngulo.

F√≥rmula:

$$d(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}$$

p y q: Son nuestros dos puntos (Cliente A y Cliente B).

i: Es un √≠ndice que representa cada una de las dimensiones que estamos considerando (dimensi√≥n 1: Ingreso, dimensi√≥n 2: Gasto, dimensi√≥n 3: Edad, etc.).

(pi‚àíqi): Es la diferencia entre los dos puntos a lo largo de una sola dimensi√≥n i.

Ventajas:

- Muy intuitiva y f√°cil de entender.
- Funciona excelentemente cuando los clusters son compactos y esf√©ricos.

Desventajas:

- La Maldici√≥n de la Dimensionalidad: A medida que a√±adimos m√°s variables (dimensiones), la distancia euclidiana pierde significado. En un espacio de muchas dimensiones, la distancia entre cualquier par de puntos tiende a ser muy similar, dificultando la formaci√≥n de clusters densos.
- Sensible a la escala de las variables (por eso siempre estandarizamos).

Casos de Uso:
- Segmentaci√≥n de clientes.
- Agrupaci√≥n de acciones por retorno y volatilidad.
- Agrupaci√≥n de establecimientos seg√∫n ventas y n√∫mero de clientes.

### Aplicar K-Means y visualizar los resultados

Ahora, aplicamos K-Means con k=5, seg√∫n lo que vimos en la gr√°fica.

In [None]:
# Aplicar K-Means con k=5
kmeans = KMeans(n_clusters=5, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters_kmeans = kmeans.fit_predict(X_scaled_df)
clusters_kmeans


**Nota:**

- init='k-means++': Es una forma 'inteligente' de elegir los centroides iniciales. En lugar de ponerlos al azar, este m√©todo trata de elegirlos lo m√°s separados posible entre s√≠. Esto hace que el algoritmo converja mucho m√°s r√°pido y a un mejor resultado. Es la opci√≥n por defecto y casi siempre la mejor.

- n_init=10: K-Means puede a veces quedarse 'atrapado' en una soluci√≥n sub√≥ptima dependiendo de d√≥nde empezaron los centroides. Este par√°metro le dice a Scikit-Learn: 'Corre todo el algoritmo 10 veces desde el principio con diferentes centroides iniciales, y al final qu√©date con el mejor resultado de los 10'. Esto aumenta la probabilidad de encontrar la mejor soluci√≥n posible.

- max_iter: Es el n√∫mero m√°ximo de iteraciones (ciclos de "asignar puntos -> actualizar centroides") que el algoritmo realizar√° en una sola ejecuci√≥n. Es una salvaguarda, ya que K-Means suele converger muy r√°pido (en menos de 100 iteraciones). Este l√≠mite evita que el algoritmo se ejecute indefinidamente si por alguna raz√≥n no converge. El valor por defecto es de 300 que es m√°s que suficiente para la gran mayor√≠a de los problemas. Rara vez necesitar√°s cambiarlo.

In [None]:
# A√±adir los clusters al DataFrame original
df['Cluster_KMeans'] = clusters_kmeans
df

In [None]:
# Ver las coordenadas de los centroides
kmeans.cluster_centers_

In [None]:
# Visualizar los clusters
plt.figure(figsize=(12, 8))
sns.scatterplot(x='Annual_Income', y='Spending_Score', hue='Cluster_KMeans', data=df, palette='viridis', s=100)

# Visualizar los centroides
centroids = scaler.inverse_transform(kmeans.cluster_centers_)
plt.scatter(centroids[:, 0], centroids[:, 1], s=300, c='red', marker='X', label='Centroides')

plt.title('Segmentaci√≥n de Clientes con K-Means')
plt.xlabel('Ingreso Anual (en miles de $)')
plt.ylabel('Puntuaci√≥n de Gasto (1-100)')
plt.legend()
plt.show()

### Determinar el N√∫mero √ìptimo de Clusters (k)

#### Inercia

Cuando entrenamos un modelo K-Means, el resultado tiene un atributo llamado inertia_. Este n√∫mero no es solo un resultado t√©cnico; **es el objetivo central que el algoritmo K-Means intenta minimizar**.

En t√©rminos sencillos, **la inercia mide qu√© tan internamente coherentes y compactos son los clusters**. Un valor de inercia m√°s bajo significa que los clusters son m√°s densos y est√°n mejor definidos, ya que los puntos de datos est√°n, en promedio, m√°s cerca de sus respectivos centroides.

Se calcula de la siguiente manera:

1. Para cada punto de dato, medimos la distancia al centroide.
2. Elevamos esa distancia al cuadrado. (Elevar al cuadrado penaliza m√°s fuertemente a los puntos que est√°n muy lejos).
3. Sumamos los resultados de todos los puntos.

El objetivo de K-Means es mover los centroides de tal manera que esta suma total de distancias al cuadrado sea la menor posible. Un valor de inercia bajo significa que logramos ubicar los centroides de forma muy eficiente, muy cerca de sus respectivos puntos de datos.

La Definici√≥n Formal: WCSS

El t√©rmino t√©cnico para la inercia es WCSS (Within-Cluster Sum of Squares) o "Suma de Cuadrados Intra-Cluster". La f√≥rmula es:

$$
\text{Inercia (WCSS)} = \sum_{j=1}^{k} \sum_{i \in C_j} \| x_i - \mu_j \|^2
$$

In [None]:
kmeans.inertia_

#### M√©todo del Codo (Elbow Method)

El m√©todo del codo **se basa enteramente en c√≥mo se comporta la inercia a medida que aumentamos el n√∫mero de clusters (k)**.

- La inercia siempre disminuye con m√°s clusters: Esto es l√≥gico. En el caso extremo, si el n√∫mero de clusters es igual al n√∫mero de datos, la distancia de cada dato a su centroide ser√≠a cero y la inercia ser√≠a 0.

- Por la raz√≥n anterior, no podemos simplemente elegir el k que nos d√© la menor inercia. Lo que buscamos es el "codo": el punto a partir del cual a√±adir un nuevo cluster ya no reduce la inercia de forma significativa. Es el punto donde el beneficio de a√±adir un nuevo cluster es marginal, lo que nos sugiere que hemos encontrado el n√∫mero de grupos "naturales" en los datos.

In [None]:
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=42)
    kmeans.fit(X_scaled_df)
    wcss.append(kmeans.inertia_)

plt.figure(figsize=(10, 5))
plt.plot(range(1, 11), wcss, marker='o', linestyle='--')
plt.title('M√©todo del Codo')
plt.xlabel('N√∫mero de Clusters (k)')
plt.ylabel('WCSS')
plt.show()

El "codo" es claramente visible en k=5, confirmando nuestra intuici√≥n visual.

#### Coeficiente de Silueta (Silhouette Score)

La idea central del Coeficiente de Silueta es responder dos preguntas para cada punto de dato individual:

- ¬øQu√© tan bien encaja este punto en su propio cluster? (Cohesi√≥n)

- ¬øQu√© tan mal encajar√≠a este punto en el siguiente cluster m√°s cercano? (Separaci√≥n)

Un buen clustering es aquel en el que, para la mayor√≠a de los puntos, la respuesta a la primera pregunta es "muy bien" y la respuesta a la segunda es "muy mal".

Para cada punto de dato i, calculamos dos valores:

- a(i): **Cohesi√≥n Interna**. Es la distancia promedio de i a todos los dem√°s puntos dentro del mismo cluster. Un valor bajo de a(i) es bueno, significa que el punto est√° en un vecindario denso y coherente.

- b(i): **Separaci√≥n Externa**. Es la distancia promedio de i a todos los puntos en el siguiente cluster m√°s cercano. El "siguiente cluster m√°s cercano" es aquel cuya distancia promedio desde i es la m√°s baja entre todos los clusters de los que i no es miembro. Un valor alto de b(i) es bueno, significa que los otros clusters est√°n lejos.

Una vez que tenemos a(i) y b(i) para un solo punto i, la f√≥rmula del coeficiente de silueta para ese punto es:

$$
s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}
$$

El Numerador (b(i) - a(i)): Es el coraz√≥n del c√°lculo. Queremos que la separaci√≥n b(i) sea lo m√°s grande posible y que la cohesi√≥n a(i) sea lo m√°s peque√±a posible. Por lo tanto, un valor grande y positivo en el numerador es ideal.

El Denominador max(a(i), b(i)): Es un factor de normalizaci√≥n. Divide el resultado por el valor m√°s grande entre a(i) y b(i) para asegurar que el puntaje final siempre est√© entre -1 y 1.

- **Puntaje cercano a +1** (Ideal ‚ú®): El punto est√° muy bien agrupado. Su propio cluster es muy denso y est√° muy lejos del siguiente cluster m√°s cercano.

- **Puntaje cercano a 0** (Ambiguo üòê): El punto est√° en la frontera entre dos clusters. Est√° casi a la misma distancia de su propio cluster que del vecino. Esto indica que los clusters se superponen o que el punto podr√≠a pertenecer a cualquiera de los dos.

- **Puntaje cercano a -1** (P√©simo ‚ùå): El punto probablemente ha sido asignado al cluster equivocado. En promedio, est√° m√°s cerca de los puntos de un cluster vecino que de los puntos de su propio cluster. Es una fuerte se√±al de que la estructura del clustering es incorrecta.

In [None]:
# Se define un rango de valores para el n√∫mero de clusters (k) que vamos a probar.
# Empezamos en 2 porque el coeficiente de silueta no se puede calcular para un solo cluster (k=1).
# Probaremos desde k=2 hasta k=10.
range_n_clusters = range(2, 11)

silhouette_avg_scores = []

for n_clusters in range_n_clusters:
    clusterer = KMeans(n_clusters=n_clusters, n_init=10, random_state=42)
    cluster_labels = clusterer.fit_predict(X_scaled_df)
    silhouette_avg = silhouette_score(X_scaled_df, cluster_labels)
    silhouette_avg_scores.append(silhouette_avg)
    print(f"Para n_clusters = {n_clusters}, el coeficiente de silueta promedio es: {silhouette_avg:.4f}")

plt.figure(figsize=(10, 5))
plt.plot(range_n_clusters, silhouette_avg_scores, marker='o', linestyle='--')
plt.title('Coeficiente de Silueta para Varios k')
plt.xlabel('N√∫mero de Clusters (k)')
plt.ylabel('Coeficiente de Silueta Promedio')
plt.show()

El coeficiente de silueta m√°s alto tambi√©n se obtiene para k=5.

 **Nota:**

 Un puntaje promedio cercano a 1 indica que los clusters son densos y est√°n bien separados. Si es cercano a 0 o negativo, la estructura es d√©bil.

In [None]:
# Aplicar K-Means con k=5
kmeans = KMeans(n_clusters=5, init='k-means++', max_iter=300, n_init=10, random_state=42)
clusters_kmeans = kmeans.fit_predict(X_scaled_df)


In [None]:
# Visualizar los clusters
plt.figure(figsize=(12, 8))
sns.scatterplot(x='Annual_Income', y='Spending_Score', hue='Cluster_KMeans', data=df, palette='viridis', s=100)

# Visualizar los centroides
centroids = scaler.inverse_transform(kmeans.cluster_centers_)
plt.scatter(centroids[:, 0], centroids[:, 1], s=300, c='red', marker='X', label='Centroides')

plt.title('Segmentaci√≥n de Clientes con K-Means')
plt.xlabel('Ingreso Anual (en miles de $)')
plt.ylabel('Puntuaci√≥n de Gasto (1-100)')
plt.legend()
plt.show()

### Interpretaci√≥n de los Clusters (¬°La parte m√°s importante!)

Ahora, le damos un significado a cada grupo:

- **Cluster 0 (P√∫rpura): Promedio.** Ingresos y gastos medios. Representan al cliente general del centro comercial. Estrategia: Promociones generales, programas de lealtad.

- **Cluster 1 (Azul Oscuro): Objetivo Principal.** ¬°El grupo so√±ado! Ingresos altos y puntuaci√≥n de gasto alta. Son los clientes m√°s rentables. Estrategia: Programas VIP, acceso anticipado a productos, marketing de lujo.

- **Cluster 2 (Azul claro): J√≥venes Entusiastas.** Ingresos bajos, pero gastan mucho. Probablemente j√≥venes, sensibles a las tendencias y ofertas. Estrategia: Marketing en redes sociales, descuentos por tiempo limitado.

- **Cluster 3 (Verde): Ahorradores Prudentes.** Ingresos altos, pero puntuaci√≥n de gasto baja. Son clientes valiosos pero dif√≠ciles de atraer. Estrategia: Marketing enfocado en calidad, durabilidad e inversi√≥n a largo plazo.

- **Cluster 4 (Amarillo): Cautelosos.** Bajos ingresos y bajo gasto. Son muy sensibles al precio. Estrategia: Promociones de "compre uno, lleve otro", cupones de descuento.

In [None]:
df.groupby('Cluster_KMeans')[['Annual_Income', 'Spending_Score', 'Age']].mean()

## ¬øPodemos usar clustering para predecir algo? Por ejemplo, ¬øpredecir a qu√© cluster pertenecer√° un nuevo cliente?

Una vez que has creado tus clusters y est√°s satisfecho con ellos, la etiqueta del cluster (Cluster_KMeans en nuestro notebook) se convierte en una nueva variable objetivo. Luego, puedes entrenar un modelo de clasificaci√≥n (como una regresi√≥n log√≠stica o un √°rbol de decisi√≥n) para predecir la probabilidad de que un nuevo cliente, bas√°ndose en su edad, ingreso, etc., pertenezca a uno de tus segmentos definidos. Esto es extremadamente √∫til para la toma de decisiones en tiempo real.

## Clustering Avanzado: Manejo de Variables Categ√≥ricas con K-Prototypes

Hasta ahora, hemos trabajado principalmente con variables num√©ricas (Annual_Income, Spending_Score). Pero, ¬øqu√© pasa con la columna Gender? ¬øPodemos incluirla en nuestro an√°lisis para obtener segmentos a√∫n m√°s ricos?

Los algoritmos como K-Means, que se basan en la distancia euclidiana, no pueden manejar texto como "Male" o "Female" directamente. Para resolver esto, podemos emplear modelos como K-Prototypes para datos mixtos.

In [None]:
#!pip install kmodes

In [None]:
# Importamos los nuevos algoritmos
from kmodes.kmodes import KModes
from kmodes.kprototypes import KPrototypes

K-Prototypes, en lugar de "centroides", crea "prototipos" de clusters que son un h√≠brido:

- Para las columnas num√©ricas, el prototipo es la media.

- Para las columnas categ√≥ricas, el prototipo es la moda.

La distancia total es una combinaci√≥n ponderada de la distancia euclidiana y la de Hamming.

**Nota: Distancia de Hamming**

Se cuenta el n√∫mero de variables en las que son diferentes dos observaciones: Un cliente ['M√≥vil', 'Chrome', 'S√≠'] tendr√≠a una distancia de 0 con otro cliente id√©ntico, y una distancia de 3 con un cliente ['PC', 'Firefox', 'No'].


Vamos a segmentar a nuestros clientes usando Age, Annual_Income, Spending_Score y, ahora tambi√©n, Gender.

In [None]:
# Hacemos una copia del DataFrame para este an√°lisis
df_mixed = df[['Age', 'Annual_Income', 'Spending_Score', 'Gender']].copy()
df_mixed

In [None]:
# El algoritmo necesita saber la posici√≥n de las columnas categ√≥ricas.
# En nuestro caso, 'Gender' est√° en la √∫ltima posici√≥n (√≠ndice 3).
categorical_columns_index = [3]

# Convertimos los datos a una matriz numpy
data_matrix = df_mixed.values

# K-Prototypes es sensible a la escala, por lo que estandarizamos las variables num√©ricas primero
# Nota: Estandarizamos solo las columnas num√©ricas (0, 1, 2)
scaler = StandardScaler()
data_matrix[:, 0:3] = scaler.fit_transform(data_matrix[:, 0:3])

# La columna 'Gender' tambi√©n debe ser codificada num√©ricamente para el algoritmo
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
data_matrix[:, 3] = le.fit_transform(data_matrix[:, 3])
print(f"El mapeo de clases es: {le.classes_}")

# Aplicamos K-Prototypes
kproto = KPrototypes(n_clusters=5, init='Cao', n_init=5, verbose=0, random_state=42)
clusters_kproto = kproto.fit_predict(data_matrix, categorical=categorical_columns_index)
clusters_kproto

In [None]:
# A√±adimos los clusters al DataFrame original
df_mixed['Cluster_KPrototypes'] = clusters_kproto
df_mixed

In [None]:
print(kproto.cluster_centroids_)

In [None]:
# Analicemos el perfil de los clusters con los datos originales
print("\nPerfil de los clusters (medias y modas):")
df_mixed.groupby('Cluster_KPrototypes').agg({
    'Age': 'mean',
    'Annual_Income': 'mean',
    'Spending_Score': 'mean',
    'Gender': lambda x: x.mode()[0]  # Calculamos la moda para el g√©nero
}).round(2)

Ahora tenemos una segmentaci√≥n mucho m√°s rica:

- Cluster 0: Hombres de mediana edad, Cautelosos. Edad promedio mediana (~41 a√±os), ingresos altos y gastos bajos.

- Cluster 1: Mujeres J√≥venes, Alto Poder Adquisitivo (Objetivo Principal). Edad promedio ~33 a√±os, ingresos y gastos muy altos. Este es el segmento premium.

- Cluster 2: Mujeres de Mediana Edad, Ahorradoras. Edad promedio ~46 a√±os, bajos ingresos y bajo gasto.

- Cluster 3: Mujeres muy J√≥venes, Entusiastas. Edad promedio muy baja (~25 a√±os), bajos ingresos pero alto gasto.

- Cluster 4: Mujeres de Mediana Edad, Promedio. Edad promedio mediana (~55 a√±os), ingresos y gastos en el rango medio.







In [None]:
plt.figure(figsize=(12, 8))
sns.scatterplot(x='Annual_Income', y='Spending_Score', hue='Cluster_KPrototypes', data=df_mixed, palette='tab10', s=100)
# 1. Extraemos solo la parte num√©rica de los prototipos (Age, Annual_Income, Spending_Score)
# kproto.cluster_centroids_ contiene tanto las medias num√©ricas como las modas categ√≥ricas.
# Seleccionamos las primeras 3 columnas que corresponden a nuestras variables num√©ricas.
numeric_prototypes = kproto.cluster_centroids_[:, 0:3]

# 2. Aplicamos la transformaci√≥n inversa para devolver los centroides a su escala original.
# Usamos el mismo objeto 'scaler' que utilizamos para entrenar el modelo.
prototypes_original_scale = scaler.inverse_transform(numeric_prototypes)

# 3. Graficamos los prototipos (centroides) sobre el scatter plot.
# Extraemos las coordenadas correspondientes a 'Annual_Income' (√≠ndice 1) y 'Spending_Score' (√≠ndice 2).
plt.scatter(
    prototypes_original_scale[:, 1],  # Coordenada X: Ingreso Anual
    prototypes_original_scale[:, 2],  # Coordenada Y: Puntuaci√≥n de Gasto
    s=300,                            # Tama√±o del marcador
    c='red',                          # Color
    marker='X',                       # Forma del marcador
    label='Prototipos'                # Etiqueta para la leyenda
)

# Actualizamos la leyenda para incluir los prototipos
plt.legend()

plt.show()

### B√∫squeda del K √≥ptimo para K-Prototypes: se utiliza el m√©todo del codo

In [None]:
# Lista para almacenar los costos para cada valor de k
costs = []
# Rango de clusters que vamos a probar
range_n_clusters = range(2, 11)

print("Calculando el costo para cada valor de k...")

# Bucle para probar diferentes n√∫meros de clusters
for k in range_n_clusters:
    # Creamos una instancia de KPrototypes para el k actual
    kproto = KPrototypes(n_clusters=k, init='Cao', n_init=5, verbose=0, random_state=42)

    # Entrenamos el modelo con nuestros datos mixtos y especificamos las columnas categ√≥ricas
    kproto.fit(data_matrix, categorical=categorical_columns_index)

    # Guardamos el costo (la 'inercia' de K-Prototypes) en nuestra lista
    costs.append(kproto.cost_)

    print(f"Costo para k={k}: {kproto.cost_:.2f}")

# Graficamos el m√©todo del codo
plt.figure(figsize=(10, 6))
plt.plot(range_n_clusters, costs, marker='o', linestyle='--')
plt.title('M√©todo del Codo para K-Prototypes')
plt.xlabel('N√∫mero de Clusters (k)')
plt.ylabel('Costo del Clustering')
plt.xticks(range_n_clusters)
plt.grid(True)
plt.show()