# ===============================================
# üìå 1. Importaci√≥n de librer√≠as necesarias
# ===============================================

In [None]:
# ---------------------------------------------------------------
# üì¶ Importar librer√≠as para manejo y an√°lisis de datos
# ---------------------------------------------------------------

import pandas as pd   # Pandas: se usa para manipular, limpiar y analizar datos estructurados (tablas tipo Excel o CSV)
import numpy as np    # NumPy: se usa para operaciones num√©ricas y manejo de arreglos multidimensionales

# ---------------------------------------------------------------
# üìä Librer√≠as para visualizaci√≥n (gr√°ficos)
# ---------------------------------------------------------------

import matplotlib.pyplot as plt   # Matplotlib: permite crear gr√°ficos b√°sicos (l√≠neas, barras, dispersi√≥n, etc.)
import seaborn as sns             # Seaborn: librer√≠a construida sobre Matplotlib que crea gr√°ficos estad√≠sticos m√°s atractivos y con menos c√≥digo

# ---------------------------------------------------------------
# ü§ñ Librer√≠as de Machine Learning (scikit-learn)
# ---------------------------------------------------------------

from sklearn.cluster import KMeans               # Algoritmo de agrupamiento (clustering) no supervisado, agrupa datos en K grupos
from sklearn.model_selection import train_test_split  # Divide los datos en conjuntos de entrenamiento y prueba
from sklearn.preprocessing import StandardScaler      # Escala los datos para que todas las variables tengan media 0 y desviaci√≥n est√°ndar 1
from sklearn.metrics import silhouette_score          # Mide qu√© tan bien definidos est√°n los clusters (calidad del agrupamiento)
from sklearn.decomposition import PCA                 # An√°lisis de Componentes Principales: reduce la dimensionalidad de los datos para visualizaci√≥n o simplificaci√≥n

# ---------------------------------------------------------------
# üé® Configurar el estilo de los gr√°ficos
# ---------------------------------------------------------------
sns.set(style="whitegrid")   # Define un estilo visual limpio con fondo blanco y l√≠neas de cuadr√≠cula (ideal para an√°lisis de datos)

# ---------------------------------------------------------------
# üé≤ Fijar semilla aleatoria
# ---------------------------------------------------------------
np.random.seed(42)
# Establece una semilla para el generador de n√∫meros aleatorios de NumPy.
# Esto garantiza que los resultados (por ejemplo, los grupos del KMeans o muestras aleatorias)
# sean reproducibles: si ejecutas el c√≥digo otra vez, obtendr√°s el mismo resultado.

# ---------------------------------------------------------------
# ‚úÖ Confirmaci√≥n de carga correcta
# ---------------------------------------------------------------
print("‚úÖ Librer√≠as importadas correctamente.")
# Imprime un mensaje indicando que todas las librer√≠as se importaron sin errores.


# ===============================================
# üìå 2. Carga del dataset
# ===============================================

In [None]:
# Usamos el dataset "Mall Customers" con datos de clientes
# Puedes subir el archivo a Colab con el bot√≥n "Subir archivo"
from google.colab import files
uploaded = files.upload()

üìã Columnas del dataset

| Columna                  | Tipo       | Descripci√≥n                                                                              |
| ------------------------ | ---------- | ---------------------------------------------------------------------------------------- |
| `CustomerID`             | Num√©rica   | Identificador √∫nico del cliente (solo sirve como referencia, no para an√°lisis).          |
| `Gender`                 | Categ√≥rica | G√©nero del cliente: `"Male"` o `"Female"`.                                               |
| `Age`                    | Num√©rica   | Edad del cliente, en a√±os.                                                               |
| `Annual Income (k$)`     | Num√©rica   | Ingreso anual estimado del cliente, en miles de d√≥lares (por ejemplo, 60 = \$60,000).    |
| `Spending Score (1-100)` | Num√©rica   | Puntuaci√≥n otorgada por el sistema del mall, basada en los h√°bitos de gasto del cliente. |


In [None]:
# Leer el archivo CSV subido
df = pd.read_csv("Mall_Customers.csv")
df.head() #Muestra las 5 priemras columnas del dataset

# ===============================================
# üìå 3. An√°lisis exploratorio inicial
# ===============================================

In [None]:
# Informaci√≥n general del DataFrame
print("\nInformaci√≥n general del DataFrame:")
print(df.info())

In [None]:
# Estad√≠sticas descriptivas
print("\nEstad√≠sticas descriptivas:")
print(df.describe())

In [None]:
# Conteo de valores √∫nicos en columnas categ√≥ricas (si las hay)
print("\nConteo de valores √∫nicos en 'Gender':")
print(df['Genre'].value_counts())

In [None]:
# ---------------------------------------------------------------
# üìä Visualizar relaciones entre variables num√©ricas con Seaborn
# ---------------------------------------------------------------

sns.pairplot(df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']])
# sns.pairplot() crea una matriz de gr√°ficos de dispersi√≥n (scatterplots) entre todas las combinaciones
# posibles de las variables num√©ricas seleccionadas.
# Cada gr√°fico muestra c√≥mo se relaciona una variable con otra.
# En la diagonal principal se muestran histogramas o distribuciones de cada variable individualmente.

# Par√°metros:
# df[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']]
# ‚Üí selecciona del DataFrame `df` solo las tres columnas indicadas:
#   - 'Age' ‚Üí edad de los clientes
#   - 'Annual Income (k$)' ‚Üí ingreso anual en miles de d√≥lares
#   - 'Spending Score (1-100)' ‚Üí puntaje de gasto (nivel de consumo del cliente)
# Estas variables son num√©ricas y se usar√°n para analizar correlaciones visuales.

plt.suptitle('Distribuciones y relaciones entre variables', y=1.02)
# plt.suptitle() agrega un t√≠tulo general a toda la figura (no a cada subgr√°fico).
# 'y=1.02' eleva el t√≠tulo un poco por encima del gr√°fico para evitar que se superponga con los subgr√°ficos.

plt.show()
# plt.show() muestra la figura generada en pantalla.
# Es necesario para visualizar los gr√°ficos en la mayor√≠a de entornos (como scripts de Python o notebooks).


In [None]:
# ---------------------------------------------------------------
# üìä Visualizaci√≥n de la distribuci√≥n de las variables clave
# ---------------------------------------------------------------

plt.figure(figsize=(15, 5))
# Crea una nueva figura con un tama√±o de 15 pulgadas de ancho por 5 de alto.
# Esto permite que los tres gr√°ficos (subplots) que haremos se vean grandes y no amontonados.

# ---------------------------------------------------------------
# üßì Subgr√°fico 1: Distribuci√≥n de la edad
# ---------------------------------------------------------------
plt.subplot(1, 3, 1)
# Crea el primer subgr√°fico dentro de una cuadr√≠cula de 1 fila y 3 columnas.
# El n√∫mero 1 indica que este ser√° el primer gr√°fico (de izquierda a derecha).

sns.histplot(df['Age'], kde=True)
# Dibuja un histograma de la columna "Age" del DataFrame `df`.
# Un histograma muestra la frecuencia (cu√°ntas veces ocurre) de distintos rangos de edad.
# El par√°metro `kde=True` agrega una l√≠nea de densidad suavizada (Kernel Density Estimation),
# que muestra una curva continua para visualizar la forma general de la distribuci√≥n.

plt.title('Distribuci√≥n de Edad')
# Agrega un t√≠tulo al primer subgr√°fico.

# ---------------------------------------------------------------
# üí∞ Subgr√°fico 2: Distribuci√≥n del ingreso anual
# ---------------------------------------------------------------
plt.subplot(1, 3, 2)
# Crea el segundo subgr√°fico en la misma figura (posici√≥n 2 de 3).

sns.histplot(df['Annual Income (k$)'], kde=True)
# Dibuja un histograma de la variable "Annual Income (k$)" (ingreso anual en miles de d√≥lares).
# Permite observar si los ingresos est√°n concentrados en ciertos rangos (por ejemplo, ingresos bajos o altos).

plt.title('Distribuci√≥n de Ingresos Anuales (k$)')
# Agrega t√≠tulo descriptivo a este subgr√°fico.

# ---------------------------------------------------------------
# üí≥ Subgr√°fico 3: Distribuci√≥n del puntaje de gasto
# ---------------------------------------------------------------
plt.subplot(1, 3, 3)
# Crea el tercer subgr√°fico de la figura.

sns.histplot(df['Spending Score (1-100)'], kde=True)
# Dibuja un histograma de la variable "Spending Score (1-100)".
# Esta variable suele representar el comportamiento de compra o gasto de los clientes.
# El KDE muestra si hay grupos de clientes que gastan poco, medio o mucho.

plt.title('Distribuci√≥n de Puntuaci√≥n de Gasto')
# Agrega t√≠tulo al tercer gr√°fico.

# ---------------------------------------------------------------
# üß© Ajustes finales del dise√±o
# ---------------------------------------------------------------
plt.tight_layout()
# Ajusta autom√°ticamente los m√°rgenes y espacios entre subgr√°ficos para evitar que los textos o t√≠tulos se sobrepongan.

plt.show()
# Muestra la figura con los tres histogramas.

# ---------------------------------------------------------------
# ‚úÖ Mensaje de confirmaci√≥n
# ---------------------------------------------------------------
print("‚úÖ An√°lisis exploratorio de datos completado.")
# Muestra un mensaje en consola indicando que la visualizaci√≥n y an√°lisis se realizaron correctamente.


# ===============================================
# üìå 4. Limpieza de datos
# ===============================================

In [None]:
# Verificamos valores nulos
print(df.isnull().sum())

In [None]:
# Eliminamos la columna 'CustomerID' ya que no aporta al an√°lisis
df_clean = df.drop(['CustomerID'], axis=1)

In [None]:
# ---------------------------------------------------------------
# üî¢ Conversi√≥n de variable categ√≥rica 'Gender' a variable num√©rica
# ---------------------------------------------------------------

df_clean = pd.get_dummies(df_clean, drop_first=True)
# Esta funci√≥n convierte autom√°ticamente las variables categ√≥ricas (de texto) del DataFrame `df_clean`
# en variables num√©ricas mediante el m√©todo "One-Hot Encoding".
#
# üëâ One-Hot Encoding:
#    - Toma una columna con categor√≠as de texto (por ejemplo, 'Gender' con valores 'Male' y 'Female')
#    - Crea una nueva columna binaria (de 0s y 1s) para cada categor√≠a.
#
# Ejemplo:
#    Si tenemos:
#       Gender
#       -------
#       Male
#       Female
#       Male
#
#    Al aplicar pd.get_dummies(df_clean), se obtiene:
#       Gender_Female   Gender_Male
#       --------------  -----------
#       0               1
#       1               0
#       0               1
#
# ‚öôÔ∏è Par√°metro:
#    - drop_first=True ‚Üí elimina la primera categor√≠a (por ejemplo, 'Gender_Male')
#      para evitar la *trampa de la multicolinealidad* (cuando una variable puede
#      deducirse de las otras, lo que causa problemas en modelos lineales).
#
# Resultado:
#    - El DataFrame `df_clean` ahora solo contiene valores num√©ricos,
#      listos para usarse en modelos de Machine Learning.


In [None]:
# Resultado
df_clean.head()

# ===============================================
# üìå 5. Normalizaci√≥n de los datos
# ===============================================

üîÑ **¬øPor qu√© normalizamos los datos?**

K-means calcula distancias entre puntos. Si usamos valores sin escalar (ej. edad vs ingresos), una variable dominar√° la otra.  
La normalizaci√≥n pone todos los valores en la **misma escala (media=0, desviaci√≥n est√°ndar=1)** para que todas las variables tengan el mismo peso en la segmentaci√≥n.


In [None]:
# ---------------------------------------------------------------
# ‚öñÔ∏è Estandarizaci√≥n de las variables num√©ricas
# ---------------------------------------------------------------

scaler = StandardScaler()
# Crea un objeto de la clase StandardScaler del m√≥dulo sklearn.preprocessing.
# Este objeto se encargar√° de escalar (normalizar) las variables num√©ricas del DataFrame.
#
# ¬øPor qu√© escalar?
# En muchos algoritmos de Machine Learning (como K-Means, Regresi√≥n Log√≠stica o PCA),
# las variables con valores m√°s grandes pueden "dominar" las dem√°s.
# Por ejemplo, si una variable mide ingresos en miles y otra edad en a√±os,
# el ingreso tiene una escala mucho mayor y puede sesgar el resultado.
#
# La estandarizaci√≥n convierte todas las variables para que:
#   - Tengan media (promedio) = 0
#   - Tengan desviaci√≥n est√°ndar = 1
#
# F√≥rmula:
#   X_esc = (X - media) / desviaci√≥n_est√°ndar

df_scaled = scaler.fit_transform(df_clean)
# Aplica la estandarizaci√≥n a todas las columnas num√©ricas del DataFrame `df_clean`.
# - fit() calcula la media y desviaci√≥n est√°ndar de cada variable.
# - transform() aplica la transformaci√≥n a los datos.
# - fit_transform() combina ambos pasos en uno solo.
#
# El resultado `df_scaled` es un arreglo NumPy (no un DataFrame) con los valores escalados.
# Cada columna tiene media 0 y desviaci√≥n est√°ndar 1.

# ---------------------------------------------------------------
# üîç Verificaci√≥n de la transformaci√≥n
# ---------------------------------------------------------------

print("Media:", df_scaled.mean(axis=0))
# Calcula y muestra la media de los valores escalados (por columnas).
# Deber√≠a ser aproximadamente 0 para cada variable, si la estandarizaci√≥n fue correcta.

print("Desviaci√≥n est√°ndar:", df_scaled.std(axis=0))
# Calcula y muestra la desviaci√≥n est√°ndar de los valores escalados (por columnas).
# Deber√≠a ser aproximadamente 1 para todas las variables.


‚úÖ Media ~ 0
La media de cada columna (variable) ha sido transformada para que sea pr√°cticamente cero.
Esos valores muy peque√±os como -1e-16 o 3e-17 son num√©ricamente cercanos a cero, con peque√±as diferencias por redondeo y precisi√≥n num√©rica en coma flotante.

üîπ Ejemplo: -1.02140518e-16 ‚âà 0

‚úÖ Desviaci√≥n est√°ndar = 1
Cada variable ahora tiene varianza 1, es decir, han sido "normalizadas" para tener la misma escala de dispersi√≥n.

In [None]:
# ---------------------------------------------------------------
# üîÑ Convertir el array escalado nuevamente a un DataFrame
# ---------------------------------------------------------------

df_scaled = pd.DataFrame(df_scaled, columns=df_clean.columns)
# La funci√≥n pd.DataFrame() convierte el arreglo NumPy `df_scaled` (resultado de StandardScaler)
# en un DataFrame de pandas.
#
# Par√°metros:
#   - df_scaled ‚Üí los valores num√©ricos ya estandarizados (media = 0, desviaci√≥n est√°ndar = 1)
#   - columns=df_clean.columns ‚Üí usa los mismos nombres de columnas que ten√≠a el DataFrame original `df_clean`
#
# Resultado:
#   - Ahora `df_scaled` es un DataFrame de pandas con los mismos nombres de variables,
#     pero con valores escalados.

# ---------------------------------------------------------------
# üéØ Selecci√≥n de las variables num√©ricas principales
# ---------------------------------------------------------------

df_scaled = pd.DataFrame(df_scaled[['Age', 'Annual Income (k$)', 'Spending Score (1-100)']])
# De todas las columnas del DataFrame escalado, seleccionamos solo tres:
#   - 'Age' ‚Üí edad del cliente
#   - 'Annual Income (k$)' ‚Üí ingreso anual en miles de d√≥lares
#   - 'Spending Score (1-100)' ‚Üí nivel de gasto o consumo
#
# Esto se hace porque estas tres variables son las m√°s relevantes para el an√°lisis
# y se quieren visualizar en un gr√°fico comparativo.
#
# Se crea un nuevo DataFrame (tambi√©n llamado df_scaled) solo con esas columnas.

# ---------------------------------------------------------------
# üìä Visualizaci√≥n: relaciones entre variables normalizadas
# ---------------------------------------------------------------

sns.pairplot(df_scaled)
# Crea una matriz de gr√°ficos (pairplot) que muestra:
#   - En la diagonal ‚Üí histogramas o distribuciones de cada variable.
#   - Fuera de la diagonal ‚Üí gr√°ficos de dispersi√≥n (scatterplots) entre pares de variables.
#
# Dado que los datos est√°n normalizados, todas las variables est√°n en la misma escala,
# lo que facilita comparar tendencias o correlaciones.

plt.suptitle('Distribuciones y relaciones entre variables (normalizados)', y=1.02)
# Agrega un t√≠tulo general a todo el conjunto de subgr√°ficos.
# El par√°metro 'y=1.02' ajusta la posici√≥n vertical del t√≠tulo (ligeramente por encima de los gr√°ficos).

plt.show()
# Muestra en pantalla la figura generada con Seaborn y Matplotlib.



üìä 1. Distribuciones individuales (diagonal)
Age (Edad): Distribuci√≥n sesgada a la izquierda (m√°s clientes j√≥venes que mayores).

Annual Income (Ingresos): Distribuci√≥n m√°s uniforme pero con ligera concentraci√≥n entre -1 y 1.

Spending Score: Presenta una distribuci√≥n casi sim√©trica, aunque se observan clientes con puntajes extremos.

Todas las variables tienen centro en 0 y rango t√≠pico entre -2 y 2 ‚Üí ‚úÖ Normalizaci√≥n exitosa.


# ===============================================
# üìå 6. Segmentaci√≥n de datos (70% train, 15% val, 15% test)
# ===============================================

In [None]:
# Usamos train_test_split para crear subconjuntos de entrenamiento, validaci√≥n y prueba
X_train, X_temp = train_test_split(df_scaled, test_size=0.30, random_state=42)
X_val, X_test = train_test_split(X_temp, test_size=0.50, random_state=42)

print(f'Tama√±o del conjunto de entrenamiento: {len(X_train)}')
print(f'Tama√±o del conjunto de validaci√≥n: {len(X_val)}')
print(f'Tama√±o del conjunto de prueba: {len(X_test)}')

# ===============================================
# üìå 7. Determinar n√∫mero √≥ptimo de clusters (m√©todo del codo)
# ===============================================

In [None]:
# ---------------------------------------------------------------
# üí° M√©todo del codo para elegir el n√∫mero √≥ptimo de clusters (K)
# ---------------------------------------------------------------

inertia = []
# Creamos una lista vac√≠a para almacenar la inercia de cada modelo KMeans.
# La inercia mide la suma de las distancias cuadradas de cada punto a su centroide.
# Valores m√°s bajos indican clusters m√°s compactos.

K = range(1, 11)
# Definimos un rango de posibles valores de K (1 a 10 clusters) para probar.
# El objetivo es encontrar el "codo" en la curva donde agregar m√°s clusters ya no reduce significativamente la inercia.
# Inercia (medida de cu√°n compactos est√°n los clusters)

# ---------------------------------------------------------------
# üîÑ Iteramos sobre los valores de K
# ---------------------------------------------------------------
for k in K:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    # Creamos un modelo KMeans con:
    #   - n_clusters=k ‚Üí n√∫mero de clusters a generar
    #   - random_state=42 ‚Üí semilla para resultados reproducibles
    #   - n_init=10 ‚Üí n√∫mero de veces que el algoritmo KMeans se inicializa con centroides diferentes;
    #     se toma la mejor soluci√≥n (la que minimiza la inercia)

    kmeans.fit(X_train)
    # Entrenamos el modelo con los datos de entrenamiento `X_train`.
    # El algoritmo asigna cada punto a un cluster y ajusta los centroides para minimizar la inercia.

    inertia.append(kmeans.inertia_)
    # Guardamos el valor de la inercia para este n√∫mero de clusters.
    # kmeans.inertia_ es la suma de distancias cuadradas de cada punto a su centroide.

# ---------------------------------------------------------------
# üìà Visualizaci√≥n del m√©todo del codo
# ---------------------------------------------------------------
plt.plot(K, inertia, 'bo-')
# 'bo-' ‚Üí c√≠rculos azules ('b') conectados por l√≠nea continua ('-')
# El eje X representa el n√∫mero de clusters (K)
# El eje Y representa la inercia correspondiente a cada K

plt.xlabel('N√∫mero de clusters (K)')
plt.ylabel('Inercia')
plt.title('M√©todo del codo para elegir K')
plt.show()
# Muestra la gr√°fica en pantalla
# El "codo" en la curva indica el K √≥ptimo:
#   - Antes del codo: agregar clusters reduce mucho la inercia
#   - Despu√©s del codo: agregar m√°s clusters apenas mejora la inercia (posible sobreajuste)


# ===============================================
# üìå 8. Entrenamiento del modelo K-means
# ===============================================

In [None]:
# ---------------------------------------------------------------
# üîπ Definir el n√∫mero √≥ptimo de clusters
# ---------------------------------------------------------------

# Suponemos que el mejor K, determinado visualmente con el m√©todo del codo, es 5
# En este caso, se est√° usando 4 como ejemplo:
k_optimo = 4
# k_optimo ‚Üí n√∫mero de clusters que vamos a usar para entrenar el modelo KMeans.
# Este valor se suele elegir observando la gr√°fica del codo.

# ---------------------------------------------------------------
# üîπ Entrenar el modelo KMeans
# ---------------------------------------------------------------

kmeans = KMeans(
    n_clusters=k_optimo,   # N√∫mero de clusters a crear
    random_state=42,       # Semilla aleatoria para reproducibilidad
    n_init=10              # N√∫mero de inicializaciones diferentes para evitar m√≠nimos locales
)
kmeans.fit(X_train)
# Ajusta el modelo KMeans a los datos de entrenamiento `X_train`.
# El algoritmo encuentra los centroides de los clusters y asigna cada punto al cluster m√°s cercano.
# Despu√©s de entrenar:
#   - kmeans.cluster_centers_ ‚Üí contiene las coordenadas de los centroides
#   - kmeans.labels_ ‚Üí etiquetas de cada punto del entrenamiento

# ---------------------------------------------------------------
# üîπ Asignar clusters a los datos de validaci√≥n
# ---------------------------------------------------------------

val_labels = kmeans.predict(X_val)
# Predice a qu√© cluster pertenece cada punto del conjunto de validaci√≥n `X_val`.
# val_labels ‚Üí arreglo con n√∫meros enteros [0, k_optimo-1] que representan la etiqueta de cluster asignada a cada dato.


# ===============================================
# üìå 9. Evaluaci√≥n del modelo con Silhouette Score
# ===============================================

In [None]:
# ---------------------------------------------------------------
# üîπ Calcular el Silhouette Score para los clusters de validaci√≥n
# ---------------------------------------------------------------

score_val = silhouette_score(X_val, val_labels)
# silhouette_score() es una funci√≥n de sklearn.metrics que mide qu√© tan bien definidos y separados est√°n los clusters.
#
# Par√°metros:
#   - X_val ‚Üí los datos de validaci√≥n (en este caso, normalizados/escalados)
#   - val_labels ‚Üí etiquetas de cluster asignadas por el modelo KMeans
#
# Concepto:
#   - Para cada punto, el Silhouette Score combina:
#       a) la distancia media entre el punto y los otros puntos del mismo cluster (cohesi√≥n)
#       b) la distancia media entre el punto y los puntos del cluster m√°s cercano (separaci√≥n)
#   - F√≥rmula simplificada:
#       s = (b - a) / max(a, b)
#       donde a = promedio de distancias dentro del mismo cluster, b = promedio de distancias al cluster m√°s cercano
#
# Interpretaci√≥n del valor:
#   - Rango: [-1, 1]
#   - s ‚âà 1 ‚Üí cluster bien definido, punto dentro de su cluster
#   - s ‚âà 0 ‚Üí punto entre clusters
#   - s < 0 ‚Üí punto mal asignado (m√°s cerca de otro cluster)
#   - Generalmente, un valor promedio > 0.5 indica clusters claramente separados.

# ---------------------------------------------------------------
# üîπ Mostrar el resultado
# ---------------------------------------------------------------
print(f'Silhouette Score en validaci√≥n: {score_val:.2f}')
# Imprime el Silhouette Score en consola, redondeado a 2 decimales.
# Permite evaluar la calidad del clustering obtenido en los datos de validaci√≥n.


| Rango del Silhouette Score | Interpretaci√≥n general               |
| -------------------------- | ------------------------------------ |
| 0.71 ‚Äì 1.00                | Clustering fuerte                    |
| 0.51 ‚Äì 0.70                | Clustering razonable                 |
| 0.26 ‚Äì 0.50                | Estructura d√©bil, pero detectable    |
| **0.00 ‚Äì 0.25**            | **Clustering muy d√©bil o aleatorio** |


# ===============================================
# üìå 10. Visualizaci√≥n de clusters con PCA (reducci√≥n a 2D)
# ===============================================

In [None]:
# ---------------------------------------------------------------
# üîπ Reducci√≥n de dimensionalidad con PCA para visualizaci√≥n
# ---------------------------------------------------------------

pca = PCA(n_components=2)
# Creamos un objeto PCA (Principal Component Analysis) para reducir la dimensionalidad de los datos.
# n_components=2 ‚Üí queremos reducir los datos a 2 dimensiones, para poder graficarlos en un plano XY.
# PCA transforma los datos originales en nuevas variables ortogonales llamadas "componentes principales",
# que capturan la mayor varianza posible de los datos.

X_val_pca = pca.fit_transform(X_val)
# fit_transform() realiza dos pasos:
#   1. fit() ‚Üí calcula los componentes principales a partir de los datos X_val.
#   2. transform() ‚Üí proyecta los datos originales sobre estos componentes principales.
# Resultado: `X_val_pca` es un array de 2 columnas (PC1 y PC2) con los datos proyectados,
# listo para visualizaci√≥n en 2D.

# ---------------------------------------------------------------
# üîπ Predecir clusters finales para todo el DataFrame escalado
# ---------------------------------------------------------------

cluster_labels = kmeans.predict(df_scaled)
# Usamos el modelo KMeans ya entrenado para asignar un cluster a cada punto de `df_scaled`.
# Resultado: un array de etiquetas [0, k_optimo-1] que indica a qu√© cluster pertenece cada dato.

# ---------------------------------------------------------------
# üîπ Agregar los resultados de clustering al DataFrame original
# ---------------------------------------------------------------

df_clean['Cluster'] = cluster_labels
# Creamos una nueva columna 'Cluster' en `df_clean` que almacena la etiqueta de cluster de cada registro.
# Esto permite:
#   - Analizar estad√≠sticas por cluster
#   - Visualizar clusters con gr√°ficos
#   - Combinar con otras variables categ√≥ricas o num√©ricas


In [None]:
# ==============================================================
# üè∑Ô∏è ETIQUETADO DE SEGMENTOS SEG√öN PERFIL
# ==============================================================

# ---------------------------------------------------------------
# üîπ Analizar caracter√≠sticas promedio por cluster
# ---------------------------------------------------------------

cluster_summary = df_clean.groupby('Cluster').mean(numeric_only=True)
# df_clean.groupby('Cluster') ‚Üí agrupa los datos por la columna 'Cluster'.
# .mean(numeric_only=True) ‚Üí calcula la media de las variables num√©ricas para cada cluster.
#
# Resultado:
#   - Un DataFrame donde cada fila representa un cluster
#   - Cada columna muestra la media de esa variable dentro del cluster
#   - Permite identificar patrones: edad promedio, ingreso promedio, gasto promedio, etc.

display(cluster_summary)
# Muestra el resumen de manera visual (especialmente √∫til en Jupyter Notebook o entornos interactivos)
# para poder inspeccionar r√°pidamente los perfiles de cada cluster.

# ---------------------------------------------------------------
# üîπ Asignar etiquetas descriptivas a los clusters
# ---------------------------------------------------------------

nombres_segmentos = {
    0: "Clientes conservadores",
    1: "Compradores impulsivos",
    2: "Clientes premium activos",
    3: "Clientes cautelosos",
    4: "Potencial no explotado"
}
# Creamos un diccionario que asigna un nombre descriptivo a cada cluster.
# Claves ‚Üí n√∫mero del cluster (0,1,2,3,4)
# Valores ‚Üí nombre del segmento basado en an√°lisis de medias y comportamiento del cliente

df_clean['Segmento'] = df_clean['Cluster'].map(nombres_segmentos)
# Usamos .map() para reemplazar cada etiqueta num√©rica de cluster con su nombre descriptivo.
# Resultado:
#   - Nueva columna 'Segmento' en df_clean
#   - Permite trabajar con etiquetas comprensibles y no solo n√∫meros
#   - Facilita an√°lisis y visualizaci√≥n de perfiles de clientes


In [None]:
# ==============================================================
# üß† AN√ÅLISIS DE NEGOCIO
# ==============================================================

# ---------------------------------------------------------------
# üîπ Conteo de clientes por segmento
# ---------------------------------------------------------------

conteo_segmentos = df_clean['Segmento'].value_counts()
# df_clean['Segmento'] ‚Üí accede a la columna que contiene las etiquetas descriptivas de cada cluster.
# .value_counts() ‚Üí cuenta cu√°ntas veces aparece cada etiqueta en la columna.
#
# Resultado:
#   - Un objeto pandas Series donde:
#       - √≠ndice ‚Üí nombre del segmento
#       - valor ‚Üí n√∫mero de clientes en ese segmento
#   - Permite conocer la distribuci√≥n de clientes entre los distintos perfiles identificados.

# ---------------------------------------------------------------
# üîπ Mostrar resultados en consola
# ---------------------------------------------------------------
print("Distribuci√≥n de clientes por segmento:\n")
print(conteo_segmentos)
# Imprime en pantalla la cantidad de clientes en cada segmento
# √ötil para identificar:
#   - Segmentos m√°s grandes o dominantes
#   - Segmentos peque√±os o nichos
#   - Potencial de enfoque de marketing o estrategia de negocio


# ===============================================
# üìå 11. Validaci√≥n final en el conjunto de prueba
# ===============================================

In [None]:
# ---------------------------------------------------------------
# üîπ Aplicar el modelo KMeans entrenado al conjunto de prueba
# ---------------------------------------------------------------

test_labels = kmeans.predict(X_test)
# predict() asigna cada punto del conjunto de prueba X_test a un cluster seg√∫n los centroides encontrados
# durante el entrenamiento con X_train.
# Resultado:
#   - test_labels ‚Üí array con las etiquetas de cluster para cada punto del test set
#   - Etiquetas en el rango [0, k_optimo-1]

# ---------------------------------------------------------------
# üîπ Calcular el Silhouette Score en los datos de prueba
# ---------------------------------------------------------------

score_test = silhouette_score(X_test, test_labels)
# silhouette_score() mide qu√© tan bien separados y definidos est√°n los clusters
# para los datos de prueba.
#
# Par√°metros:
#   - X_test ‚Üí datos del conjunto de prueba
#   - test_labels ‚Üí etiquetas de cluster asignadas
#
# Interpretaci√≥n:
#   - Valor entre -1 y 1
#   - >0.5 ‚Üí clusters bien definidos
#   - ~0 ‚Üí clusters poco definidos, puntos cerca de l√≠mites de cluster
#   - <0 ‚Üí clusters mal asignados

# ---------------------------------------------------------------
# üîπ Mostrar resultado
# ---------------------------------------------------------------
print(f'Silhouette Score en test: {score_test:.2f}')
# Imprime en consola el Silhouette Score redondeado a 2 decimales
# Permite evaluar si el modelo generaliza bien y si los clusters siguen siendo consistentes en nuevos datos


##Exportar resultados a Excel

In [None]:
# Exportamos el dataframe con segmentos a Excel (requiere openpyxl instalado)
df_clean.to_excel('/content/Clientes_Segmentados.xlsx', index=False)

print("‚úÖ Archivo exportado como Clientes_Segmentados.xlsx")
