# <font color="Turquoise"><b>Práctica 3: Segmentación de mercado</b></font>

Elaborado con el apoyo de:
Luis Fernando Becerra, BEDA Aprendizaje de Máquinas 2024-1S - 2025-1S
Andres Esteban Marin Manco, BEDA Aprendizaje de Máquinas 2025-1S

# <font color="LightPink"><b>Aplicación Clustering: Segmentación de mercado</b></font>

En esta parte de la práctica aplicaremos lo aprendido sobre técnicas de agrupamiento para realizar un **análisis de segmentación de mercado**.

Para ello, utilizaremos el archivo `customer.csv`. Este conjunto de datos ya fue **preprocesado previamente**, incluyendo:

- Eliminación de **valores nulos** y algunas **anomalías** detectadas.
- Conversión de **variables categóricas** a valores **enteros codificados**.

In [None]:
#Importamos las librerias
#Visualización de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
#Cargamos el archivo


In [None]:
#Revisamos los tipos de datos


In [None]:
#Revisamos los primeros 5 elementos


Para este proceso de segmentación de mercado, vamos a seguir los siguientes pasos:

1. **Normalización de los datos**  
   Es fundamental escalar las variables para que todas tengan el mismo peso en el proceso de agrupamiento.

2. **Revisión de la correlación entre variables**  
   Analizaremos si existen variables altamente correlacionadas, lo cual puede indicarnos que alguna dimensión podría ser eliminada sin pérdida de información relevante.

3. **Aplicación inicial de K-Means**  
   Utilizaremos el algoritmo `K-Means` como primer enfoque para realizar el análisis de los segmentos de mercado.


In [None]:
#Importamos
from sklearn.preprocessing import StandardScaler
#Normalizamos


In [None]:
data.head()

In [None]:
#Analizamos la correlacion de los datos con un mapa de calor
corrmax = data.corr()
plt.figure(figsize=(25,20))
sns.heatmap(corrmax, annot=True, cmap = 'coolwarm', center=0)
plt.show()

# Kmeans

In [None]:
#Importar Kmeans
from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score, silhouette_score

# arreglos para indices


#clustering


In [None]:
#Graficamos el resultado
plt.figure(figsize=(15, 3.5))

#Gráfico 1: Inercia
plt.subplot(1, 3, 1)
plt.plot(range(2, 16), inertias, 'b', marker='o')
plt.title('Método del Codo')
plt.xlabel('Número de Clusters (k)')
plt.ylabel('Inercia')

#Gráfico 2: Índice Davies-Bouldin
plt.subplot(1, 3, 2)
plt.plot(range(2, 16), db, 'r', marker='o')
plt.title('Índice Davies-Bouldin')
plt.xlabel('Número de Clusters (k)')
plt.ylabel('Valor del índice')

#Gráfico 3: Silueta
plt.subplot(1, 3, 3)
plt.plot(range(2, 16), silhouette, 'g', marker='o')
plt.title('Índice de Silueta')
plt.xlabel('Número de Clusters (k)')
plt.ylabel('Score promedio')

plt.tight_layout()
plt.show()

### <font color="LightPink"><b>Análisis de los índices de evaluación</b></font>

A partir de los resultados graficados, podemos hacer las siguientes observaciones:

1. **Método del Codo (Inercia)**  
   Se observa una reducción considerable de la inercia hasta `k = 4`, donde empieza a aplanarse la curva. Esto sugiere que `k = 4` podría ser una buena elección para el número de clusters.

2. **Índice Davies-Bouldin**  
   Este índice busca minimizarse. El valor más bajo se presenta en `k = 2`, seguido de `k = 9`. Sin embargo, presenta bastante variabilidad, lo que indica que no hay una separación de clusters clara para todos los valores de `k`.

3. **Índice de Silueta**  
   El valor más alto aparece en `k = 2`, lo que sugiere una buena separación y cohesión en ese caso. No obstante, los valores bajan rápidamente a medida que aumenta `k`, indicando una menor calidad de los agrupamientos para valores más altos.

### <b>Conclusión número de clusters:</b>  
Aunque el índice de silueta y Davies-Bouldin favorecen `k = 2`, el método del codo sugiere `k = 4`. La elección final de `k` dependerá del equilibrio entre interpretabilidad, granularidad deseada y validación adicional sobre el negocio o contexto de análisis.


In [None]:
#Seleccionamos numero de cluster y obtenemos el agrupamiento


In [None]:
#Agregamos la información de los clusters a los datos originales


In [None]:
#Analizamos variables de interes
#Ej: como se comporta lo que gasta un cliente vs sus ingresos
plt.figure(figsize=(20, 6))
sns.scatterplot(
    data=df,
    x='Spent',
    y='Income',
    hue='Cluster',
    palette={0: 'darkcyan', 1: 'purple'},
    alpha=0.7,
    s=50

)
plt.title('Distribución de Gasto vs Ingreso por Cluster')
plt.legend(title='Cluster')
plt.show()

### <font color="LightPink"><b>Análisis del resultado de clustering</b></font>

El gráfico muestra el resultado de una segmentación en **dos grupos** (`0` y `1`) utilizando las variables `Spent` (gasto) e `Income` (ingreso).

- El **grupo 1** (color naranja) agrupa principalmente a los clientes con **bajo ingreso y bajo gasto**. Se observa una concentración clara en la parte inferior izquierda del gráfico.
- El **grupo 0** (color azul) contiene clientes con **mayor ingreso** y una **mayor capacidad de gasto**, distribuidos de forma más dispersa a lo largo del plano.

Esta segmentación sugiere que el algoritmo logró separar aceptablemnte a los clientes según su perfil económico.


In [None]:
#Ej: cual es el nivel de aceptación de las promociones
df['Total_promos']=df['AcceptedCmp1']+df['AcceptedCmp2']+df['AcceptedCmp3']+df['AcceptedCmp4']+df['AcceptedCmp5']

plt.figure(figsize=(12,6))
sns.countplot(df, x = 'Total_promos', hue='Cluster', palette={0: 'darkcyan', 1: 'purple'})
plt.xlabel("Number of total accepted promotions")
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

Personal = ['Kidhome', 'Teenhome', 'Age_on_2014', 'Children',
            'Family_size', 'Is_parent', 'Education', 'Living_with']

# Crear figura
fig, axs = plt.subplots(2, 4, figsize=(20, 8))
axs = axs.flatten()

# Graficar cada par variable vs Spent
for idx, var in enumerate(Personal):
    ax = axs[idx]
    sns.kdeplot(
        data=df,
        x=var,
        y='Spent',
        hue='Cluster',
        fill=True,
        common_norm=False,
        alpha=0.6,
        palette={0: 'darkcyan', 1: 'purple'},
        ax=ax
    )
    ax.set_title(f'{var} vs Spent')

plt.tight_layout()
plt.show()

### <font color="LightPink"><b>Relación entre variables demográficas y nivel de gasto</b></font>

El análisis conjunto entre las variables demográficas y el nivel de gasto (`Spent`) revela diferencias consistentes entre los clusters:

- El **cluster 0** (color verde) presenta una mayor concentración de gasto a lo largo de todas las variables, lo cual sugiere un perfil de consumidores con **mayor capacidad adquisitiva**.
- El **cluster 1** (color violeta) muestra una distribución más restringida en los niveles de gasto, asociada generalmente a valores más bajos en variables como `Income`, `Age_on_2014` y `Family_size`.

<br>

Observaciones:

- **Edad**: el cluster 0 agrupa personas mayores con mayor gasto; el cluster 1 incluye más jóvenes con menor gasto.
- **Tamaño del hogar (`Family_size`, `Children`, `Kidhome`, `Teenhome`)**: El cluster 1 parece vinculado a hogares con más hijos, pero con menos gasto, lo que podría reflejar restricciones presupuestales.

- **Condición parental (`Is_parent`)**: Las personas con hijos tienden a tener menor gasto en el cluster 1, mientras que en el cluster 0 se observa mayor gasto incluso en padres.

- **Nivel educativo (`Education`)** y **estado civil/convivencia (`Living_with`)**: No hay diferencias extremas, pero el cluster 0 tiende a mostrar mayor dispersión en los niveles de gasto.


En resumen, el perfil del cluster 0 refleja mayor capacidad de gasto y menor carga familiar.
