# Caso Práctico: Segmentación de Clientes

Este notebook se basa en la lectura sobre segmentación de datos y clientes. En la lectura se explican conceptos teóricos como la segmentación demográfica, psicográfica y conductual, además de presentar métodos de agrupación (clustering) y clasificación para abordar problemas reales en marketing.

En este ejemplo, se utilizará el algoritmo **K-Means** para segmentar clientes simulados en tres grupos diferenciados. Cada grupo se ha definido en función de variables como la **edad**, los **ingresos** y la **frecuencia de compra**, lo que permite relacionar la teoría con un caso práctico de aplicación.

## Desarrollo de la Lectura y Formulaciones Teóricas

La lectura aborda diferentes métodos de segmentación, destacando dos enfoques principales:

- **Métodos de Agrupación (Clustering):** Se utilizan cuando no se tienen etiquetas predefinidas. Por ejemplo, el **K-Means** agrupa datos en función de la proximidad a centroides.
- **Métodos de Clasificación:** Se usan cuando se cuenta con datos etiquetados y se desea predecir la clase o grupo al que pertenece un nuevo dato.

En este notebook se desarrollará la parte de clustering, simulando datos representativos de tres segmentos de clientes:

1. **Cluster 1:** Jóvenes con ingresos bajos y alta frecuencia de compra.
2. **Cluster 2:** Adultos con ingresos medios y frecuencia de compra moderada.
3. **Cluster 3:** Personas mayores con ingresos altos y baja frecuencia de compra.

A continuación se muestran las formulaciones y el desarrollo práctico de cada etapa.

In [None]:
# Importación de librerías necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import seaborn as sns

# Configuración de estilo para gráficos
sns.set(style="whitegrid")

# Fijar semilla para reproducibilidad
np.random.seed(42)

### Explicación de la Importación y Configuración

En esta sección se importan las librerías fundamentales para el análisis:

- **NumPy y Pandas:** Para la manipulación de datos y generación de arrays y DataFrames.
- **Matplotlib y Seaborn:** Para la visualización gráfica de los resultados.
- **KMeans de Scikit-Learn:** Para aplicar el algoritmo de clustering.

Además, se configura el estilo de los gráficos y se fija una semilla aleatoria para asegurar que los resultados sean reproducibles.

In [None]:
# Definir el número de muestras para cada grupo
n_samples = 150

# Simulación de datos para tres segmentos de clientes

# Cluster 1: Jóvenes con ingresos bajos y alta frecuencia de compra
edad1 = np.random.normal(loc=25, scale=3, size=n_samples)         # Edad alrededor de 25 años
ingresos1 = np.random.normal(loc=30000, scale=5000, size=n_samples) # Ingresos promedio de 30,000
frecuencia1 = np.random.normal(loc=15, scale=3, size=n_samples)     # Alta frecuencia de compra

# Cluster 2: Adultos con ingresos medios y frecuencia moderada
edad2 = np.random.normal(loc=40, scale=4, size=n_samples)         # Edad alrededor de 40 años
ingresos2 = np.random.normal(loc=60000, scale=8000, size=n_samples) # Ingresos promedio de 60,000
frecuencia2 = np.random.normal(loc=10, scale=2, size=n_samples)     # Frecuencia moderada de compra

# Cluster 3: Personas mayores con ingresos altos y baja frecuencia de compra
edad3 = np.random.normal(loc=55, scale=5, size=n_samples)         # Edad alrededor de 55 años
ingresos3 = np.random.normal(loc=90000, scale=10000, size=n_samples) # Ingresos promedio de 90,000
frecuencia3 = np.random.normal(loc=5, scale=1, size=n_samples)      # Baja frecuencia de compra

# Concatenar los datos de cada cluster en vectores únicos
edad = np.concatenate([edad1, edad2, edad3])
ingresos = np.concatenate([ingresos1, ingresos2, ingresos3])
frecuencia = np.concatenate([frecuencia1, frecuencia2, frecuencia3])

# Crear un DataFrame para organizar los datos
df = pd.DataFrame({
    'Edad': edad,
    'Ingresos': ingresos,
    'FrecuenciaCompra': frecuencia
})

df.head()

### Explicación de la Generación de Datos Sintéticos

Se crean tres grupos de datos utilizando la distribución normal (gaussiana) para simular:

- **Edad:** Promedio y dispersión (desviación estándar) diferentes para cada grupo.
- **Ingresos:** Variables numéricas que representan diferentes niveles de ingresos.
- **Frecuencia de Compra:** Número que simula cuántas veces un cliente compra en un período dado.

Cada conjunto de datos se genera con parámetros distintos (loc y scale) para reflejar las características específicas de cada segmento (jóvenes, adultos y personas mayores). Luego se concatenan los vectores para formar un único DataFrame que contendrá todos los datos.

In [None]:
# Aplicar el algoritmo K-Means para segmentar los clientes
kmeans = KMeans(n_clusters=3, random_state=42)
df['Cluster'] = kmeans.fit_predict(df[['Edad', 'Ingresos', 'FrecuenciaCompra']])

df.head()

### Explicación del Algoritmo K-Means

El algoritmo **K-Means** es uno de los métodos de agrupación más utilizados. Su funcionamiento se puede resumir en los siguientes pasos:

1. **Inicialización:** Se eligen aleatoriamente tres centroides (uno para cada cluster).
2. **Asignación:** Cada punto del DataFrame se asigna al cluster cuyo centroide esté más cercano (medido por la distancia euclidiana).
3. **Actualización:** Se recalculan los centroides de cada cluster como el promedio de los puntos asignados.
4. **Iteración:** Se repiten los pasos de asignación y actualización hasta que los centroides se estabilizan o se alcanza un número máximo de iteraciones.

El resultado es una nueva columna en el DataFrame que indica a qué cluster pertenece cada registro, permitiendo posteriormente diseñar estrategias específicas para cada grupo.

In [None]:
# Visualización de la segmentación utilizando un pairplot de Seaborn
sns.pairplot(df, hue='Cluster', vars=['Edad', 'Ingresos', 'FrecuenciaCompra'], palette='viridis')
plt.suptitle("Segmentación de Clientes utilizando K-Means", y=1.02)
plt.show()

### Explicación de la Visualización

La visualización se realiza mediante un **pairplot** de Seaborn, que muestra gráficos de dispersión entre cada par de variables (Edad, Ingresos y Frecuencia de Compra) y la distribución de cada variable. La opción `hue='Cluster'` colorea los datos según el grupo asignado por el algoritmo K-Means, lo que facilita la interpretación visual de los segmentos formados.

Este gráfico permite identificar de manera intuitiva las diferencias entre los grupos y verificar la efectividad de la segmentación.

## Conclusiones

En este caso práctico se ha demostrado cómo aplicar técnicas de segmentación de clientes basadas en conceptos teóricos abordados en la lectura. A continuación se resumen los puntos clave:

- **Generación de Datos Sintéticos:** Se simularon tres segmentos de clientes utilizando distribuciones normales para variables relevantes (edad, ingresos y frecuencia de compra).
- **Aplicación de K-Means:** Se empleó el algoritmo K-Means para agrupar los datos sin etiquetas predefinidas, asignando cada cliente a un cluster basado en sus características.
- **Visualización e Interpretación:** El uso de gráficos permite observar la separación entre los grupos y evaluar la pertinencia de la segmentación para diseñar estrategias de marketing personalizadas.

La segmentación de clientes es una herramienta esencial para optimizar recursos y adaptar campañas, facilitando la toma de decisiones en función de las características y comportamientos de cada grupo.