# Segmentación de Clientes para Estrategias de Marketing Personalizadas con K-Means


## 1. Introducción  
En un entorno cada vez más competitivo, entender a los clientes es clave para crear campañas de marketing efectivas. Este proyecto utiliza técnicas de Ciencia de Datos para segmentar a los clientes de una empresa utilizando datos de comportamiento de compra y características demográficas.

La segmentación permite identificar patrones comunes en grupos de clientes con el fin de desarrollar estrategias más efectivas de retención, fidelización y ventas cruzadas.



## 2. Objetivo del Proyecto  
- Aplicar técnicas de clustering (K-Means) para segmentar a los clientes con base en variables como ingreso, gasto, frecuencia de compra y recencia.  
- Visualizar y analizar los perfiles de cada grupo para sugerir estrategias de marketing específicas.



## 3. Hipótesis  
“Los clientes pueden agruparse en distintos segmentos con características claras que permitan aplicar estrategias de marketing diferenciadas.”



## 4. Dataset Utilizado  
**Nombre:** `ifood_df.csv`  
**Fuente:** Kaggle – *Marketing Analytics Dataset*

### Variables clave:
- `Income`: Ingreso mensual  
- `Recency`: Días desde la última compra  
- `MntTotal`: Gasto total  
- `NumWebPurchases`, `NumCatalogPurchases`, `NumStorePurchases`: Canales de compra


## Importar bibliotecas

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA


## Cargar datos

In [None]:

df = pd.read_csv('ifood_df.csv')
df.head()


## Revisión general

In [None]:

df.info()
df.describe()
df.isnull().sum()



## 5. Preprocesamiento  
No se encontraron valores nulos.  
Se seleccionaron variables numéricas relevantes para la segmentación: `Income`, `Recency`, `MntTotal`, `NumWebPurchases`, `NumCatalogPurchases`, `NumStorePurchases`.  
Se aplicó escalado estándar para homogeneizar las magnitudes.


In [None]:

cols_to_use = ['Income', 'Recency', 'MntTotal', 'NumWebPurchases', 'NumCatalogPurchases', 'NumStorePurchases']
X = df[cols_to_use]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


## 6. Técnica Utilizada

In [None]:

kmeans = KMeans(n_clusters=4, random_state=42)
df['cluster'] = kmeans.fit_predict(X_scaled)


## 7. Resultados y Hallazgos

In [None]:

sns.boxplot(x='cluster', y='MntTotal', data=df)
plt.title('Distribución de Gasto Total por Cluster')
plt.show()


In [None]:

pca = PCA(n_components=2)
components = pca.fit_transform(X_scaled)
df['PCA1'] = components[:, 0]
df['PCA2'] = components[:, 1]
sns.scatterplot(data=df, x='PCA1', y='PCA2', hue='cluster', palette='tab10')
plt.title('Clusters visualizados con PCA')
plt.show()


In [None]:

df.groupby('cluster')[['Income', 'MntTotal', 'Recency', 'NumWebPurchases']].mean()


In [None]:

def segment_description(row):
    if row['cluster'] == 0:
        return 'Alto ingreso, alto gasto'
    elif row['cluster'] == 1:
        return 'Bajo ingreso, bajo gasto'
    elif row['cluster'] == 2:
        return 'Ingreso medio, gasto medio'
    else:
        return 'Clientes recientes, bajo gasto'

df['Segment'] = df.apply(segment_description, axis=1)


In [None]:

sns.heatmap(df.groupby('cluster')[['Income', 'MntTotal', 'Recency']].mean(), annot=True, cmap='coolwarm')
plt.title('Heatmap por Cluster')
plt.show()



## 8. Conclusiones Generales  
- La segmentación reveló 4 grupos bien diferenciados con comportamientos de compra y niveles de ingreso distintos.  
- El Cluster 0 representa a los clientes más rentables, ideales para programas de fidelización.  
- El Cluster 3, aunque gasta poco, representa clientes recientes con potencial de crecimiento si se trabajan campañas de retención.



## 9. Recomendaciones  
- Dirigir campañas exclusivas al cluster 0 con beneficios premium.  
- Activar campañas de reactivación para los clientes del cluster 1 y 3.  
- Monitorear periódicamente los segmentos para detectar cambios de comportamiento.
