# Tarea 3: Predicción de Propensión de Compra


## Descripción
En esta tarea, los estudiantes construirán un modelo de predicción de la propensión de compra de clientes basado en un conjunto de datos realista. Este proyecto permite aplicar conceptos clave de análisis de datos y aprendizaje automático, con un enfoque en la generación de insights accionables para estrategias de marketing.

## Objetivos
1. Aplicar técnicas de preprocesamiento y exploración de datos para comprender patrones en el comportamiento del cliente.
2. Construir y evaluar un modelo de clasificación para predecir la probabilidad de compra de un cliente.
3. Interpretar los resultados del modelo para proponer estrategias de marketing basadas en datos.
4. Generar un reporte técnico y visual que respalde las recomendaciones de marketing.


### Introducción
El objetivo de este proyecto es construir un modelo que prediga la probabilidad de compra de un cliente utilizando técnicas de aprendizaje automático y marketing basado en datos. Este notebook incluye todas las etapas necesarias, desde la carga y exploración de los datos hasta el análisis y recomendaciones finales.

Fuente del conjunto de datos: [Customer Purchases Behaviour Dataset](https://www.kaggle.com/datasets/sanyamgoyal401/customer-purchases-behaviour-dataset)


## Pasos
1. **Carga y exploración de datos:** Analizar el conjunto de datos proporcionado para identificar tendencias y patrones.
2. **Preprocesamiento:** Manejar datos nulos, seleccionar características relevantes y normalizar los datos para el modelo.
3. **Entrenamiento y evaluación del modelo:** Entrenar un modelo de regresión logística para predecir la propensión de compra y evaluar su desempeño.
4. **Análisis de resultados:** Identificar las características más relevantes para la decisión de compra.
5. **Recomendaciones:** Proponer estrategias basadas en los resultados del modelo.

In [None]:

# Importación de librerías necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, roc_auc_score, roc_curve
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración inicial
plt.style.use('default')
sns.set_theme()


### 1. Carga y Exploración de los Datos

In [None]:

# Cargar datos (asegúrate de colocar el archivo en el mismo directorio)
data = pd.read_csv("customer_purchases.csv")  # Cambia a la ruta de tu archivo descargado

# Mostrar primeras filas
print(data.head())

# Información general del dataset
print(data.info())

# Verificar valores nulos
print(data.isnull().sum())

# Estadísticas descriptivas
print(data.describe())


### 2. Preprocesamiento de Datos

In [None]:

# Selección de características relevantes
X = data[['Age', 'Annual Income', 'Website Visits', 'Ad Clicks', 'Campaign Responses']]
y = data['Purchase']  # Variable objetivo (1: compra, 0: no compra)

# División en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Escalamiento de las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


### 3. Entrenamiento del Modelo

In [None]:

# Entrenamiento del modelo de Regresión Logística
logistic_model = LogisticRegression()
logistic_model.fit(X_train_scaled, y_train)

# Predicciones
y_pred = logistic_model.predict(X_test_scaled)
y_proba = logistic_model.predict_proba(X_test_scaled)[:, 1]


### 4. Evaluación del Modelo

In [None]:

# Reporte de Clasificación
print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred))

# AUC y Curva ROC
roc_auc = roc_auc_score(y_test, y_proba)
print(f"AUC: {roc_auc:.2f}")

# Gráfica de Curva ROC
fpr, tpr, thresholds = roc_curve(y_test, y_proba)
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'ROC curve (AUC = {roc_auc:.2f})')
plt.plot([0, 1], [0, 1], 'k--', label='Random')
plt.xlabel('Tasa de Falsos Positivos')
plt.ylabel('Tasa de Verdaderos Positivos')
plt.title('Curva ROC')
plt.legend(loc='best')
plt.show()


### 5. Análisis de Importancia de Variables

In [None]:

# Importancia de las características
coef = pd.Series(logistic_model.coef_[0], index=X.columns)
coef = coef.sort_values(ascending=False)

# Gráfico de barras de importancia
plt.figure(figsize=(8, 6))
coef.plot(kind='bar', title='Importancia de Características')
plt.ylabel('Peso del Coeficiente')
plt.show()


### 6. Recomendaciones


1. **Segmentación de Clientes:** Utiliza los resultados del modelo para identificar clientes con alta probabilidad de compra y personalizar campañas de marketing.
2. **Optimización de Recursos:** Enfoca esfuerzos publicitarios en clientes con mayor propensión a realizar una compra.
3. **Retención de Clientes:** Desarrolla estrategias para retener a clientes indecisos basándote en las variables clave del modelo.
4. **Evaluación Continua:** Monitorea el desempeño del modelo regularmente para ajustar estrategias y mejorar precisión.


## Preguntas
1. ¿Cuáles son las características principales que afectan la probabilidad de compra de un cliente?
2. ¿Cómo se puede mejorar la precisión del modelo de predicción?
3. ¿Qué insights se pueden extraer del análisis para mejorar las estrategias de marketing?
4. ¿Qué métricas de evaluación indican que el modelo es confiable para la toma de decisiones?
5. ¿Cómo podrían segmentarse los clientes en función de la probabilidad de compra?

## Requerimientos Entregables
1. Un reporte en formato PDF que contenga:
   - Introducción y descripción del problema.
   - Análisis de los datos (incluyendo gráficos y tablas relevantes).
   - Resultados del modelo de clasificación y su evaluación (AUC, precisión, etc.).
   - Conclusiones y recomendaciones.
2. Código fuente en Python en formato Jupyter Notebook (.ipynb).
3. Gráficos relevantes (como curvas ROC, importancia de características) exportados en alta calidad.