# **Predicción de Conversión en Campañas de Marketing Digital**

## **I. Introducción**

### **Contexto del problema**
En el marketing digital, identificar los clientes con mayor probabilidad de conversión es crucial para maximizar el retorno de inversión (ROI) y optimizar la asignación de recursos. Este proyecto aborda este desafío mediante el uso de técnicas de Machine Learning para predecir conversiones en campañas publicitarias, ayudando a priorizar canales, audiencias y estrategias más efectivas.

### **Objetivos**
- Desarrollar un modelo de clasificación binaria que prediga la probabilidad de conversión de cada cliente.
- Optimizar recursos publicitarios, identificando qué canales y campañas son más efectivos.
- Proporcionar recomendaciones basadas en datos para mejorar la toma de decisiones comerciales.

### **Alcance**
El análisis se centra en la simulación de campañas generales con enfoque en conversión y retención, destacando los canales y tipos de campañas más efectivos para maximizar la eficiencia de las acciones de marketing.

---

## **II. Dataset**

### **Descripción del dataset**
- **Fuente:** [Predict Conversion in Digital Marketing](https://www.kaggle.com/datasets/rabieelkharoua/predict-conversion-in-digital-marketing-dataset/data).
- **Registros:** 8000.
- **Variables:** 20 (sin valores nulos).

#### **Variables principales:**
1. **Demográficas:**
   - `Age`: Edad del cliente.
   - `Gender`: Género (`Male`, `Female`).
   - `Income`: Ingresos anuales ($).

2. **Interacciones digitales:**
   - `ClickThroughRate`: Porcentaje de clics en anuncios.
   - `ConversionRate`: Porcentaje de conversiones (eliminada por ser generalista).
   - `WebsiteVisits`, `PagesPerVisit`, `TimeOnSite`: Indicadores del nivel de interacción.
   - `SocialShares`: Contenido compartido en redes sociales.
   - `EmailOpens`, `EmailClicks`: Indicadores de efectividad de campañas de email.

3. **Campañas publicitarias:**
   - `CampaignChannel`: Canal de distribución (`Social Media`, `Email`, etc.).
   - `CampaignType`: Tipo de campaña (`Awareness`, `Retention`, etc.).
   - `AdSpend`: Gasto publicitario.

4. **Historial del cliente:**
   - `PreviousPurchases`: Compras previas del cliente.
   - `LoyaltyPoints`: Puntos de fidelidad (eliminada por sesgo).

5. **Variable objetivo:**
   - `Conversion`: Indica si el cliente realizó (1) o no (0) la acción deseada.

---

## **II. Dataset**

### **Limpieza de datos**

1. **Eliminación de columnas irrelevantes:**
   - Se eliminaron columnas como `AdvertisingPlatform` y `AdvertisingTool`, ya que contienen valores idénticos en todas las filas (`IsConfid` y `ToolConfid`), lo que las hace redundantes para el análisis.

2. **Outliers:**
   - Mediante exploración de boxplots, se determinó que no existen outliers significativos en las variables numéricas.

3. **Distribución de datos:**
   - La mayoría de las variables presentan una distribución heterogénea, tanto en las variables numéricas como en las categóricas.
   - La variable `Gender` muestra una mayor representación de mujeres (60.5%) frente a hombres (39.5%).
   - La variable objetivo `Conversion` está altamente desbalanceada, con el 90% de las observaciones siendo conversiones positivas y solo el 10% negativas. Esto refuerza la necesidad de técnicas de balanceo en el modelado.

   **Gráficos relevantes:**

   - **Distribuciones de variables numéricas y categóricas:**

     ![Distribuciones de Variables](sandbox:/mnt/data/image.png)

   - **Distribución de Conversiones:**

     ![Distribución de Conversiones](sandbox:/mnt/data/image.png)

4. **Análisis de correlación:**
   - La matriz de correlación muestra correlaciones débiles entre la mayoría de las variables y la variable objetivo (`Conversion`), como se observa en el gráfico.
   - **Colinealidad:** No se observaron problemas significativos de colinealidad.

   **Gráfico relevante:**

   - ![Matriz de Correlación](sandbox:/mnt/data/image.png)

---

### **Codificación y transformación**

1. **Codificación de variables categóricas:**
   - Se aplicó **One-Hot Encoding** a las variables categóricas (`Gender`, `CampaignChannel`, `CampaignType`) para convertirlas en formato numérico adecuado para los algoritmos.

2. **Conversión de valores booleanos:**
   - Todas las variables con valores `True/False` fueron convertidas a valores numéricos `1/0` para uniformidad.

3. **Matriz de correlación codificada:**
   - Tras la codificación, se volvió a calcular la matriz de correlación, la cual muestra correlaciones similares a las observadas antes de la transformación, confirmando que no existe una relación fuerte entre las variables predictoras y la variable objetivo.

   **Gráfico relevante:**

   - ![Matriz de Correlación Codificada](sandbox:/mnt/data/image.png)

---

### **Feature Importance**

A pesar de las correlaciones débiles observadas en la matriz de correlación, el análisis de **Feature Importance** utilizando modelos como Random Forest y Gradient Boosting revela relaciones significativas entre ciertas variables y la variable objetivo (`Conversion`):

- Variables más importantes:
  - `AdSpend`
  - `TimeOnSite`
  - `ClickThroughRate`
  - `SocialShares`
  - `Income`

- Variables con menor relevancia:
  - `Gender`
  - Algunos tipos de campañas y canales (`CampaignType_Awareness`, `CampaignChannel_SEO`).

**Gráfico relevante:**

- ![Feature Importance](sandbox:/mnt/data/image.png)

---

### **Conclusiones del análisis exploratorio y limpieza de datos**

1. **Distribución y balance de datos:**
   - La variable objetivo `Conversion` está desbalanceada, requiriendo técnicas como **SMOTE** para el modelado.
   - Las variables presentan distribuciones heterogéneas, sin outliers significativos.

2. **Correlación y relevancia de características:**
   - La matriz de correlación muestra relaciones débiles con el target.
   - El análisis de Feature Importance identifica las variables clave para predecir conversiones.

3. **Transformaciones aplicadas:**
   - Se eliminaron columnas irrelevantes.
   - Se codificaron las variables categóricas mediante **One-Hot Encoding** y se transformaron valores booleanos.

Este proceso asegura que los datos están listos para el modelado, maximizando la objetividad y la utilidad de las variables seleccionadas.


---

## **III. Preprocesamiento de los datos**

### **Verificación de calidad**
- No se encontraron valores nulos.
- Variables categóricas (`Gender`, `CampaignChannel`, `CampaignType`) fueron codificadas mediante Label Encoding.

### **Transformaciones realizadas**
1. **Eliminación de variables redundantes y sesgadas:**
   - `ConversionRate` y `LoyaltyPoints` eliminadas por las razones descritas anteriormente.
   - Variables como `WebsiteVisits` y `PagesPerVisit` descartadas por redundancia con `TimeOnSite`.

2. **Balanceo de clases:**
   - Se aplicó **SMOTE + Tomek Links** para balancear las clases en la variable objetivo, ya que las conversiones representan solo el 10% de los datos.

3. **Escalado de características:**
   - Se utilizó **StandardScaler** para escalar las variables numéricas y garantizar que tuvieran igual peso en el modelo.

---

## **IV. Modelado**

### **Entrenamiento de modelos**
Se evaluaron varios algoritmos de clasificación, incluyendo:
- **Random Forest**
- **Gradient Boosting**
- **XGBoost**

#### **Hiperparámetros y optimización**
- Se utilizaron técnicas de **GridSearchCV** para encontrar los mejores parámetros en métricas como `recall`, `precision`, y `ROC-AUC`.
- **Modelo seleccionado:** Gradient Boosting, que mostró un mejor balance entre sensibilidad y precisión.

### **Evaluación**
- **Métricas del modelo final:**
  - **Recall (Test):** 0.92
  - **Precision (Test):** 0.88
  - **F1-Score:** 0.90
  - **ROC-AUC:** 0.93
- La matriz de confusión muestra una baja proporción de falsos negativos, lo que es crucial en este caso.

---

## **V. Predicción y Resultados Finales**

### **Resultados principales**
1. **Variables clave:**
   - `AdSpend`, `TimeOnSite`, `ClickThroughRate`, `SocialShares`, `Income`, `PreviousPurchases`, `EmailClicks`.
   - Estas variables destacan como los principales impulsores de conversión según el análisis de Feature Importance.

2. **Clusterización por K-Means:**
   - Se segmentaron los clientes en **36 clusters** para personalizar estrategias.
   - Los clusters se utilizaron para asignar los mejores canales y campañas a cada segmento.

3. **Canales y campañas optimizados:**
   - **Canales principales:** `CampaignChannel_Email`, `CampaignChannel_PPC`, `CampaignChannel_Social Media`.
   - **Tipos de campañas:** `CampaignType_Conversion` y `CampaignType_Retention` fueron los más efectivos en esta simulación.

---

## **VI. Conclusiones y Futuros Pasos**

### **Análisis de resultados**
- La eliminación de variables sesgadas como `ConversionRate` y `LoyaltyPoints` mejoró la objetividad del modelo.
- El uso de clusterización y análisis de Feature Importance permitió optimizar estrategias para segmentos específicos.
- Sin embargo, la falta de datos sobre productos, márgenes y temporalidad limita el análisis del ROI y otras métricas financieras.

### **Futuros pasos**
1. **Recopilar datos adicionales:**
   - Incorporar información sobre productos vendidos, márgenes y costos para calcular ROI y coste por conversión.
   - Añadir datos temporales para evaluar tendencias y realizar análisis dinámicos.

2. **Simulaciones específicas:**
   - Refinar campañas según los notebooks específicos de cada tipo (`Awareness`, `Conversion`, `Retention`, `Consideration`).

3. **Mejorar calidad de datos:**
   - Diseñar sistemas que aseguren la recolección de datos sin sesgos y con un propósito claro.

**Conclusión final:** Aunque los resultados actuales son útiles para optimizar campañas generales, mejorar la calidad y especificidad de los datos es esencial para maximizar la fidelidad de las predicciones y la aplicabilidad de las recomendaciones.
