### **Introducción del Proyecto de Machine Learning**

**Tema del Proyecto:**  
El proyecto busca resolver un problema crucial en marketing digital: identificar qué usuarios tienen mayor probabilidad de conversión en campañas publicitarias. Utilizaremos un enfoque de Machine Learning para analizar un dataset que incluye 8000 registros y 20 variables relacionadas con clientes, campañas y comportamiento digital. Este modelo ayudará a optimizar decisiones estratégicas y mejorar el retorno de inversión.

---

**Dataset:**  
[Predict Conversion in Digital Marketing](https://www.kaggle.com/datasets/rabieelkharoua/predict-conversion-in-digital-marketing-dataset/data)  
- **Registros:** 8000 (sin valores nulos).  
- **Columnas:** 20.  

---

**Variables principales:** 

#### **Demográficas:**  
- `Age`: Edad del cliente, una variable numérica que puede influir en los patrones de compra y conversión.  
- `Gender`: Género del cliente (`Male`, `Female`), relevante para segmentación de campañas.  
- `Income`: Ingresos anuales del cliente, en moneda local, indicando su capacidad adquisitiva y preferencia por ciertos productos o servicios.  

#### **Campañas publicitarias:**  
- `CampaignChannel`: Canal de distribución de la campaña (`Social Media`, `Email`, `PPC`, `Referral`, `SEO`), proporcionando información sobre dónde se alcanzaron los clientes.  
- `CampaignType`: Tipo de campaña (`Awareness`, `Retention`, `Conversion`, `Consideration`), reflejando el propósito estratégico de la acción publicitaria.  
- `AdSpend`: Cantidad de dinero gastada en publicidad para cada cliente o segmento (valor continuo).  

#### **Interacciones digitales:**  
- `ClickThroughRate`: Porcentaje de clics que los clientes realizaron sobre los anuncios mostrados, un indicador de interés.  
- `ConversionRate`: Porcentaje de usuarios que completaron una acción específica tras interactuar con los anuncios.  
- `WebsiteVisits`: Número de visitas al sitio web, representando el nivel de interés generado.  
- `PagesPerVisit`: Número promedio de páginas vistas por visita al sitio, reflejando el grado de compromiso del usuario.  
- `TimeOnSite`: Tiempo promedio (en minutos) que los usuarios permanecieron en el sitio web, un indicador del interés y la exploración de contenido.  
- `SocialShares`: Cantidad de veces que los usuarios compartieron contenido de la campaña en redes sociales, indicando viralidad e impacto orgánico.  
- `EmailOpens`: Número de correos electrónicos abiertos por los usuarios, mostrando efectividad de las campañas de email marketing.  
- `EmailClicks`: Número de clics realizados dentro de correos electrónicos, reflejando el nivel de interés en los enlaces promocionados.  

#### **Historial del cliente:**  
- `PreviousPurchases`: Número de compras anteriores realizadas por el cliente, útil para identificar patrones de lealtad.  
- `LoyaltyPoints`: Puntos acumulados en programas de fidelización, un reflejo del compromiso del cliente con la marca.  

#### **Plataformas y herramientas:**  
- `AdvertisingPlatform`: Valor único en todo el dataset (`IsConfid`), descartado por falta de variabilidad.  
- `AdvertisingTool`: Valor único en todo el dataset (`ToolConfid`), descartado por falta de información relevante.  

#### **Target:**  
- **`Conversion`:** Variable objetivo binaria:  
  - `1`: El cliente realizó la conversión.  
  - `0`: El cliente no realizó la conversión.  

---

**Datos clave del dataset:**  
- **ConversionRate promedio:** Aproximadamente el 10%, lo que destaca la necesidad de segmentar audiencias y optimizar campañas para mejorar esta métrica.  

---

**Objetivo:**  
Desarrollar un modelo de clasificación binaria para predecir la probabilidad de conversión de cada cliente. Este modelo permitirá optimizar recursos publicitarios y diseñar estrategias más efectivas, priorizando canales y audiencias de mayor impacto.

---

**Metodología:**  
1. **Exploración inicial de datos (EDA):**  
   - Limpieza de valores irrelevantes (`AdvertisingPlatform`, `AdvertisingTool`).  
   - Identificación de tendencias clave en las tasas de conversión y comportamientos digitales.  

2. **Prueba de Modelos:**  
   - Algoritmos como Random Forest, XGBoost y regresión logística serán evaluados.  
   - Métricas clave: ROC-AUC, F1-Score y precisión.  

3. **Optimización:**  
   - Feature engineering para transformar y generar variables adicionales.  
   - Selección del modelo final con el mejor balance entre precisión y sensibilidad.  

---

**Impacto esperado:**  
- **Ahorro en costos:** Priorizar clientes con mayor probabilidad de conversión reducirá el gasto en campañas ineficientes.  
- **Mejora del ROI:** Identificar los canales y campañas más efectivos permitirá maximizar la rentabilidad de las inversiones.  
- **Toma de decisiones basada en datos:** El modelo guiará estrategias comerciales y publicitarias más informadas.

---

**Siguientes pasos:**  
- Completar el análisis exploratorio y visualización de datos.  
- Entrenar y evaluar modelos para seleccionar el más robusto.  
- Presentar resultados y recomendaciones en términos de impacto comercial y viabilidad técnica.  


In [7]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('whitegrid')
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error, mean_squared_error
import re
from sklearn import metrics

In [8]:
# Cargar los datos
df = pd.read_csv('data/digital_marketing_campaign_dataset.csv')

In [12]:
df.head()

Unnamed: 0,CustomerID,Age,Gender,Income,CampaignChannel,CampaignType,AdSpend,ClickThroughRate,ConversionRate,WebsiteVisits,PagesPerVisit,TimeOnSite,SocialShares,EmailOpens,EmailClicks,PreviousPurchases,LoyaltyPoints,AdvertisingPlatform,AdvertisingTool,Conversion
0,8000,56,Female,136912,Social Media,Awareness,6497.870068,0.043919,0.088031,0,2.399017,7.396803,19,6,9,4,688,IsConfid,ToolConfid,1
1,8001,69,Male,41760,Email,Retention,3898.668606,0.155725,0.182725,42,2.917138,5.352549,5,2,7,2,3459,IsConfid,ToolConfid,1
2,8002,46,Female,88456,PPC,Awareness,1546.429596,0.27749,0.076423,2,8.223619,13.794901,0,11,2,8,2337,IsConfid,ToolConfid,1
3,8003,32,Female,44085,PPC,Conversion,539.525936,0.137611,0.088004,47,4.540939,14.688363,89,2,2,0,2463,IsConfid,ToolConfid,1
4,8004,60,Female,83964,PPC,Conversion,1678.043573,0.252851,0.10994,0,2.046847,13.99337,6,6,6,8,4345,IsConfid,ToolConfid,1


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   CustomerID           8000 non-null   int64  
 1   Age                  8000 non-null   int64  
 2   Gender               8000 non-null   object 
 3   Income               8000 non-null   int64  
 4   CampaignChannel      8000 non-null   object 
 5   CampaignType         8000 non-null   object 
 6   AdSpend              8000 non-null   float64
 7   ClickThroughRate     8000 non-null   float64
 8   ConversionRate       8000 non-null   float64
 9   WebsiteVisits        8000 non-null   int64  
 10  PagesPerVisit        8000 non-null   float64
 11  TimeOnSite           8000 non-null   float64
 12  SocialShares         8000 non-null   int64  
 13  EmailOpens           8000 non-null   int64  
 14  EmailClicks          8000 non-null   int64  
 15  PreviousPurchases    8000 non-null   i

In [11]:
df.describe()

Unnamed: 0,CustomerID,Age,Income,AdSpend,ClickThroughRate,ConversionRate,WebsiteVisits,PagesPerVisit,TimeOnSite,SocialShares,EmailOpens,EmailClicks,PreviousPurchases,LoyaltyPoints,Conversion
count,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0,8000.0
mean,11999.5,43.6255,84664.19675,5000.94483,0.154829,0.104389,24.751625,5.549299,7.727718,49.79975,9.476875,4.467375,4.4855,2490.2685,0.8765
std,2309.54541,14.902785,37580.387945,2838.038153,0.084007,0.054878,14.312269,2.607358,4.228218,28.901165,5.711111,2.856564,2.888093,1429.527162,0.329031
min,8000.0,18.0,20014.0,100.054813,0.010005,0.010018,0.0,1.000428,0.501669,0.0,0.0,0.0,0.0,0.0,0.0
25%,9999.75,31.0,51744.5,2523.221165,0.082635,0.05641,13.0,3.302479,4.06834,25.0,5.0,2.0,2.0,1254.75,1.0
50%,11999.5,43.0,84926.5,5013.440044,0.154505,0.104046,25.0,5.534257,7.682956,50.0,9.0,4.0,4.0,2497.0,1.0
75%,13999.25,56.0,116815.75,7407.989369,0.228207,0.152077,37.0,7.835756,11.481468,75.0,14.0,7.0,7.0,3702.25,1.0
max,15999.0,69.0,149986.0,9997.914781,0.299968,0.199995,49.0,9.999055,14.995311,99.0,19.0,9.0,9.0,4999.0,1.0


In [13]:
# Iterar por cada columna y obtener los valores únicos
unique_values = {col: df[col].unique() for col in df.columns}

# Mostrar los valores únicos de cada columna
for column, values in unique_values.items():
    print(f"Columna: {column}")
    print(f"Valores únicos: {values}")
    print("-" * 50)

Columna: CustomerID
Valores únicos: [ 8000  8001  8002 ... 15997 15998 15999]
--------------------------------------------------
Columna: Age
Valores únicos: [56 69 46 32 60 25 38 36 40 28 41 53 57 20 39 19 61 47 55 50 29 42 66 44
 59 45 33 64 68 54 24 26 35 21 31 67 43 37 52 34 23 51 27 48 65 62 58 18
 22 30 49 63]
--------------------------------------------------
Columna: Gender
Valores únicos: ['Female' 'Male']
--------------------------------------------------
Columna: Income
Valores únicos: [136912  41760  88456 ...  24849 125471 107862]
--------------------------------------------------
Columna: CampaignChannel
Valores únicos: ['Social Media' 'Email' 'PPC' 'Referral' 'SEO']
--------------------------------------------------
Columna: CampaignType
Valores únicos: ['Awareness' 'Retention' 'Conversion' 'Consideration']
--------------------------------------------------
Columna: AdSpend
Valores únicos: [6497.87006842 3898.66860568 1546.4295958  ... 4609.53463542 9476.10635405
 7743.6