# **Predicción de Conversión de Leads Usando Machine Learning**
### **Introducción**

En la era digital, las empresas enfrentan el desafío constante de identificar y priorizar a los clientes con mayor probabilidad de conversión. El análisis de datos masivos y la automatización de procesos han permitido abordar este desafío mediante modelos avanzados de Machine Learning.

En este proyecto, exploramos la predicción de conversión de leads, una tarea fundamental en estrategias de marketing digital. Utilizando técnicas como **Random Forest** y **XGBoost**, diseñaremos un modelo capaz de clasificar leads con base en características relevantes, optimizando así las decisiones estratégicas.

### **Objetivos del Proyecto**
- Desarrollar un modelo de Machine Learning que prediga la probabilidad de conversión de un lead.
- Implementar un flujo de trabajo de datos realista, incluyendo procesos **ETL** y el uso de herramientas como **Google BigQuery** para la gestión y transformación de datos.
- Comparar el rendimiento de modelos clásicos como Random Forest con algoritmos avanzados como XGBoost.
- Crear una solución aplicable al entorno empresarial, capaz de ser integrada en procesos automatizados.

### **Flujo de Trabajo**
1. **Preparación del Dataset**: Limpieza, análisis exploratorio y transformación de los datos.
2. **Entrenamiento de Modelos**: Construcción de modelos de clasificación y ajuste de hiperparámetros.
3. **Evaluación de Resultados**: Uso de métricas como precisión, F1-Score y AUC-ROC para comparar modelos.
4. **Visualización e Implementación**: Creación de dashboards interactivos y automatización del pipeline.

Este notebook no solo busca resolver un problema técnico, sino también ofrecer un marco replicable y aplicable en el ámbito real, donde los insights generados por el modelo pueden traducirse en acciones empresariales efectivas.


In [2]:
#Importar librerias
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor

In [13]:
#Importar el csv

df = pd.read_csv("/Users/DYLAN/Desktop/TFG2425/Leads.csv",sep=",")
# Mostrar todas las columnas y las primeras filas para inspección
print("Número de columnas:", df.shape[1])
df.head()

Número de columnas: 37


Unnamed: 0,Prospect ID,Lead Number,Lead Origin,Lead Source,Do Not Email,Do Not Call,Converted,TotalVisits,Total Time Spent on Website,Page Views Per Visit,Last Activity,Country,Specialization,How did you hear about X Education,What is your current occupation,What matters most to you in choosing a course,Search,Magazine,Newspaper Article,X Education Forums,Newspaper,Digital Advertisement,Through Recommendations,Receive More Updates About Our Courses,Tags,Lead Quality,Update me on Supply Chain Content,Get updates on DM Content,Lead Profile,City,Asymmetrique Activity Index,Asymmetrique Profile Index,Asymmetrique Activity Score,Asymmetrique Profile Score,I agree to pay the amount through cheque,A free copy of Mastering The Interview,Last Notable Activity
0,7927b2df-8bba-4d29-b9a2-b6e0beafe620,660737,API,Olark Chat,No,No,0,0.0,0,0.0,Page Visited on Website,,Select,Select,Unemployed,Better Career Prospects,No,No,No,No,No,No,No,No,Interested in other courses,Low in Relevance,No,No,Select,Select,02.Medium,02.Medium,15.0,15.0,No,No,Modified
1,2a272436-5132-4136-86fa-dcc88c88f482,660728,API,Organic Search,No,No,0,5.0,674,2.5,Email Opened,India,Select,Select,Unemployed,Better Career Prospects,No,No,No,No,No,No,No,No,Ringing,,No,No,Select,Select,02.Medium,02.Medium,15.0,15.0,No,No,Email Opened
2,8cc8c611-a219-4f35-ad23-fdfd2656bd8a,660727,Landing Page Submission,Direct Traffic,No,No,1,2.0,1532,2.0,Email Opened,India,Business Administration,Select,Student,Better Career Prospects,No,No,No,No,No,No,No,No,Will revert after reading the email,Might be,No,No,Potential Lead,Mumbai,02.Medium,01.High,14.0,20.0,No,Yes,Email Opened
3,0cc2df48-7cf4-4e39-9de9-19797f9b38cc,660719,Landing Page Submission,Direct Traffic,No,No,0,1.0,305,1.0,Unreachable,India,Media and Advertising,Word Of Mouth,Unemployed,Better Career Prospects,No,No,No,No,No,No,No,No,Ringing,Not Sure,No,No,Select,Mumbai,02.Medium,01.High,13.0,17.0,No,No,Modified
4,3256f628-e534-4826-9d63-4a8b88782852,660681,Landing Page Submission,Google,No,No,1,2.0,1428,1.0,Converted to Lead,India,Select,Other,Unemployed,Better Career Prospects,No,No,No,No,No,No,No,No,Will revert after reading the email,Might be,No,No,Select,Mumbai,02.Medium,01.High,15.0,18.0,No,No,Modified


In [11]:
df.columns

Index(['Prospect ID', 'Lead Number', 'Lead Origin', 'Lead Source',
       'Do Not Email', 'Do Not Call', 'Converted', 'TotalVisits',
       'Total Time Spent on Website', 'Page Views Per Visit', 'Last Activity',
       'Country', 'Specialization', 'How did you hear about X Education',
       'What is your current occupation',
       'What matters most to you in choosing a course', 'Search', 'Magazine',
       'Newspaper Article', 'X Education Forums', 'Newspaper',
       'Digital Advertisement', 'Through Recommendations',
       'Receive More Updates About Our Courses', 'Tags', 'Lead Quality',
       'Update me on Supply Chain Content', 'Get updates on DM Content',
       'Lead Profile', 'City', 'Asymmetrique Activity Index',
       'Asymmetrique Profile Index', 'Asymmetrique Activity Score',
       'Asymmetrique Profile Score',
       'I agree to pay the amount through cheque',
       'A free copy of Mastering The Interview', 'Last Notable Activity'],
      dtype='object')

In [2]:
from google.cloud import bigquery
import os
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "/Users/DYLAN/Desktop/TFG2425/future-loader-433707-h4-60597431aaba.json"

# Configurar el cliente
client = bigquery.Client()

# Listar datasets en tu proyecto
datasets = list(client.list_datasets())
if datasets:
    print("Datasets disponibles:")
    for dataset in datasets:
        print(f"- {dataset.dataset_id}")
else:
    print("No hay datasets disponibles en este proyecto.")


Datasets disponibles:
- leads
