#Proyecto Data Science I


##Modelo Lead Scoring
####Alumno: Manuel Sabin

El presente proyecto tiene como objetivo analizar el Lead Scoring (Puntaje de Propectos) de una empresa que ofrece cursos en línea. El dataset proporcionada contiene información sobre los leads (prospectos) generados a través de sitios web, motores de búsqueda y referencias pasadas.
Si bien la empresa obtiene una cantidad significativa de leads diariamente, la tasa de conversión a clientes reales es baja, situancose en alrededor de 30%.
El objetivo de este análisis es identificar los leads que tienen mayor probabilidad de convertirse en clientes, algo que mejoraría la tasa de conversión y por ende las ventas de la empresa.
Para lograr dicho objetivo, se realizará un análisis exploratorio de los datos (EDA) con el fin de detectar patrone y relaciones clave. Se espera que este análisis permita desarrollar un modelo de Lead Scoring efectivo, asignando a cada lead un puntaje que indique su probabilidad de conversión, para ayudar al sector de ventas a enfocar sus esfuerzos y recursos en quienes tengan mayor potencial, lo cual debería incrementar la tasa de conversión de la empresa, cuyo objetivo propuesto es del 80%.



---


Fuente del dataset:
Kaggle
https://www.kaggle.com/datasets/amritachatterjee09/lead-scoring-dataset


##Diccionario









*   **Prospect ID:** Identificador único para cada cliente.
*   **Lead Number:** Número asignado a cada prospecto (lead).

*   **Lead Origin:** Identificador del origen del lead (API, Envío de Página de Destino, etc.)
*   **Lead Source:** Fuente específica del lead (Google, Búsqueda Orgánica, etc.).
*   **Do Not Email:** Variable seleccionada por el cliente en la que selecciona si desea recibir un correo electrónico sobre el curso o no.
*   **Do Not Call:** Variable seleccionada por el cliente en la que selecciona si desea ser contactado por telefono sobre el curso o no.
*   **Converted:** Variable objetivo que indica si el lead se ha convertido en cliente.
* **TotalVisits:** Número de visitas que el cliente ha realizado en el sitio web.
* **Total Time Spent on Website:** Tiempo total que el cliente pasó en la plataforma.
* **Page Views Per Visit:** Promedio de páginas vistas por visita en el sitio web.
* **Last Activity:** Última actividad realizada por el cliente (ej. Email abierto, Chat).
* **Country:** País del cliente.
* **Specialization:** Industria o dominio de la experiencia laboral previa del cliente.
* **How did you hear about X Education:** Fuente a través de la cual el cliente conoció X Education.
* **Current Occupation:** Estado laboral del lead (estudiante, desempleado, empleado).
* **What matters most to you in choosing this course:** Razón principal para elegir el curso.
* **Search, Magazine, Newspaper, Forums, Digital Advertisement, Through Recommendations:** Medios específicos por los cuales el cliente encontró información sobre el curso.
* **Receive More Updates About Our Courses:** Preferencia del lead para recibir actualizaciones sobre cursos.
* **Tags:** Etiquetas que indican el estado actual del lead.
* **Lead Quality:** Calificación de la calidad del lead asignada por el empleado responsable.
* **Update me on Supply Chain/DM Content:** Preferencias para recibir actualizaciones sobre contenido específico.
* **Lead Profile:** Perfil asignado al lead basado en sus datos.
* **City:** Ciudad del lead.
* **Asymmetrique Activity/Profile Index/Score:** Métricas personalizadas que evalúan el compromiso del lead.
* **I agree to pay the amount through cheque:** Indicador que muestra si el cliente está de acuerdo en pagar mediante cheque.
* **A free copy of Mastering The Interview:** Si el lead desea recibir una copia gratuita de "Mastering the Interview".
* **Last Notable Activity:** La actividad más reciente y relevante realizada por el lead.







##EDA

###Carga del dataset

In [5]:
#Importamos las librerias a utilizar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [6]:
URL = 'https://raw.githubusercontent.com/ManuSab/Proyecto_Data_Science_I/main/Lead%20Scoring.csv'
df = pd.read_csv(URL)
df.head()

Unnamed: 0,Prospect ID,Lead Number,Lead Origin,Lead Source,Do Not Email,Do Not Call,Converted,TotalVisits,Total Time Spent on Website,Page Views Per Visit,...,Get updates on DM Content,Lead Profile,City,Asymmetrique Activity Index,Asymmetrique Profile Index,Asymmetrique Activity Score,Asymmetrique Profile Score,I agree to pay the amount through cheque,A free copy of Mastering The Interview,Last Notable Activity
0,7927b2df-8bba-4d29-b9a2-b6e0beafe620,660737,API,Olark Chat,No,No,0,0.0,0,0.0,...,No,Select,Select,02.Medium,02.Medium,15.0,15.0,No,No,Modified
1,2a272436-5132-4136-86fa-dcc88c88f482,660728,API,Organic Search,No,No,0,5.0,674,2.5,...,No,Select,Select,02.Medium,02.Medium,15.0,15.0,No,No,Email Opened
2,8cc8c611-a219-4f35-ad23-fdfd2656bd8a,660727,Landing Page Submission,Direct Traffic,No,No,1,2.0,1532,2.0,...,No,Potential Lead,Mumbai,02.Medium,01.High,14.0,20.0,No,Yes,Email Opened
3,0cc2df48-7cf4-4e39-9de9-19797f9b38cc,660719,Landing Page Submission,Direct Traffic,No,No,0,1.0,305,1.0,...,No,Select,Mumbai,02.Medium,01.High,13.0,17.0,No,No,Modified
4,3256f628-e534-4826-9d63-4a8b88782852,660681,Landing Page Submission,Google,No,No,1,2.0,1428,1.0,...,No,Select,Mumbai,02.Medium,01.High,15.0,18.0,No,No,Modified


In [11]:
df.describe()

Unnamed: 0,Lead Number,Converted,TotalVisits,Total Time Spent on Website,Page Views Per Visit,Asymmetrique Activity Score,Asymmetrique Profile Score
count,9240.0,9240.0,9103.0,9240.0,9103.0,5022.0,5022.0
mean,617188.435606,0.38539,3.445238,487.698268,2.36282,14.306252,16.344883
std,23405.995698,0.486714,4.854853,548.021466,2.161418,1.386694,1.811395
min,579533.0,0.0,0.0,0.0,0.0,7.0,11.0
25%,596484.5,0.0,1.0,12.0,1.0,14.0,15.0
50%,615479.0,0.0,3.0,248.0,2.0,14.0,16.0
75%,637387.25,1.0,5.0,936.0,3.0,15.0,18.0
max,660737.0,1.0,251.0,2272.0,55.0,18.0,20.0


###Manejo de valores nulos

###Analisis de la variable clave

In [7]:
#Se considera que la variable clave es Converted.
df['Converted'].describe()

Unnamed: 0,Converted
count,9240.0
mean,0.38539
std,0.486714
min,0.0
25%,0.0
50%,0.0
75%,1.0
max,1.0
