# RESULTADOS DEL PROYECTO

## INSIGHTS DEL ANLYSIS EXPLORATORIO DE DATOS

**Leads:**

* La mayoría de los potenciales clientes interesados en la empresa están desempleados, en particular el 88.84% de los leads.
* Solo el 8.64% de los leads son profesionales que están trabajando.
* El número de leads que provienen de estudiantes es muy bajo, representando solo el 2.05% de los leads.

**Tasa de conversión de leads a clientes:**

* La tasa de conversión actual de la empresa es del 41.70%.
* Los profesionales que están trabajando presentan la tasa de conversión más alta, con un 90.74%.
* Los leads desempleados, que son el grupo más grande, tienen una baja tasa de conversión del 36.52%.
* Casi todos los leads que provienen de la fuente "Referencia" se convierten en clientes (tasa de conversión del 89.19%). Sin embargo, solo el 4.56% de los leads provienen de esta fuente.

**Canales comerciales y de marketing:**

* Se observa que el 99.98% y el 91.07% de los leads no quieren recibir llamadas telefónicas ni correos electrónicos, respectivamente. Por lo tanto, la mayoría de las personas que visitan el sitio web no están interesadas en el producto.
* Las campañas de marketing por correo electrónico tienen un potencial no explotado, ya que la última actividad del 41.33% del total de leads fue abrir un correo electrónico, pero solo el 36.15% de ellos finalmente se convirtieron en clientes. Solo el 14.9% de los leads que desean ser contactados por correo electrónico terminan convirtiéndose en clientes de pago.
* Las campañas de SMS han demostrado ser altamente efectivas, con una tasa de conversión del 60.82%.
* La mayoría de los potenciales clientes no estaban interesados en recibir una copia gratuita del lead magnet. Aquellos que mostraron interés son principalmente desempleados y lo descargaron principalmente desde la página de aterrizaje.
* Los leads convertidos pasan una mediana de 16 minutos en el sitio web y visitan un promedio de 2.5 páginas por sesión. En contraste, los leads no convertidos pasan una mediana de solo 6 minutos en el sitio.

### Acciones recomendadas 

**Acciones para mejorar la gestión de leads:**

* Mejorar la calidad de las preguntas de encuestas o formularios para recopilar más información de los usuarios y reducir la aparición de valores NaN o predeterminados ('Seleccione').
* Recopilar marcas de tiempo para las visitas al sitio web para habilitar el análisis de estacionalidad e implementar cookies para rastrear e identificar a los usuarios mientras navegan por diferentes páginas del sitio web.
* Desarrollar un nuevo algoritmo de segmentación de leads que categorice los diversos perfiles de leads de la empresa, permitiendo identificar el grupo más adecuado para cada nuevo lead. Esto permitirá realizar acciones comerciales más personalizadas.

**Acciones para mejorar la tasa de conversión de leads a clientes:**

* Implementar un algoritmo predictivo de puntuación de leads que identifique a las personas con mayor probabilidad de convertirse en clientes de pago. Esto reducirá la carga de trabajo del equipo de ventas, permitiéndoles dedicar más tiempo a interactuar con los leads más prometedores.

**Acciones para mejorar el rendimiento de los canales comerciales y de marketing:**

* Mejorar la estrategia de contenido en todo el sitio web, lead magnet y correos electrónicos para atraer más tráfico e incrementar la participación de los usuarios. Enfocarse en crear contenido personalizado específicamente para profesionales que trabajen y estén interesados en el sector de ciencia de datos.
* Desarrollar un programa de referidos para motivar a los clientes actuales a recomendar el curso a sus amigos, familiares y colegas.
Asignar más recursos a la adquisición de leads a través del canal de 'Referencia', ya que demuestran la tasa de conversión más alta.
* Aumentar las inversiones en campañas de SMS, dado su fuerte rendimiento.

## MODELO DE SEGMENTACIÓN

### Segmentos identificados

**Segmento 0: Leads de muy calidad**

* Origen: Formulario de Adición de Leads.
* Última actividad: No categorizada.
* Ocupación: Profesionales que están trabajando.
* Mayor tiempo pasado en el sitio web.
* Gran tasa de conversión. Nueve de cada diez leads en este segmento terminan comprando el producto de la empresa.
  
**Segmento 1: Leads de muy baja calidad**

* Origen: Envío desde la Landing Page.
* Última actividad: Correo electrónico abierto.
* Ocupación: Estudiantes y desempleados.
* Tiempo muy bajo pasado en el sitio web.
* Grupo con la peor tasa de conversión.

**Segmento 2: Leads de calidad media**

* Origen: Envío desde la Landing Page.
* Última actividad: SMS enviado.
* Ocupación: Desempleados.
* Pasan algo de tiempo en el sitio web.
* Tasa de conversión moderada.

**Segmento 3: Leads de baja calidad**

* Origen: API.
* Última actividad: Conversación en el chat.
* Ocupación: Desempleados.
* Tiempo muy bajo pasado en el sitio web.
* Baja tasa de conversión.

### Insights de segmentación

1. Los leads más valiosos de la empresa son los profesionales que están trabajando y llegan a través del envío de formularios de leads.
2. Aunque las campañas de SMS son generalmente efectivas, deberían ser dirigidas con mayor precisión:
   * Enfocarse en profesionales que están trabajando y provienen de fuentes API, quienes pasan un tiempo por encima del promedio en el sitio web.
   * Evitar enviar SMS a leads que provienen de envíos desde la Página de Aterrizaje y que pasan un tiempo mínimo en el sitio, ya que representan los leads de menor calidad y desvían recursos de campañas más prometedoras.
3. La función de chat en vivo atrae principalmente leads de baja calidad. La empresa debería considerar la reasignación de recursos de este servicio y, para los leads provenientes de fuentes API, priorizar campañas de marketing por correo electrónico y SMS en su lugar.

## MODELO DE PREDICCIÓN DE LEADS

In [1]:
import cloudpickle
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

ruta_proyecto = 'C:/Users/pelop/OneDrive/Desktop/Curso Data Science Pedro/2 CURSO DATA SCIENCE/03_MACHINE_LEARNING/07_CASOS/01_LEADSCORING'

nombre_fichero_datos = 'validacion.csv'
# Este sería el nuevo fichero que tenemos tras llevar el código en producción un tiempo
# (normalmente 1 mes). Nosotros lo separamos al principio en el segundo notebook porque
# no tenemos acceso a nuevos datos, pero la validación final se haría una vez puesto el
# modelo en marcha y en producción al menos 1 mes después. La métrica de AUC, MAE, ...
# para testar el modelo se hizo sobre la división de train-test con validación cruzada.

ruta_completa = ruta_proyecto + '/02_Datos/02_Validacion/' + nombre_fichero_datos
df = pd.read_csv(ruta_completa,index_col='id')

df.drop_duplicates(inplace = True)
df = df.loc[(df.no_llamar != 'OTROS') & (df.no_enviar_email != 'Yes') & (df.ult_actividad != 'Email Bounced')]
                     
variables_finales = ['ambito',
                     'descarga_lm',
                     'fuente',
                     'ocupacion',
                     'paginas_vistas_visita',
                     'score_actividad',
                     'score_perfil',
                     'tiempo_en_site_total',
                     'ult_actividad',
                     'visitas_total']                     
y_true = df['compra']                    
df = df[variables_finales]

nombre_pipe_ejecucion = 'pipe_ejecucion.pickle'
ruta_pipe_ejecucion = ruta_proyecto + '/04_Modelos/' + nombre_pipe_ejecucion
with open(ruta_pipe_ejecucion, mode='rb') as file:
   pipe_ejecucion = cloudpickle.load(file)

scoring = pipe_ejecucion.predict_proba(df)[:, 1]

nombre_disc_threshold = 'optimal_disc_threshold.pickle'
ruta_disc_threshold = ruta_proyecto + '/04_Modelos/' + nombre_disc_threshold
with open(ruta_disc_threshold, mode='rb') as file:
   disc_threshold = cloudpickle.load(file)

scoring_roi = np.where(scoring > disc_threshold,1,0)
results = pd.DataFrame({'lead_score':scoring, 'manage_lead':scoring_roi}).set_index(df.index)

# Model performance dataframe
model_performance = pd.concat([results,y_true],axis=1)

In [2]:
model_performance

Unnamed: 0_level_0,lead_score,manage_lead,compra
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
604185,0.435116,1,1
594504,0.149951,1,0
588993,0.935935,1,1
647977,0.358657,1,0
584415,0.343810,1,0
...,...,...,...
581723,0.122365,1,0
581456,0.955936,1,1
632984,0.030023,0,0
616130,0.821079,1,1


### KPIs 

#### Conversion rate

In [3]:
cr_asis = round(model_performance.compra.mean()*100,2)
cr_asis

41.7

In [4]:
cr_tobe = round(model_performance[model_performance.manage_lead==1].compra.mean()*100,2)
cr_tobe

45.77

In [5]:
cr_improve = round((cr_tobe - cr_asis),2)
cr_improve

4.07

#### Sales team workload

In [6]:
workload_asis = model_performance.shape[0]
workload_asis

2084

In [7]:
workload_tobe = model_performance[model_performance.manage_lead==1].shape[0]
workload_tobe

1890

In [8]:
workload_improve = round((workload_tobe-workload_asis)/workload_asis *100,2)
workload_improve

-9.31

#### Lost investment in not converted lead management

In [9]:
ltc_avg_cost = 5
price = 49.99

lost_asis = model_performance[model_performance.compra == 0].shape[0]*ltc_avg_cost
lost_asis

6075

In [10]:
lost_tobe = model_performance[(model_performance.manage_lead == 1) & (model_performance.compra == 1)].shape[0]*ltc_avg_cost
lost_tobe

4325

In [11]:
lost_improve = round((lost_tobe-lost_asis)/lost_asis*100,2)
lost_improve

-28.81

#### Sales profit

In [12]:
sp_asis = round(model_performance[model_performance.compra == 1].shape[0]*(price - ltc_avg_cost) - lost_asis,2)
sp_asis

33021.31

In [13]:
sp_tobe = round(model_performance[(model_performance.manage_lead == 1) & (model_performance.compra == 1)].shape[0] \
            *(price - ltc_avg_cost) - lost_tobe,2)
sp_tobe

34591.35

In [14]:
sp_improve = round((sp_tobe-sp_asis)/sp_asis*100,2)
sp_improve

4.75

### Resultados finales

In [15]:
kpis_final = pd.DataFrame({'Conversion Rate':[cr_asis,cr_tobe,'Increased by ' + str(cr_improve)],
              'Workload':[workload_asis,workload_tobe,'Reduced by ' + str(abs(workload_improve)) + '%'],
              'Lost investments':[lost_asis,lost_tobe,'Reduced by ' + str(abs(lost_improve)) + '%'],
              'Sales profit':[sp_asis,sp_tobe,'Increased by ' + str(sp_improve) + '%']}).T

kpis_final.rename(columns = {0:'As is',1:'To be',2:'Improvements'})

Unnamed: 0,As is,To be,Improvements
Conversion Rate,41.7,45.77,Increased by 4.07
Workload,2084.0,1890.0,Reduced by 9.31%
Lost investments,6075.0,4325.0,Reduced by 28.81%
Sales profit,33021.31,34591.35,Increased by 4.75%
