# Preparación de los datos

In [877]:
# Importación de las librerías necesarias
import pandas as pd
import numpy as np

### Carga del dataset y análisis
Primero cargamos el dataset utilizado en la práctica y visualizamos las columnas que lo componen, con su tipología y algunos ejemplos de valores.

In [878]:
# Carga y análisis previo del dataset en un DataFrame de Pandas

df = pd.read_csv('../datasets/Leads.csv')

print(len(df)) # Visualización del número total de registros

df.head().T # Visualización de las columnas con algunas filas de ejemplo

9240


Unnamed: 0,0,1,2,3,4
Prospect ID,7927b2df-8bba-4d29-b9a2-b6e0beafe620,2a272436-5132-4136-86fa-dcc88c88f482,8cc8c611-a219-4f35-ad23-fdfd2656bd8a,0cc2df48-7cf4-4e39-9de9-19797f9b38cc,3256f628-e534-4826-9d63-4a8b88782852
Lead Number,660737,660728,660727,660719,660681
Lead Origin,API,API,Landing Page Submission,Landing Page Submission,Landing Page Submission
Lead Source,Olark Chat,Organic Search,Direct Traffic,Direct Traffic,Google
Do Not Email,No,No,No,No,No
Do Not Call,No,No,No,No,No
Converted,0,0,1,0,1
TotalVisits,0.0,5.0,2.0,1.0,2.0
Total Time Spent on Website,0,674,1532,305,1428
Page Views Per Visit,0.0,2.5,2.0,1.0,1.0


In [879]:
# Estadísticas genéricas del dataset, por columnas
df.describe()

Unnamed: 0,Lead Number,Converted,TotalVisits,Total Time Spent on Website,Page Views Per Visit,Asymmetrique Activity Score,Asymmetrique Profile Score
count,9240.0,9240.0,9103.0,9240.0,9103.0,5022.0,5022.0
mean,617188.435606,0.38539,3.445238,487.698268,2.36282,14.306252,16.344883
std,23405.995698,0.486714,4.854853,548.021466,2.161418,1.386694,1.811395
min,579533.0,0.0,0.0,0.0,0.0,7.0,11.0
25%,596484.5,0.0,1.0,12.0,1.0,14.0,15.0
50%,615479.0,0.0,3.0,248.0,2.0,14.0,16.0
75%,637387.25,1.0,5.0,936.0,3.0,15.0,18.0
max,660737.0,1.0,251.0,2272.0,55.0,18.0,20.0


In [880]:
# Visualización de los tipos de datos que componen el dataset
df.dtypes

Prospect ID                                       object
Lead Number                                        int64
Lead Origin                                       object
Lead Source                                       object
Do Not Email                                      object
Do Not Call                                       object
Converted                                          int64
TotalVisits                                      float64
Total Time Spent on Website                        int64
Page Views Per Visit                             float64
Last Activity                                     object
Country                                           object
Specialization                                    object
How did you hear about X Education                object
What is your current occupation                   object
What matters most to you in choosing a course     object
Search                                            object
Magazine                       

De un vistazo rápido podemos ver que las siguientes filas pueden ser candidatas a un tratamiento previo al entrenamiento de nuestro modelo:

* Do Not Email: de object a int
* Do Not Call: de object a int
* Search: de object a int
* Magazine: de object a int
* Newspaper Article: de object a int
* X Education Forums: de object a int
* Newspaper: de object a int
* Digital Advertisement: de object a int
* Through Recommendations: de object a int
* Receive More Updates About Our Courses: de object a int
* Update me on Supply Chain Content: de object a int
* Get updates on DM Content: de object a int
* I agree to pay the amount through cheque: de object a int
* A free copy of Mastering The Interview: de object a int
* Lead Quality: de object a int
* Lead Profile: de object a int
* Asymmetrique Activity Index: de object a float
* Asymmetrique Profile Index: de object a float


El primer tratamiento que vamos a hacer es homogeneizar los nombres de columna, pasándolas a minúscula y sustituyendo sus espacios en blanco por guión bajo. Ello nos ayudará a tratar mejor el conjunto de datos:

In [881]:
# Función de reemplazo
replacer = lambda str: str.lower().str.replace(' ','_')

# Aplicación del reemplazo a los nombres de las columnas
df.columns = replacer(df.columns.str)

# Aplicación del reemplazo a los valores de las columnas de tipo cadena
for col in list(df.dtypes[df.dtypes == 'object'].index):
    df[col] = replacer(df[col].str)
df.head().T

Unnamed: 0,0,1,2,3,4
prospect_id,7927b2df-8bba-4d29-b9a2-b6e0beafe620,2a272436-5132-4136-86fa-dcc88c88f482,8cc8c611-a219-4f35-ad23-fdfd2656bd8a,0cc2df48-7cf4-4e39-9de9-19797f9b38cc,3256f628-e534-4826-9d63-4a8b88782852
lead_number,660737,660728,660727,660719,660681
lead_origin,api,api,landing_page_submission,landing_page_submission,landing_page_submission
lead_source,olark_chat,organic_search,direct_traffic,direct_traffic,google
do_not_email,no,no,no,no,no
do_not_call,no,no,no,no,no
converted,0,0,1,0,1
totalvisits,0.0,5.0,2.0,1.0,2.0
total_time_spent_on_website,0,674,1532,305,1428
page_views_per_visit,0.0,2.5,2.0,1.0,1.0


Tras esta conversión, analizamos el número de valores  **únicos** que tiene cada columna:

In [882]:
df.nunique() # Número de valores únicos por columna

prospect_id                                      9240
lead_number                                      9240
lead_origin                                         5
lead_source                                        20
do_not_email                                        2
do_not_call                                         2
converted                                           2
totalvisits                                        41
total_time_spent_on_website                      1731
page_views_per_visit                              114
last_activity                                      17
country                                            38
specialization                                     19
how_did_you_hear_about_x_education                 10
what_is_your_current_occupation                     6
what_matters_most_to_you_in_choosing_a_course       3
search                                              2
magazine                                            1
newspaper_article           

Se puede apreciar que el DataFrame contiene varias columnas con 1 único valor, como ya se intuía con las estadísticas generadas con .describe(). De ellas no podremos *inferir* nada, por lo que las suprimimos para simplificar nuestro conjunto de datos:

In [883]:
colums_to_drop = { 'magazine', 'receive_more_updates_about_our_courses',
            'update_me_on_supply_chain_content', 'get_updates_on_dm_content',
            'i_agree_to_pay_the_amount_through_cheque'}

for column in colums_to_drop:
    df.drop(column, axis = 1, inplace=True)

También podemos comprobar si hay errores en algunas columnas. Por ejemplo, se asume que la columna *prospect_id* debe contener valores únicos, lo cual podemos comprobar con el siguiente código:

A continuación convertimos las columnas con valores yes/no a tipo entero 1/0, para que nuestro modelo predictivo funcione mejor. 

Antes que nada, para cada una de estas columnas, se comprueba que no tengan valores distintos más allá de los yes/no.

In [884]:
yes_no_columns = {'do_not_email', 'do_not_call', 'search', 
    'newspaper_article', 'x_education_forums', 'newspaper', 
    'digital_advertisement', 'through_recommendations', 
    'a_free_copy_of_mastering_the_interview'}

for column in yes_no_columns:
    print(column,' = ',df[column].unique())

through_recommendations  =  ['no' 'yes']
digital_advertisement  =  ['no' 'yes']
newspaper_article  =  ['no' 'yes']
x_education_forums  =  ['no' 'yes']
do_not_call  =  ['no' 'yes']
search  =  ['no' 'yes']
do_not_email  =  ['no' 'yes']
a_free_copy_of_mastering_the_interview  =  ['no' 'yes']
newspaper  =  ['no' 'yes']


Comprobados que los valores de las columnas están dentro de lo esperado, procedemos a la conversión a 1/0 anteriormente comentada:

In [885]:
yes_no_columns = {'do_not_email', 'do_not_call', 'search', 
    'newspaper_article', 'x_education_forums', 'newspaper', 
    'digital_advertisement', 'through_recommendations', 
    'a_free_copy_of_mastering_the_interview'}

for column in yes_no_columns:
    df[column] = (df[column] == 'yes').astype(int)
    print(column,' = ',df[column].unique())

through_recommendations  =  [0 1]
digital_advertisement  =  [0 1]
newspaper_article  =  [0 1]
x_education_forums  =  [0 1]
do_not_call  =  [0 1]
search  =  [0 1]
do_not_email  =  [0 1]
a_free_copy_of_mastering_the_interview  =  [0 1]
newspaper  =  [0 1]


Antes de aplicar la transformación a int de las columnas asymmetrique_activity_index y asymmetrique_profile_index, comprobamos sus valores:

In [886]:
asymetric_index_columns = { 'asymmetrique_activity_index', 'asymmetrique_profile_index' }

for column in asymetric_index_columns:
    print(column,' = ',df[column].unique())

asymmetrique_profile_index  =  ['02.medium' '01.high' '03.low' nan]
asymmetrique_activity_index  =  ['02.medium' '01.high' '03.low' nan]


Vemos que ambas columnas tienen valores similares, por lo que podrían ser redundantes. Sin embargo, vemos que tienen valores NA, por lo que antes de iniciar un tratamiento vamos a computar el número de celdas sin datos. Como parece haber una correlación entre estas columnas y las de asymmetrique_activity_score y asymmetrique_profile_score, comprobamos las 4:

In [887]:
asymetric_columns = { 'asymmetrique_activity_index', 'asymmetrique_profile_index', 'asymmetrique_activity_score', 'asymmetrique_profile_score' }

for column in asymetric_columns:
    num_data = df[column].count() # En este conteo se omiten los na
    num_na = df[column].isna().sum()
    print(column,'=> Data rows = ',num_data,', NA rows = ',num_na)

asymmetrique_profile_index => Data rows =  5022 , NA rows =  4218
asymmetrique_profile_score => Data rows =  5022 , NA rows =  4218
asymmetrique_activity_score => Data rows =  5022 , NA rows =  4218
asymmetrique_activity_index => Data rows =  5022 , NA rows =  4218


Como el número de valores NA de cada columna es elevado (rondando el 50% de cada columna), se suprimen por simplificación:

In [888]:
for column in asymetric_columns:
    df.drop(column, axis = 1, inplace = True)

Vemos finalmente como ha quedado nuestro dataset:

In [889]:
df.head().T

Unnamed: 0,0,1,2,3,4
prospect_id,7927b2df-8bba-4d29-b9a2-b6e0beafe620,2a272436-5132-4136-86fa-dcc88c88f482,8cc8c611-a219-4f35-ad23-fdfd2656bd8a,0cc2df48-7cf4-4e39-9de9-19797f9b38cc,3256f628-e534-4826-9d63-4a8b88782852
lead_number,660737,660728,660727,660719,660681
lead_origin,api,api,landing_page_submission,landing_page_submission,landing_page_submission
lead_source,olark_chat,organic_search,direct_traffic,direct_traffic,google
do_not_email,0,0,0,0,0
do_not_call,0,0,0,0,0
converted,0,0,1,0,1
totalvisits,0.0,5.0,2.0,1.0,2.0
total_time_spent_on_website,0,674,1532,305,1428
page_views_per_visit,0.0,2.5,2.0,1.0,1.0


# Creación del modelo

Lo primero que haremos será la extracción de nuestra variable objetivo, que en nuestro caso es *converted*:

In [890]:
target_name = "converted" # Variable objetivo
target = df[target_name]

data = df.drop(columns=[target_name])

Tras ello, procedemos a realizar la división de los datos para quedarnos con una parte para entrenamiento del modelo y otra para test:

In [891]:
from sklearn.model_selection import train_test_split

data_train, data_test, target_train, target_test = train_test_split(
    data, target, test_size = 0.2, random_state=42) # División: 80% entrenamiento, 20% test

A continuación, instanciamos 2 preprocesadores distintos para las columnas numéricas y para las categóricas, y lo vinculamos a un transformador por columnas:

In [892]:
from sklearn.compose import make_column_selector as selector
#from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.compose import ColumnTransformer

numerical_columns_selector = selector(dtype_exclude=object)  # Selector para extraer columnas numéricas
categorical_columns_selector = selector(dtype_include=object)  # Selector para extraer columnas categóricas

numerical_columns = numerical_columns_selector(data)
categorical_columns = categorical_columns_selector(data)

numerical_preprocessor = StandardScaler() # Escalador para columnas numéricas
#categorical_preprocessor = OneHotEncoder(handle_unknown="ignore") # Transformador para columnas categóricas
categorical_preprocessor = OrdinalEncoder(handle_unknown="use_encoded_value",
                                          unknown_value=-1)

preprocessor = ColumnTransformer([
    ('categorical', categorical_preprocessor, categorical_columns),
    ('numerical', numerical_preprocessor, numerical_columns)])

Ahora instanciaremos un modelo y lo vincularemos mediante una *pipeline* a nuestro transformador por columnas. Para el problema expuesto, se elige un modelo de clasificación ***HistGradientBoostingClassifier***:

In [893]:
from sklearn.pipeline import Pipeline
from sklearn.ensemble import HistGradientBoostingClassifier

model = Pipeline([
    ("preprocessor", preprocessor),
    ("classifier", HistGradientBoostingClassifier(random_state=42, max_leaf_nodes=4) )
])

In [894]:
from sklearn.model_selection import cross_validate

cv_result = cross_validate(model, data_train, target_train, cv=5)

np.median(cv_result['test_score'])

0.935723951285521

In [895]:
from sklearn.model_selection import cross_validate

cv_result = cross_validate(model, data_test, target_test, cv=5)

np.median(cv_result['test_score'])

0.9243243243243243

Para buscar la mejor configuración del modelo usaremos ***RandomizedSearchCV***, que se encarga de buscar de forma aleatoria y ofrecer una elección de hiperparámetros, utilizando además validación cruzada para puntuar el rendimiento del ajuste seleccionado: TODO

# Serialización del modelo

Para exportar nuestro modelo, lo serializamos utilizando *pickle*:

In [897]:
import pickle

model.fit(data_train, target_train)

with open('../models/converted-model.pck', 'wb') as f:
    pickle.dump(model, f)

Y lo probamos con *cURL*:

In [898]:
!curl --request POST 'http://127.0.0.1:8000/predict' \
--header 'Content-Type: application/json'\
--data-raw '{\
   "prospect_id": "7927b2df-8bba-4d29-b9a2-b6e0beafe620",\
   "lead_number": 660737,\
   "lead_origin": "api",\
   "lead_source": "olark_chat",\
   "do_not_email": 0,\
   "do_not_call": 0,\
   "converted": 0,\
   "totalvisits": 0.0,\
   "total_time_spent_on_website": 0,\
   "page_views_per_visit": 0.0,\
   "last_activity": "page_visited_on_website",\
   "country": "NaN",\
   "specialization": "select",\
   "how_did_you_hear_about_x_education": "select",\
   "what_is_your_current_occupation": "unemployed",\
   "what_matters_most_to_you_in_choosing_a_course": "better_career_prospects",\
   "search": 0,\
   "newspaper_article": 0,\
   "x_education_forums": 0,\
   "newspaper": 0,\
   "digital_advertisement": 0,\
   "through_recommendations": 0,\
   "tags": "interested_in_other_courses",\
   "lead_quality": "low_in_relevance",\
   "lead_profile": "select",\
   "city": "select",\
   "a_free_copy_of_mastering_the_interview": 0,\
   "last_notable_activity": "modified"\
}'

{
  "convert_probability": 0
}
