### Presentación:

Un banco portuguez ha encontrado una disminución en sus ingresos. Luego de investigar al respecto se descubrió que el problema radicaba en que los clientes no estaban invirtiendo lo suficiente en plazos fijos a largo plazo, por lo que las autoridades han decidido identificar cuales de los clientes existentes tienen una mayor posibilidad de hacer depósitos a largo plazo de forma de enfocar los esfuerzos de marketing en ellos. 
Los datos de los que disponemos provienen de campañas de marketing directo basadas en llamadas telefónicas. En muchos casos se necesitó más de un contacto con el cliente para determinar si este se suscribiría a un depósito a largo plazo o no.

### Objetivos de la investigación:

Se desea determinar qué clientes de este banco son posibles suscriptores a un depósito a largo plazo (tambien conocido como Plazo Fijo). Para realizar estas prediciones analizaremos a que otros servicios financieros se encuentran suscriptos y algunas de sus características personales.

### Equipo de trabajo:

* Victoria Gardella
* Pablo Rabal
* Ornella Padini

### Fuente del Dataset:

Nuestra base de datos fue obtenida de la pagina Kaggle (URL: https://www.kaggle.com/datasets/rashmiranu/banking-dataset-classification). El dataset se encuentra en formato "csv" y cuenta con dos conjuntos de datos, uno de entrenamiento de aproximadamente 30.000 registros y 16 atributos, y uno de testeo, de aproximadamente 8.000 registros y 15 atributros. El dataset de entrenamiento contiene un atributo único denominado "Y", el cual indica si el resultado deseado (la suscripción del cliente a un depósito a largo plazo o plazo fijo) es positivo ("yes") o negativo ("no").

### Criterio de selección:

Dado que nosotros no realizamos la seleccion de los datos ni la conformación de la base de datos no podemos estar seguros de los criterios que fueron usados.
Los criterios que tuvimos en cuenta para seleccionar este dataset fueron el tipo de variables incluidas (se incluyen tanto variables categóricas como numéricas) y el número total de registros.

### Base de datos:


In [4]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.ticker import FormatStrFormatter
%matplotlib inline

#from google.colab import drive
#drive.mount('/content/drive')

In [5]:
#Iniciamos este informe importando la base de datos:

#df_raw = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Bases de Datos/Clasificación de clientes de banco - Train.csv")
df = pd.read_csv('Clasificación de clientes de banco - Train.csv')
df

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,y
0,49,blue-collar,married,basic.9y,unknown,no,no,cellular,nov,wed,227,4,999,0,nonexistent,no
1,37,entrepreneur,married,university.degree,no,no,no,telephone,nov,wed,202,2,999,1,failure,no
2,78,retired,married,basic.4y,no,no,no,cellular,jul,mon,1148,1,999,0,nonexistent,yes
3,36,admin.,married,university.degree,no,yes,no,telephone,may,mon,120,2,999,0,nonexistent,no
4,59,retired,divorced,university.degree,no,no,no,cellular,jun,tue,368,2,999,0,nonexistent,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32945,28,services,single,high.school,no,yes,no,cellular,jul,tue,192,1,999,0,nonexistent,no
32946,52,technician,married,professional.course,no,yes,no,cellular,nov,fri,64,1,999,1,failure,no
32947,54,admin.,married,basic.9y,no,no,yes,cellular,jul,mon,131,4,999,0,nonexistent,no
32948,29,admin.,married,university.degree,no,no,no,telephone,may,fri,165,1,999,0,nonexistent,no


In [3]:
#Hacemos una copia de respaldo de los datos:

df_respaldo = df.copy(deep=True)

### Data Wrangling:

Dado que los datos que usaremos fueron obtenidos de una página de terceros y no directamente de la entidad bancaria, los primeros pasos del proceso de manipulación de datos o "Data Wrangling" ya fueron llevados a cabo. En nuestro caso vamos a iniciar limpiando la base de datos y buscando datos duplicados:

In [6]:
df_dupl = df[df.duplicated()]
df_dupl

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,y
1923,39,admin.,married,university.degree,no,no,no,cellular,nov,tue,123,2,999,0,nonexistent,no
12252,36,retired,married,unknown,no,no,no,telephone,jul,thu,88,1,999,0,nonexistent,no
20067,35,admin.,married,university.degree,no,yes,no,cellular,may,fri,348,4,999,0,nonexistent,no
24831,41,technician,married,professional.course,no,yes,no,cellular,aug,tue,127,1,999,0,nonexistent,no
28456,55,services,married,high.school,unknown,no,no,cellular,aug,mon,33,1,999,0,nonexistent,no
29543,47,technician,divorced,high.school,no,yes,no,cellular,jul,thu,43,3,999,0,nonexistent,no
30807,71,retired,single,university.degree,no,no,no,telephone,oct,tue,120,1,999,0,nonexistent,no
32607,39,blue-collar,married,basic.6y,no,no,no,telephone,may,thu,124,1,999,0,nonexistent,no


Nuestro problema es que, aunque parecieran ser datos duplicados, no podemos determinar que lo sean porque no contamos con un ID del cliente o alguna clave identificatoria, por lo que vamos a mantener todos los datos.

Para poder movernos con mayor facilidad en caso de necesitar cambiar las variables categóricas de las cuales disponemos haremos un paqueño diccionario indicando las claves de cada atributo. Para eso, cambiaremos los atributos de tipo "objeto" a tipo "categoria":

In [None]:
#Debido a que la librería Pandas nos devuelve un codigo de precaución debemos correr el siguiente código para poder hacer la modificación deseada: 

pd.options.mode.chained_assignment = None

In [7]:
cat_col = df.select_dtypes(include=["object"]).columns
cat_col

df[cat_col] = df[cat_col].astype("category")

df.dtypes


age               int64
job            category
marital        category
education      category
default        category
housing        category
loan           category
contact        category
month          category
day_of_week    category
duration          int64
campaign          int64
pdays             int64
previous          int64
poutcome       category
y              category
dtype: object

Luego de cambiar el tipo de datos de "object" a "category" procedemos a armar el diccionario: 

In [6]:
keys = {} 
df_columns = list(df.select_dtypes("category").columns) 

#Para armar el diccionario vamos a seleccionar las columnas que modificamos anteriormente y vamos a usar el comando enumerate()
#para enumerar las variables categoricas que pueden encontrarse.

for i in df_columns:
    d = dict(enumerate(df[i].cat.categories))
    keys[i] = d

keys

{'job': {0: 'admin.',
  1: 'blue-collar',
  2: 'entrepreneur',
  3: 'housemaid',
  4: 'management',
  5: 'retired',
  6: 'self-employed',
  7: 'services',
  8: 'student',
  9: 'technician',
  10: 'unemployed',
  11: 'unknown'},
 'marital': {0: 'divorced', 1: 'married', 2: 'single', 3: 'unknown'},
 'education': {0: 'basic.4y',
  1: 'basic.6y',
  2: 'basic.9y',
  3: 'high.school',
  4: 'illiterate',
  5: 'professional.course',
  6: 'university.degree',
  7: 'unknown'},
 'default': {0: 'no', 1: 'unknown', 2: 'yes'},
 'housing': {0: 'no', 1: 'unknown', 2: 'yes'},
 'loan': {0: 'no', 1: 'unknown', 2: 'yes'},
 'contact': {0: 'cellular', 1: 'telephone'},
 'month': {0: 'apr',
  1: 'aug',
  2: 'dec',
  3: 'jul',
  4: 'jun',
  5: 'mar',
  6: 'may',
  7: 'nov',
  8: 'oct',
  9: 'sep'},
 'day_of_week': {0: 'fri', 1: 'mon', 2: 'thu', 3: 'tue', 4: 'wed'},
 'poutcome': {0: 'failure', 1: 'nonexistent', 2: 'success'},
 'y': {0: 'no', 1: 'yes'}}

### Exploratory Data Analysis:


Debido a que las variables categóricas que tenemos tienen resultados muy extremos entonces es dificil hacer un análisis de correlación. Sin embargo, realizamos un extenso analisis univariado, bivariado y multivariado.

#### Analisis Univariado

In [None]:
#Figura 1: Tipos de trabajo de los clientes:

x=df["job"]
y=df["job"].value_counts()

fig, ax = plt.subplots(figsize=(12,4)) #En realidad no necesitamos agregar esta linea pero para acostumbrarme la agrego igual.
sns.barplot(y.index, y, data=df, palette="muted")
ax.set(xlabel='Trabajo', ylabel='Numero de clientes', title='Figura 1: Tipo de trabajo de nuestros clientes')
plt.xticks(rotation=45)

Se puede observar que la mayoria de nuestros clientes trabajan en relación de dependencia, dividiendose mayormente entre trabajos administrativos y trabajos técnicos o de cuello azul (obreros, trabajo manual)

In [None]:
#Figura 2: Edad de los clientes:

#Elegimos usar un histograma para representar las edades de los clientes. Para saber que tamaño de bins usar veamos
#entre que alores se encuentran las edades:

print("Las edades van desde", df["age"].min(), "hasta", df["age"].max())

fig, ax = plt.subplots(figsize=(12,8))
sns.histplot(data=df, x=df["age"], binwidth=5, color="#53868B", edgecolor="white")
ax.set(xlabel="Edades", ylabel="Número de clientes", title="Figura 2: Distribución de edades de los clientes")

Ademas, la mayoria de los clientes son personas jovenes, entre 30 y 50 años. Por otro lado notamos que la cantida de clientes mayores a 60 años es muy poca en comparacion, pero encontraremos algunos resultados interesantes posteriormente.

In [None]:
#Figura 3: Mes en el que ocurrió el último contacto:

fig, ax = plt.subplots(figsize=(12,8))
sns.countplot(x = df['month'], palette="muted")
ax.set(xlabel = 'Month' , ylabel = 'Contacts' , title = 'Figura 3: Number of contacts')

En la última campaña de marketing se observa que en los meses de Mayo a Agosto es cuando se realizaron la mayoria de los últimos contactos telefónicos con los clientes. El año fiscal en Portugal es del 1 de Enero al 31 de Diciembre.

In [None]:
#Figura 4: Duración de las llamadas.

fig, ax = plt.subplots(nrows = 1, ncols = 2, dpi = 120, figsize =(16,4))

plot0 = sns.boxplot(x = df['duration'], ax = ax[0], palette="muted")
ax[0].set_xlabel('Duración')
ax[0].set_title('Resumen numérico')

plot1 = sns.distplot(x=df['duration'], ax = ax[1]) #bw_adjust=0.1
ax[1].set_xlabel('Duración')
ax[1].set_ylabel('Densidad')
ax[1].set_title('Distribución de la duración')
#ax.set(xlabel = 'Month' , ylabel = 'Contacts' , title = 'Number of contacts')

plt.suptitle("Figura 4: Duración del último contacto.", fontsize=12)
fig.subplots_adjust(top=0.85)

Si observamos los graficos queda claro que la gran mayoria de las llamadas a los clientes tienen una duración muy corta, pero que existen instancias donde las llamada son mucho mas largas.

In [None]:
#Figura 5: Educacion de los clientes

x=df["education"]
y=df["education"].value_counts()

fig, ax = plt.subplots(figsize=(12,8))
sns.barplot(y.index, y, data=df, palette="muted")
ax.set(xlabel = 'Educacion', ylabel = 'Cantidad de clientes', title = 'Figura 5: Nivel educativo de nuestros clientes')
plt.xticks(rotation=40)

La mayoria de los clientes presentan educación de nivel universitario, seguido de nivel secundario.

In [None]:
#Figura 6: Estado civil de los clientes

x=df["marital"]
y=df["marital"].value_counts()

fig, ax = plt.subplots(figsize=(12,8))
sns.barplot(y.index, y, data=df, palette="muted")
ax.set(xlabel = 'Estado civil' , ylabel = 'Cantidad de clientes' , title = 'Figura 6: Estado Civil de nuestros clientes')
plt.xticks(rotation=40)

El estado civil de los clientes puede ser usado para considerar algunas estrategias de marketing. En nuestro caso, la gran mayoria se encuentra casado, seguido por una cantidad mucho menor de solteros.

#### Análisis Bivariado:

In [None]:
#Figura 7: Prestamos personales vs. Puesto de Trabajo.

sns.set()
fig, ax = plt.subplots(figsize=(16,8))
sns.histplot(data = df, x = df["job"], hue = df["loan"], multiple = "dodge", shrink=.8, edgecolor = "white", palette="muted")
ax.set(xlabel = "Trabajo", ylabel = "Numero de Clientes", title = "Figura 7: Clientes con Prestamos Personales según su Puesto de Trabajo.")
plt.xticks(rotation=45)

Se observa que la mayoria de los clientes que presentan préstamos personales son aquellos en trabajos administrativos, técnicos o de cuello azul (obreros/trabajo manual). Ademas, si recordamos la Figura 1 se puede ver que una gran parte de los clientes ocupan este tipo de trabajos, por lo que tiene sentido que sea asi.

In [None]:
#Figura 8: Edad con Presatmos Hipotecarios (o prestamos para comprar una casa):

sns.set()
fig, ax = plt.subplots(figsize=(16,8))
sns.histplot(data=df, x=df["age"], binwidth=5, hue=df["housing"], multiple="stack", palette="muted")
ax.set(xlabel = "Edad", ylabel = "Número de clientes", title="Figura 8: Número de clientes con prestamos hipotecarios segun su edad")

Se observa que una gran proporcion de los clientes tienen préstamos hipotecarios, mayormente entre los 25 a 40 años.

#### Análisis Multivariado:

In [None]:
#Figura 9: Edad del cliente, Duración del último contacto con el empleado bancario y Plazo Fijo.

sns.set()
fig, ax = plt.subplots(figsize=(16,8))
sns.scatterplot(data=df, x=df["duration"], y=df["age"], hue=df["y"], palette="muted")
ax.set(xlabel = "Duración del ultimo contacto con el cliente", ylabel = "Edad del Cliente", \
       title = "Figura 9: Relacion entre la edad de los clientes y el último contacto: Suscripcion a un depósito a largo plazo")

En este gráfico puede observarse que la duración de las llamadas tiende a ser mayor en los clientes de menos 60 años y menor en personas mayores. De cualquier manera, en todo el espectro de edades se observa que los clientes que suscribieron a un depósito a largo plazo fueron, en general, quienes mantuvieron llamadas de mayor duración.

In [None]:
#Figura 10: Duración del último contactos, préstamos personales y éxito de la última campaña:

sns.set()
fig, ax = plt.subplots(ncols = 2, figsize=(16,8), sharey=True)
edad_personal = sns.countplot(data=df, x=df["loan"], hue=df["y"], ax=ax[0], palette="muted")
edad_hipot = sns.countplot(data=df, x=df["housing"], hue=df["y"], ax=ax[1], palette="muted")

ax[0].set(xlabel = "Prestamo personal", ylabel = "Número de clientes")
ax[1].set(xlabel = "Prestamo Hipotecario", ylabel = "Número de clientes")

#Facilitamos la visualización:
fig.tight_layout()
plt.suptitle("Figura 10: Relación entre la tenencia de un préstamo y la constitución de un Plazo Fijo a largo plazo.")
fig.subplots_adjust(top=0.95)


En este gráfico nos propusimos ver si la tenencia de algun tipo de prestamo puede relacionarse con la constitución de un depósito a largo plazo. 

Se aprecian dos distribuciones diferentes: en el caso de los individuos con prestamos personales la cantidad que realiza un depósito a largo plazo es sustancialmente menor, algo razonable considerando que estos prestamos suelen pedirse por una necesidad más inmediata de dinero y ser devueltos a corto-mediano plazo. Sin embargo, si hablamos de proporciones, el porcentaje de individuos que tiene preatamos personales y define un depósito a largo plazo es sustancialmente mayor que la cantidad de personas que no tienen un préstamo personal y sacan un depósito a largo plazo. Por otro lado, en el caso de los clientes con y sin prestamos hipotecarios la cantidad de individuos que establecen plazos fijos a largo plazo es mucho más similar: eso bien puede ser debido a que los creditos hipotecarios estan pensados para devolverse de forma regular y a un plazo mucho más largo, por lo que no refieren a una necesidad inmediata de dinero por parte del cliente sino a un proyecto a largo plazo.

Podemos usar esta información para focalizar las campañas de márketing en personas sin préstamos personales, o para ofrecer promociones de interes para personas con prestamos hipotecarios.

In [None]:
#Figura 11: Relacion entre el tipo de trabajo, la tenencia de un Prestamo Hipotecario y la constitución de un Depósito a largo plazo:
orden=["mar", "apr", "may", "jun", "jul", "aug", "sep", "oct", "nov", "dec"]

sns.set()
fig, ax = plt.subplots(figsize=(16,8))
sns.barplot(data=df, x="month", order=orden, y="duration", hue="y", palette="muted")
ax.set(xlabel = "Ultimo Mes de Contacto", ylabel = "Duración del Último Contacto", title = "Figura 11: Relacion entre circunstancias del último contacto y la constitución de un Plazo fijo.")
plt.legend(title="Depósito a largo plazo:", loc=2, bbox_to_anchor = (1,1))

En este caso analizamos la longitud media del último contacto entre empleado y cliente segun el mes en que se realizó, y analizamos si presenta alguna relacion con la suscripcion a un plazo fijo o depósito a largo plazo. 
Si lo analizamos en conjunto con la figura 9 nuevamente se observa que en los casos donde se logró que el cliente hiciera un depósito a largo plazo tambien se dio que la longitud del último contacto con el cliente fue sustancialmente más largo, sin embargo, en los meses de Marzo, Septiembre y Octubre la duración en los casos "positivos" fue sustancialmente más corta.

In [None]:
#Figura 12: Relación entre la edad de los clientes, el último mes de contacto y la acreditación de un depósito a largo plazo:

sns.set()
fig, ax = plt.subplots(figsize=(24,8))
trabajo_prestamo_civil = sns.violinplot(data=df, x=df["month"], y=df["age"], hue=df["y"], order=orden)
ax.set(xlabel = "Último mes de contacto", ylabel = "Edad del Cliente", title = "Figura 12: Relacion entre la edad de los clientes y el último contacto: Suscripcion a un Plazo fijo a largo plazo")

Este gráfico complementa la figura 11. En este caso se muestra la distribución de las edades de los clientes que hicieron o no un depósito a largo plazo segun el último mes de contacto.

En la figura 9 habiamos visto que entre los clientes sobre 60 años se observaba una mayor proporción de resultados positivos que para menores de 60, aun cuando la duración del último contacto fuera sustancialmente menor. En la figura 11 pudimos observar que en los meses de Marzo, Septiembre y Octubre la longitud de las llamadas que corresponden al último contacto disminuyen, por lo que podria haber una relación entre ambos resultados. 

Para analizar esta hipotesis hicimos la figura 12: este nos indica la distribución de las edades de los clientes segun el último mes de contacto. Lo que podemos ver es que en los meses de Marzo, Septiembre y Octubre el grafico de violin indica que hubo una mayor cantidad de clientes de más de 60 años a comparación del resto de los meses. A pesar de que es dificil saber el por qué de este comportamiento, puede ser usado como una posible estrategia de marketing si el comportamiento se mantiene.

Adjuntamos una pequeña tabla que nos permite visualizar la cantidad de clientes que hicieron un depósito a largo plazo segun el mes del último contacto: como podemos ver, aunque la cantidad global de los clientes que dieron resultados positivos es menor, la cantidad de clientes que dieron resultados en esos meses es sustancialmente mas chica que en otros meses, por lo que el porcentaje del total es de casi el 

In [None]:
#Adjunto una pequeña tabla que nos permite ver la relación entre el número de clientes que hicieron un depósito a largo plazo y los que no según el mes.

cant_mes = df[["month","y"]].groupby("month").count()

yes = df[df["y"] == "yes"][["month","y"]].groupby("month").count()
no = df[df["y"] == "no"][["month","y"]].groupby("month").count()


yes.rename(columns = {'y':'yes'}, inplace = True)
no.rename(columns = {'y':'no'}, inplace = True)

#for i in yes:
#    dt["perc_yes"][i] = yes[i]/cant_mes[i]

dt = pd.concat([yes, no], axis=1)
dt

#### Análisis General:

Realizamos una copia del dataset para poder armar un primer análisis de las variables categóricas. En este caso debemos tener en cuenta que se usó un método automatizado para codificar variables las categóricas a numéricas, por lo que los números usados pueden no ser los óptimos.

In [8]:
#Pasamos las variables categóricas a números y hacemos un pairplot:

df2 = df.copy(deep=True)

cols = df2.select_dtypes(include=["category"]).columns

df2[cols] = df2[cols].apply(lambda x: x.cat.codes)
df2


Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,y
0,49,1,1,2,1,0,0,0,7,4,227,4,999,0,1,0
1,37,2,1,6,0,0,0,1,7,4,202,2,999,1,0,0
2,78,5,1,0,0,0,0,0,3,1,1148,1,999,0,1,1
3,36,0,1,6,0,2,0,1,6,1,120,2,999,0,1,0
4,59,5,0,6,0,0,0,0,4,3,368,2,999,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32945,28,7,2,3,0,2,0,0,3,3,192,1,999,0,1,0
32946,52,9,1,5,0,2,0,0,7,0,64,1,999,1,0,0
32947,54,0,1,2,0,0,2,0,3,1,131,4,999,0,1,0
32948,29,0,1,6,0,0,0,1,6,0,165,1,999,0,1,0


In [None]:
#Generamos el pairplot:

sns.set()
sns.pairplot(df2.sample(10000), corner=True, hue="y", kind="kde")
plt.show()


**Precaución:** Para poder graficar las relaciones, dado las limitaciónes de Google Colab, tuvimos que seleccionar un sample aleatorio de 10.000 registros.

### Próximos objetivos:

Luego de realizar este análisis se procederá a realizar el entrenamiento de un algoritmo de Machine Learning, de forma de que podamos realizar la clasificación de un registro de clientes secundario (Dataset de testeo). 

## Segunda Entrega:

Para poder determinar de forma clara que clientes tienene mayor probabilidad de irse vamos a entrenar un conjunto de algoritmos de Machine Learning, los cuales luego evaluaremos para quedarnos con el mejor.

In [8]:
#Libraries necesarias

from pycaret.classification import *

In [9]:
#Iniciamos el entorno de aprendizaje:

modelos_clasif = setup(data = df2, target = "y")

Unnamed: 0,Description,Value
0,session_id,438
1,Target,y
2,Target Type,Binary
3,Label Encoded,
4,Original Data,"(32950, 16)"
5,Missing Values,False
6,Numeric Features,14
7,Categorical Features,1
8,Ordinal Features,False
9,High Cardinality Features,False


In [10]:
#Comparamos los diferentes modelos:

compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
lightgbm,Light Gradient Boosting Machine,0.9102,0.9277,0.4809,0.6395,0.5488,0.5001,0.5064,0.137
gbc,Gradient Boosting Classifier,0.9098,0.924,0.4397,0.6524,0.525,0.4773,0.4888,0.954
xgboost,Extreme Gradient Boosting,0.909,0.9222,0.4794,0.6307,0.5445,0.495,0.5009,1.068
catboost,CatBoost Classifier,0.9089,0.9289,0.4668,0.6344,0.5375,0.4883,0.4955,6.294
rf,Random Forest Classifier,0.9063,0.9179,0.3946,0.6418,0.4885,0.4402,0.4561,0.649
lr,Logistic Regression,0.904,0.8888,0.3404,0.6456,0.4453,0.3983,0.423,1.8
lda,Linear Discriminant Analysis,0.903,0.8877,0.4003,0.6109,0.483,0.4321,0.4442,0.06
ada,Ada Boost Classifier,0.9029,0.9125,0.377,0.619,0.4684,0.4185,0.4342,0.315
ridge,Ridge Classifier,0.902,0.0,0.2896,0.6548,0.4007,0.3561,0.3918,0.031
et,Extra Trees Classifier,0.9016,0.905,0.2957,0.6458,0.4053,0.3596,0.3926,0.655


LGBMClassifier(boosting_type='gbdt', class_weight=None, colsample_bytree=1.0,
               importance_type='split', learning_rate=0.1, max_depth=-1,
               min_child_samples=20, min_child_weight=0.001, min_split_gain=0.0,
               n_estimators=100, n_jobs=-1, num_leaves=31, objective=None,
               random_state=438, reg_alpha=0.0, reg_lambda=0.0, silent='warn',
               subsample=1.0, subsample_for_bin=200000, subsample_freq=0)

Como podemos ver, aunque tengan una muy buena puntuación AUC se obserba que ninguno de los modelos tiene una puntuacion de recall particularmente buena. 

Por obtener mejores puntuaciones, vamos a elegir el modelo "Light Gradient Boosting Machine".

In [9]:
setup(data = df2, target = "y")

NameError: name 'setup' is not defined

In [None]:
lightgbm = create_model("lightgbm")

In [None]:
tuned_light = tune_model(lightgbm, n_iter=100, optimize="recall")

Al hacer el entrenamiento y posterior afinacion de uno de los modelos observamos que las puntuaciones del modelo inicialmente planteado son ligeramente mejores que las puntuaciones de los modelos afinados. Buscando un poco de información descubrimos que esto podia pasar y que ajustando los parámetros de la funcion "tune_model()" podiamos intentar mejorar el proceso de afinado: seleccionando el puntaje de Recall como el que queremos optimizar (optimize="recall) y aumentando el número de iteraciones (n_iter=1000), pero los resultados obtenidos son solo ligeramente mejores que en el caso anterior y requieren tiempos de cómputo de hasta 40 minutos.

Teniendo en cuenta los resultados obtenidos podemos simplemente quedarnos con los modelos iniciales.

Veamos cuales son los resultados si usamos los algoritmo de sklearn vistos: 

In [11]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import confusion_matrix, plot_confusion_matrix
from sklearn.model_selection import StratifiedKFold

In [17]:
X = df2.drop("y",axis=1).values
y = df2["y"].values
kf = KFold(n_splits=6, shuffle=True, random_state=42)
kf.get_n_splits(X)

6

In [25]:
#Decision Tree Classifier:

recall_DT = {"train":[], "test":[]}

for train_index, test_index in kf.split(X):
  X_train, X_test = X[train_index], X[test_index] #Definimos los datasets a usar para validación cruzada.
  y_train, y_test = y[train_index], y[test_index]

  modelo = DecisionTreeClassifier(max_depth = 5, random_state=0)
  modelo.fit(X_train, y_train)
  
  y_pred_train = modelo.predict(X_train)
  y_pred_test = modelo.predict(X_test)
  
  recall_DT["train"].append(recall_score(y_train, y_pred_train))
  recall_DT["test"].append(recall_score(y_test, y_pred_test))

train_recall = np.mean(recall_DT["train"])
test_recall = np.mean(recall_DT["test"])

print(f"Recall promedio del conjunto de entrenamiento: {train_recall}\nRecall promedio del conjunto de testeo: {test_recall}")

Recall promedio del conjunto de entrenamiento: 0.38720802519382896
Recall promedio del conjunto de testeo: 0.3714100882902323


In [20]:
#K-Neighbours Classifier:

recall_KNN = {"train":[], "test":[]}

for train_index, test_index in kf.split(X):
  X_train, X_test = X[train_index], X[test_index] #Definimos los datasets a usar para validación cruzada.
  y_train, y_test = y[train_index], y[test_index]

  modelo = KNeighborsClassifier(n_neighbors=5)
  modelo.fit(X_train, y_train)
  
  y_pred_train = modelo.predict(X_train)
  y_pred_test = modelo.predict(X_test)
  
  recall_KNN["train"].append(recall_score(y_train, y_pred_train))
  recall_KNN["test"].append(recall_score(y_test, y_pred_test))

train_recall = np.mean(recall_KNN["train"])
test_recall = np.mean(recall_KNN["test"])

print(f"Recall promedio del conjunto de entrenamiento: {train_recall}\nRecall promedio del conjunto de testeo: {test_recall}")

Recall promedio del conjunto de entrenamiento: 0.4764692793993525
Recall promedio del conjunto de testeo: 0.3804709213956146


In [21]:
#Random Forest Classifier

recall_RF = {"train":[], "test":[]}

for train_index, test_index in kf.split(X):
  X_train, X_test = X[train_index], X[test_index] 
  y_train, y_test = y[train_index], y[test_index] #Definimos los datasets a usar para validación cruzada.

  modelo = RandomForestClassifier(max_depth = 6)
  modelo.fit(X_train, y_train)

  y_pred_train = modelo.predict(X_train)
  y_pred_test = modelo.predict(X_test)
    
  recall_RF["train"].append(recall_score(y_train, y_pred_train))
  recall_RF["test"].append(recall_score(y_test, y_pred_test))

train_recall = np.mean(recall_RF["train"])
test_recall = np.mean(recall_RF["test"])

print(f"Recall promedio del conjunto de entrenamiento: {train_recall}\nRecall promedio del conjunto de testeo: {test_recall}")

Recall promedio del conjunto de entrenamiento: 0.20182709634258367
Recall promedio del conjunto de testeo: 0.18738149122880352


In [24]:
# Logistic Regresion

recall_LR = {"train":[], "test":[]}

for train_index, test_index in kf.split(X):
  X_train, X_test = X[train_index], X[test_index] 
  y_train, y_test = y[train_index], y[test_index] #Definimos los datasets a usar para validación cruzada.

  modelo = LogisticRegression()
  modelo.fit(X_train, y_train)

  y_pred_train = modelo.predict(X_train)
  y_pred_test = modelo.predict(X_test)
    
  recall_LR["train"].append(recall_score(y_train, y_pred_train))
  recall_LR["test"].append(recall_score(y_test, y_pred_test))

train_recall = np.mean(recall_LR["train"])
test_recall = np.mean(recall_LR["test"])

print(f"Recall promedio del conjunto de entrenamiento: {train_recall}\nRecall promedio del conjunto de testeo: {test_recall}")

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Recall promedio del conjunto de entrenamiento: 0.330888877057171
Recall promedio del conjunto de testeo: 0.32517069106645974


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Como podemos ver, todos los modelos tienen el mismo problema: las puntuaciones de Accuracy y AUC son muy buenas pero las de Recall son demasiado bajas. Podriamos tratar de hacer un proceso de clustering previo y luego entrenar el modelo sobre cada cluster; dejamos escrito el código necesario para hacer este proceso:

In [None]:
#Hacemos las predicciones con el modelo

res_class1 = predict_model(lightgbm, data = df2)
res_class1

In [None]:
#Guardamos los resultados

#res_class1.to_csv("resultados_clasificacion1.csv")

In [None]:
#Libraries necesarias

from pycaret.clustering import *

In [None]:
#Definimos el dataset:

df_clusters = pd.read_csv("resultados_clasificacion1.csv")
df_clusters

In [None]:
#Hacemos el agrupamiento:

setup(data = df_clusters.drop(["y", "Label", "Score"], axis=1), normalize = True)

In [None]:
kmeans = create_model("kmeans")
plot_model(kmeans, plot="cluster")

In [None]:
#Ahora armamos un dataframe que tenga los valores separados en clusters y reevaluamos:

resultados_kmeans = assign_model(kmeans)
df_clusters["Cluster"] = resultados_kmeans["Cluster"]

df_clusters = df_clusters.drop(["Label", "Score"], axis=1)
df_clusters

In [None]:
#Expostamos el dataframe creado:

df_clusters.to_csv("resultados_clustering.csv")

In [28]:
#Ejemplo: entrenamiento de un modelo con uno de los clusters:

df_nuevo = pd.read_csv("resultados_clustering.csv")

from pycaret.classification import *

df3 = df_nuevo[df_nuevo["Cluster"] == "Cluster 2"]
setup(data= df3, target="y")
compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
gbc,Gradient Boosting Classifier,0.9121,0.9137,0.3617,0.5852,0.4463,0.4016,0.4157,0.786
lightgbm,Light Gradient Boosting Machine,0.9121,0.9124,0.386,0.5799,0.4628,0.4171,0.4277,0.098
catboost,CatBoost Classifier,0.9118,0.9159,0.3738,0.5782,0.4533,0.4078,0.4197,3.825
lr,Logistic Regression,0.908,0.8474,0.208,0.5904,0.3061,0.2691,0.3122,0.859
ada,Ada Boost Classifier,0.9079,0.9007,0.3261,0.5544,0.4098,0.3635,0.379,0.239
xgboost,Extreme Gradient Boosting,0.9073,0.9042,0.373,0.5413,0.4412,0.3926,0.4009,1.074
ridge,Ridge Classifier,0.9072,0.0,0.1514,0.6109,0.2401,0.2101,0.2702,0.031
nb,Naive Bayes,0.9069,0.8787,0.3423,0.5417,0.4192,0.3714,0.3831,0.028
rf,Random Forest Classifier,0.9069,0.9075,0.2111,0.5718,0.3071,0.2686,0.3079,0.41
lda,Linear Discriminant Analysis,0.9068,0.9031,0.4054,0.5345,0.4607,0.4108,0.4157,0.076


GradientBoostingClassifier(ccp_alpha=0.0, criterion='friedman_mse', init=None,
                           learning_rate=0.1, loss='deviance', max_depth=3,
                           max_features=None, max_leaf_nodes=None,
                           min_impurity_decrease=0.0, min_impurity_split=None,
                           min_samples_leaf=1, min_samples_split=2,
                           min_weight_fraction_leaf=0.0, n_estimators=100,
                           n_iter_no_change=None, presort='deprecated',
                           random_state=1667, subsample=1.0, tol=0.0001,
                           validation_fraction=0.1, verbose=0,
                           warm_start=False)

Aunque no esta explicito en este trabajo, se hizo el proceso de comparación de modelos en cada uno de los clusters por separado. Sin embargo, a pesar de que en uno de los 3 clusters definidos se podia entrenar un modelo que tuviera puntuaciones mejores de recall este era extremadamente pequeño a comparacion de los otros (de un total de 1226 registros solamente), por lo cual todo el proceso implicaria un gasto de recursos sin un resultado acorde.

Con todos estos datos solo podemos llegar a la conclusión de que nuestro modelo requiere mayor cantidad de datos para tratar de obtener mejores resultados.