# **Presentación**

Para realizar el proceso completo seguiremos la siguiente metodología:

![Image of Yaktocat](https://i.imgur.com/7BLdu1L.png)

# **1. Instalación de PyCaret**

In [1]:
"CELDA N°01"
#Instalamos el PyCaret en nuestro entorno de trabajo
!pip3 install pycaret



In [2]:
"CELDA N°02"
#Habilitar los gráficos interactivos (utils) en Google Colab
from pycaret.utils import enable_colab
enable_colab()

Colab mode enabled.


# **2. Lectura de Datos**

Utilizaremos el método **get_data** de PyCaret y seleccionaremos la **data previamente guardada en PyCaret relacionada a créditos** que se llama **'credit'**

In [9]:
"CELDA N°07"
#Importamos get_data para leer el archivo credit guardado en los dataset de PyCaret
from pycaret.datasets import get_data
dataset = get_data('credit')

Unnamed: 0,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default
0,20000,2,2,1,24,2,2,-1,-1,-2,-2,3913.0,3102.0,689.0,0.0,0.0,0.0,0.0,689.0,0.0,0.0,0.0,0.0,1
1,90000,2,2,2,34,0,0,0,0,0,0,29239.0,14027.0,13559.0,14331.0,14948.0,15549.0,1518.0,1500.0,1000.0,1000.0,1000.0,5000.0,0
2,50000,2,2,1,37,0,0,0,0,0,0,46990.0,48233.0,49291.0,28314.0,28959.0,29547.0,2000.0,2019.0,1200.0,1100.0,1069.0,1000.0,0
3,50000,1,2,1,57,-1,0,-1,0,0,0,8617.0,5670.0,35835.0,20940.0,19146.0,19131.0,2000.0,36681.0,10000.0,9000.0,689.0,679.0,0
4,50000,1,1,2,37,0,0,0,0,0,0,64400.0,57069.0,57608.0,19394.0,19619.0,20024.0,2500.0,1815.0,657.0,1000.0,1000.0,800.0,0


Para realizar el entrenamiento del modelo utiizaremos el **95%** del dataset.

In [10]:
"CELDA N°08"
#Usamos el método sample para seleccionar la muestra que sí utilizaremos durante el entrenamiento
muestra = dataset.sample(frac=0.95, random_state=1)

Para realizar una posterior validación del modelo vamos a **reservar** un **5%** de la data.

In [11]:
"CELDA N°09"
#Usamos el método drop para quitar la muestra y solo quedarnos con el 5% restante
reserva = dataset.drop(muestra.index)

Reseteamos los índices de ambos dataframes y verificamos el resultado final.

In [12]:
"CELDA N°10"
#Usamos el método reset_index para resetear los índices y el método shape para una rápida verificación
muestra.reset_index(inplace=True, drop=True)
reserva.reset_index(inplace=True, drop=True)
muestra.shape, reserva.shape

((22800, 24), (1200, 24))

# **2. Seteando el Entorno de PyCaret**

Vamos a crear un **modelo supervisado** para predecir un target **binario** de **clasificación** de clientes para otorgar créditos en una financiera.

In [13]:
"CELDA N°11"
#Importamos todas las librerías relacionadas a clasificación en PyCaret
from pycaret.classification import *

Vamos a **setear** el modelo de clasificación. Los **parámetros** deben ser especificados según nuestras preferencias.

Atento durante la ejecución porque **demora algún tiempo** y puede re**querir alguna acción** del usuario para culminar el proceso. Ejemplo: presionar Enter.

Puede visualizar el detalle de todos los parámetros **de un modelo de clasificación en PyCaret** en esta [web](https://pycaret.readthedocs.io/en/latest/api/classification.html)


In [14]:
"CELDA N°12"
model_setup = setup(data=muestra, #especificar la variable donde está guardada la data total incluyendo el target
                    train_size = 0.85, #especificar el porcetaje de train, el resto será test
                    target='default', #especificar el nombre de la columna donde se ubica el target
                    session_id=1) #session_id es similar al random_state

Unnamed: 0,Description,Value
0,session_id,1
1,Target,default
2,Target Type,Binary
3,Label Encoded,"0: 0, 1: 1"
4,Original Data,"(22800, 24)"
5,Missing Values,False
6,Numeric Features,14
7,Categorical Features,9
8,Ordinal Features,False
9,High Cardinality Features,False


# **3. Comparar modelos**

Vamos a visualizar en una tabla **todos los modelos de clasificación** provistos por Pycaret y sus respectivas **métricas**.

Nuevamente existe una lista de parámetros que puede personalizar, sin embargo el **más importante** es fold para **definir el número de particiones** para KFolds durante la **validación cruzada**.

In [15]:
"CELDA N°13"
#Utilizamos la instrucción compare_models() de PyCaret para mostrar una tabla de comparación
tabla_comparativa = compare_models(fold=5)

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
lda,Linear Discriminant Analysis,0.8202,0.7646,0.376,0.6771,0.4834,0.3851,0.4096,0.356
ridge,Ridge Classifier,0.8199,0.0,0.3578,0.6879,0.4706,0.3749,0.4041,0.084
gbc,Gradient Boosting Classifier,0.8184,0.7783,0.3594,0.6779,0.4696,0.3723,0.3997,6.618
lightgbm,Light Gradient Boosting Machine,0.8178,0.7738,0.3774,0.6635,0.481,0.3805,0.4029,0.518
ada,Ada Boost Classifier,0.8158,0.7699,0.3333,0.6812,0.4475,0.3522,0.3847,1.588
rf,Random Forest Classifier,0.8138,0.7611,0.3695,0.6475,0.4704,0.3676,0.3889,3.566
et,Extra Trees Classifier,0.8061,0.7384,0.3751,0.6086,0.464,0.3537,0.3692,2.918
lr,Logistic Regression,0.776,0.6433,0.0,0.0,0.0,-0.0002,-0.0035,1.516
knn,K Neighbors Classifier,0.7475,0.599,0.1743,0.3658,0.236,0.107,0.1176,2.352
dt,Decision Tree Classifier,0.7275,0.6177,0.4172,0.3969,0.4068,0.2301,0.2302,0.44


# **4. Crear el modelo**

Una vez haya evaluado las métricas debe seleccionar el modelo y guardarlo en una variable. Es importante **especificar el nombre exacto obtenido en la tabla comparativa de modelos**.

Adicionalmente podrá visualizar el **promedio y desviación estándar** de cada partición durante el entrenamiento.

Por default la instrucción **create_model** crea **10 particiones**. Nuevamente puede especificar **fold=** para cambiar este número.

In [17]:
"CELDA N°14"
#Creamos la variable modelo_boosting con el método create_model en base al modelo gbs
modelo_boosting = create_model('gbc')

Unnamed: 0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,0.8215,0.7927,0.388,0.6747,0.4927,0.3938,0.416
1,0.8194,0.7663,0.3341,0.7039,0.4531,0.361,0.397
2,0.8173,0.7795,0.3571,0.6739,0.4669,0.369,0.3961
3,0.8189,0.7646,0.3571,0.6828,0.469,0.3725,0.4009
4,0.8354,0.7939,0.4194,0.7309,0.5329,0.4418,0.4669
5,0.8148,0.7779,0.3502,0.6638,0.4585,0.3594,0.3862
6,0.8111,0.7795,0.3295,0.656,0.4387,0.3398,0.3689
7,0.8194,0.79,0.394,0.6628,0.4942,0.3928,0.4125
8,0.808,0.7591,0.3341,0.636,0.4381,0.3356,0.3609
9,0.8291,0.7882,0.3788,0.7257,0.4977,0.4068,0.438


Adicionalmente podemos visualizar la **lista de parámetros** del modelo.

Estos parámetros son escogidos después de ejecutar la tabla comparativa.

Puedes **modificar los parámetros** dentro de create_model()

In [18]:
"CELDA N°15"
#Visualizamos los parámetros del modelo con la instrucción print especificando la variable creada
print(modelo_boosting)

GradientBoostingClassifier(ccp_alpha=0.0, criterion='friedman_mse', init=None,
                           learning_rate=0.1, loss='deviance', max_depth=3,
                           max_features=None, max_leaf_nodes=None,
                           min_impurity_decrease=0.0, min_impurity_split=None,
                           min_samples_leaf=1, min_samples_split=2,
                           min_weight_fraction_leaf=0.0, n_estimators=100,
                           n_iter_no_change=None, presort='deprecated',
                           random_state=1, subsample=1.0, tol=0.0001,
                           validation_fraction=0.1, verbose=0,
                           warm_start=False)


# **5. Mejorando el modelo**

PyCaret también permite **mejorar los hiperámetros del modelo**.

Para realizar esta tarea usa internamente el método **Random Grid Search**. Sin embargo, el usuario puede personalizar el método con el parámetro **custom_grid=**

In [19]:
boosting_mejorado = tune_model(modelo_boosting)

Unnamed: 0,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC
0,0.8209,0.7999,0.3972,0.6667,0.4978,0.3973,0.417
1,0.822,0.7645,0.3502,0.707,0.4684,0.3758,0.4093
2,0.8168,0.7741,0.3687,0.6639,0.4741,0.374,0.3977
3,0.822,0.7664,0.3802,0.6846,0.4889,0.3916,0.4165
4,0.8344,0.7994,0.4217,0.7233,0.5328,0.4405,0.4642
5,0.8194,0.7809,0.3687,0.678,0.4776,0.3798,0.4055
6,0.8111,0.7856,0.3272,0.6574,0.4369,0.3385,0.3683
7,0.822,0.7928,0.4055,0.6692,0.505,0.4044,0.4232
8,0.8086,0.7621,0.3387,0.6364,0.4421,0.3393,0.3639
9,0.8265,0.7848,0.3695,0.7175,0.4878,0.396,0.4277
