# Laboratorio 2: Armado de un esquema de aprendizaje automático

En el laboratorio final se espera que puedan poner en práctica los conocimientos adquiridos en el curso, trabajando con un conjunto de datos de clasificación.

El objetivo es que se introduzcan en el desarrollo de un esquema para hacer tareas de aprendizaje automático: selección de un modelo, ajuste de hiperparámetros y evaluación.

El conjunto de datos a utilizar está en `./data/loan_data.csv`. Si abren el archivo verán que al principio (las líneas que empiezan con `#`) describen el conjunto de datos y sus atributos (incluyendo el atributo de etiqueta o clase).

Se espera que hagan uso de las herramientas vistas en el curso. Se espera que hagan uso especialmente de las herramientas brindadas por `scikit-learn`.

In [1]:
import numpy as np
import pandas as pd

# TODO: Agregar las librerías que hagan falta
from sklearn.model_selection import train_test_split

## Carga de datos y división en entrenamiento y evaluación

La celda siguiente se encarga de la carga de datos (haciendo uso de pandas). Estos serán los que se trabajarán en el resto del laboratorio.

In [2]:
dataset = pd.read_csv("./data/loan_data.csv", comment="#")

# División entre instancias y etiquetas
X, y = dataset.iloc[:, 1:], dataset.TARGET

# división entre entrenamiento y evaluación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

dataset.keys()

Index(['TARGET', 'LOAN', 'MORTDUE', 'VALUE', 'YOJ', 'DEROG', 'DELINQ', 'CLAGE',
       'NINQ', 'CLNO', 'DEBTINC'],
      dtype='object')


Documentación:

- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

## Ejercicio 1: Descripción de los Datos y la Tarea

Responder las siguientes preguntas:

1. ¿De qué se trata el conjunto de datos?
2. ¿Cuál es la variable objetivo que hay que predecir? ¿Qué significado tiene?
3. ¿Qué información (atributos) hay disponible para hacer la predicción?
4. ¿Qué atributos imagina ud. que son los más determinantes para la predicción?

**No hace falta escribir código para responder estas preguntas.**

1- El conjunto de datos muestra informacion de referencia y de desempeño de credito de solicitantes recientes de un banco a los cuales se les otorgaron lineas de credito de equidad de vivienda siguiendo las recomendaciones de la Ley de Creditos de Equidad de Vivienda.

2- La variable objetivo que hay que predecir es TARGET/BAD, la misma es una variable binaria que indica:
- 1 = El cliente incumplio o delinquio gravemente con el prestamo
- 0 = El prestamo fue reembolsado correspondientemente

3- Atributos disponibles:

 * `MORTDUE` Cantidad adeudada en la hipoteca existente $^1$
 * `VALUE`   Valor actual de la propiedad
 * `YOJ`     Años en el trabajo actual
 * `DEROG`   Numero de informes derogatorios importantes
 * `DELINQ`  Numero de lineas de credito morosas
 * `CLAGE`   Edad de la  Trade Line$^2$ mas antigua en meses
 * `NINQ`    Numero de lineas de credito recientes
 * `CLNO`    Number de lineas de credito actuales
 * `DEBTINC` Relacion deuda sobre ingresos o indice de endeudamiento

$^1$ [*MORTDUE*]( https://www.kaggle.com/datasets/ajay1735/hmeq-data/discussion/1226792)   
$^2$ [*TRADE LINE*](https://www.investopedia.com/terms/t/trade-line.asp)


4- Consideramos que los atributos mas determinantes para la prediccion son `DEBTINC`, `VALUE`, `NINQ`, `CLNO` y `DELINQ`. Estimamos que `MORTDDUE` al ser un valor relativo al valor que se paga de la propiedad tambien va a ser representativo aunque no comprendemos muy bien que implica el valor de equidad dado en funcion del valor de la propiedad y la garantia hipotecaria.

## Ejercicio 2: Predicción con Modelos Lineales

En este ejercicio se entrenarán modelos lineales de clasificación para predecir la variable objetivo.

Para ello, deberán utilizar la clase SGDClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/sgd.html
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html


### Ejercicio 2.1: SGDClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador SGDClassifier usando los valores por omisión de scikit-learn para todos los parámetros. Únicamente **fijar la semilla aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión

### Entrenamiento

In [73]:
from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(random_state=123)
sgd_clf.fit(X_train, y_train)

In [74]:
from sklearn.model_selection import cross_val_score
cross_val_score(sgd_clf, X_train, y_train, cv=5, scoring="accuracy")

array([0.81481481, 0.83501684, 0.83501684, 0.83783784, 0.83783784])

In [75]:
from sklearn.model_selection import cross_val_predict
y_train_pred_sgd = cross_val_predict(sgd_clf, X_train, y_train, cv=5)

from sklearn.metrics import confusion_matrix
confusion_matrix(y_train, y_train_pred_sgd)


array([[1234,    7],
       [ 242,    0]], dtype=int64)

In [76]:
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
print(f'Accuracy :\t{accuracy_score(y_train,y_train_pred_sgd)}')
print(f'Precision :\t{precision_score(y_train, y_train_pred_sgd)}')
print(f'Recall :\t{recall_score(y_train, y_train_pred_sgd)}') 
print(f'F1 score :\t{f1_score(y_train,y_train_pred_sgd)}')

Accuracy :	0.8320971004720162
Precision :	0.0
Recall :	0.0
F1 score :	0.0


### Validacion

In [69]:
sgd_clf.predict(X_test)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [70]:
cross_val_score(sgd_clf, X_test, y_test, cv=5, scoring="accuracy")

array([0.28      , 0.17567568, 0.82432432, 0.17567568, 0.81081081])

In [71]:
y_test_pred_sgd = cross_val_predict(sgd_clf, X_test, y_test, cv=5)
confusion_matrix(y_test, y_test_pred_sgd)

array([[129, 175],
       [ 28,  39]], dtype=int64)

In [72]:
print(f'Accuracy :\t{accuracy_score(y_test,y_test_pred_sgd)}')
print(f'Precision :\t{precision_score(y_test, y_test_pred_sgd)}')
print(f'Recall :\t{recall_score(y_test, y_test_pred_sgd)}') 
print(f'F1 score :\t{f1_score(y_test,y_test_pred_sgd)}')

Accuracy :	0.4528301886792453
Precision :	0.1822429906542056
Recall :	0.582089552238806
F1 score :	0.2775800711743772


### Ejercicio 2.2: Ajuste de Hiperparámetros

Seleccionar valores para los hiperparámetros principales del SGDClassifier. Como mínimo, probar diferentes funciones de loss, tasas de entrenamiento y tasas de regularización.

Para ello, usar grid-search y 5-fold cross-validation sobre el conjunto de entrenamiento para explorar muchas combinaciones posibles de valores.

Reportar accuracy promedio y varianza para todas las configuraciones.

Para la mejor configuración encontrada, evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión

Documentación:
- https://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

### Ajuste de hiperparametros

In [11]:
from sklearn.model_selection import GridSearchCV

param_grid_sgd = [{
    'loss':['hinge', 'log_loss', 'modified_huber', 'squared_hinge', 'perceptron'],
    'penalty': ['l2', 'l1', 'elasticnet'],
    'alpha': np.linspace(0.01, 0.05, 10),
    'learning_rate' : ['optimal', 'constant', 'invscaling','adaptive'],
    'eta0': np.linspace(0.01, 0.05, 10)
}]

grid_search_sgd = GridSearchCV(sgd_clf, param_grid_sgd, cv=5, scoring="accuracy")

grid_search_sgd.fit(X_train, y_train)

In [12]:
results_df = pd.DataFrame(grid_search_sgd.cv_results_)
results_df = results_df.sort_values(by=["rank_test_score"])
results_df = results_df.set_index(
    results_df["params"].apply(lambda x: "_".join(str(val) for val in x.values()))
).rename_axis("kernel")
results_df[["params", "rank_test_score", "mean_test_score", "std_test_score"]]

Unnamed: 0_level_0,params,rank_test_score,mean_test_score,std_test_score
kernel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0.03222222222222222_0.04111111111111111_adaptive_hinge_elasticnet,"{'alpha': 0.03222222222222222, 'eta0': 0.04111...",1,0.838846,0.009284
0.03666666666666667_0.05_optimal_modified_huber_elasticnet,"{'alpha': 0.03666666666666667, 'eta0': 0.05, '...",2,0.838170,0.003502
0.01888888888888889_0.02333333333333333_constant_modified_huber_elasticnet,"{'alpha': 0.01888888888888889, 'eta0': 0.02333...",2,0.838170,0.003502
0.03666666666666667_0.027777777777777776_optimal_modified_huber_elasticnet,"{'alpha': 0.03666666666666667, 'eta0': 0.02777...",2,0.838170,0.003502
0.03666666666666667_0.03222222222222222_optimal_modified_huber_elasticnet,"{'alpha': 0.03666666666666667, 'eta0': 0.03222...",2,0.838170,0.003502
...,...,...,...,...
0.02333333333333333_0.02333333333333333_invscaling_squared_hinge_elasticnet,"{'alpha': 0.02333333333333333, 'eta0': 0.02333...",5996,0.299211,0.264572
0.05_0.014444444444444444_invscaling_squared_hinge_l2,"{'alpha': 0.05, 'eta0': 0.014444444444444444, ...",5997,0.297190,0.267234
0.014444444444444444_0.03222222222222222_invscaling_squared_hinge_l2,"{'alpha': 0.014444444444444444, 'eta0': 0.0322...",5997,0.297190,0.267234
0.01888888888888889_0.01888888888888889_invscaling_squared_hinge_elasticnet,"{'alpha': 0.01888888888888889, 'eta0': 0.01888...",5999,0.296517,0.265887


In [13]:
grid_search_sgd.best_params_

{'alpha': 0.03222222222222222,
 'eta0': 0.04111111111111111,
 'learning_rate': 'adaptive',
 'loss': 'hinge',
 'penalty': 'elasticnet'}

### Entrenamiento

In [77]:
sgd_clf = SGDClassifier(alpha =0.0322222222222, loss='hinge',\
                        penalty = 'elasticnet', learning_rate ='adaptive', eta0 = 0.04111111111111111, random_state=123)
sgd_clf.fit(X_train, y_train)

In [78]:
from sklearn.model_selection import cross_val_score
cross_val_score(sgd_clf, X_train, y_train, cv=5, scoring="accuracy")

array([0.83838384, 0.84848485, 0.82154882, 0.84121622, 0.84459459])

In [79]:
y_train_pred_sgd = cross_val_predict(sgd_clf, X_train, y_train, cv=5)

In [80]:
confusion_matrix(y_train, y_train_pred_sgd)

array([[1217,   24],
       [ 215,   27]], dtype=int64)

In [81]:
print(f'Accuracy :\t{accuracy_score(y_train,y_train_pred_sgd)}')
print(f'Precision :\t{precision_score(y_train, y_train_pred_sgd)}')
print(f'Recall :\t{recall_score(y_train, y_train_pred_sgd)}') 
print(f'F1 score :\t{f1_score(y_train,y_train_pred_sgd)}')

Accuracy :	0.8388401888064734
Precision :	0.5294117647058824
Recall :	0.1115702479338843
F1 score :	0.18430034129692835


### Validacion

In [82]:
sgd_clf.predict(X_test)

array([0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1,
       0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1,
       0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1,
       0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1,
       0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1,
       0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1,
       0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,

In [83]:
cross_val_score(sgd_clf, X_test, y_test, cv=5, scoring="accuracy")

array([0.73333333, 0.71621622, 0.83783784, 0.77027027, 0.64864865])

In [84]:
y_test_pred_sgd = cross_val_predict(sgd_clf, X_test, y_test, cv=5)

In [85]:
confusion_matrix(y_test, y_test_pred_sgd)

array([[258,  46],
       [ 50,  17]], dtype=int64)

In [86]:
print(f'Accuracy :\t{accuracy_score(y_test,y_test_pred_sgd)}')
print(f'Precision :\t{precision_score(y_test, y_test_pred_sgd)}')
print(f'Recall :\t{recall_score(y_test, y_test_pred_sgd)}') 
print(f'F1 score :\t{f1_score(y_test,y_test_pred_sgd)}')

Accuracy :	0.7412398921832885
Precision :	0.2698412698412698
Recall :	0.2537313432835821
F1 score :	0.26153846153846155


## Ejercicio 3: Árboles de Decisión

En este ejercicio se entrenarán árboles de decisión para predecir la variable objetivo.

Para ello, deberán utilizar la clase DecisionTreeClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/tree.html
  - https://scikit-learn.org/stable/modules/tree.html#tips-on-practical-use
- https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html
- https://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html

### Ejercicio 3.1: DecisionTreeClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador DecisionTreeClassifier usando los valores por omisión de scikit-learn para todos los parámetros. Únicamente **fijar la semilla aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


### Entrenamiento

In [24]:
from sklearn.tree import DecisionTreeClassifier

tree_clf = DecisionTreeClassifier(random_state=123)
tree_clf.fit(X_train, y_train)

In [25]:
cross_val_score(tree_clf, X_train, y_train, cv=5, scoring="accuracy")

array([0.88552189, 0.87542088, 0.86195286, 0.89189189, 0.88175676])

In [26]:
y_train_pred_tree = cross_val_predict(tree_clf, X_train, y_train, cv=5)
confusion_matrix(y_train, y_train_pred_tree)

array([[1163,   78],
       [ 101,  141]], dtype=int64)

In [27]:
print(f'Accuracy :\t{accuracy_score(y_train,y_train_pred_tree)}')
print(f'Precision :\t{precision_score(y_train, y_train_pred_tree)}')
print(f'Recall :\t{recall_score(y_train, y_train_pred_tree)}') 
print(f'F1 score :\t{f1_score(y_train,y_train_pred_tree)}')

Accuracy :	0.8792987188132164
Precision :	0.6438356164383562
Recall :	0.5826446280991735
F1 score :	0.6117136659436008


### Validacion

In [28]:
tree_clf.predict(X_test)

array([0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1,

In [29]:
cross_val_score(tree_clf, X_test, y_test, cv=5, scoring="accuracy")

array([0.74666667, 0.7972973 , 0.78378378, 0.83783784, 0.7972973 ])

In [30]:
y_test_pred_tree = cross_val_predict(tree_clf, X_test, y_test, cv=5)
confusion_matrix(y_test, y_test_pred_tree)

array([[271,  33],
       [ 44,  23]], dtype=int64)

In [31]:
print(f'Accuracy :\t{accuracy_score(y_test,y_test_pred_tree)}')
print(f'Precision :\t{precision_score(y_test, y_test_pred_tree)}')
print(f'Recall :\t{recall_score(y_test, y_test_pred_tree)}') 
print(f'F1 score :\t{f1_score(y_test,y_test_pred_tree)}')

Accuracy :	0.7924528301886793
Precision :	0.4107142857142857
Recall :	0.34328358208955223
F1 score :	0.37398373983739835


### Ejercicio 3.2: Ajuste de Hiperparámetros

Seleccionar valores para los hiperparámetros principales del DecisionTreeClassifier. Como mínimo, probar diferentes criterios de partición (criterion), profundidad máxima del árbol (max_depth), y cantidad mínima de samples por hoja (min_samples_leaf).

Para ello, usar grid-search y 5-fold cross-validation sobre el conjunto de entrenamiento para explorar muchas combinaciones posibles de valores.

Reportar accuracy promedio y varianza para todas las configuraciones.

Para la mejor configuración encontrada, evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


Documentación:
- https://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

### Ajuste de hiperparametros

In [89]:
param_grid_tree = [{
    'criterion':['gini', 'entropy', 'log_loss'],
    'max_depth': [1,2,3,4,5,6,7,8,9,10],
    'min_samples_leaf': [1,2,3,4,5,6,7,8,9,10],
}]

grid_search_tree = GridSearchCV(tree_clf, param_grid_tree,scoring="accuracy", cv=5)

grid_search_tree.fit(X_train, y_train)

In [90]:
results_df = pd.DataFrame(grid_search_tree.cv_results_)
results_df = results_df.sort_values(by=["rank_test_score"])
results_df = results_df.set_index(
    results_df["params"].apply(lambda x: "_".join(str(val) for val in x.values()))
).rename_axis("kernel")
results_df[["params", "rank_test_score", "mean_test_score", "std_test_score"]]

Unnamed: 0_level_0,params,rank_test_score,mean_test_score,std_test_score
kernel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
entropy_9_2,"{'criterion': 'entropy', 'max_depth': 9, 'min_...",1,0.896822,0.009774
log_loss_9_2,"{'criterion': 'log_loss', 'max_depth': 9, 'min...",1,0.896822,0.009774
gini_9_2,"{'criterion': 'gini', 'max_depth': 9, 'min_sam...",3,0.896158,0.018883
gini_10_1,"{'criterion': 'gini', 'max_depth': 10, 'min_sa...",4,0.894818,0.013659
gini_9_3,"{'criterion': 'gini', 'max_depth': 9, 'min_sam...",5,0.894811,0.023097
...,...,...,...,...
log_loss_2_2,"{'criterion': 'log_loss', 'max_depth': 2, 'min...",291,0.873910,0.005741
log_loss_2_3,"{'criterion': 'log_loss', 'max_depth': 2, 'min...",291,0.873910,0.005741
log_loss_2_4,"{'criterion': 'log_loss', 'max_depth': 2, 'min...",291,0.873910,0.005741
log_loss_2_5,"{'criterion': 'log_loss', 'max_depth': 2, 'min...",291,0.873910,0.005741


In [91]:
grid_search_tree.best_params_

{'criterion': 'entropy', 'max_depth': 9, 'min_samples_leaf': 2}

### Entrenamiento

In [51]:
tree_clf = DecisionTreeClassifier(criterion='entropy', max_depth=9, min_samples_leaf=2, random_state=123)
tree_clf.fit(X_train, y_train)

In [52]:
cross_val_score(tree_clf, X_train, y_train, cv=5, scoring="accuracy")

array([0.8956229 , 0.91245791, 0.8956229 , 0.88175676, 0.89864865])

In [53]:
y_train_pred_tree = cross_val_predict(tree_clf, X_train, y_train, cv=5)
confusion_matrix(y_train, y_train_pred_tree)

array([[1203,   38],
       [ 115,  127]], dtype=int64)

In [54]:
print(f'Accuracy :\t{accuracy_score(y_train,y_train_pred_tree)}')
print(f'Precision :\t{precision_score(y_train, y_train_pred_tree)}')
print(f'Recall :\t{recall_score(y_train, y_train_pred_tree)}') 
print(f'F1 score :\t{f1_score(y_train,y_train_pred_tree)}')

Accuracy :	0.8968307484828051
Precision :	0.7696969696969697
Recall :	0.5247933884297521
F1 score :	0.6240786240786241


### Validacion

In [55]:
tree_clf.predict(X_test)

array([0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,

In [56]:
cross_val_score(tree_clf, X_test, y_test, cv=5, scoring="accuracy")

array([0.76      , 0.82432432, 0.81081081, 0.78378378, 0.85135135])

In [57]:
y_test_pred_tree = cross_val_predict(tree_clf, X_test, y_test, cv=5)
confusion_matrix(y_test, y_test_pred_tree)

array([[275,  29],
       [ 43,  24]], dtype=int64)

In [58]:
print(f'Accuracy :\t{accuracy_score(y_test,y_test_pred_tree)}')
print(f'Precision :\t{precision_score(y_test, y_test_pred_tree)}')
print(f'Recall :\t{recall_score(y_test, y_test_pred_tree)}') 
print(f'F1 score :\t{f1_score(y_test,y_test_pred_tree)}')

Accuracy :	0.8059299191374663
Precision :	0.4528301886792453
Recall :	0.3582089552238806
F1 score :	0.39999999999999997
