# Laboratorio 2: Armado de un esquema de aprendizaje automático

En el laboratorio final se espera que puedan poner en práctica los conocimientos adquiridos en el curso, trabajando con un conjunto de datos de clasificación.

El objetivo es que se introduzcan en el desarrollo de un esquema para hacer tareas de aprendizaje automático: selección de un modelo, ajuste de hiperparámetros y evaluación.

El conjunto de datos a utilizar está en `./data/loan_data.csv`. Si abren el archivo verán que al principio (las líneas que empiezan con `#`) describen el conjunto de datos y sus atributos (incluyendo el atributo de etiqueta o clase).

Se espera que hagan uso de las herramientas vistas en el curso. Se espera que hagan uso especialmente de las herramientas brindadas por `scikit-learn`.

In [25]:
import numpy as np
import pandas as pd

from sklearn.linear_model import SGDClassifier
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from utils import plot_confusion_matrix
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier

import scipy.stats as stats

from sklearn.model_selection import train_test_split

import warnings
warnings.filterwarnings('ignore')

import matplotlib.pyplot as plt

# For plotting the classification results
from mlxtend.plotting import plot_decision_regions

## Carga de datos y división en entrenamiento y evaluación

La celda siguiente se encarga de la carga de datos (haciendo uso de pandas). Estos serán los que se trabajarán en el resto del laboratorio.

In [5]:
dataset = pd.read_csv("../data/loan_data.csv", comment="#")

# División entre instancias y etiquetas
X, y = dataset.iloc[:, 1:], dataset.TARGET

# división entre entrenamiento y evaluación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)


Documentación:

- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

## Ejercicio 1: Descripción de los Datos y la Tarea

Responder las siguientes preguntas:

1. ¿De qué se trata el conjunto de datos?
2. ¿Cuál es la variable objetivo que hay que predecir? ¿Qué significado tiene?
3. ¿Qué información (atributos) hay disponible para hacer la predicción?
4. ¿Qué atributos imagina ud. que son los más determinantes para la predicción?

**No hace falta escribir código para responder estas preguntas.**

In [6]:
X.head()

Unnamed: 0,LOAN,MORTDUE,VALUE,YOJ,DEROG,DELINQ,CLAGE,NINQ,CLNO,DEBTINC
0,4700,88026.0,115506.0,6.0,0.0,0.0,182.248332,0.0,27.0,29.209023
1,19300,39926.0,101208.0,4.0,0.0,0.0,140.051638,0.0,14.0,31.545694
2,5700,71556.0,79538.0,2.0,0.0,0.0,92.643085,0.0,15.0,41.210012
3,13000,44875.0,57713.0,0.0,1.0,0.0,184.990324,1.0,12.0,28.602076
4,19300,72752.0,106084.0,11.0,0.0,0.0,193.7071,1.0,13.0,30.686106


Clasificación del estado de los préstamos Aquí, en este cuaderno, echamos un vistazo a los datos de un banco/organización financiera de todos sus préstamos. Exploramos varias características sobre los prestatarios, como puntaje crediticio, hipoteca, ingreso anual, años de empleo y tratamos de capacitar a nuestro clasificador para predecir si el préstamo se pagará o no.

El conjunto de datos contiene información financiera de un banco/organización acerca de todos los préstamos que ha entregado. Exploraremos varias características sobre los clientes, como puntaje crediticio, hipoteca, ingreso anual, años de empleo, e intentaremos predecir si el préstamo se pagará o no. La variable a predecir (target) contiene únicamente dos valores, es decir, si el préstamo efectivamente se pagó o no.
Los atributos disponibles para ser usados en el modelo de machine learning son:
- LOAN: Monto de préstamo
- MORTDUE: Cantidad adeudada en la hipoteca existente
- VALUE: Valor actual de la propiedad
- YOJ: Cantidad de años en el actual trabajo
- DEROG: Número de informes importantes derogados
- DELINQ: Número de líneas de crédito morosas
- CLAGE: Antigüedad de la línea de crédito más antigua en meses
- NINQ: Número de lineas de crédito recientes
- CLNO: Número de líneas de crédito
- DEBTINC: Relación cuota-ingresos
  
Los atributos que creemos serán los más importantes a la hora de utilizarlos para la clasificación son DEROG, DELINQ, CLAGE y DEBTINC.

## Ejercicio 2: Predicción con Modelos Lineales

En este ejercicio se entrenarán modelos lineales de clasificación para predecir la variable objetivo.

Para ello, deberán utilizar la clase SGDClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/sgd.html
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html


### Ejercicio 2.1: SGDClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador SGDClassifier usando los valores por omisión de scikit-learn para todos los parámetros. Únicamente **fijar la semilla aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión

In [97]:
clf = SGDClassifier(random_state=0)
clf.fit(X_train, y_train)

y_train_pred = clf.predict(X_train)
y_test_pred = clf.predict(X_test)

modelos = {'Precission score': precision_score,
          'Accuracy score': accuracy_score,
          'Recall score': recall_score,
          'F1 score': f1_score}

# Reporte para train
print("Report for \033[1m Training \033[0m data")
report = classification_report(y_train,y_train_pred)
print(report)
print("Report for \033[1m Test \033[0m data")
# Reporte para test
report = classification_report(y_test,y_test_pred)
print(report)


print('Matriz de confusion \033[1mTrain\033[0m:')
print(confusion_matrix(y_train, y_train_pred))
print('Matriz de confusion \033[1mTest\033[0m:')
print(confusion_matrix(y_test, y_test_pred))

Report for [1m Training [0m data
              precision    recall  f1-score   support

           0       0.83      1.00      0.91      1232
           1       0.00      0.00      0.00       251

    accuracy                           0.83      1483
   macro avg       0.42      0.50      0.45      1483
weighted avg       0.69      0.83      0.75      1483

Report for [1m Test [0m data
              precision    recall  f1-score   support

           0       0.84      1.00      0.92       313
           1       0.00      0.00      0.00        58

    accuracy                           0.84       371
   macro avg       0.42      0.50      0.46       371
weighted avg       0.71      0.84      0.77       371

Matriz de confusion [1mTrain[0m:
[[1232    0]
 [ 251    0]]
Matriz de confusion [1mTest[0m:
[[313   0]
 [ 58   0]]


De la matriz de confusión se puede observar que todos los datos, tanto en el training set como en el test set, han sido clasificados correctamente.

### Ejercicio 2.2: Ajuste de Hiperparámetros

Seleccionar valores para los hiperparámetros principales del SGDClassifier. Como mínimo, probar diferentes funciones de loss, tasas de entrenamiento y tasas de regularización.

Para ello, usar grid-search y 5-fold cross-validation sobre el conjunto de entrenamiento para explorar muchas combinaciones posibles de valores.

Reportar accuracy promedio y varianza para todas las configuraciones.

Para la mejor configuración encontrada, evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión

Documentación:
- https://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [34]:
# Obtener la lista de parámetros para potencial optimización y sus valores por defecto
clf = SGDClassifier(random_state=0)
clf.get_params()

{'alpha': 0.0001,
 'average': False,
 'class_weight': None,
 'early_stopping': False,
 'epsilon': 0.1,
 'eta0': 0.0,
 'fit_intercept': True,
 'l1_ratio': 0.15,
 'learning_rate': 'optimal',
 'loss': 'hinge',
 'max_iter': 1000,
 'n_iter_no_change': 5,
 'n_jobs': None,
 'penalty': 'l2',
 'power_t': 0.5,
 'random_state': 0,
 'shuffle': True,
 'tol': 0.001,
 'validation_fraction': 0.1,
 'verbose': 0,
 'warm_start': False}

**Parámetros a optimizar**

learning_rate = The learning rate schedule
loss = la función de costo a utilizar
penalty: The penalty (aka regularization term) to be used. 
alpha: Constant that multiplies the regularization term. The higher the value, the stronger the regularization.
average: Computes the averaged SGD weights across all updates 


In [103]:
clf = SGDClassifier(random_state=0)

param_grid = {
    "eta0" : [0, 0.00001], # The initial learning rate needed for schemes other than 'optimal'
    "learning_rate" : ['optimal','constant','invscaling','adaptive'],
    "loss" : ["hinge", "log", "squared_hinge", "modified_huber"],
    "alpha" : [0.0001, 0.001, 0.01, 0.1],
    "penalty" : ["l2", "l1", "none", "elasticnet"],
    "l1_ratio" : [0,0.5,1],
    "average": [True, False],
}

cv = GridSearchCV(clf, param_grid, scoring='accuracy', cv=5)
cv.fit(X_train, y_train);

In [105]:
results = cv.cv_results_
df = pd.DataFrame(results)
print(df.columns)
df[['param_eta0','param_learning_rate','param_loss', 'param_alpha', 'param_penalty','param_average', 'param_l1_ratio',
    'mean_test_score', 'std_test_score', 'rank_test_score']]

Index(['mean_fit_time', 'std_fit_time', 'mean_score_time', 'std_score_time',
       'param_alpha', 'param_average', 'param_eta0', 'param_l1_ratio',
       'param_learning_rate', 'param_loss', 'param_penalty', 'params',
       'split0_test_score', 'split1_test_score', 'split2_test_score',
       'split3_test_score', 'split4_test_score', 'mean_test_score',
       'std_test_score', 'rank_test_score'],
      dtype='object')


Unnamed: 0,param_eta0,param_learning_rate,param_loss,param_alpha,param_penalty,param_average,param_l1_ratio,mean_test_score,std_test_score,rank_test_score
0,0,optimal,hinge,0.0001,l2,True,0,0.830749,0.001259,1
1,0,optimal,hinge,0.0001,l1,True,0,0.830749,0.001259,1
2,0,optimal,hinge,0.0001,none,True,0,0.830749,0.001259,1
3,0,optimal,hinge,0.0001,elasticnet,True,0,0.830749,0.001259,1
4,0,optimal,log,0.0001,l2,True,0,0.830749,0.001259,1
...,...,...,...,...,...,...,...,...,...,...
3067,0.00001,adaptive,squared_hinge,0.1,elasticnet,False,1,0.694954,0.259785,1635
3068,0.00001,adaptive,modified_huber,0.1,l2,False,1,0.812513,0.031677,1254
3069,0.00001,adaptive,modified_huber,0.1,l1,False,1,0.571057,0.318975,1788
3070,0.00001,adaptive,modified_huber,0.1,none,False,1,0.568350,0.320896,1814


In [106]:
cv.best_estimator_

SGDClassifier(average=True, eta0=0, l1_ratio=0, random_state=0)

In [107]:
cv.best_params_

{'alpha': 0.0001,
 'average': True,
 'eta0': 0,
 'l1_ratio': 0,
 'learning_rate': 'optimal',
 'loss': 'hinge',
 'penalty': 'l2'}

De los parámetros anteriores se observa que los valores por default son los óptimos, salvo la opcion 'average' que es propuesta como True luego de la optimización exhaustiva de parámetros.

In [108]:
best_model = cv.best_estimator_

best_model.fit(X_train, y_train)

y_train_pred = best_model.predict(X_train)
y_test_pred = best_model.predict(X_test)

# Reporte para train
print("Report for \033[1m Training \033[0m data")
report = classification_report(y_train,y_train_pred)
print(report)
print("Report for \033[1m Test \033[0m data")
# Reporte para test
report = classification_report(y_test,y_test_pred)
print(report)

print('Matriz de confusion train:')
print(confusion_matrix(y_train, y_train_pred))
print('Matriz de confusion test:')
print(confusion_matrix(y_test, y_test_pred))

Report for [1m Training [0m data
              precision    recall  f1-score   support

           0       0.83      1.00      0.91      1232
           1       0.00      0.00      0.00       251

    accuracy                           0.83      1483
   macro avg       0.42      0.50      0.45      1483
weighted avg       0.69      0.83      0.75      1483

Report for [1m Test [0m data
              precision    recall  f1-score   support

           0       0.84      1.00      0.92       313
           1       0.00      0.00      0.00        58

    accuracy                           0.84       371
   macro avg       0.42      0.50      0.46       371
weighted avg       0.71      0.84      0.77       371

Matriz de confusion train:
[[1232    0]
 [ 251    0]]
Matriz de confusion test:
[[313   0]
 [ 58   0]]


Los parámetros de calidad de la clasificación son idénticos a los obtenidos con los valores por default del clasificador.

## Ejercicio 3: Árboles de Decisión

En este ejercicio se entrenarán árboles de decisión para predecir la variable objetivo.

Para ello, deberán utilizar la clase DecisionTreeClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/tree.html
  - https://scikit-learn.org/stable/modules/tree.html#tips-on-practical-use
- https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html
- https://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html

### Ejercicio 3.1: DecisionTreeClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador DecisionTreeClassifier usando los valores por omisión de scikit-learn para todos los parámetros. Únicamente **fijar la semilla aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


In [111]:
clf = DecisionTreeClassifier(random_state=0)

clf.fit(X_train, y_train)

y_train_pred = clf.predict(X_train)
y_test_pred = clf.predict(X_test)

# Reporte para train
print("Report for \033[1m Training \033[0m data")
report = classification_report(y_train,y_train_pred)
print(report)
print("Report for \033[1m Test \033[0m data")
# Reporte para test
report = classification_report(y_test,y_test_pred)
print(report)
    
print('Matriz de confusion train:')
print(confusion_matrix(y_train, y_train_pred))
print('Matriz de confusion test:')
print(confusion_matrix(y_test, y_test_pred))

Report for [1m Training [0m data
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1232
           1       1.00      1.00      1.00       251

    accuracy                           1.00      1483
   macro avg       1.00      1.00      1.00      1483
weighted avg       1.00      1.00      1.00      1483

Report for [1m Test [0m data
              precision    recall  f1-score   support

           0       0.93      0.93      0.93       313
           1       0.62      0.64      0.63        58

    accuracy                           0.88       371
   macro avg       0.77      0.78      0.78       371
weighted avg       0.88      0.88      0.88       371

Matriz de confusion train:
[[1232    0]
 [   0  251]]
Matriz de confusion test:
[[290  23]
 [ 21  37]]


### Ejercicio 3.2: Ajuste de Hiperparámetros

Seleccionar valores para los hiperparámetros principales del DecisionTreeClassifier. Como mínimo, probar diferentes criterios de partición (criterion), profundidad máxima del árbol (max_depth), y cantidad mínima de samples por hoja (min_samples_leaf).

Para ello, usar grid-search y 5-fold cross-validation sobre el conjunto de entrenamiento para explorar muchas combinaciones posibles de valores.

Reportar accuracy promedio y varianza para todas las configuraciones.

Para la mejor configuración encontrada, evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


Documentación:
- https://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [112]:
# Obtener la lista de parámetros para potencial optimización y sus valores por defecto
clf = DecisionTreeClassifier(random_state=0)
clf.get_params()

{'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'random_state': 0,
 'splitter': 'best'}

In [119]:
clf = DecisionTreeClassifier(random_state=0)

param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [1,2,3],
    'min_samples_leaf': [1,2,3,4],
    'splitter' : ['best','random']
}

cv = GridSearchCV(clf, param_grid, scoring='accuracy', cv=5)
cv.fit(X_train, y_train);

In [120]:
results = cv.cv_results_
print(results.keys())
params = results['params']
mean = results['mean_test_score']
std = results['std_test_score']
rank = results['rank_test_score']

print("crit.\tdepth\t| mean\tstd\trank")
for p, m, s, r in zip(params, mean, std, rank):
    print(f"{p['criterion']}\t{p['max_depth']}\t| {m:0.2f}\t{s:0.2f}\t{r}")

dict_keys(['mean_fit_time', 'std_fit_time', 'mean_score_time', 'std_score_time', 'param_criterion', 'param_max_depth', 'param_min_samples_leaf', 'param_splitter', 'params', 'split0_test_score', 'split1_test_score', 'split2_test_score', 'split3_test_score', 'split4_test_score', 'mean_test_score', 'std_test_score', 'rank_test_score'])
crit.	depth	| mean	std	rank
gini	1	| 0.87	0.01	13
gini	1	| 0.83	0.01	41
gini	1	| 0.87	0.01	13
gini	1	| 0.83	0.01	41
gini	1	| 0.87	0.01	13
gini	1	| 0.83	0.01	41
gini	1	| 0.87	0.01	13
gini	1	| 0.83	0.01	41
gini	2	| 0.87	0.01	9
gini	2	| 0.85	0.00	27
gini	2	| 0.87	0.01	9
gini	2	| 0.85	0.00	27
gini	2	| 0.87	0.01	9
gini	2	| 0.85	0.00	27
gini	2	| 0.87	0.01	9
gini	2	| 0.85	0.00	27
gini	3	| 0.88	0.01	1
gini	3	| 0.85	0.01	25
gini	3	| 0.88	0.01	1
gini	3	| 0.85	0.01	25
gini	3	| 0.88	0.01	1
gini	3	| 0.85	0.01	39
gini	3	| 0.88	0.01	1
gini	3	| 0.85	0.01	39
entropy	1	| 0.87	0.01	13
entropy	1	| 0.83	0.01	41
entropy	1	| 0.87	0.01	13
entropy	1	| 0.83	0.01	41
entropy	1	| 0.87	

In [121]:
best_model = cv.best_estimator_

best_model.fit(X_train, y_train)

y_train_pred = best_model.predict(X_train)
y_test_pred = best_model.predict(X_test)

modelos = {'Precission score': precision_score,
          'Accuracy score': accuracy_score,
          'Recall score': recall_score,
          'F1 score': f1_score}

for model_name, model in modelos.items():
    train = model(y_train, y_train_pred)
    test = model(y_test, y_test_pred)
    print(f'Train {model_name}: {train:0.2}')
    print(f'Test {model_name}: {test:0.2}')

print('Matriz de confusion train:')
print(confusion_matrix(y_train, y_train_pred))
print('Matriz de confusion test:')
print(confusion_matrix(y_test, y_test_pred))

Train Precission score: 0.81
Test Precission score: 0.65
Train Accuracy score: 0.88
Test Accuracy score: 0.87
Train Recall score: 0.41
Test Recall score: 0.41
Train F1 score: 0.55
Test F1 score: 0.51
Matriz de confusion train:
[[1207   25]
 [ 147  104]]
Matriz de confusion test:
[[300  13]
 [ 34  24]]
