# Laboratorio 2: Armado de un esquema de aprendizaje automático

En el laboratorio final se espera que puedan poner en práctica los conocimientos adquiridos en el curso, trabajando con un conjunto de datos de clasificación.

El objetivo es que se introduzcan en el desarrollo de un esquema para hacer tareas de aprendizaje automático: selección de un modelo, ajuste de hiperparámetros y evaluación.

El conjunto de datos a utilizar está en `./data/loan_data.csv`. Si abren el archivo verán que al principio (las líneas que empiezan con `#`) describen el conjunto de datos y sus atributos (incluyendo el atributo de etiqueta o clase).

Se espera que hagan uso de las herramientas vistas en el curso. Se espera que hagan uso especialmente de las herramientas brindadas por `scikit-learn`.

In [1]:
import numpy as np
import pandas as pd

# TODO: Agregar las librerías que hagan falta
from sklearn.model_selection import train_test_split

## Carga de datos y división en entrenamiento y evaluación

La celda siguiente se encarga de la carga de datos (haciendo uso de pandas). Estos serán los que se trabajarán en el resto del laboratorio.

In [2]:
dataset = pd.read_csv("./data/loan_data.csv", comment="#")

# División entre instancias y etiquetas
X, y = dataset.iloc[:, 1:], dataset.TARGET

# división entre entrenamiento y evaluación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)


Documentación:

- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

## Ejercicio 1: Descripción de los Datos y la Tarea

Responder las siguientes preguntas:

1. ¿De qué se trata el conjunto de datos?
2. ¿Cuál es la variable objetivo que hay que predecir? ¿Qué significado tiene?
3. ¿Qué información (atributos) hay disponible para hacer la predicción?
4. ¿Qué atributos imagina ud. que son los más determinantes para la predicción?

**No hace falta escribir código para responder estas preguntas.**

1- El conjunto de datos describe distintas caracteristicas de personas que solicitaron un credito con garantia hipotecaria. Entre esos datos, se obtiene por ejemplo, el valor adeudado de la hipoteca, el valor de la propiedad,hace cuanto tiempo estan trabajando en el mismo lugar,etc

2- La variable objetivo que hay que predecir, es la variable BAD que hace referencia a si un cliente va a ser moroso a ono. Es un valor booleado que va a tener un 1 si el cliente es moroso y un 0 si el modelo predice que va a pagar el credito

3- El monto del credito, el valor de la propiedad y si debe plata o no en la hipoteca, si la persona esta trabajando y hace cuanto, etc.

4- El monto del credito, el valor de la propiedad y si debe plata de la hipoteca.

In [3]:
dataset.iloc[:, 1:]

Unnamed: 0,LOAN,MORTDUE,VALUE,YOJ,DEROG,DELINQ,CLAGE,NINQ,CLNO,DEBTINC
0,4700,88026.0,115506.0,6.0,0.0,0.0,182.248332,0.0,27.0,29.209023
1,19300,39926.0,101208.0,4.0,0.0,0.0,140.051638,0.0,14.0,31.545694
2,5700,71556.0,79538.0,2.0,0.0,0.0,92.643085,0.0,15.0,41.210012
3,13000,44875.0,57713.0,0.0,1.0,0.0,184.990324,1.0,12.0,28.602076
4,19300,72752.0,106084.0,11.0,0.0,0.0,193.707100,1.0,13.0,30.686106
...,...,...,...,...,...,...,...,...,...,...
1849,53400,228236.0,305514.0,6.0,0.0,0.0,11.148069,0.0,2.0,34.558417
1850,53600,235895.0,299772.0,5.0,0.0,0.0,112.748282,7.0,22.0,44.945929
1851,53600,208197.0,297280.0,4.0,1.0,1.0,160.485251,2.0,29.0,41.646731
1852,65500,205156.0,290239.0,2.0,0.0,0.0,98.808206,1.0,21.0,144.189001


## Ejercicio 2: Predicción con Modelos Lineales

En este ejercicio se entrenarán modelos lineales de clasificación para predecir la variable objetivo.

Para ello, deberán utilizar la clase SGDClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/sgd.html
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html


### Ejercicio 2.1: SGDClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador SGDClassifier usando los valores por omisión de scikit-learn para todos los parámetros. Únicamente **fijar la semilla aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión

In [4]:
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import classification_report

model = SGDClassifier(random_state=0)
model.fit(X_train,y_train)
predictions=model.predict(X_test)
test_predictions=model.predict(X_train)

print('Metricas de entrenamiento')

print(classification_report(y_train, test_predictions))

print('Metricas de Test')

print(classification_report(y_test, predictions))

Metricas de entrenamiento
              precision    recall  f1-score   support

           0       0.83      1.00      0.91      1232
           1       0.00      0.00      0.00       251

    accuracy                           0.83      1483
   macro avg       0.42      0.50      0.45      1483
weighted avg       0.69      0.83      0.75      1483

Metricas de Test
              precision    recall  f1-score   support

           0       0.84      1.00      0.92       313
           1       0.00      0.00      0.00        58

    accuracy                           0.84       371
   macro avg       0.42      0.50      0.46       371
weighted avg       0.71      0.84      0.77       371



  _warn_prf(average, modifier, msg_start, len(result))


### Ejercicio 2.2: Ajuste de Hiperparámetros

Seleccionar valores para los hiperparámetros principales del SGDClassifier. Como mínimo, probar diferentes funciones de loss, tasas de entrenamiento y tasas de regularización.

Para ello, usar grid-search y 5-fold cross-validation sobre el conjunto de entrenamiento para explorar muchas combinaciones posibles de valores.

Reportar accuracy promedio y varianza para todas las configuraciones.

Para la mejor configuración encontrada, evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión

Documentación:
- https://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [5]:
from scipy import stats
param_dist = {
    'loss': [
        'hinge',        # SVM
        'log',          # logistic regression
    ],
    'learning_rate':['constant', 'optimal','adaptive'],
    'alpha': [1,5,10,50]}

In [6]:
from sklearn.model_selection import GridSearchCV

model = SGDClassifier(random_state=0, eta0=0.1)

cv = GridSearchCV(model, param_dist, scoring ='accuracy', refit=True, cv=5)
cv.fit(X, y);

In [7]:
results = cv.cv_results_

data_sdg_classifier=pd.DataFrame(results)
data_sdg_classifier.sort_values('rank_test_score')[:6]

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_alpha,param_learning_rate,param_loss,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.00738,0.003546,0.002992,0.001093,1,constant,hinge,"{'alpha': 1, 'learning_rate': 'constant', 'los...",0.832884,0.832884,0.832884,0.832884,0.835135,0.833334,0.0009,1
1,0.005987,0.002092,0.001993,5e-06,1,constant,log,"{'alpha': 1, 'learning_rate': 'constant', 'los...",0.832884,0.832884,0.832884,0.832884,0.835135,0.833334,0.0009,1
19,0.027528,0.004827,0.01057,0.000797,50,constant,log,"{'alpha': 50, 'learning_rate': 'constant', 'lo...",0.832884,0.832884,0.832884,0.832884,0.835135,0.833334,0.0009,1
18,0.008574,0.007238,0.001995,0.001545,50,constant,hinge,"{'alpha': 50, 'learning_rate': 'constant', 'lo...",0.832884,0.832884,0.832884,0.832884,0.835135,0.833334,0.0009,1
6,0.004986,0.001093,0.002794,0.000746,5,constant,hinge,"{'alpha': 5, 'learning_rate': 'constant', 'los...",0.832884,0.832884,0.832884,0.832884,0.835135,0.833334,0.0009,1
7,0.01097,0.010555,0.00379,0.002631,5,constant,log,"{'alpha': 5, 'learning_rate': 'constant', 'los...",0.832884,0.832884,0.832884,0.832884,0.835135,0.833334,0.0009,1


In [8]:
data_sdg_classifier[['param_learning_rate','param_loss','param_alpha','mean_test_score','std_test_score','rank_test_score']]

Unnamed: 0,param_learning_rate,param_loss,param_alpha,mean_test_score,std_test_score,rank_test_score
0,constant,hinge,1,0.833334,0.0009,1
1,constant,log,1,0.833334,0.0009,1
2,optimal,hinge,1,0.74361,0.173207,17
3,optimal,log,1,0.831178,0.004621,9
4,adaptive,hinge,1,0.742768,0.165499,20
5,adaptive,log,1,0.719049,0.191115,21
6,constant,hinge,5,0.833334,0.0009,1
7,constant,log,5,0.833334,0.0009,1
8,optimal,hinge,5,0.74361,0.173207,17
9,optimal,log,5,0.79452,0.072604,15


In [9]:
print('Evaluacion de conjunto de entrenamiento con el mejor modelo')
predictions=cv.best_estimator_.predict(X_train)
print(classification_report(y_train, predictions))

print('Evaluacion de conjunto de test con el mejor modelo')
predictions=cv.best_estimator_.predict(X_test)
print(classification_report(y_test, predictions))

Evaluacion de conjunto de entrenamiento con el mejor modelo
              precision    recall  f1-score   support

           0       0.83      1.00      0.91      1232
           1       0.00      0.00      0.00       251

    accuracy                           0.83      1483
   macro avg       0.42      0.50      0.45      1483
weighted avg       0.69      0.83      0.75      1483

Evaluacion de conjunto de test con el mejor modelo
              precision    recall  f1-score   support

           0       0.84      1.00      0.92       313
           1       0.00      0.00      0.00        58

    accuracy                           0.84       371
   macro avg       0.42      0.50      0.46       371
weighted avg       0.71      0.84      0.77       371



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


## Ejercicio 3: Árboles de Decisión

En este ejercicio se entrenarán árboles de decisión para predecir la variable objetivo.

Para ello, deberán utilizar la clase DecisionTreeClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/tree.html
  - https://scikit-learn.org/stable/modules/tree.html#tips-on-practical-use
- https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html
- https://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html

### Ejercicio 3.1: DecisionTreeClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador DecisionTreeClassifier usando los valores por omisión de scikit-learn para todos los parámetros. Únicamente **fijar la semilla aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


In [10]:
from sklearn.tree import DecisionTreeClassifier

model=DecisionTreeClassifier(random_state=0)
model.fit(X_train,y_train)

train_predictions_tree=model.predict(X_train)
predictions_tree=model.predict(X_test)


print('Evaluacion sobre conjunto de train')
print(classification_report(y_train, train_predictions_tree))

print('Evaluacion sobre conjunto de test')
print(classification_report(y_test, predictions_tree))

Evaluacion sobre conjunto de train
              precision    recall  f1-score   support

           0       1.00      1.00      1.00      1232
           1       1.00      1.00      1.00       251

    accuracy                           1.00      1483
   macro avg       1.00      1.00      1.00      1483
weighted avg       1.00      1.00      1.00      1483

Evaluacion sobre conjunto de test
              precision    recall  f1-score   support

           0       0.93      0.93      0.93       313
           1       0.62      0.64      0.63        58

    accuracy                           0.88       371
   macro avg       0.77      0.78      0.78       371
weighted avg       0.88      0.88      0.88       371



### Ejercicio 3.2: Ajuste de Hiperparámetros

Seleccionar valores para los hiperparámetros principales del DecisionTreeClassifier. Como mínimo, probar diferentes criterios de partición (criterion), profundidad máxima del árbol (max_depth), y cantidad mínima de samples por hoja (min_samples_leaf).

Para ello, usar grid-search y 5-fold cross-validation sobre el conjunto de entrenamiento para explorar muchas combinaciones posibles de valores.

Reportar accuracy promedio y varianza para todas las configuraciones.

Para la mejor configuración encontrada, evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


Documentación:
- https://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [11]:
param_dist_tree = {
    'criterion': [
        'entropy',      
        'gini',          
    ],
    'max_depth':[10,20,50,100,200],
    'min_samples_leaf': [1,5,10,50]}

In [12]:
model=DecisionTreeClassifier(random_state=0)
cv_tree = GridSearchCV(model, param_dist_tree, scoring ='accuracy', refit=True, cv=5)
cv_tree.fit(X, y);

In [13]:
tree_results = cv_tree.cv_results_

data_tree_classifier=pd.DataFrame(tree_results)
data_tree_classifier.sort_values('rank_test_score')[:6]

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_criterion,param_max_depth,param_min_samples_leaf,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
22,0.029918,0.013337,0.006984,0.004039,gini,10,10,"{'criterion': 'gini', 'max_depth': 10, 'min_sa...",0.859838,0.865229,0.857143,0.90566,0.864865,0.870547,0.017821,1
34,0.036502,0.007742,0.01057,0.007741,gini,100,10,"{'criterion': 'gini', 'max_depth': 100, 'min_s...",0.862534,0.862534,0.851752,0.90027,0.851351,0.865688,0.017975,2
30,0.037698,0.025004,0.01157,0.013655,gini,50,10,"{'criterion': 'gini', 'max_depth': 50, 'min_sa...",0.862534,0.862534,0.851752,0.90027,0.851351,0.865688,0.017975,2
26,0.0377,0.006895,0.006981,0.005201,gini,20,10,"{'criterion': 'gini', 'max_depth': 20, 'min_sa...",0.862534,0.862534,0.851752,0.90027,0.851351,0.865688,0.017975,2
38,0.030716,0.009533,0.004992,0.003567,gini,200,10,"{'criterion': 'gini', 'max_depth': 200, 'min_s...",0.862534,0.862534,0.851752,0.90027,0.851351,0.865688,0.017975,2
20,0.030318,0.007532,0.006583,0.003655,gini,10,1,"{'criterion': 'gini', 'max_depth': 10, 'min_sa...",0.851752,0.854447,0.862534,0.873315,0.883784,0.865166,0.011956,6


In [14]:
cv_tree.best_params_

{'criterion': 'gini', 'max_depth': 10, 'min_samples_leaf': 10}

In [15]:
data_tree_classifier[['param_criterion','param_max_depth','param_min_samples_leaf','mean_test_score','std_test_score','rank_test_score']]

Unnamed: 0,param_criterion,param_max_depth,param_min_samples_leaf,mean_test_score,std_test_score,rank_test_score
0,entropy,10,1,0.860841,0.01587,8
1,entropy,10,5,0.84629,0.022804,27
2,entropy,10,10,0.856528,0.01012,14
3,entropy,10,50,0.837659,0.01839,32
4,entropy,20,1,0.844657,0.017385,28
5,entropy,20,5,0.831719,0.024242,37
6,entropy,20,10,0.84843,0.014266,23
7,entropy,20,50,0.837659,0.01839,32
8,entropy,50,1,0.843038,0.01795,29
9,entropy,50,5,0.831719,0.024242,37


In [16]:
print('Evaluacion de conjunto de entrenamiento con el mejor modelo')
predictions=cv_tree.best_estimator_.predict(X_train)
print(classification_report(y_train, predictions))

print('Evaluacion de conjunto de test con el mejor modelo')
predictions=cv_tree.best_estimator_.predict(X_test)
print(classification_report(y_test, predictions))

Evaluacion de conjunto de entrenamiento con el mejor modelo
              precision    recall  f1-score   support

           0       0.93      0.98      0.95      1232
           1       0.88      0.61      0.72       251

    accuracy                           0.92      1483
   macro avg       0.90      0.80      0.84      1483
weighted avg       0.92      0.92      0.91      1483

Evaluacion de conjunto de test con el mejor modelo
              precision    recall  f1-score   support

           0       0.93      0.99      0.96       313
           1       0.92      0.60      0.73        58

    accuracy                           0.93       371
   macro avg       0.93      0.80      0.84       371
weighted avg       0.93      0.93      0.92       371

