# Diplomatura en ciencia de datos, aprendizaje automático y sus aplicaciones - Edición 2023 - FAMAF (UNC)

## Introducción al aprendizaje automático

### Trabajo práctico entregable - Grupo 22 - Parte 2
Armado de un esquema de aprendizaje automático

**Integrantes:**
- Chevallier-Boutell, Ignacio José
- Ribetto, Federico Daniel
- Rosa, Santiago
- Spano, Marcelo

**Seguimiento:** Meinardi, Vanesa


In [None]:
import numpy as np
import pandas as pd
import sklearn
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import tree


## Carga de datos y división en entrenamiento y evaluación

La celda siguiente se encarga de la carga de datos (haciendo uso de pandas). Estos serán los que se trabajarán en el resto del laboratorio.

In [None]:
dataset = pd.read_csv("./data/loan_data.csv", comment="#")

# División entre instancias y etiquetas
X, y = dataset.iloc[:, 1:], dataset.TARGET

# división entre entrenamiento y evaluación
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

dataset.head()


Documentación:

- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

## Ejercicio 1: Descripción de los Datos y la Tarea

Antes de responder a las preguntas, veamos la descripción del dataset.

## Loan dataset based on the Kaggle Home Equity dataset	
Available at: https://www.kaggle.com/ajay1735/hmeq-data	
	
## Context	
## -----------------------------------------------

The consumer credit department of a bank wants to automate the decisionmaking process for approval of home equity lines of credit. To do this, they will follow the recommendations of the Equal Credit Opportunity Act to create an empirically derived and statistically sound credit scoring model. The model will be based on data collected from recent applicants granted credit through the current process of loan underwriting. The model will be built from predictive modeling tools, but the created model must be sufficiently interpretable to provide a reason for any adverse actions (rejections).	

## Content	
## -----------------------------------------------

The Home Equity dataset (HMEQ) contains baseline and loan performance information for 5960 recent home equity loans. The target (BAD) is a binary variable indicating whether an applicant eventually defaulted or was seriously delinquent. This adverse outcome occurred in 1189 cases (20%). For each applicant, 12 input variables were recorded.

## Attributes	
## -----------------------------------------------

* Name:    Description.	
* TARGET:  Label. 1 = client defaulted on loan; - 0 = loan repaid.	
* LOAN:    Amount of the loan request.
* MORTDUE: Amount due on existing mortgage.	
* VALUE:   Value of current property.
* YOJ:     Years at present job.
* DEROG:   Number of major derogatory reports.	
* DELINQ:  Number of delinquent credit lines.
* CLAGE:   Age of oldest trade line in months.
* NINQ:    Number of recent credit lines.
* CLNO:    Number of credit lines.
* DEBTINC: Debt-to-income ratio.


# Ahora respondemos a las preguntas.

1. *¿De qué se trata el conjunto de datos?* El dataset proviene de Kaggle, contiene datos financieros de 5960 préstamos. La idea del departamento de créditos del banco es automatizar el proceso de toma de decisiones entrenando un modelo con este dataset.


2. *¿Cuál es la variable objetivo que hay que predecir? ¿Qué significado tiene?* La variable objetivo que hay que predecir es **Target**, la cual indica si se le va a otorgar un crédito a la persona solicitante o no.


3. *¿Qué información (atributos) hay disponible para hacer la predicción?* Las variables disponibles del dataset para hacer la predicción son:

* **LOAN**:    Variable numérica. Cantidad del préstamo.
* **MORTDUE**: Variable numérica. Lo que ya debe la persona?.	
* **VALUE**:   Variable numérica. Valor de la propiedad.
* **YOJ**:     Variable numérica. Años en el presente trabajo.
* **DEROG**:   Variable numérica. Número de reportes negativos.	
* **DELINQ**:  Variable numérica. Número de líneas crediticias delinquivas?.
* **CLAGE**:   Variable numérica. Edad de la 'trade line' (sea lo que sea esto) en meses.
* **NINQ**:    Variable numérica. Número de líneas de crédito recientes.
* **CLNO**:    Variable numérica. Número de líneas de crédito (totales?).
* **DEBTINC**: Variable numérica. tasa deuda-ingreso.


4. *¿Qué atributos imagina ud. que son los más determinantes para la predicción?* En orden de importancia: 

- **Loan**: El tamaño del préstamo tiene que ser relevante.
- **DEBTINC**: Esta variable indica directamente la cantidad real de ingresos que una persona dispone. 
- **MORTDUE**: Lo que debe la persona claramente tiene que ser relevante.\
- **YOJ**: Si bien no creo que sea tan determinante, mucho tiempo en el mismo trabajo al menos implica un flujo constante de dinero.
- **DELINQ**: Esta variable nos dice directamente cuántos créditos no pudo pagar. Tiene que ser importante.

## Ejercicio 2: Predicción con Modelos Lineales

En este ejercicio se entrenarán modelos lineales de clasificación para predecir la variable objetivo.

Para ello, deberán utilizar la clase SGDClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/sgd.html
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html


### Ejercicio 2.1: SGDClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador SGDClassifier usando los valores por omisión de scikit-learn para todos los parámetros. Únicamente **fijar la semilla aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión

### Ejercicio 2.2: Ajuste de Hiperparámetros

Seleccionar valores para los hiperparámetros principales del SGDClassifier. Como mínimo, probar diferentes funciones de loss, tasas de entrenamiento y tasas de regularización.

Para ello, usar grid-search y 5-fold cross-validation sobre el conjunto de entrenamiento para explorar muchas combinaciones posibles de valores.

Reportar accuracy promedio y varianza para todas las configuraciones.

Para la mejor configuración encontrada, evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión

Documentación:
- https://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

## Ejercicio 3: Árboles de Decisión

En este ejercicio se entrenarán árboles de decisión para predecir la variable objetivo.

Para ello, deberán utilizar la clase DecisionTreeClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/tree.html
  - https://scikit-learn.org/stable/modules/tree.html#tips-on-practical-use
- https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html
- https://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html

### Ejercicio 3.1: DecisionTreeClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador DecisionTreeClassifier usando los valores por omisión de scikit-learn para todos los parámetros. Únicamente **fijar la semilla aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


In [None]:
def compute_scores_class( y_pred , y_true ) :
    
    "defino una funcion para calcular la matriz de contingencia, y varios scores"
    
    cmatrix=sklearn.metrics.cluster.contingency_matrix( 1-y_true , 1-y_pred )
    cmatrix_norm = cmatrix/np.sum(cmatrix)

    tp = cmatrix_norm[0,0]
    fp = cmatrix_norm[1,0]
    tn = cmatrix_norm[1,1]
    fn = cmatrix_norm[0,1]
    n  = np.sum( cmatrix_norm ) #Esto deberia dar siempre 1 si la matriz esta normalizada. 

    model_pod = tp / ( fn + tp )
    model_far = fp / ( tp + fp )
    model_bias= ( tp + fp ) / ( tp + fn )
    model_csi = tp / ( tp + fp + fn )
    model_random_hits = ((tp+fp)*(tp+fn))/n
    model_ets = ( tp - model_random_hits ) / ( tp + fp + fn - model_random_hits )

    return cmatrix, model_pod , model_far , model_bias , model_csi , model_ets 



In [None]:
"Defino mis predictores"

predictores = ["rh", "windspeed"]

# los datos deben estar en arrays
x_values = np.array([data[x] for x in predictores], dtype=object).transpose()
y_values = data["niebla"]

#Removemos los datos faltantes . Para eso:
#Generamos una mascara que es True para los valores en los que algun predictor es faltante 
#o bien el target es faltante. 
missing_data_mask = np.any( x_values == missing_value , axis = 1 )
missing_data_mask[ y_values == missing_value ] = True

x_values = x_values[ ~missing_data_mask ]
y_values = y_values[ ~missing_data_mask ]

# separamos los datos en entrenamiento (train) y testeo (testeo)
x_train, x_test, y_train, y_test = train_test_split(x_values, y_values,
                                                    test_size = 0.2,shuffle=False)

In [None]:
"Entreno el arbol:"

tree_niebla = DecisionTreeClassifier(max_depth = depth,splitter='best')


### Ejercicio 3.2: Ajuste de Hiperparámetros

Seleccionar valores para los hiperparámetros principales del DecisionTreeClassifier. Como mínimo, probar diferentes criterios de partición (criterion), profundidad máxima del árbol (max_depth), y cantidad mínima de samples por hoja (min_samples_leaf).

Para ello, usar grid-search y 5-fold cross-validation sobre el conjunto de entrenamiento para explorar muchas combinaciones posibles de valores.

Reportar accuracy promedio y varianza para todas las configuraciones.

Para la mejor configuración encontrada, evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


Documentación:
- https://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html