Laboratorio 2: Armado de un esquema de aprendizaje automático


In [1]:
import numpy as np
import pandas as pd

from sklearn.linear_model import SGDClassifier
from sklearn.metrics import (
    accuracy_score,
    confusion_matrix,
    f1_score,
    recall_score,
    precision_score,
)
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

from utils import display_markdown

# Carga de datos y división en entrenamiento y evaluación

La celda siguiente se encarga de la carga de datos (haciendo uso de pandas).
Estos serán los que se trabajarán en el resto del laboratorio.


In [2]:
dataset = pd.read_csv("./data/loan_data.csv", comment="#")

# División entre instancias y etiquetas
X, y = dataset.iloc[:, 1:], dataset.TARGET.to_numpy()

# división entre entrenamiento y evaluación
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=0)

# Ejercicio 1: Descripción de los Datos y la Tarea

Responder las siguientes preguntas:

1. ¿De qué se trata el conjunto de datos?
2. ¿Cuál es la variable objetivo que hay que predecir? ¿Qué significado tiene?
3. ¿Qué información (atributos) hay disponible para hacer la predicción?
4. ¿Qué atributos imagina ud. que son los más determinantes para la predicción?


## Respuestas:

**1.** El conjunto de datos contiene información de préstamos hipotecarios. Cada fila del conjunto representa un préstamo.

**2.** La variable objetivo es la variable binaria `TARGET`. Determina si el aplicante al préstamo tuvo problemas para pagar (o nunca pudo pagar, `TARGET=1`) o pagó a término (`TARGET=0`).

**3.** Tenemos los siguientes atributos para hacer la predicción:

- _LOAN_: monto solicitado por el aplicante.
- _MORTDUE_: monto que adeuda de la hipoteca actual.
- _VALUE_: valor de la propiedad actual.
- _YOJ_: años que lleva en el trabajo actual.
- _DEROG_: número de informes muy desfavorables.
- _DELINQ_: número de líneas de crédito morosas.
- _CLAGE_: cantidad de meses desde la última transacción.
- _NINQ_: Número de líneas de crédito recientes.
- _CLNO_: Número de líneas de crédito.
- _DEBTINC_: ratio de deuda a salario.

**4.** Creo que todos los atributos pueden ayudarnos en la predicción.


# Ejercicio 2: Predicción con Modelos Lineales

En este ejercicio se entrenarán modelos lineales de clasificación para predecir
 la variable objetivo.

Para ello, deberán utilizar la clase SGDClassifier de scikit-learn.

Documentación:
- https://scikit-learn.org/stable/modules/sgd.html
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html



## Ejercicio 2.1: SGDClassifier con hiperparámetros por defecto

Entrenar y evaluar el clasificador SGDClassifier usando los valores por omisión
 de scikit-learn para todos los parámetros. Únicamente **fijar la semilla
  aleatoria** para hacer repetible el experimento.

Evaluar sobre el conjunto de **entrenamiento** y sobre el conjunto de
 **evaluación**, reportando:
- Accuracy
- Precision
- Recall
- F1
- matriz de confusión


In [3]:
RANDOM_STATE = 42

model = make_pipeline(
    StandardScaler(),
    SGDClassifier(random_state=RANDOM_STATE)
)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

y_pred

array([0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,

In [4]:
display_markdown(f'* Accuracy Score: {accuracy_score(y_test, y_pred)}')
display_markdown(f'* Precision Score: {precision_score(y_test, y_pred)}')
display_markdown(f'* Recall Score: {recall_score(y_test, y_pred)}')
display_markdown(f'* F1 Score: {f1_score(y_test, y_pred)}')

* Accuracy Score: 0.8194070080862533

* Precision Score: 0.3783783783783784

* Recall Score: 0.2413793103448276

* F1 Score: 0.29473684210526313

In [5]:
matrix = confusion_matrix(y_test, y_pred)

tn, fp, fn, tp = matrix.ravel()

display_markdown(f'* True Negative: {tn}')
display_markdown(f'* False Positive: {fp}')
display_markdown(f'* False Negative: {fn}')
display_markdown(f'* True Positive: {tp}')

* True Negative: 290

* False Positive: 23

* False Negative: 44

* True Positive: 14