# Laboratorio 04

## Importar librerías

In [1]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
import pickle
from sklearn.metrics import precision_score
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
import json
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import MinMaxScaler
from sklearn.feature_selection import SelectKBest
import gzip
from sklearn.metrics import balanced_accuracy_score



## Paso 1: Carga y Limpieza de Datos

In [2]:
#agrupar educaciones mayores que 4 (Others)
def agrupar_educaciones(codigo_educacion):
    if codigo_educacion > 4:
        return 4
    return codigo_educacion


def cargar_limpiar_dataset(nombre_archivo):
    datos = pd.read_csv(nombre_archivo)
    
    # - Renombre la columna "default payment next month" a "default".
    datos = datos.rename(columns={"default payment next month" : "default"})

    # Remueva la columna "ID".
    datos.drop(columns=["ID"], inplace = True)

    # Elimine los registros con informacion no disponible.
    datos = datos.dropna()

    # Para la columna EDUCATION, valores > 4 indican niveles superiores de educación, agrupe estos valores en la categoría "others"
    datos["EDUCATION"] = datos["EDUCATION"].apply(agrupar_educaciones)

    return datos

datos_entrenamiento = cargar_limpiar_dataset("../files/input/train_default_of_credit_card_clients.csv")
datos_prueba = cargar_limpiar_dataset("../files/input/test_default_of_credit_card_clients.csv")

print("Datos de Entrenamiento")
display(datos_entrenamiento)

print("Datos de Prueba")
display(datos_prueba)

Datos de Entrenamiento


Unnamed: 0,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default
0,310000,1,3,1,32,0,0,0,0,0,...,84373,57779,14163,8295,6000,4000,3000,1000,2000,0
1,10000,2,3,1,49,-1,-1,-2,-1,2,...,1690,1138,930,0,0,2828,0,182,0,1
2,50000,1,2,1,28,-1,-1,-1,0,-1,...,45975,1300,43987,0,46257,2200,1300,43987,1386,0
3,80000,2,3,1,52,2,2,3,3,3,...,40748,39816,40607,3700,1600,1600,0,1600,1600,1
4,270000,1,1,2,34,1,2,0,0,2,...,22448,15490,17343,0,4000,2000,0,2000,2000,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20995,140000,2,2,1,27,2,-1,-1,-1,0,...,1580,804,728,752,800,1580,0,700,700,0
20996,130000,1,2,2,41,0,0,0,0,0,...,123107,42897,39378,4442,5200,5012,2500,5000,2000,0
20997,50000,1,3,2,23,0,0,0,0,0,...,28967,29829,30046,1973,1426,1001,1432,1062,997,0
20998,90000,2,3,2,25,0,0,0,0,0,...,5613,10113,10113,3000,3000,0,4500,0,3440,0


Datos de Prueba


Unnamed: 0,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default
0,120000,2,2,2,26,-1,2,0,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
1,20000,1,3,2,35,-2,-2,-2,-2,-1,...,0,13007,13912,0,0,0,13007,1122,0,0
2,200000,2,3,2,34,0,0,2,0,0,...,2513,1828,3731,2306,12,50,300,3738,66,0
3,250000,1,1,2,29,0,0,0,0,0,...,59696,56875,55512,3000,3000,3000,3000,3000,3000,0
4,50000,2,3,3,23,1,2,0,0,0,...,28771,29531,30211,0,1500,1100,1200,1300,1100,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8995,20000,1,2,1,44,-2,-2,-2,-2,-2,...,2882,9235,1719,2890,2720,2890,9263,1824,1701,0
8996,360000,1,1,2,35,-1,-1,-2,-2,-2,...,0,0,0,0,0,0,0,0,0,0
8997,150000,1,1,2,35,-1,-1,-1,-1,-1,...,780,0,0,9054,0,783,0,0,0,0
8998,30000,1,2,2,37,4,3,2,-1,0,...,20878,20582,19357,0,0,22000,4200,2000,3100,1


## Paso 2: Divida los datasets en x_train, y_train, x_test, y_test

In [3]:
x_train = datos_entrenamiento.drop(columns=["default"])
y_train = datos_entrenamiento["default"]

x_test = datos_prueba.drop(columns=["default"])
y_test = datos_prueba["default"]

In [4]:
print(x_train.columns)

Index(['LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_0', 'PAY_2',
       'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6'],
      dtype='object')


## Paso 3: Pipeline

In [5]:
# Cree un pipeline para el modelo de clasificación. Este pipeline debe
# contener las siguientes capas:
# - Transforma las variables categoricas usando el método
#   one-hot-encoding.
# - Descompone la matriz de entrada usando componentes principales.
#   El pca usa todas las componentes.
# - Escala la matriz de entrada al intervalo [0, 1].
# - Selecciona las K columnas mas relevantes de la matrix de entrada.
# - Ajusta una red neuronal tipo MLP.
#

In [6]:
# Transformación variables categóricas usando el método one-hot-encoding.
variables_categoricas = ["SEX", "EDUCATION", "MARRIAGE"]
variables_numericas = [col for col in x_train.columns if col not in variables_categoricas]

transformer_variables_categoricas = OneHotEncoder()
transformer_variables_numericas = "passthrough"

preprocesador = ColumnTransformer(
    transformers=[
        ("categoricas", transformer_variables_categoricas, variables_categoricas),
        ("numericas", transformer_variables_numericas, variables_numericas)
    ],
)

#Análisis PCA
pca = PCA()

#Estandarización
estandarizador = StandardScaler()

# Elección Mejores K
mejores_k = SelectKBest()

 #Crear modelo de Red Neuronal tipo MLP.
modelo = MLPClassifier()

# Pipeline completo
pipeline = Pipeline(
    steps=[
        ("preprocesador", preprocesador), 
        ("pca", pca), 
        ("estandarizador", estandarizador),
        ("mejoresK", mejores_k),
        ("MLP", modelo),     
    ]
)

# Paso 4: Optimización de Hiperparámetros

In [7]:
# Optimice los hiperparametros del pipeline usando validación cruzada.
# Use 10 splits para la validación cruzada. Use la función de precision
# balanceada para medir la precisión del modelo.


# Establecer hiperparámetros a evaluar
param_grid = [
    {
        'MLP__hidden_layer_sizes'     : [(50, 30, 40, 60)],
        'pca__n_components'           : [None],
	    'MLP__learning_rate_init'     : [0.001],
        'mejoresK__k'                 : [20],
        'MLP__alpha'                  : [0.26],
    #     'activation'             : ['relu', ],
    } 
]

# Creación malla de hiperpárametros
busqueda_malla = GridSearchCV(
    estimator=pipeline, 
    param_grid=param_grid,
    scoring="balanced_accuracy",
    cv=10,
    verbose=3,
    #n_jobs=-1,
)

# Entrenamiento de modelo
busqueda_malla.fit(x_train, y_train)

Fitting 10 folds for each of 1 candidates, totalling 10 fits
[CV 1/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.661 total time= 2.0min
[CV 2/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.642 total time= 1.9min
[CV 3/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.645 total time= 1.4min
[CV 4/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.665 total time= 1.4min
[CV 5/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.660 total time= 1.0min




[CV 6/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.628 total time= 1.1min




[CV 7/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.625 total time= 1.0min




[CV 8/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.645 total time= 1.2min
[CV 9/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.654 total time=  30.3s
[CV 10/10] END MLP__alpha=0.26, MLP__hidden_layer_sizes=(50, 30, 40, 60), MLP__learning_rate_init=0.001, mejoresK__k=20, pca__n_components=None;, score=0.663 total time=  43.5s


In [8]:
# Guardar el mejor modelo

mejor_modelo = busqueda_malla.best_estimator_
mejores_parametros = busqueda_malla.best_params_
mejor_resultado = busqueda_malla.best_score_
display("Parámetros encontrados: ", mejores_parametros)
print("Mejor resultado: ", mejor_resultado)

'Parámetros encontrados: '

{'MLP__alpha': 0.26,
 'MLP__hidden_layer_sizes': (50, 30, 40, 60),
 'MLP__learning_rate_init': 0.001,
 'mejoresK__k': 20,
 'pca__n_components': None}

Mejor resultado:  0.6486816676406036


# Paso 5: Guardar Modelo

In [9]:
with gzip.open("../files/models/model.pkl.gz", "wb") as archivo:
    pickle.dump(busqueda_malla, archivo)

# Paso 6 y 7: Cálculo Métricas y matriz de confusión

In [10]:
# Calcule las metricas de precision, precision balanceada, recall,
# y f1-score para los conjuntos de entrenamiento y prueba.
# Guardelas en el archivo files/output/metrics.json. Cada fila
# del archivo es un diccionario con las metricas de un modelo.
# Este diccionario tiene un campo para indicar si es el conjunto
# de entrenamiento o prueba.

# Calcule las matrices de confusion para los conjuntos de entrenamiento y
# prueba. Guardelas en el archivo files/output/metrics.json. Cada fila
# del archivo es un diccionario con las metricas de un modelo.
# de entrenamiento o prueba

# Función para calcular métricas
def calcular_metricas(modelo, x, y, tipo_dataset): 
    y_pred = modelo.predict(x) 
    diccionario_metricas = {
        "type" : "metrics",
        "dataset" : tipo_dataset,
        "precision" : float(precision_score(y, y_pred, zero_division=0)),
        "balanced_accuracy" : float(balanced_accuracy_score(y, y_pred)), 
        "recall" : float(recall_score(y, y_pred)), 
        "f1_score" : float(f1_score(y, y_pred)), 
    }

    return diccionario_metricas

# Función para calcular matriz de confusión
def calcular_matriz_confusion(modelo, x, y, tipo_dataset):
    matriz_con = confusion_matrix(y, modelo.predict(x))
    diccionario_matriz = {
        "type": "cm_matrix",
        "dataset": tipo_dataset,
        "true_0": {"predicted_0": int(matriz_con[0, 0]), "predicted_1": int(matriz_con[0, 1])},
        "true_1": {"predicted_0": int(matriz_con[1, 0]), "predicted_1": int(matriz_con[1, 1])},
    }
    return diccionario_matriz

# Guardar métricas y matrices de consufión
valores = [
    calcular_metricas(mejor_modelo, x_train, y_train, "train"),
    calcular_metricas(mejor_modelo, x_test, y_test, "test"),
    calcular_matriz_confusion(mejor_modelo, x_train, y_train,"train"),
    calcular_matriz_confusion(mejor_modelo, x_test, y_test, "test"),
]

# Revisar valores
display(valores)

# Guardar archivo JSON
with open("../files/output/metrics.json", "w") as archivo:
    for v in valores:
        json.dump(v, archivo)
        archivo.write("\n")

[{'type': 'metrics',
  'dataset': 'train',
  'precision': 0.75635103926097,
  'balanced_accuracy': 0.6883991350199865,
  'recall': 0.41569705944573726,
  'f1_score': 0.5365187713310581},
 {'type': 'metrics',
  'dataset': 'test',
  'precision': 0.6314387211367674,
  'balanced_accuracy': 0.6569607081302344,
  'recall': 0.37244630696699843,
  'f1_score': 0.4685337726523888},
 {'type': 'cm_matrix',
  'dataset': 'train',
  'true_0': {'predicted_0': 15640, 'predicted_1': 633},
  'true_1': {'predicted_0': 2762, 'predicted_1': 1965}},
 {'type': 'cm_matrix',
  'dataset': 'test',
  'true_0': {'predicted_0': 6676, 'predicted_1': 415},
  'true_1': {'predicted_0': 1198, 'predicted_1': 711}}]