# Paso 1.
# Realice la limpieza de los datasets:
# - Renombre la columna "default payment next month" a "default".
# - Remueva la columna "ID". 
# - Elimine los registros con informacion no disponible. WARNING. A qué se refiere?
# - Para la columna EDUCATION, valores > 4 indican niveles superiores de educación, agrupe estos valores en la categoría "others".
# - Renombre la columna "default payment next month" a "default"
# - Remueva la columna "ID".

In [1]:
import pandas as pd  #  type: ignore
import numpy as np

# Cargar los datos
train_data = pd.read_csv(
    "../files/input/train_data.csv.zip",
    compression="zip",
)
#train_data.head()

test_data = pd.read_csv(
    "../files/input/test_data.csv.zip",
    compression="zip",
)
#test_data.head()

# Función para limpiar los datasets
def clean_dataset(data):
    # Renombrar la columna 'default payment next month' a 'default'
    data = data.rename(columns={"default payment next month": "default"})
    # Eliminar la columna 'ID'
    if "ID" in data.columns:
        data = data.drop(columns=["ID"])
    
    # Convertir valores no válidos a NaN
    data['EDUCATION'] = data['EDUCATION'].apply(lambda x: x if x > 0 else np.nan)
    data['MARRIAGE'] = data['MARRIAGE'].apply(lambda x: x if x > 0 else np.nan)

    # Agrupar valores mayores a 4 en la columna 'EDUCATION' como "others" (valor 4)
    data['EDUCATION'] = data['EDUCATION'].apply(lambda x: 4 if x > 4 else x)
    
    # Validación explícita: Imprimir valores únicos
    print("Valores únicos en 'EDUCATION' después de agrupar mayores a 4:")
    print(data['EDUCATION'].unique())
    
    # Eliminar registros con valores faltantes
    data = data.dropna()

    # Validación final: Asegurarnos de que no haya valores mayores a 4
    if (data['EDUCATION'] > 4).any():
        print("Error: Existen valores mayores a 4 en 'EDUCATION'")
    else:
        print("Limpieza de 'EDUCATION' completada correctamente.")
    
    return data

# Limpiar los datasets
train_data = clean_dataset(train_data)
test_data = clean_dataset(test_data)

# Confirmar limpieza completa
print("Valores únicos en 'EDUCATION' después de la limpieza final para train_data:")
print(train_data['EDUCATION'].unique())
print("Valores únicos en 'EDUCATION' después de la limpieza final para test_data:")
print(test_data['EDUCATION'].unique())


#train_data.head()
#test_data.head()



Valores únicos en 'EDUCATION' después de agrupar mayores a 4:
[ 3.  2.  1.  4. nan]
Limpieza de 'EDUCATION' completada correctamente.
Valores únicos en 'EDUCATION' después de agrupar mayores a 4:
[ 2.  3.  1.  4. nan]
Limpieza de 'EDUCATION' completada correctamente.
Valores únicos en 'EDUCATION' después de la limpieza final para train_data:
[3. 2. 1. 4.]
Valores únicos en 'EDUCATION' después de la limpieza final para test_data:
[2. 3. 1. 4.]


# Paso 2.
# Divida los datasets en x_train, y_train, x_test, y_test.

In [2]:
# Crear copias de los datasets originales para trabajar
train_data_copy = train_data.copy()
test_data_copy = test_data.copy()

# Dividir los datos en X (características) e y (variable objetivo)
# Para el dataset de entrenamiento
X_train = train_data_copy.drop(columns=["default"])  # Todas las columnas excepto la columna objetivo
y_train = train_data_copy["default"]  # Solo la columna objetivo, que es default

# Para el dataset de prueba
X_test = test_data_copy.drop(columns=["default"])  # Todas las columnas excepto la columna objetivo
y_test = test_data_copy["default"]  # Solo la columna objetivo, que es default

print("Datos divididos:")
print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"X_test: {X_test.shape}, y_test: {y_test.shape}")

# Verificar valores faltantes en X_train y X_test
print("Valores faltantes en X_train:")
print(X_train.isnull().sum())
print("Valores faltantes en X_test:")
print(X_test.isnull().sum())

print(X_train.dtypes)
print(X_test.dtypes)

Datos divididos:
X_train: (20953, 23), y_train: (20953,)
X_test: (8979, 23), y_test: (8979,)
Valores faltantes en X_train:
LIMIT_BAL    0
SEX          0
EDUCATION    0
MARRIAGE     0
AGE          0
PAY_0        0
PAY_2        0
PAY_3        0
PAY_4        0
PAY_5        0
PAY_6        0
BILL_AMT1    0
BILL_AMT2    0
BILL_AMT3    0
BILL_AMT4    0
BILL_AMT5    0
BILL_AMT6    0
PAY_AMT1     0
PAY_AMT2     0
PAY_AMT3     0
PAY_AMT4     0
PAY_AMT5     0
PAY_AMT6     0
dtype: int64
Valores faltantes en X_test:
LIMIT_BAL    0
SEX          0
EDUCATION    0
MARRIAGE     0
AGE          0
PAY_0        0
PAY_2        0
PAY_3        0
PAY_4        0
PAY_5        0
PAY_6        0
BILL_AMT1    0
BILL_AMT2    0
BILL_AMT3    0
BILL_AMT4    0
BILL_AMT5    0
BILL_AMT6    0
PAY_AMT1     0
PAY_AMT2     0
PAY_AMT3     0
PAY_AMT4     0
PAY_AMT5     0
PAY_AMT6     0
dtype: int64
LIMIT_BAL      int64
SEX            int64
EDUCATION    float64
MARRIAGE     float64
AGE            int64
PAY_0          int64
PAY_2 

In [3]:
# Revisar los valores de las Columnas categóricas
categorical_columns = ["SEX", "EDUCATION", "MARRIAGE"]

# Revisar valores únicos en X_train
print("Valores únicos en X_train:")
for col in categorical_columns:
    print(f"{col}: {X_train[col].unique()}")

# Revisar valores únicos en X_test
print("\nValores únicos en X_test:")
for col in categorical_columns:
    print(f"{col}: {X_test[col].unique()}")

Valores únicos en X_train:
SEX: [1 2]
EDUCATION: [3. 2. 1. 4.]
MARRIAGE: [1. 2. 3.]

Valores únicos en X_test:
SEX: [2 1]
EDUCATION: [2. 3. 1. 4.]
MARRIAGE: [2. 3. 1.]


# Paso 3.
# Cree un pipeline para el modelo de clasificación. Este pipeline debe
# contener las siguientes capas:
# - Transforma las variables categoricas usando el método
#   one-hot-encoding.
# - Ajusta un modelo de bosques aleatorios (rando forest).

In [4]:
from sklearn.compose import make_column_transformer
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestClassifier

# Definir las columnas categóricas (ajusta según el dataset)
categorical = ["SEX", "EDUCATION", "MARRIAGE"]

# Crear el transformador para las variables categóricas usando `make_column_transformer`
preprocessor = make_column_transformer(
    (OneHotEncoder(handle_unknown="ignore"), categorical),  # One-hot encoding para categóricas
    remainder="passthrough"  # Mantener las demás columnas
)

# Configurar el modelo de Random Forest 
random_forest_model = RandomForestClassifier(
    n_estimators=150,        # Más árboles para explorar opciones
    max_features="sqrt",     # Considerar la raíz cuadrada de características en cada división
    min_samples_split=5,     # Aumentar el mínimo para dividir un nodo
    random_state=42          # Asegurar reproducibilidad
)

# Crear el pipeline usando `make_pipeline`
pipeline = make_pipeline(
    preprocessor,           # Paso de preprocesamiento
    random_forest_model     # Paso de clasificación
)

print("Pipeline creado con éxito:")

Pipeline creado con éxito:


# Paso 4.
# Optimice los hiperparametros del pipeline usando validación cruzada.
# Use 10 splits para la validación cruzada. Use la función de precision
# balanceada para medir la precisión del modelo.

In [25]:
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import make_scorer, balanced_accuracy_score

# Definir el espacio de búsqueda de hiperparámetros
param_grid = {
    "randomforestclassifier__n_estimators": [199,200,201],  # Número de árboles
    "randomforestclassifier__max_depth": [44, 45, 46],      # Profundidad máxima de los árboles
    "randomforestclassifier__min_samples_split": [8],  # Mínimo de muestras para dividir un nodo
    "randomforestclassifier__max_features": ["sqrt"]  # Características consideradas en cada división
}

# Crear el evaluador de precisión balanceada
scorer = make_scorer(balanced_accuracy_score)

# Configurar la búsqueda de hiperparámetros con validación cruzada
grid_search = GridSearchCV(
    estimator=pipeline,       # El pipeline definido previamente
    param_grid=param_grid,    # Espacio de búsqueda
    scoring=scorer,           # Métrica de evaluación
    cv=10,                    # Número de splits para validación cruzada
    n_jobs=-1,                # Usar todos los núcleos disponibles
    verbose=1                 # Nivel de detalle durante la búsqueda
)

# Ejecutar la búsqueda de hiperparámetros
grid_search.fit(X_train, y_train)

# Imprimir los resultados
print("Mejores hiperparámetros encontrados:")
print(grid_search.best_params_)
print(f"Mejor puntuación de validación: {grid_search.best_score_:.4f}")

# Actualizar el pipeline con los mejores parámetros encontrados
best_pipeline = grid_search.best_estimator_

#Nota: al correrlo la primera vez obtuve: Mejores hiperparámetros encontrados:
# {'randomforestclassifier__max_depth': 20, 
# 'randomforestclassifier__max_features': 'sqrt', 
# 'randomforestclassifier__min_samples_split': 5, 
# 'randomforestclassifier__n_estimators': 200}
# Mejor puntuación de validación: 0.6579
# A partir de acá voy a hacer más validaciones

#2do intento
# Fitting 10 folds for each of 6 candidates, totalling 60 fits
# Mejores hiperparámetros encontrados:
# {'randomforestclassifier__max_depth': 40, 
# 'randomforestclassifier__max_features': 'sqrt', 
# 'randomforestclassifier__min_samples_split': 5, 
# 'randomforestclassifier__n_estimators': 200}
# Mejor puntuación de validación: 0.6585

#A partir de acá, me tocó ensayar diferentes párametros


Fitting 10 folds for each of 9 candidates, totalling 90 fits
Mejores hiperparámetros encontrados:
{'randomforestclassifier__max_depth': 44, 'randomforestclassifier__max_features': 'sqrt', 'randomforestclassifier__min_samples_split': 8, 'randomforestclassifier__n_estimators': 200}
Mejor puntuación de validación: 0.6568


# Paso 5.
# Guarde el modelo (comprimido con gzip) como "files/models/model.pkl.gz".
# Recuerde que es posible guardar el modelo comprimido usanzo la libreria gzip.

In [26]:
import os
import pickle
import gzip

# Definir la ruta del directorio y archivo
dir_path = '../files/models'
model_path = '../files/models/model.pkl.gz'

# Crear el directorio si no existe
os.makedirs(dir_path, exist_ok=True)

# Guardar el objeto `grid_search` comprimido con gzip
with gzip.open(model_path, 'wb') as f:
    pickle.dump(grid_search, f)

print(f"Modelo guardado exitosamente en {model_path}")

Modelo guardado exitosamente en ../files/models/model.pkl.gz


# Paso 6.
# Calcule las metricas de precision, precision balanceada, recall,
# y f1-score para los conjuntos de entrenamiento y prueba.
# Guardelas en el archivo files/output/metrics.json. Cada fila
# del archivo es un diccionario con las metricas de un modelo.
# Este diccionario tiene un campo para indicar si es el conjunto
# de entrenamiento o prueba. Por ejemplo:
#
# {'dataset': 'train', 'precision': 0.8, 'balanced_accuracy': 0.7, 'recall': 0.9, 'f1_score': 0.85}
# {'dataset': 'test', 'precision': 0.7, 'balanced_accuracy': 0.6, 'recall': 0.8, 'f1_score': 0.75}
#

In [27]:
import json
from sklearn.metrics import precision_score, recall_score, f1_score, balanced_accuracy_score
import os

# Asegurarnos de usar el mejor modelo encontrado
final_model = grid_search.best_estimator_

# Realizar predicciones
y_train_pred = final_model.predict(X_train)
y_test_pred = final_model.predict(X_test)

# Calcular métricas para el conjunto de entrenamiento
train_metrics = {
    'type': 'metrics',
    'dataset': 'train',
    'precision': precision_score(y_train, y_train_pred),
    'balanced_accuracy': balanced_accuracy_score(y_train, y_train_pred),
    'recall': recall_score(y_train, y_train_pred),
    'f1_score': f1_score(y_train, y_train_pred)
}

# Calcular métricas para el conjunto de prueba
test_metrics = {
    'type': 'metrics',
    'dataset': 'test',
    'precision': precision_score(y_test, y_test_pred),
    'balanced_accuracy': balanced_accuracy_score(y_test, y_test_pred),
    'recall': recall_score(y_test, y_test_pred),
    'f1_score': f1_score(y_test, y_test_pred)
}

# Definir la ruta del archivo de salida
output_dir = "../files/output"
output_path = os.path.join(output_dir, "metrics.json")

# Crear las carpetas necesarias si no existen
os.makedirs(output_dir, exist_ok=True)

# Guardar las métricas en un archivo JSON
with open(output_path, 'w') as f:
    json.dump(train_metrics, f)
    f.write("\n")
    json.dump(test_metrics, f)

print(f"Métricas guardadas exitosamente en {output_path}")

Métricas guardadas exitosamente en ../files/output\metrics.json


# Paso 7.
# Calcule las matrices de confusion para los conjuntos de entrenamiento y
# prueba. Guardelas en el archivo files/output/metrics.json. Cada fila
# del archivo es un diccionario con las metricas de un modelo.
# de entrenamiento o prueba. Por ejemplo:
#
# {'type': 'cm_matrix', 'dataset': 'train', 'true_0': {"predicted_0": 15562, "predicte_1": 666}, 'true_1': {"predicted_0": 3333, "predicted_1": 1444}}
# {'type': 'cm_matrix', 'dataset': 'test', 'true_0': {"predicted_0": 15562, "predicte_1": 650}, 'true_1': {"predicted_0": 2490, "predicted_1": 1420}}
#

In [28]:
from sklearn.metrics import confusion_matrix
import json
import os

# Calcular las matrices de confusión
train_cm = confusion_matrix(y_train, y_train_pred)
test_cm = confusion_matrix(y_test, y_test_pred)

# Crear los diccionarios en el formato solicitado
train_cm_dict = {
    'type': 'cm_matrix',
    'dataset': 'train',
    'true_0': {
        "predicted_0": int(train_cm[0, 0]),
        "predicted_1": int(train_cm[0, 1])
    },
    'true_1': {
        "predicted_0": int(train_cm[1, 0]),
        "predicted_1": int(train_cm[1, 1])
    }
}

test_cm_dict = {
    'type': 'cm_matrix',
    'dataset': 'test',
    'true_0': {
        "predicted_0": int(test_cm[0, 0]),
        "predicted_1": int(test_cm[0, 1])
    },
    'true_1': {
        "predicted_0": int(test_cm[1, 0]),
        "predicted_1": int(test_cm[1, 1])
    }
}

# Ruta del archivo metrics.json
output_path = "../files/output/metrics.json"

# Leer el archivo existente y agregar los nuevos datos
if os.path.exists(output_path):
    with open(output_path, 'r') as f:
        existing_metrics = [json.loads(line) for line in f]
else:
    existing_metrics = []

# Agregar las matrices de confusión
existing_metrics.append(train_cm_dict)
existing_metrics.append(test_cm_dict)

# Guardar nuevamente el archivo JSON con las métricas actualizadas
with open(output_path, 'w') as f:
    for entry in existing_metrics:
        json.dump(entry, f)
        f.write("\n")

print(f"Matrices de confusión agregadas exitosamente a {output_path}")

Matrices de confusión agregadas exitosamente a ../files/output/metrics.json


In [None]:
#COMPARANDO LAS MÉTRICA
# METRICS = [
#     {
#         "type": "metrics",
#         "dataset": "train",
#         "precision": 0.944,
#         "balanced_accuracy": 0.785,
#         "recall": 0.580,
#         "f1_score": 0.719,
#     },
#     {
#         "type": "metrics",
#         "dataset": "test",
#         "precision": 0.650,
#         "balanced_accuracy": 0.673,
#         "recall": 0.401,
#         "f1_score": 0.498,
#     },
#     {
#         "type": "cm_matrix",
#         "dataset": "train",
#         "true_0": {"predicted_0": 16060, "predicted_1": None},
#         "true_1": {"predicted_0": None, "predicted_1": 2740},
#     },
#     {
#         "type": "cm_matrix",
#         "dataset": "test",
#         "true_0": {"predicted_0": 6670, "predicted_1": None},
#         "true_1": {"predicted_0": None, "predicted_1": 760},
#     },

#Resultado1
# {"type": "metrics", "dataset": "train", "precision": 0.9973238180196253, "balanced_accuracy": 0.9728577818989452, "recall": 0.9464550264550264, "f1_score": 0.9712238028016071}
# {"type": "metrics", "dataset": "test", "precision": 0.6548523206751055, "balanced_accuracy": 0.6746549141474555, "recall": 0.40713536201469047, "f1_score": 0.5021028793270786}
# {"type": "cm_matrix", "dataset": "train", "true_0": {"predicted_0": 16216, "predicted_1": 12}, "true_1": {"predicted_0": 253, "predicted_1": 4472}}
# {"type": "cm_matrix", "dataset": "test", "true_0": {"predicted_0": 6664, "predicted_1": 409}, "true_1": {"predicted_0": 1130, "predicted_1": 776}}

#Resultado2
# {"type": "metrics", "dataset": "train", "precision": 0.9975484733675062, "balanced_accuracy": 0.9733118732662731, "recall": 0.9473015873015873, "f1_score": 0.9717759444203213}
# {"type": "metrics", "dataset": "test", "precision": 0.6576271186440678, "balanced_accuracy": 0.6750083709550336, "recall": 0.40713536201469047, "f1_score": 0.5029163966299417}
# {"type": "cm_matrix", "dataset": "train", "true_0": {"predicted_0": 16217, "predicted_1": 11}, "true_1": {"predicted_0": 249, "predicted_1": 4476}}
# {"type": "cm_matrix", "dataset": "test", "true_0": {"predicted_0": 6669, "predicted_1": 404}, "true_1": {"predicted_0": 1130, "predicted_1": 776}}

#Resultado3
# param_grid = {
#     "randomforestclassifier__n_estimators": [199,200,201],  # Número de árboles
#     "randomforestclassifier__max_depth": [48, 49, 50],      # Profundidad máxima de los árboles
#     "randomforestclassifier__min_samples_split": [4,5,6],  # Mínimo de muestras para dividir un nodo
#     "randomforestclassifier__max_features": ["sqrt"]  # Características consideradas en cada división
# }
# {"type": "metrics", "dataset": "train", "precision": 0.997547926883638, "balanced_accuracy": 0.9732060531604529, "recall": 0.9470899470899471, "f1_score": 0.9716643144066877}
# {"type": "metrics", "dataset": "test", "precision": 0.6546218487394958, "balanced_accuracy": 0.6753005198819269, "recall": 0.4087093389296957, "f1_score": 0.5032299741602068}
# {"type": "cm_matrix", "dataset": "train", "true_0": {"predicted_0": 16217, "predicted_1": 11}, "true_1": {"predicted_0": 250, "predicted_1": 4475}}
# {"type": "cm_matrix", "dataset": "test", "true_0": {"predicted_0": 6662, "predicted_1": 411}, "true_1": {"predicted_0": 1127, "predicted_1": 779}}

#Resultado4
# {"type": "metrics", "dataset": "train", "precision": 0.9870515241435123, "balanced_accuracy": 0.8857168418814956, "recall": 0.7743915343915344, "f1_score": 0.8678842504743833}
# {"type": "metrics", "dataset": "test", "precision": 0.6666666666666666, "balanced_accuracy": 0.6765934003494364, "recall": 0.40818467995802726, "f1_score": 0.5063455906280507}
# {"type": "cm_matrix", "dataset": "train", "true_0": {"predicted_0": 16180, "predicted_1": 48}, "true_1": {"predicted_0": 1066, "predicted_1": 3659}}
# {"type": "cm_matrix", "dataset": "test", "true_0": {"predicted_0": 6684, "predicted_1": 389}, "true_1": {"predicted_0": 1128, "predicted_1": 778}}
