In [1]:
# Librerías estándar
import os
import gzip
import pickle
import zipfile
import json

# Manipulación y análisis de datos
import pandas as pd
import numpy as np

# Scikit-learn


from sklearn.model_selection import train_test_split, StratifiedKFold, GridSearchCV
from sklearn.preprocessing import OneHotEncoder, StandardScaler, normalize, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest, chi2, f_classif
from sklearn.metrics import (
    accuracy_score, balanced_accuracy_score, precision_score,
    recall_score, f1_score, confusion_matrix
)

# Paso 1.
 Realice la limpieza de los datasets:
 - Renombre la columna "default payment next month" a "default".
 - Remueva la columna "ID".
 - Elimine los registros con informacion no disponible.
 - Para la columna EDUCATION, valores > 4 indican niveles superiores
   de educación, agrupe estos valores en la categoría "others".
 - Renombre la columna "default payment next month" a "default" y remueva la columna "ID".
 - Divida los datasets en x_train, y_train, x_test, y_test.

In [2]:

# 1.1 Cargar los datos
train_data = pd.read_csv("../files/input/train_data.csv.zip", index_col=False, compression="zip")
test_data = pd.read_csv("../files/input/test_data.csv.zip", index_col=False, compression="zip")

# 1.2 Organizar los datasets:

def clean(df):
    df = df.rename(columns={'default payment next month': 'default'})
    df.drop('ID', axis=1, inplace=True)
    df['EDUCATION'] = df['EDUCATION'].apply(lambda x: 4 if x > 4 else x)
    df = df.query('MARRIAGE > 0 and EDUCATION > 0')
    df = df.dropna()
    return df


train_data = clean(train_data)
test_data = clean(test_data)

x_train = train_data.drop(columns=["default"])
y_train = train_data["default"]

x_test = test_data.drop(columns=["default"])
y_test = test_data["default"]



# Paso 3.
 Cree un pipeline para el modelo de clasificación. Este pipeline debe contener las siguientes capas:
- Transforma las variables categoricas usando el método
   one-hot-encoding.
 - Escala las demas variables al intervalo [0, 1].
 - Selecciona las K mejores caracteristicas.
 - Ajusta un modelo de regresion logistica.

In [3]:
# Categorías y variables numéricas
Categoria = ['SEX', 'EDUCATION', 'MARRIAGE']
numericas = [col for col in x_train.columns if col not in Categoria]

#,'PAY_0','PAY_2','PAY_3','PAY_4','PAY_5','PAY_6'

# ColumnTransformer para preprocesar los datos
transformer = ColumnTransformer(
    transformers=[
        ("ohe", OneHotEncoder(dtype=int, handle_unknown='ignore'), Categoria),
        ('num', MinMaxScaler(), numericas)
    ],
    remainder='passthrough'
)

# Selección de las K mejores variables
k_best_selector = SelectKBest(score_func=f_classif, k=1)  # Selecciona las 10 mejores variables

# Pipeline con selección de características
pipelineLogisticRegression = Pipeline(steps=[
    ('transformer', transformer),            # Preprocesamiento
    ('kbest', k_best_selector),              # Selección de K mejores variables
    ('clasi', LogisticRegression(n_jobs=-1, random_state=666,class_weight=None))  # Modelo
])

# Entrenamiento del modelo
pipelineLogisticRegression.fit(x_train, y_train)

# Optimizacion de hiperametros
- Optimice los hiperparametros del pipeline usando validación cruzada.
- Use 10 splits para la validación cruzada.
- Use la función de precision balanceada para medir la precisión del modelo.

In [4]:
param_grid = {
    'clasi__C': [1],
    'clasi__solver': ['lbfgs'],
}



grid_search = GridSearchCV(
    estimator=pipelineLogisticRegression,
    param_grid=param_grid,
    cv=10,
    scoring='balanced_accuracy',
    n_jobs=-1,
    refit=True,
    verbose=True
)
grid_search.fit(x_train, y_train)


Fitting 10 folds for each of 1 candidates, totalling 10 fits


In [5]:
print(grid_search.best_params_)

{'clasi__C': 1, 'clasi__solver': 'lbfgs'}


# Guardar el modelo
- Guarde el modelo (comprimido con gzip) como "files/models/model.pkl.gz".
- Recuerde que es posible guardar el modelo comprimido usanzo la libreria gzip.

In [6]:
os.makedirs('../files/models', exist_ok=True)

with gzip.open('../files/models/model.pkl.gz', 'wb') as file:
    pickle.dump(grid_search, file)

def cargar_modelo_y_predecir(data, modelo_path="../files/models/model.pkl.gz"):
    try:
        with gzip.open(modelo_path, "rb") as file:
            estimator = pickle.load(file)
        return estimator.predict(data)
    except FileNotFoundError:
        raise FileNotFoundError(f"No se encontró el archivo de modelo en la ruta especificada: {modelo_path}")
    except Exception as e:
        raise RuntimeError(f"Error al cargar el modelo o realizar predicciones: {e}")
    
# Uso de la función
y_train_pred = cargar_modelo_y_predecir(x_train)
y_test_pred = cargar_modelo_y_predecir(x_test)

# Calculo de metricas de precision

- Calcule las metricas de precision, precision balanceada, recall, f1-score para los conjuntos de entrenamiento y prueba.
- Guardelas en el archivo files/output/metrics.json. Cada fila del archivo es un diccionario con las metricas de un modelo.
- Este diccionario tiene un campo para indicar si es el conjunto de entrenamiento o prueba.

# Calculo Matrices de confucion 

- Calcule las matrices de confusion para los conjuntos de entrenamiento y prueba. 
- Guardelas en el archivo files/output/metrics.json. 
- Cada fila del archivo es un diccionario con las metricas de un modelo de entrenamiento o prueba. Por ejemplo:


In [7]:
import os
import json
from sklearn.metrics import accuracy_score, precision_score, balanced_accuracy_score, recall_score, f1_score, confusion_matrix

def metricas(dict_metricas):
    models_dir = '../files/output'
    os.makedirs(models_dir, exist_ok=True)

    if os.path.exists('../files/output/metrics.json'):
        with open('../files/output/metrics.json', mode='r') as file:
            if len(file.readlines()) >= 4:
                os.remove('../files/output/metrics.json')

    with open('../files/output/metrics.json', mode='a') as file:
        file.write(str(dict_metricas).replace("'", '"') + "\n")


def evaluacion(dataset, y_true, y_pred):
    accuracy = float(accuracy_score(y_true, y_pred))
    precision = float(precision_score(y_true, y_pred))
    balanced_accuracy = float(balanced_accuracy_score(y_true, y_pred))
    recall = float(recall_score(y_true, y_pred))
    f1 = float(f1_score(y_true, y_pred))
    metrics = {
        "type": "metrics",
        "dataset": dataset,
        "precision": precision,
        "balanced_accuracy": balanced_accuracy,
        "recall": recall,
        "f1_score": f1
    }

    metricas(metrics)

metrics_train = evaluacion('train', y_train, y_train_pred)
metrics_test = evaluacion('test', y_test, y_test_pred)

def matriz_confusion(dataset, y_true, y_pred):
    matriz = confusion_matrix(y_true, y_pred)
    matrix_confusion = {
        "type": "cm_matrix",
        "dataset": dataset,
        "true_0": {
            "predicted_0": int(matriz[0, 0]),
            "predicted_1": int(matriz[0, 1]),
        },
        "true_1": {
            "predicted_0": int(matriz[1, 0]),
            "predicted_1": int(matriz[1, 1])
        }
    }

    metricas(json.dumps(matrix_confusion))


metrics_train_cm = matriz_confusion('train', y_train, y_train_pred)
metrics_test_cm = matriz_confusion('test', y_test, y_test_pred)


param_grid = {
    'clasi__penalty': ['l1', 'l2', 'elasticnet', 'none'],  # Tipos de penalización
    'clasi__C': [0.1, 1, 10, 100],                        # Inverso de la regularización
    'clasi__solver': ['liblinear', 'saga'],               # Solvers compatibles
    'clasi__max_iter': [100, 200, 500]                    # Iteraciones máximas
}

param_grid = {
    'clasi__penalty': ['l1', 'l2', 'elasticnet', 'none'],  # Tipos de penalización
    'clasi__C': [0.1, 1, 10, 100],                        # Inverso de la regularización
    'clasi__solver': ['liblinear', 'saga'],               # Solvers compatibles
    'clasi__max_iter': [100, 200, 500]                    # Iteraciones máximas
}

param_grid = {
    'clasi__penalty': ['none', 'l1', 'l2', 'elasticnet'],  # Considera todas las penalizaciones posibles
    'clasi__C': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100],    # Amplía el rango de regularización
    'clasi__solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'],  # Todos los solvers compatibles
    'clasi__max_iter': [50, 100, 200, 300, 500, 1000],     # Diversidad en iteraciones máximas
    'clasi__l1_ratio': [0.0, 0.1, 0.2, 0.3, 0.5, 0.7, 0.9, 1.0],  # Rango completo para elasticnet
    'clasi__fit_intercept': [True, False],  # Ajustar o no el intercepto
    'clasi__class_weight': [None, 'balanced'],  # Peso de clases
    'clasi__tol': [1e-4, 1e-3, 1e-2, 1e-1],  # Tolerancia para la convergencia
    'clasi__dual': [False, True]  # Solo aplicable para 'liblinear'
}
