In [1]:
# Paso 1.
# Realice la limpieza de los datasets:
# - Renombre la columna "default payment next month" a "default".
# - Remueva la columna "ID".
# - Elimine los registros con informacion no disponible.
# - Para la columna EDUCATION, valores > 4 indican niveles superiores
#   de educación, agrupe estos valores en la categoría "others".
# - Renombre la columna "default payment next month" a "default"
# - Remueva la columna "ID".

In [2]:
import pandas as pd  #  type: ignore
import numpy as np

# Cargar los datos
train_data = pd.read_csv(
    "../files/input/train_data.csv.zip",
    compression="zip",
)
#train_data.head()

test_data = pd.read_csv(
    "../files/input/test_data.csv.zip",
    compression="zip",
)
#test_data.head()

# Función para limpiar los datasets
def clean_dataset(data):
    # Renombrar la columna 'default payment next month' a 'default'
    data = data.rename(columns={"default payment next month": "default"})
    # Eliminar la columna 'ID'
    if "ID" in data.columns:
        data = data.drop(columns=["ID"])
    
    # Convertir valores no válidos a NaN
    data['EDUCATION'] = data['EDUCATION'].apply(lambda x: x if x > 0 else np.nan)
    data['MARRIAGE'] = data['MARRIAGE'].apply(lambda x: x if x > 0 else np.nan)

    # Agrupar valores mayores a 4 en la columna 'EDUCATION' como "others" (valor 4)
    data['EDUCATION'] = data['EDUCATION'].apply(lambda x: 4 if x > 4 else x)
    
    # Validación explícita: Imprimir valores únicos
    print("Valores únicos en 'EDUCATION' después de agrupar mayores a 4:")
    print(data['EDUCATION'].unique())
    
    # Eliminar registros con valores faltantes
    data = data.dropna()

    # Validación final: Asegurarnos de que no haya valores mayores a 4
    if (data['EDUCATION'] > 4).any():
        print("Error: Existen valores mayores a 4 en 'EDUCATION'")
    else:
        print("Limpieza de 'EDUCATION' completada correctamente.")
    
    return data

# Limpiar los datasets
train_data = clean_dataset(train_data)
test_data = clean_dataset(test_data)

# Confirmar limpieza completa
print("Valores únicos en 'EDUCATION' después de la limpieza final para train_data:")
print(train_data['EDUCATION'].unique())
print("Valores únicos en 'EDUCATION' después de la limpieza final para test_data:")
print(test_data['EDUCATION'].unique())


#train_data.head()
#test_data.head()



Valores únicos en 'EDUCATION' después de agrupar mayores a 4:
[ 3.  2.  1.  4. nan]
Limpieza de 'EDUCATION' completada correctamente.
Valores únicos en 'EDUCATION' después de agrupar mayores a 4:
[ 2.  3.  1.  4. nan]
Limpieza de 'EDUCATION' completada correctamente.
Valores únicos en 'EDUCATION' después de la limpieza final para train_data:
[3. 2. 1. 4.]
Valores únicos en 'EDUCATION' después de la limpieza final para test_data:
[2. 3. 1. 4.]


In [3]:
# Paso 2.
# Divida los datasets en x_train, y_train, x_test, y_test.

In [4]:
# Crear copias de los datasets originales para trabajar
train_data_copy = train_data.copy()
test_data_copy = test_data.copy()

# Dividir los datos en X (características) e y (variable objetivo)
# Para el dataset de entrenamiento
X_train = train_data_copy.drop(columns=["default"])  # Todas las columnas excepto la columna objetivo
y_train = train_data_copy["default"]  # Solo la columna objetivo, que es default

# Para el dataset de prueba
X_test = test_data_copy.drop(columns=["default"])  # Todas las columnas excepto la columna objetivo
y_test = test_data_copy["default"]  # Solo la columna objetivo, que es default

print("Datos divididos:")
print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"X_test: {X_test.shape}, y_test: {y_test.shape}")

# Verificar valores faltantes en X_train y X_test
print("Valores faltantes en X_train:")
print(X_train.isnull().sum())
print("Valores faltantes en X_test:")
print(X_test.isnull().sum())

print(X_train.dtypes)
print(X_test.dtypes)

Datos divididos:
X_train: (20953, 23), y_train: (20953,)
X_test: (8979, 23), y_test: (8979,)
Valores faltantes en X_train:
LIMIT_BAL    0
SEX          0
EDUCATION    0
MARRIAGE     0
AGE          0
PAY_0        0
PAY_2        0
PAY_3        0
PAY_4        0
PAY_5        0
PAY_6        0
BILL_AMT1    0
BILL_AMT2    0
BILL_AMT3    0
BILL_AMT4    0
BILL_AMT5    0
BILL_AMT6    0
PAY_AMT1     0
PAY_AMT2     0
PAY_AMT3     0
PAY_AMT4     0
PAY_AMT5     0
PAY_AMT6     0
dtype: int64
Valores faltantes en X_test:
LIMIT_BAL    0
SEX          0
EDUCATION    0
MARRIAGE     0
AGE          0
PAY_0        0
PAY_2        0
PAY_3        0
PAY_4        0
PAY_5        0
PAY_6        0
BILL_AMT1    0
BILL_AMT2    0
BILL_AMT3    0
BILL_AMT4    0
BILL_AMT5    0
BILL_AMT6    0
PAY_AMT1     0
PAY_AMT2     0
PAY_AMT3     0
PAY_AMT4     0
PAY_AMT5     0
PAY_AMT6     0
dtype: int64
LIMIT_BAL      int64
SEX            int64
EDUCATION    float64
MARRIAGE     float64
AGE            int64
PAY_0          int64
PAY_2 

In [5]:
# Revisar los valores de las Columnas categóricas
categorical_columns = ["SEX", "EDUCATION", "MARRIAGE"]

# Revisar valores únicos en X_train
print("Valores únicos en X_train:")
for col in categorical_columns:
    print(f"{col}: {X_train[col].unique()}")

# Revisar valores únicos en X_test
print("\nValores únicos en X_test:")
for col in categorical_columns:
    print(f"{col}: {X_test[col].unique()}")

Valores únicos en X_train:
SEX: [1 2]
EDUCATION: [3. 2. 1. 4.]
MARRIAGE: [1. 2. 3.]

Valores únicos en X_test:
SEX: [2 1]
EDUCATION: [2. 3. 1. 4.]
MARRIAGE: [2. 3. 1.]


In [6]:
# Paso 3.
# Cree un pipeline para el modelo de clasificación. Este pipeline debe
# contener las siguientes capas:
# - Transforma las variables categoricas usando el método
#   one-hot-encoding.
# - Descompone la matriz de entrada usando componentes principales.
#   El pca usa todas las componentes.
# - Escala la matriz de entrada al intervalo [0, 1].
# - Selecciona las K columnas mas relevantes de la matrix de entrada.
# - Ajusta una red neuronal tipo MLP.

In [7]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.neural_network import MLPClassifier
from sklearn.impute import SimpleImputer

# Definir las columnas categóricas
categorical = ["SEX", "EDUCATION", "MARRIAGE"]
numeric = [col for col in X_train.columns if col not in categorical]

# Preprocesador para las columnas categóricas
categorical_transformer = OneHotEncoder(handle_unknown="ignore")


# Preprocesador para las columnas numéricas
numeric_transformer = StandardScaler()
#numeric_transformer = MinMaxScaler()

# Crear un transformador compuesto
preprocessor = ColumnTransformer(
    transformers=[
        ("cat", categorical_transformer, categorical),
        ("num", numeric_transformer, numeric)
    ]
)

# Crear el pipeline que incluye todo el procesamiento y el modelo MLP
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),                         # Preprocesamiento
    ('selectkbest', SelectKBest(score_func=f_classif)),
    ('pca', PCA()),                                         # Reducción de dimensionalidad con PCA
    ('mlp', MLPClassifier()), # Selección de las k mejores características
    #('mlp', MLPClassifier(max_iter=200, random_state=42)), DAVID
    #('mlp', MLPClassifier(max_iter=14000, random_state=42))                                # Modelo de red neuronal MLP
])

# Ahora el pipeline está listo para ajustarse a los datos
# Se puede hacer grid search o ajustar el modelo aquí. Se hará con la primera opción.

print("Pipeline creado con éxito:")

Pipeline creado con éxito:


In [8]:
# Paso 4.
# Optimice los hiperparametros del pipeline usando validación cruzada.
# Use 10 splits para la validación cruzada. Use la función de precision
# balanceada para medir la precisión del modelo.

In [9]:
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.metrics import make_scorer, balanced_accuracy_score

# Definir los parámetros a optimizar
param_grid = {
    'pca__n_components': [None],
    'selectkbest__k':[20],
    "mlp__random_state":[43],
    "mlp__hidden_layer_sizes": [(51, 31, 41)],
    'mlp__alpha': [0.26],
    "mlp__learning_rate_init": [0.001],
}

# param_grid = {
#     'pca__n_components':[18],
#     'selectkbest__k':[18],
#     'mlp__hidden_layer_sizes': [(142,22)],
#     'mlp__activation': ['logistic'], 
#     'mlp__solver': ['adam'],   
#     'mlp__alpha': [0.0001],  
#     'mlp__learning_rate': ['constant'], 
# }


# param_grid = {
#     'pca__n_components': [17,18],  # Varias opciones para la varianza explicada
#     'selectkbest__k': [20],              # Varias opciones para el número de características seleccionadas
#     'mlp__hidden_layer_sizes': [(50, 30, 40, 60)],  # Varias opciones para el tamaño de las capas ocultas
#     'mlp__alpha': [0.25 , 0.26],        # Varias opciones para el parámetro de regularización
#     'mlp__learning_rate_init': [0.001, 0.0001],  # Varias opciones para la tasa de aprendizaje inicial
#     'mlp__activation': ['relu'],
#     'mlp__solver': ['adam'],
# }

# Crear un scorer de precisión balanceada
#scorer = make_scorer(balanced_accuracy_score)

# Configurar el GridSearchCV para optimizar los hiperparámetros
grid_search = GridSearchCV(
    estimator=pipeline,                 # El pipeline que definimos anteriormente
    param_grid=param_grid,              # El diccionario de parámetros a optimizar
    cv=10,                              # Validación cruzada con 10 splits
    scoring='balanced_accuracy',                     # Usar la métrica de precisión balanceada
    n_jobs=-1,                          # Utilizar todos los núcleos disponibles para paralelizar
    verbose=1,                          # Mostrar el progreso durante la búsqueda                                                      
)
# Ajustar el modelo a los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Imprimir los resultados
print("Mejores hiperparámetros encontrados:")
print(grid_search.best_params_)
print(f"Mejor puntuación de validación: {grid_search.best_score_:.4f}")

# Actualizar el pipeline con los mejores parámetros encontrados
best_pipeline = grid_search.best_estimator_

# Fitting 10 folds for each of 8 candidates, totalling 80 fits
# Mejores hiperparámetros encontrados:
# {'mlp__alpha': 0.2, 'mlp__hidden_layer_sizes': (51, 31, 41), 'mlp__learning_rate_init': 0.001, 'pca__n_components': None, 'selectkbest__k': 20}
# Mejor puntuación de validación: 0.6598

#Hasta el momento el mejor:
# param_grid = {
#     'pca__n_components': [10, 20],  # Varias opciones para la varianza explicada
#     'selectkbest__k': [29],              # Varias opciones para el número de características seleccionadas
#     'mlp__hidden_layer_sizes': [(50, 30, 40, 60)],  # Varias opciones para el tamaño de las capas ocultas
#     'mlp__alpha': [0.26],        # Varias opciones para el parámetro de regularización
#     'mlp__learning_rate_init': [0.001   ],  # Varias opciones para la tasa de aprendizaje inicial
#     'mlp__activation': ['relu'],
#     'mlp__solver': ['adam'],
# }
# Fitting 10 folds for each of 2 candidates, totalling 20 fits
# c:\Users\Maria Camila Arcila\Documents\GitHub\AnaliticaPredictiva\Labs\2024-2-LAB-04-prediccion-del-default-usando-mlp-maarcilab26\.venv\lib\site-packages\sklearn\feature_selection\_univariate_selection.py:783: UserWarning: k=29 is greater than n_features=20. All the features will be returned.
#   warnings.warn(
# Mejores hiperparámetros encontrados:
# {'mlp__activation': 'relu', 'mlp__alpha': 0.26, 'mlp__hidden_layer_sizes': (50, 30, 40, 60), 'mlp__learning_rate_init': 0.001, 'mlp__solver': 'adam', 'pca__n_components': 20, 'selectkbest__k': 29}
# Mejor puntuación de validación: 0.6563


Fitting 10 folds for each of 1 candidates, totalling 10 fits
Mejores hiperparámetros encontrados:
{'mlp__alpha': 0.26, 'mlp__hidden_layer_sizes': (51, 31, 41), 'mlp__learning_rate_init': 0.001, 'mlp__random_state': 43, 'pca__n_components': None, 'selectkbest__k': 20}
Mejor puntuación de validación: 0.6606


In [10]:
# Paso 5.
# Guarde el modelo (comprimido con gzip) como "files/models/model.pkl.gz".
# Recuerde que es posible guardar el modelo comprimido usanzo la libreria gzip.

In [17]:
import os
import pickle
import gzip

# Definir la ruta del directorio y archivo
dir_path = '../files/models'
model_path = '../files/models/model.pkl.gz'

# Crear el directorio si no existe
os.makedirs(dir_path, exist_ok=True)

# Guardar el objeto `grid_search` comprimido con gzip
with gzip.open(model_path, 'wb') as f:
    pickle.dump(grid_search, f)

print(f"Modelo guardado exitosamente en {model_path}")

Modelo guardado exitosamente en ../files/models/model.pkl.gz


In [12]:
# Paso 6.
# Calcule las metricas de precision, precision balanceada, recall,
# y f1-score para los conjuntos de entrenamiento y prueba.
# Guardelas en el archivo files/output/metrics.json. Cada fila
# del archivo es un diccionario con las metricas de un modelo.
# Este diccionario tiene un campo para indicar si es el conjunto
# de entrenamiento o prueba. Por ejemplo:
#
# {'dataset': 'train', 'precision': 0.8, 'balanced_accuracy': 0.7, 'recall': 0.9, 'f1_score': 0.85}
# {'dataset': 'test', 'precision': 0.7, 'balanced_accuracy': 0.6, 'recall': 0.8, 'f1_score': 0.75}

In [18]:
import json
from sklearn.metrics import precision_score, recall_score, f1_score, balanced_accuracy_score
import os

# Asegurarnos de usar el mejor modelo encontrado
final_model = grid_search.best_estimator_

# Realizar predicciones
y_train_pred = final_model.predict(X_train)
y_test_pred = final_model.predict(X_test)

# Calcular métricas para el conjunto de entrenamiento
train_metrics = {
    'type': 'metrics',
    'dataset': 'train',
    'precision': precision_score(y_train, y_train_pred),
    'balanced_accuracy': balanced_accuracy_score(y_train, y_train_pred),
    'recall': recall_score(y_train, y_train_pred),
    'f1_score': f1_score(y_train, y_train_pred)
}

# Calcular métricas para el conjunto de prueba
test_metrics = {
    'type': 'metrics',
    'dataset': 'test',
    'precision': precision_score(y_test, y_test_pred),
    'balanced_accuracy': balanced_accuracy_score(y_test, y_test_pred),
    'recall': recall_score(y_test, y_test_pred),
    'f1_score': f1_score(y_test, y_test_pred)
}

# Definir la ruta del archivo de salida
output_dir = "../files/output"
output_path = os.path.join(output_dir, "metrics.json")

# Crear las carpetas necesarias si no existen
os.makedirs(output_dir, exist_ok=True)

# Guardar las métricas en un archivo JSON
with open(output_path, 'w') as f:
    json.dump(train_metrics, f)
    f.write("\n")
    json.dump(test_metrics, f)

print(f"Métricas guardadas exitosamente en {output_path}")

Métricas guardadas exitosamente en ../files/output\metrics.json


In [14]:
# Paso 7.
# Calcule las matrices de confusion para los conjuntos de entrenamiento y
# prueba. Guardelas en el archivo files/output/metrics.json. Cada fila
# del archivo es un diccionario con las metricas de un modelo.
# de entrenamiento o prueba. Por ejemplo:
#
# {'type': 'cm_matrix', 'dataset': 'train', 'true_0': {"predicted_0": 15562, "predicte_1": 666}, 'true_1': {"predicted_0": 3333, "predicted_1": 1444}}
# {'type': 'cm_matrix', 'dataset': 'test', 'true_0': {"predicted_0": 15562, "predicte_1": 650}, 'true_1': {"predicted_0": 2490, "predicted_1": 1420}}
#

In [19]:
from sklearn.metrics import confusion_matrix
import json
import os

# Calcular las matrices de confusión
train_cm = confusion_matrix(y_train, y_train_pred)
test_cm = confusion_matrix(y_test, y_test_pred)

# Crear los diccionarios en el formato solicitado
train_cm_dict = {
    'type': 'cm_matrix',
    'dataset': 'train',
    'true_0': {
        "predicted_0": int(train_cm[0, 0]),
        "predicted_1": int(train_cm[0, 1])
    },
    'true_1': {
        "predicted_0": int(train_cm[1, 0]),
        "predicted_1": int(train_cm[1, 1])
    }
}

test_cm_dict = {
    'type': 'cm_matrix',
    'dataset': 'test',
    'true_0': {
        "predicted_0": int(test_cm[0, 0]),
        "predicted_1": int(test_cm[0, 1])
    },
    'true_1': {
        "predicted_0": int(test_cm[1, 0]),
        "predicted_1": int(test_cm[1, 1])
    }
}

# Ruta del archivo metrics.json
output_path = "../files/output/metrics.json"

# Leer el archivo existente y agregar los nuevos datos
if os.path.exists(output_path):
    with open(output_path, 'r') as f:
        existing_metrics = [json.loads(line) for line in f]
else:
    existing_metrics = []

# Agregar las matrices de confusión
existing_metrics.append(train_cm_dict)
existing_metrics.append(test_cm_dict)

# Guardar nuevamente el archivo JSON con las métricas actualizadas
with open(output_path, 'w') as f:
    for entry in existing_metrics:
        json.dump(entry, f)
        f.write("\n")

print(f"Matrices de confusión agregadas exitosamente a {output_path}")

Matrices de confusión agregadas exitosamente a ../files/output/metrics.json
