In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score, balanced_accuracy_score,
    precision_score, recall_score, f1_score,
    confusion_matrix, ConfusionMatrixDisplay
)

import pandas as pd

data_train = pd.read_csv('../files/input/train_data.csv.zip', index_col= False, compression="zip")
data_test = pd.read_csv('../files/input/test_data.csv.zip', index_col= False, compression="zip")
columnas_diferentes = ['PAY_AMT1','PAY_AMT2','PAY_AMT3','PAY_AMT4','PAY_AMT5','PAY_AMT6']

print(data_train.isnull().sum())

import numpy as np

data_train.rename(columns={"default payment next month" : "default"}, inplace=True)
data_test.rename(columns={"default payment next month" : "default"}, inplace=True)
data_train.drop(columns=["ID"], inplace=True)
data_test.drop(columns=["ID"], inplace=True)

data_train['EDUCATION'] = data_train['EDUCATION'].apply(lambda x: 4 if x > 4 else x)
data_test['EDUCATION'] = data_test['EDUCATION'].apply(lambda x: 4 if x > 4 else x)

data_train['EDUCATION'] = data_train['EDUCATION'].apply(lambda x: x if x > 0 else np.nan)
data_test['EDUCATION'] = data_test['EDUCATION'].apply(lambda x: x if x > 0 else np.nan)

data_train['MARRIAGE'] = data_train['MARRIAGE'].apply(lambda x: x if x > 0 else np.nan)
data_test['MARRIAGE'] = data_test['MARRIAGE'].apply(lambda x: x if x > 0 else np.nan)

pay_columns = ['PAY_AMT1','PAY_AMT2','PAY_AMT3','PAY_AMT4','PAY_AMT5','PAY_AMT6']

data_train[pay_columns] = data_train[pay_columns].applymap(lambda x: x if x >= 0 else np.nan)
data_test[pay_columns] = data_test[pay_columns].applymap(lambda x: x if x >= 0 else np.nan)

data_train.dropna(inplace=True)
data_test.dropna(inplace=True)

data_train = data_train.astype(int)
data_test = data_test.astype(int)

print(data_test.isnull().sum())



import pickle

# Dividir en características (X) y etiquetas (y)
X_train = data_train.drop(columns="default")
y_train = data_train["default"]

X_test = data_test.drop(columns="default")
y_test = data_test["default"]


print(X_test.shape)


from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier


# Identificar las variables categóricas y numéricas
categorical_features = ['SEX', 'EDUCATION', 'MARRIAGE']
numerical_features = ['LIMIT_BAL', 'AGE', 'PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6']



# Preprocesamiento para las variables categóricas
categorical_transformer = OneHotEncoder(handle_unknown="ignore")

# Preprocesamiento para las variables numéricas
numerical_transformer = MinMaxScaler()

# Combinación de preprocesadores

preprocessor = ColumnTransformer(
    transformers= [
        ("encoder", categorical_transformer, categorical_features),
        ("numerica", numerical_transformer, numerical_features)
    ]
)



# Creación del Pipeline
pipeline = Pipeline([
    ("preprocessor", preprocessor),
    ("feature_selection", SelectKBest(score_func=f_classif, k=10)),
    ("classifier", LogisticRegression(max_iter=1000, random_state=42))
])


# Definición del grid de hiperparámetros
param_grid = {
    "feature_selection__k": [5, 7, 10],
    "classifier__C": [0.1, 1, 10],
    "classifier__solver": ["liblinear", "lbfgs"]
}

# Validación cruzada con 10 splits
model = GridSearchCV(pipeline, param_grid, cv=10, scoring="balanced_accuracy", n_jobs=-1, refit=True)
model.fit(X_train, y_train)


from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import (
    accuracy_score, balanced_accuracy_score,
    precision_score, recall_score, f1_score,
    confusion_matrix, ConfusionMatrixDisplay
)



# Mejor modelo
print("Mejores parámetros: ", model.best_params_)
best_model = model.best_estimator_


#Guardar el modelo

import os
import pickle
import gzip

# Ruta del directorio donde se guardará el archivo
dir_path = '../files/models'

# Verificar si el directorio existe, si no, crearlo
if not os.path.exists(dir_path):
    os.makedirs(dir_path)

# Ruta del archivo GZIP
gzip_file_path = os.path.join(dir_path, 'model.pkl.gz')

# Guardar el modelo comprimido como un archivo GZIP
with gzip.open(gzip_file_path, 'wb') as f:
    pickle.dump(model, f)

print(f"Modelo guardado correctamente en {gzip_file_path}")


# Predicciones
y_train_pred = best_model.predict(X_train)
y_test_pred = best_model.predict(X_test)



# Métricas

metrics = {
    "Train": {
        "Accuracy": accuracy_score(y_train, y_train_pred),
        "Balanced accuracy": balanced_accuracy_score(y_train, y_train_pred),
        "Precision": precision_score(y_train, y_train_pred),
        "Recall": recall_score(y_train, y_train_pred),
        "F1-Score": f1_score(y_train, y_train_pred)
    },
    "Test":{
        "Accuracy": accuracy_score(y_test, y_test_pred),
        "Balanced accuracy": balanced_accuracy_score(y_test, y_test_pred),
        "Precision": precision_score(y_test, y_test_pred),
        "Recall": recall_score(y_test, y_test_pred),
        "F1-Score": f1_score(y_test, y_test_pred)
    }
}

print(metrics)


# Matriz de Confusión
for dataset, y_true, y_pred in [("Train", y_train, y_train_pred), (" Test", y_test, y_test_pred)]:
  cm = confusion_matrix(y_true, y_pred)
  print(f"Matriz de confusión ({dataset}):\n", cm)



#crear json

import json

# Lista para almacenar las líneas del archivo JSON
results = []

# Agregar información de metrics para train y test
for dataset in metrics:
    results.append({
        'type': 'metrics',
        'dataset': dataset.lower(),
        'precision': float(metrics[dataset]['Precision']), 
        'balanced_accuracy': float(metrics[dataset]['Balanced accuracy']),       
        'recall': float(metrics[dataset]['Recall']),
        'f1_score': float(metrics[dataset]['F1-Score'])
    })

# Generar las matrices de confusión para train y test
for dataset, y_true, y_pred in [("Train", y_train, y_train_pred), ("Test", y_test, y_test_pred)]:
    # Calculamos la matriz de confusión
    cm = confusion_matrix(y_true, y_pred)

    # Organizar la matriz de confusión en un diccionario
    cm_dict = {
        "type": "cm_matrix",
        "dataset": dataset.lower(),  # 'train' o 'test'
        "true_0": {"predicted_0": cm[0, 0], "predicted_1": cm[0, 1]},
        "true_1": {"predicted_0": cm[1, 0], "predicted_1": cm[1, 1]}
    }
    
    # Agregar la matriz de confusión a la lista de resultados
    results.append(cm_dict)


print(results)



#guardar json

import os
import json
import numpy as np

# Ruta donde se guardará el archivo JSON
output_path = "../files/output"

# Crear la carpeta de salida si no existe
if not os.path.exists(output_path):
    os.makedirs(output_path)

# Función para convertir tipos de datos de numpy (int64, float64) a tipos estándar de Python
def convert_numpy_types(obj):
    if isinstance(obj, dict):
        return {key: convert_numpy_types(value) for key, value in obj.items()}
    elif isinstance(obj, list):
        return [convert_numpy_types(item) for item in obj]
    elif isinstance(obj, np.int64):  # Si el valor es un int64 de numpy
        return int(obj)  # Convertir a tipo int de Python
    elif isinstance(obj, np.float64):  # Si el valor es un float64 de numpy
        return float(obj)  # Convertir a tipo float de Python
    else:
        return obj

# Guardar cada elemento en una línea separada del archivo JSON
with open('../files/output/metrics.json', 'w', encoding='utf-8') as f:  # Abrir en modo texto con codificación UTF-8
    for result in results:
        result = convert_numpy_types(result)  # Convertir los valores de int64 y float64 a tipos estándar
        json.dump(result, f, ensure_ascii=False)  # Escribir el objeto en formato JSON
        f.write('\n')  # Escribir un salto de línea después de cada línea

print(f"Archivo guardado correctamente en {output_path}")




In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score, balanced_accuracy_score,
    precision_score, recall_score, f1_score,
    confusion_matrix, ConfusionMatrixDisplay
)

In [2]:
# Cargar el dataset
import zipfile
import pandas as pd

# Ruta al archivo ZIP
zip_path = "../files/input/train_data.csv.zip"

# Abrir el archivo ZIP para listar su contenido y leer el archivo CSV
with zipfile.ZipFile(zip_path, 'r') as z:
    # Obtener la lista de archivos dentro del ZIP
    file_list = z.namelist()
    
    # Buscar el primer archivo con extensión .csv
    csv_filename = next((file for file in file_list if file.endswith('.csv')), None)

    # Validar si se encontró un archivo CSV
    if csv_filename:       
        # Leer el archivo CSV dentro del ZIP
        with z.open(csv_filename) as f:
            dftrain = pd.read_csv(f)      

    else:
        print("No se encontró un archivo CSV dentro del archivo ZIP.")


In [4]:
dftrain.rename(columns={'default payment next month': 'default'}, inplace=True)
dftrain = dftrain.drop(columns=["ID"])
dftrain = dftrain.dropna()
# Reemplazar valores mayores a 4 con "others"
dftrain['EDUCATION'] = dftrain['EDUCATION'].apply(lambda x: 5 if x > 4 else x)
dftrain['EDUCATION'] = dftrain['EDUCATION'].astype('int64')

In [5]:
# Cargar el dataset
import zipfile
import pandas as pd

# Ruta al archivo ZIP
zip_path = "../files/input/test_data.csv.zip"

# Abrir el archivo ZIP para listar su contenido y leer el archivo CSV
with zipfile.ZipFile(zip_path, 'r') as z:
    # Obtener la lista de archivos dentro del ZIP
    file_list = z.namelist()
    
    # Buscar el primer archivo con extensión .csv
    csv_filename = next((file for file in file_list if file.endswith('.csv')), None)

    # Validar si se encontró un archivo CSV
    if csv_filename:       
        # Leer el archivo CSV dentro del ZIP
        with z.open(csv_filename) as f:
            dftest = pd.read_csv(f)      

    else:
        print("No se encontró un archivo CSV dentro del archivo ZIP.")


In [6]:
dftest.rename(columns={'default payment next month': 'default'}, inplace=True)
dftest = dftest.drop(columns=["ID"])
dftest = dftest.dropna()
# Reemplazar valores mayores a 4 con "others"
dftest['EDUCATION'] = dftest['EDUCATION'].apply(lambda x: 4 if x > 4 else x)

In [7]:
# Dividir en características (X) y etiquetas (y)
X_train = dftrain.drop(columns="default")
y_train = dftrain["default"]

X_test = dftest.drop(columns="default")
y_test = dftest["default"]


In [None]:
X_train.info()

In [9]:
# - Transforma las variables categoricas usando el método
#   one-hot-encoding.

# Identificar las variables categóricas y numéricas
categorical_features = ['SEX', 'EDUCATION', 'MARRIAGE']
numerical_features = ['LIMIT_BAL', 'AGE', 'PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6']



# Preprocesamiento para las variables categóricas
categorical_transformer = OneHotEncoder(handle_unknown="ignore")

# Preprocesamiento para las variables numéricas
numerical_transformer = MinMaxScaler()

In [10]:
# Combinación de preprocesadores

preprocessor = ColumnTransformer(
    transformers= [
        ("encoder", categorical_transformer, categorical_features),
        ("numerica", numerical_transformer, numerical_features)
    ]
)


In [11]:
# Creación del Pipeline
#pipeline = Pipeline([
#    ("preprocessor", preprocessor),
#    ("feature_selection", SelectKBest(score_func=f_classif, k=10)),
#    ("classifier", LogisticRegression(max_iter=1000, random_state=42))
#])

# Creación del Pipeline
pipeline = Pipeline([
    ("preprocessor", preprocessor),  # Tu preprocesador (por ejemplo, ColumnTransformer)
    ("feature_selection", SelectKBest(score_func=f_classif)),  # Sin especificar k aún
    ("classifier", LogisticRegression(max_iter=1000, random_state=42))  # Clasificador
])

In [None]:
X_train['EDUCATION'].head()

In [None]:
# Definición del grid de hiperparámetros

# Optimice los hiperparametros del pipeline usando validación cruzada.
# Use 10 splits para la validación cruzada. Use la función de precision
# balanceada para medir la precisión del modelo.
#

param_grid = {
    "feature_selection__k": [5, 10, 15, 20],
    "classifier__C": [0.01, 0.1, 1, 10],
    "classifier__solver": ["liblinear", "saga"] #"lbfgs"]
}

# Validación cruzada con 10 splits

# Aplicar GridSearchCV para encontrar el mejor modelo
grid_search = GridSearchCV(pipeline, param_grid, cv=10,  scoring="balanced_accuracy", verbose=1, n_jobs=-1)

grid_search.fit(X_train, y_train)

In [None]:
#GUARDAR EL MODELO

import os
import pickle
import gzip

# Ruta del directorio donde se guardará el archivo
dir_path = '../files/models'

# Verificar si el directorio existe, si no, crearlo
if not os.path.exists(dir_path):
    os.makedirs(dir_path)

# Ruta del archivo GZIP
gzip_file_path = os.path.join(dir_path, 'model.pkl.gz')

# Guardar el modelo comprimido como un archivo GZIP
with gzip.open(gzip_file_path, 'wb') as f:
    pickle.dump(best_model, f)

print(f"Modelo guardado correctamente en {gzip_file_path}")


In [None]:
# Predicciones
y_train_pred = best_model.predict(X_train)
y_test_pred = best_model.predict(X_test)



# Métricas

metrics = {
    "Train": {
        "Accuracy": accuracy_score(y_train, y_train_pred),
        "Balanced accuracy": balanced_accuracy_score(y_train, y_train_pred),
        "Precision": precision_score(y_train, y_train_pred),
        "Recall": recall_score(y_train, y_train_pred),
        "F1-Score": f1_score(y_train, y_train_pred)
    },
    "Test":{
        "Accuracy": accuracy_score(y_test, y_test_pred),
        "Balanced accuracy": balanced_accuracy_score(y_test, y_test_pred),
        "Precision": precision_score(y_test, y_test_pred),
        "Recall": recall_score(y_test, y_test_pred),
        "F1-Score": f1_score(y_test, y_test_pred)
    }
}

print(metrics)

In [None]:
# Matriz de Confusión
for dataset, y_true, y_pred in [("Train", y_train, y_train_pred), (" Test", y_test, y_test_pred)]:
  cm = confusion_matrix(y_true, y_pred)
  print(f"Matriz de confusión ({dataset}):\n", cm)
  #disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=best_model.classes_)
  #disp.plot()

In [None]:

import json

# Lista para almacenar las líneas del archivo JSON
results = []

# Agregar información de metrics para train y test
for dataset in metrics:
    results.append({
        'type': 'metrics',
        'dataset': dataset.lower(),
        'precision': float(metrics[dataset]['Precision']), 
        'balanced_accuracy': float(metrics[dataset]['Balanced accuracy']),       
        'recall': float(metrics[dataset]['Recall']),
        'f1_score': float(metrics[dataset]['F1-Score'])
    })

# Generar las matrices de confusión para train y test
for dataset, y_true, y_pred in [("Train", y_train, y_train_pred), ("Test", y_test, y_test_pred)]:
    # Calculamos la matriz de confusión
    cm = confusion_matrix(y_true, y_pred)

    # Organizar la matriz de confusión en un diccionario
    cm_dict = {
        "type": "cm_matrix",
        "dataset": dataset.lower(),  # 'train' o 'test'
        "true_0": {"predicted_0": cm[0, 0], "predicted_1": cm[0, 1]},
        "true_1": {"predicted_0": cm[1, 0], "predicted_1": cm[1, 1]}
    }
    
    # Agregar la matriz de confusión a la lista de resultados
    results.append(cm_dict)


print(results)


In [None]:
import os
import json
import numpy as np

# Ruta donde se guardará el archivo JSON
output_path = "../files/output"

# Crear la carpeta de salida si no existe
if not os.path.exists(output_path):
    os.makedirs(output_path)

# Función para convertir tipos de datos de numpy (int64, float64) a tipos estándar de Python
def convert_numpy_types(obj):
    if isinstance(obj, dict):
        return {key: convert_numpy_types(value) for key, value in obj.items()}
    elif isinstance(obj, list):
        return [convert_numpy_types(item) for item in obj]
    elif isinstance(obj, np.int64):  # Si el valor es un int64 de numpy
        return int(obj)  # Convertir a tipo int de Python
    elif isinstance(obj, np.float64):  # Si el valor es un float64 de numpy
        return float(obj)  # Convertir a tipo float de Python
    else:
        return obj

# Guardar cada elemento en una línea separada del archivo JSON
with open('../files/output/metrics.json', 'w', encoding='utf-8') as f:  # Abrir en modo texto con codificación UTF-8
    for result in results:
        result = convert_numpy_types(result)  # Convertir los valores de int64 y float64 a tipos estándar
        json.dump(result, f, ensure_ascii=False)  # Escribir el objeto en formato JSON
        f.write('\n')  # Escribir un salto de línea después de cada línea

print(f"Archivo guardado correctamente en {output_path}")


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    accuracy_score, balanced_accuracy_score,
    precision_score, recall_score, f1_score,
    confusion_matrix, ConfusionMatrixDisplay
)


import pandas as pd

data_train = pd.read_csv('../files/input/train_data.csv.zip', index_col= False, compression="zip")
data_test = pd.read_csv('../files/input/test_data.csv.zip', index_col= False, compression="zip")
columnas_diferentes = ['PAY_AMT1','PAY_AMT2','PAY_AMT3','PAY_AMT4','PAY_AMT5','PAY_AMT6']

print(data_train.isnull().sum())


import numpy as np

data_train.rename(columns={"default payment next month" : "default"}, inplace=True)
data_test.rename(columns={"default payment next month" : "default"}, inplace=True)
data_train.drop(columns=["ID"], inplace=True)
data_test.drop(columns=["ID"], inplace=True)

data_train['EDUCATION'] = data_train['EDUCATION'].apply(lambda x: 4 if x > 4 else x)
data_test['EDUCATION'] = data_test['EDUCATION'].apply(lambda x: 4 if x > 4 else x)

data_train['EDUCATION'] = data_train['EDUCATION'].apply(lambda x: x if x > 0 else np.nan)
data_test['EDUCATION'] = data_test['EDUCATION'].apply(lambda x: x if x > 0 else np.nan)

data_train['MARRIAGE'] = data_train['MARRIAGE'].apply(lambda x: x if x > 0 else np.nan)
data_test['MARRIAGE'] = data_test['MARRIAGE'].apply(lambda x: x if x > 0 else np.nan)

pay_columns = ['PAY_AMT1','PAY_AMT2','PAY_AMT3','PAY_AMT4','PAY_AMT5','PAY_AMT6']

data_train[pay_columns] = data_train[pay_columns].applymap(lambda x: x if x >= 0 else np.nan)
data_test[pay_columns] = data_test[pay_columns].applymap(lambda x: x if x >= 0 else np.nan)

data_train.dropna(inplace=True)
data_test.dropna(inplace=True)

data_train = data_train.astype(int)
data_test = data_test.astype(int)

print(data_test.isnull().sum())

import pickle

# Dividir en características (X) y etiquetas (y)
X_train = data_train.drop(columns="default")
y_train = data_train["default"]

X_test = data_test.drop(columns="default")
y_test = data_test["default"]

print(X_test.shape)

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier

# Identificar las variables categóricas y numéricas
categorical_features = ['SEX', 'EDUCATION', 'MARRIAGE']
numerical_features = ['LIMIT_BAL', 'AGE', 'PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2', 'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1', 'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6']



# Preprocesamiento para las variables categóricas
categorical_transformer = OneHotEncoder(handle_unknown="ignore")

# Preprocesamiento para las variables numéricas
numerical_transformer = MinMaxScaler()




# Combinación de preprocesadores

preprocessor = ColumnTransformer(
    transformers= [
        ("encoder", categorical_transformer, categorical_features),
        ("numerica", numerical_transformer, numerical_features)
    ]
)


# Creación del Pipeline
#pipeline = Pipeline([
#    ("preprocessor", preprocessor),
#    ("feature_selection", SelectKBest(score_func=f_classif, k=10)),
#    ("classifier", LogisticRegression(max_iter=1000, random_state=42, class_weight="balanced"))
#])

# Creación del Pipeline
pipeline = Pipeline([
    ("preprocessor", preprocessor),  # Tu preprocesador (por ejemplo, ColumnTransformer)
    ("feature_selection", SelectKBest(score_func=f_classif)),  # Sin especificar k aún
    ("classifier", LogisticRegression(max_iter=1000, random_state=42, C=0.01, solver='liblinear'))##LogisticRegression(max_iter=1000, random_state=42))  # Clasificador
])


# Definición del grid de hiperparámetros
#param_grid = {
#    "feature_selection__k": [5, 7, 10],
#    "classifier__C": [0.1, 1, 10],
#    "classifier__solver": ["liblinear", "lbfgs"]
#}

param_grid = {
    "feature_selection__k": [5, 7, 10, 15, 20],
    "classifier__C": [0.01, 0.1, 1, 10, 100],
    "classifier__solver": ["liblinear", "lbfgs", "saga"]
}



# Validación cruzada con 10 splits
model = GridSearchCV(pipeline, param_grid, cv=10, scoring="balanced_accuracy", n_jobs=-1, refit=True)
model.fit(X_train, y_train)



from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import (
    accuracy_score, balanced_accuracy_score,
    precision_score, recall_score, f1_score,
    confusion_matrix, ConfusionMatrixDisplay
)

# Mejor modelo
print("Mejores parámetros: ", model.best_params_)
best_model = model.best_estimator_

# Evaluar el score en el conjunto de entrenamiento
train_score = model.score(X_train, y_train)
print(f"Score en el conjunto de entrenamiento: {train_score}")

# Evaluar el score en el conjunto de test
test_score = model.score(X_test, y_test)
print(f"Score en el conjunto de prueba: {test_score}")


# Suponiendo que 'model' es un GridSearchCV
best_score = model.best_score_
print(f"Mejor puntuación obtenida: {best_score}")


from sklearn.metrics import classification_report

# Hacer predicciones en el conjunto de test
y_pred = model.predict(X_test)

# Generar el reporte de clasificación
report = classification_report(y_test, y_pred)
print(report)


# Evaluar el score con la mejor combinación de parámetros
best_model = model.best_estimator_
best_train_score = best_model.score(X_train, y_train)
best_test_score = best_model.score(X_test, y_test)

print(f"Mejor score en entrenamiento: {best_train_score}")
print(f"Mejor score en test: {best_test_score}")


#Guardar el modelo

import os
import pickle
import gzip

# Ruta del directorio donde se guardará el archivo
dir_path = '../files/models'

# Verificar si el directorio existe, si no, crearlo
if not os.path.exists(dir_path):
    os.makedirs(dir_path)

# Ruta del archivo GZIP
gzip_file_path = os.path.join(dir_path, 'model.pkl.gz')

# Guardar el modelo comprimido como un archivo GZIP
with gzip.open(gzip_file_path, 'wb') as f:
    pickle.dump(model, f)

print(f"Modelo guardado correctamente en {gzip_file_path}")


# Predicciones
y_train_pred = best_model.predict(X_train)
y_test_pred = best_model.predict(X_test)



# Métricas

metrics = {
    "Train": {
        "Accuracy": accuracy_score(y_train, y_train_pred),
        "Balanced accuracy": balanced_accuracy_score(y_train, y_train_pred),
        "Precision": precision_score(y_train, y_train_pred),
        "Recall": recall_score(y_train, y_train_pred),
        "F1-Score": f1_score(y_train, y_train_pred)
    },
    "Test":{
        "Accuracy": accuracy_score(y_test, y_test_pred),
        "Balanced accuracy": balanced_accuracy_score(y_test, y_test_pred),
        "Precision": precision_score(y_test, y_test_pred),
        "Recall": recall_score(y_test, y_test_pred),
        "F1-Score": f1_score(y_test, y_test_pred)
    }
}

print(metrics)

# Matriz de Confusión
for dataset, y_true, y_pred in [("Train", y_train, y_train_pred), (" Test", y_test, y_test_pred)]:
  cm = confusion_matrix(y_true, y_pred)
  print(f"Matriz de confusión ({dataset}):\n", cm)


from sklearn.metrics import classification_report, confusion_matrix

# Predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Reporte de clasificación
print(classification_report(y_test, y_pred))

# Matriz de confusión
print(confusion_matrix(y_test, y_pred))


#crear json

import json

# Lista para almacenar las líneas del archivo JSON
results = []

# Agregar información de metrics para train y test
for dataset in metrics:
    results.append({
        'type': 'metrics',
        'dataset': dataset.lower(),
        'precision': float(metrics[dataset]['Precision']), 
        'balanced_accuracy': float(metrics[dataset]['Balanced accuracy']),       
        'recall': float(metrics[dataset]['Recall']),
        'f1_score': float(metrics[dataset]['F1-Score'])
    })

# Generar las matrices de confusión para train y test
for dataset, y_true, y_pred in [("Train", y_train, y_train_pred), ("Test", y_test, y_test_pred)]:
    # Calculamos la matriz de confusión
    cm = confusion_matrix(y_true, y_pred)

    # Organizar la matriz de confusión en un diccionario
    cm_dict = {
        "type": "cm_matrix",
        "dataset": dataset.lower(),  # 'train' o 'test'
        "true_0": {"predicted_0": cm[0, 0], "predicted_1": cm[0, 1]},
        "true_1": {"predicted_0": cm[1, 0], "predicted_1": cm[1, 1]}
    }
    
    # Agregar la matriz de confusión a la lista de resultados
    results.append(cm_dict)


print(results)


#guardar json

import os
import json
import numpy as np

# Ruta donde se guardará el archivo JSON
output_path = "../files/output"

# Crear la carpeta de salida si no existe
if not os.path.exists(output_path):
    os.makedirs(output_path)

# Función para convertir tipos de datos de numpy (int64, float64) a tipos estándar de Python
def convert_numpy_types(obj):
    if isinstance(obj, dict):
        return {key: convert_numpy_types(value) for key, value in obj.items()}
    elif isinstance(obj, list):
        return [convert_numpy_types(item) for item in obj]
    elif isinstance(obj, np.int64):  # Si el valor es un int64 de numpy
        return int(obj)  # Convertir a tipo int de Python
    elif isinstance(obj, np.float64):  # Si el valor es un float64 de numpy
        return float(obj)  # Convertir a tipo float de Python
    else:
        return obj

# Guardar cada elemento en una línea separada del archivo JSON
with open('../files/output/metrics.json', 'w', encoding='utf-8') as f:  # Abrir en modo texto con codificación UTF-8
    for result in results:
        result = convert_numpy_types(result)  # Convertir los valores de int64 y float64 a tipos estándar
        json.dump(result, f, ensure_ascii=False)  # Escribir el objeto en formato JSON
        f.write('\n')  # Escribir un salto de línea después de cada línea

print(f"Archivo guardado correctamente en {output_path}")


