In [42]:
import pandas as pd
import numpy as np
import os

In [43]:
METHODS = ['knn', 'svm', 'naive_bayes', 'random_forest']
SETS = [
    'norm', 'norm_PCA80', 'norm_PCA95',
    'original', 'original_PCA80', 'original_PCA95',
    'stand', 'stand_PCA80', 'stand_PCA95'
]
METRICS_NAMES = ['Accuracy', 'Sensitivity', 'Specificity', 'Precision', 'F1_Score', 'FNR', 'FPR', 'AUC']
CLASSES = ['0', '1', '2']

In [44]:
# Creación de directorios necesarios
CWD = os.getcwd()
RESULTS_PATH = os.path.join(CWD, "results")

METRICS_PATH = os.path.join(CWD, "metrics") # Este se creó en eval.ipynb

try:
    os.mkdir(RESULTS_PATH)
except FileExistsError:
    pass

## Función

In [45]:
# ¿¿¿¿¿????????????????????????? TODO
# Para la métrica f1-score, una tabla resumen forma que en cada fila aparezca el
# rendimiento del método con cada conjunto de datos considerado y en cada columna
# aparezca cada conjunto de datos considerado. Cada celda tendrá el formato “media +-
# desviaciónTípica” (en Latex sería "media $\pm$ desviaciónTípica").

# TODO Genera las siguientes figuras:
# FN contra FP
# PR contra RC
# ACC contra Fm

def calcula_media_desv_tipica(method: str, set: str):

    # Cargamos las métricas del modelo y conjunto correspondientes
    full_path = os.path.join(METRICS_PATH, f"{method}_{set}_metrics.csv")
    metrics = pd.read_csv(full_path, index_col="fold")
    
    # Calculamos media y desv. típica de cada columna
    mean = metrics.mean().to_numpy()
    std = metrics.std().to_numpy()
    
    results = [f"{set}"]
    for i in range(0, mean.shape[0]):
        results.append(f"{mean[i]:.3f} $\pm$ {std[i]:.3f}")

    return results

  results.append(f"{mean[i]:.3f} $\pm$ {std[i]:.3f}")


## Generar csv

In [49]:
f1_summary_path_tex_ori = os.path.join(RESULTS_PATH, f"ori_f1_table.tex")
f1_summary_path_tex_norm = os.path.join(RESULTS_PATH, f"norm_f1_table.tex")
f1_summary_path_tex_stand = os.path.join(RESULTS_PATH, f"stand_f1_table.tex")

f1_summary_path_csv = os.path.join(RESULTS_PATH, f"f1_table.csv")

# Tabla para almacenar los f1-score de cada modelo en cada conjunto de datos
f1_summary_table = []

for method in METHODS:
    
    # Generamos la tabla con las métricas del método correspondiente
    tabla_metodo = []
    for set in SETS:
        fila = calcula_media_desv_tipica(method, set)
        tabla_metodo.append(fila)

    # Generamos un dataframe a partir de dicha tabla
    df = pd.DataFrame(tabla_metodo, columns=["Set", *METRICS_NAMES])
    
    # Guardamos los resultados de la tabla en formato latex y csv
    csv_path = os.path.join(RESULTS_PATH, f"{method}.csv")
    tex_path = os.path.join(RESULTS_PATH, f"{method}.tex")
    df.to_csv(csv_path, index=False)
    df.to_latex(tex_path, index=False, caption=f"Resultados para {method}")

    f1_values = df["F1_Score"].to_list()
    f1_summary_table.append(f1_values)

f1_summary_table_df = pd.DataFrame(f1_summary_table, columns=SETS, index=METHODS)

# Guardamos la tabla con los f1-scores en formatos latex y csv
f1_summary_table_df.to_csv(f1_summary_path_csv)

f1_summary_table_df[['norm', 'norm_PCA80', 'norm_PCA95']] \
    .to_latex(f1_summary_path_tex_norm, caption="Resumen F1-Score por Método y Datasets normalizados")

f1_summary_table_df[['original', 'original_PCA80', 'original_PCA95']] \
    .to_latex(f1_summary_path_tex_ori, caption="Resumen F1-Score por Método y Dataset originales")

f1_summary_table_df[['stand', 'stand_PCA80', 'stand_PCA95']] \
    .to_latex(f1_summary_path_tex_stand, caption="Resumen F1-Score por Método y Dataset estandarizados")
            

# Ensemble

In [4]:
def obtener_probabilidad(model_name, fold, set):
    """
    Obtienes el dataframe de probabilidades del modelo, fold y set especificado

    Args:
        model_name (str): Nombre del modelo (e.g., 'knn').
        fold (int): Número de la partición (e.g., 1).
        set_name (str): Versión del conjunto de datos (e.g., 'norm').

    Returns:
        pd.DataFrame: DataFrame con los resultados, o None si el archivo no existe.
    """
    # Obtenemos el path del csv y lo cargamos
    file_name = f"pred_{fold}_{set}_{model_name}.csv"
    full_path = os.path.join("predictions", file_name)

    predictions_df = pd.read_csv(full_path)

    return predictions_df

### Votación

In [None]:
try:
    os.mkdir(path="ensemble_vote")
except FileExistsError:
    pass

for set in SETS:
    for fold in range(1,6):
        
        prediction_dfs = []

        for method in METHODS:
            # Metemos en una lista todos los dfs de probabilidades para ese fold y set
            probabilities = obtener_probabilidad(method, fold, set)
            if not probabilities.empty:
                prediction_dfs.append(probabilities)

        # Creamos el DataFrame base
        df_median = pd.DataFrame(0, index=prediction_dfs[0].index, columns=CLASSES, dtype=int)

        # Añadimos los votos
        for df in prediction_dfs:
            predicted_classes = df[CLASSES].idxmax(axis=1)

            for index, clase in predicted_classes.items():
                df_median.loc[index, clase] += 1

        # Añadimos la columna que recoja la decisión del Ensemble
        df_median['Ensemble_Decision'] = df_median[CLASSES].idxmax(axis=1)

        # Guardamos en csv el DataFrame de votos
        file_name = f"votes_fold{fold}_{set}.csv"
        full_path = os.path.join("ensemble_vote", file_name)
            
        df_median.to_csv(full_path, index=True, index_label='Index')
        print(f"Generado: {full_path} con {len(prediction_dfs)} modelos.")        

Generado: ensemble_vote\votes_fold1_norm.csv con 4 modelos.
Generado: ensemble_vote\votes_fold2_norm.csv con 4 modelos.
Generado: ensemble_vote\votes_fold3_norm.csv con 4 modelos.
Generado: ensemble_vote\votes_fold4_norm.csv con 4 modelos.
Generado: ensemble_vote\votes_fold5_norm.csv con 4 modelos.
Generado: ensemble_vote\votes_fold1_norm_PCA80.csv con 4 modelos.
Generado: ensemble_vote\votes_fold2_norm_PCA80.csv con 4 modelos.
Generado: ensemble_vote\votes_fold3_norm_PCA80.csv con 4 modelos.
Generado: ensemble_vote\votes_fold4_norm_PCA80.csv con 4 modelos.
Generado: ensemble_vote\votes_fold5_norm_PCA80.csv con 4 modelos.
Generado: ensemble_vote\votes_fold1_norm_PCA95.csv con 4 modelos.
Generado: ensemble_vote\votes_fold2_norm_PCA95.csv con 4 modelos.
Generado: ensemble_vote\votes_fold3_norm_PCA95.csv con 4 modelos.
Generado: ensemble_vote\votes_fold4_norm_PCA95.csv con 4 modelos.
Generado: ensemble_vote\votes_fold5_norm_PCA95.csv con 4 modelos.
Generado: ensemble_vote\votes_fold1_orig

### Media

In [None]:
try:
    os.mkdir(path="ensemble_avg")
except FileExistsError:
    pass

for set in SETS:
    for fold in range(1,6):
        
        prediction_dfs = []

        for method in METHODS:
            # Metemos en una lista todos los dfs de probabilidades para ese fold y set
            probabilities = obtener_probabilidad(method, fold, set)
            if not probabilities.empty:
                prediction_dfs.append(probabilities)

        # Creamos el DataFrame base
        df_median = pd.DataFrame(0, index=prediction_dfs[0].index, columns=CLASSES, dtype=int)

        number_methods = len(METHODS)

        # Sumamos todos los DataFrames
        for df in prediction_dfs:
            df_median = df_median.add(df, fill_value=0)

        # Calculamos la media y redondeamos
        df_median = df_median / number_methods
        df_median[CLASSES] = df_median[CLASSES].round(3)   

        # Añadimos la columna que recoja la decisión del Ensemble
        df_median['Ensemble_Decision'] = df_median[CLASSES].idxmax(axis=1)

        # Guardamos en csv el DataFrame de votos
        file_name = f"avg_fold{fold}_{set}.csv"
        full_path = os.path.join("ensemble_avg", file_name)
            
        df_median.to_csv(full_path, index=True, index_label='Index')
        print(f"Generado: {full_path} con {len(prediction_dfs)} modelos.")        

Generado: ensemble_avg\avg_fold1_norm.csv con 4 modelos.
Generado: ensemble_avg\avg_fold2_norm.csv con 4 modelos.
Generado: ensemble_avg\avg_fold3_norm.csv con 4 modelos.
Generado: ensemble_avg\avg_fold4_norm.csv con 4 modelos.
Generado: ensemble_avg\avg_fold5_norm.csv con 4 modelos.
Generado: ensemble_avg\avg_fold1_norm_PCA80.csv con 4 modelos.
Generado: ensemble_avg\avg_fold2_norm_PCA80.csv con 4 modelos.
Generado: ensemble_avg\avg_fold3_norm_PCA80.csv con 4 modelos.
Generado: ensemble_avg\avg_fold4_norm_PCA80.csv con 4 modelos.
Generado: ensemble_avg\avg_fold5_norm_PCA80.csv con 4 modelos.
Generado: ensemble_avg\avg_fold1_norm_PCA95.csv con 4 modelos.
Generado: ensemble_avg\avg_fold2_norm_PCA95.csv con 4 modelos.
Generado: ensemble_avg\avg_fold3_norm_PCA95.csv con 4 modelos.
Generado: ensemble_avg\avg_fold4_norm_PCA95.csv con 4 modelos.
Generado: ensemble_avg\avg_fold5_norm_PCA95.csv con 4 modelos.
Generado: ensemble_avg\avg_fold1_original.csv con 4 modelos.
Generado: ensemble_avg\a

### Mediana

In [8]:
try:
    os.mkdir(path="ensemble_median")
except FileExistsError:
    pass

for set in SETS:
    for fold in range(1,6):
        
        prediction_dfs = []

        for method in METHODS:
            # Metemos en una lista todos los dfs de probabilidades para ese fold y set
            probabilities = obtener_probabilidad(method, fold, set)
            if not probabilities.empty:
                prediction_dfs.append(probabilities)

        # Creamos el DataFrame base
        df_median = pd.DataFrame(0, index=prediction_dfs[0].index, columns=CLASSES, dtype=int)

        # Concatemos los DataFrames para que sea más sencillo el cálculo de la mediana
        df_all_preds = pd.concat(prediction_dfs)

        # Agrupamos por el índice original (y calculamos la mediana
        df_median = df_all_preds.groupby(level=0)[CLASSES].median()
        df_median[CLASSES] = df_median[CLASSES].round(3)

        # Añadimos la columna que recoja la decisión del Ensemble
        df_median['Ensemble_Decision'] = df_median[CLASSES].idxmax(axis=1)

        # Guardamos en csv el DataFrame de votos
        file_name = f"median_fold{fold}_{set}.csv"
        full_path = os.path.join("ensemble_median", file_name)
            
        df_median.to_csv(full_path, index=True, index_label='Index')
        print(f"Generado: {full_path} con {len(prediction_dfs)} modelos.")        

Generado: ensemble_median\median_fold1_norm.csv con 4 modelos.
Generado: ensemble_median\median_fold2_norm.csv con 4 modelos.
Generado: ensemble_median\median_fold3_norm.csv con 4 modelos.
Generado: ensemble_median\median_fold4_norm.csv con 4 modelos.
Generado: ensemble_median\median_fold5_norm.csv con 4 modelos.
Generado: ensemble_median\median_fold1_norm_PCA80.csv con 4 modelos.
Generado: ensemble_median\median_fold2_norm_PCA80.csv con 4 modelos.
Generado: ensemble_median\median_fold3_norm_PCA80.csv con 4 modelos.
Generado: ensemble_median\median_fold4_norm_PCA80.csv con 4 modelos.
Generado: ensemble_median\median_fold5_norm_PCA80.csv con 4 modelos.
Generado: ensemble_median\median_fold1_norm_PCA95.csv con 4 modelos.
Generado: ensemble_median\median_fold2_norm_PCA95.csv con 4 modelos.
Generado: ensemble_median\median_fold3_norm_PCA95.csv con 4 modelos.
Generado: ensemble_median\median_fold4_norm_PCA95.csv con 4 modelos.
Generado: ensemble_median\median_fold5_norm_PCA95.csv con 4 mode