# Análisis de Resultados - Tablas Resumen por Método

Este notebook presenta las tablas resumen de rendimiento para cada método de clasificación (KNN, SVM, RF, NB) con diferentes conjuntos de datos.

In [24]:
import pandas as pd
import numpy as np
import os
import glob
from IPython.display import display, Markdown

# Definir los métodos, tipos de normalización y variantes de PCA
methods = ['KNN', 'SVM', 'RF', 'NB']
norm_types = ['original', 'norm', 'std']
pca_variants = ['', '_PCA80', '_PCA95']

# Función para crear tabla resumen para un método específico
def create_summary_table(method, save_to_file=True):
    """
    Crea una tabla resumen para un método específico.
    Filas: cada conjunto de datos (ej: original, norm, std, original_PCA80, etc.)
    Columnas: métricas
    Valores: media ± desviación típica
    
    Args:
        method: Nombre del método (KNN, SVM, RF, NB)
        save_to_file: Si es True, guarda la tabla en CSV y LaTeX
    """
    # Diccionario para almacenar resultados por dataset
    results_by_dataset = {}
    
    # Iterar sobre todos los tipos de normalización y variantes PCA
    for norm in norm_types:
        for pca in pca_variants:
            dataset_name = f"{norm}{pca}"
            
            # Leer los 5 archivos CSV correspondientes a los 5 folds
            fold_data = []
            for fold in range(1, 6):
                file_pattern = f"cross_validation_evaluation/{method}_{dataset_name}_{fold}.csv"
                if os.path.exists(file_pattern):
                    df = pd.read_csv(file_pattern)
                    # Convertir a diccionario para facilitar el acceso
                    metrics_dict = dict(zip(df['metric'], df['value']))
                    fold_data.append(metrics_dict)
            
            # Si encontramos datos para este dataset
            if fold_data:
                # Calcular media y desviación típica para cada métrica
                all_metrics = fold_data[0].keys()
                dataset_results = {}
                
                for metric in all_metrics:
                    values = [fold[metric] for fold in fold_data if metric in fold]
                    if values:
                        mean = np.mean(values)
                        std = np.std(values, ddof=1)  # Usar ddof=1 para desviación estándar muestral
                        # Formato LaTeX: media $\pm$ desviación
                        if np.isnan(std) or np.isclose(std, 0):
                            dataset_results[metric] = f"{mean:.4f}"
                        else:
                            dataset_results[metric] = f"{mean:.4f} $\\pm$ {std:.4f}"
                
                results_by_dataset[dataset_name] = dataset_results
    
    # Crear DataFrame con los resultados
    df_summary = pd.DataFrame(results_by_dataset).T

    # Ordenar columnas en un orden lógico
    desired_order = ['Exactitud', 'Precisión', 'Recall', 'F1-score', 'Sensibilidad', 
                    'Especificidad', 'Tasa de Falsos Positivos', 'Tasa de Falsos Negativos', 'AUC']

    column_order = [col for col in desired_order if col in df_summary.columns]
    df_summary = df_summary[column_order]
    
    # Guardar en archivos si se solicita
    if save_to_file:
        # Crear directorio si no existe
        os.makedirs('cross_validation_results', exist_ok=True)
        
        # Guardar en CSV
        csv_filename = f'cross_validation_results/{method}_summary_table.csv'
        df_summary.to_csv(csv_filename, index=True)
        print(f"Tabla guardada en CSV: {csv_filename}")
        
        # Guardar en formato LaTeX
        latex_filename = f'cross_validation_results/{method}_summary_table.tex'
        # Configurar opciones de LaTeX
        latex_str = df_summary.to_latex(
            index=True,
            escape=False,  # No escapar caracteres especiales de LaTeX
            caption=f'Tabla resumen del método {method}',
            label=f'tab:{method}_summary',
            column_format='l' + 'c' * len(df_summary.columns)
        )
        
        with open(latex_filename, 'w', encoding='utf-8') as f:
            f.write(latex_str)
        print(f"Tabla guardada en LaTeX: {latex_filename}")
        
    return df_summary

print("Funciones de análisis cargadas correctamente.")

Funciones de análisis cargadas correctamente.


## Tabla Resumen - KNN

A continuación se presenta la tabla resumen del método **K-Nearest Neighbors (KNN)** con todos los conjuntos de datos considerados. Cada celda muestra el formato "media $\pm$ desviación típica" para cada métrica.

In [25]:
knn_table = create_summary_table('KNN')

display(knn_table)

Tabla guardada en CSV: cross_validation_results/KNN_summary_table.csv
Tabla guardada en LaTeX: cross_validation_results/KNN_summary_table.tex


Unnamed: 0,Exactitud,Precisión,Recall,F1-score,Sensibilidad,Especificidad,Tasa de Falsos Positivos,Tasa de Falsos Negativos,AUC
original,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9887 $\pm$ 0.0141
original_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9653 $\pm$ 0.0380
original_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9943 $\pm$ 0.0109
norm,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9750 $\pm$ 0.0306
norm_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9663 $\pm$ 0.0208
norm_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9823 $\pm$ 0.0203
std,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9920 $\pm$ 0.0106
std_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9713 $\pm$ 0.0273
std_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9713 $\pm$ 0.0273


## Tabla Resumen - SVM

A continuación se presenta la tabla resumen del método **Support Vector Machine (SVM)** con todos los conjuntos de datos considerados.

In [21]:
svm_table = create_summary_table('SVM')

display(svm_table)

Tabla guardada en CSV: cross_validation_results/SVM_summary_table.csv
Tabla guardada en LaTeX: cross_validation_results/SVM_summary_table.tex


Unnamed: 0,Exactitud,Precisión,Recall,F1-score,Sensibilidad,Especificidad,Tasa de Falsos Positivos,Tasa de Falsos Negativos,AUC
original,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9967 $\pm$ 0.0033
original_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9853 $\pm$ 0.0173
original_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9947 $\pm$ 0.0056
norm,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9987 $\pm$ 0.0030
norm_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9930 $\pm$ 0.0100
norm_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9953 $\pm$ 0.0045
std,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9987 $\pm$ 0.0030
std_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9863 $\pm$ 0.0147
std_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9863 $\pm$ 0.0147


## Tabla Resumen - Random Forest

A continuación se presenta la tabla resumen del método **Random Forest (RF)** con todos los conjuntos de datos considerados.

In [22]:
rf_table = create_summary_table('RF')
if rf_table is not None:
    display(rf_table)
else:
    print("No se encontraron datos para RF")

Tabla guardada en CSV: cross_validation_results/RF_summary_table.csv
Tabla guardada en LaTeX: cross_validation_results/RF_summary_table.tex


Unnamed: 0,Exactitud,Precisión,Recall,F1-score,Sensibilidad,Especificidad,Tasa de Falsos Positivos,Tasa de Falsos Negativos,AUC
original,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9933 $\pm$ 0.0109
original_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9717 $\pm$ 0.0217
original_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9930 $\pm$ 0.0053
norm,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9905 $\pm$ 0.0144
norm_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9840 $\pm$ 0.0141
norm_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9947 $\pm$ 0.0056
std,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9923 $\pm$ 0.0105
std_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9722 $\pm$ 0.0281
std_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9718 $\pm$ 0.0263


## Tabla Resumen - Naive Bayes

A continuación se presenta la tabla resumen del método **Naive Bayes (NB)** con todos los conjuntos de datos considerados.

In [23]:
nb_table = create_summary_table('NB')

display(nb_table)

Tabla guardada en CSV: cross_validation_results/NB_summary_table.csv
Tabla guardada en LaTeX: cross_validation_results/NB_summary_table.tex


Unnamed: 0,Exactitud,Precisión,Recall,F1-score,Sensibilidad,Especificidad,Tasa de Falsos Positivos,Tasa de Falsos Negativos,AUC
original,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9933 $\pm$ 0.0078
original_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9867 $\pm$ 0.0156
original_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9827 $\pm$ 0.0179
norm,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9933 $\pm$ 0.0078
norm_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9933 $\pm$ 0.0094
norm_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9873 $\pm$ 0.0132
std,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9933 $\pm$ 0.0078
std_PCA80,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9820 $\pm$ 0.0174
std_PCA95,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.9820 $\pm$ 0.0174
