# An√°lisis Estad√≠stico de M√©tricas XAI

Este notebook realiza un an√°lisis estad√≠stico riguroso de las m√©tricas de explicabilidad obtenidas con Quantus.

**Objetivos:**
1. **Intervalos de Confianza del 95%**: Proporcionan una estimaci√≥n del rango probable de los valores reales de las m√©tricas.
2. **Tests de Significaci√≥n Estad√≠stica**: Comparaci√≥n por pares de m√©todos XAI usando el test de Wilcoxon (no param√©trico, adecuado para muestras peque√±as y distribuciones no normales).
3. **An√°lisis de Potencia Estad√≠stica**: Discusi√≥n sobre las limitaciones del tama√±o muestral y su impacto en la capacidad de detectar diferencias significativas.

**Requisitos previos:**
- Ejecutar `quantus_evaluation.py` para los 3 datasets (blood, retina, breast) con `--num_samples 100`
- Los archivos JSON deben estar en `outputs/quantus_metrics_{dataset}.json`

**Nota**: Con 100 muestras por dataset, tenemos un tama√±o muestral adecuado para an√°lisis estad√≠sticos b√°sicos, aunque la potencia para detectar diferencias peque√±as puede ser limitada.

In [None]:
# Configuraci√≥n inicial e importaciones

import os
import json
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
from scipy.stats import wilcoxon
import warnings
warnings.filterwarnings('ignore', category=RuntimeWarning)

# Definir ruta del proyecto (ajustar seg√∫n tu sistema)
PROJECT_DIR = Path.cwd().resolve()  # Usa el directorio actual
# Alternativa para sistemas Linux: PROJECT_DIR = Path("/home/TFM_Laura_Monne").resolve()

# Configuraci√≥n de rutas
OUTPUTS_DIR = PROJECT_DIR / "outputs"
OUTPUTS_DIR.mkdir(exist_ok=True)

# Lista de datasets
datasets = ["blood", "retina", "breast"]

# M√©tricas evaluadas
metric_names = ["faithfulness", "localization", "complexity", "randomization", "robustness"]
metric_labels = {
    "faithfulness": "Fidelidad",
    "localization": "Localizaci√≥n",
    "complexity": "Complejidad",
    "randomization": "Aleatorizaci√≥n",
    "robustness": "Robustez"
}

# M√©todos XAI
methods = ["gradcam", "gradcampp", "integrated_gradients", "saliency"]
method_labels = {
    "gradcam": "Grad-CAM",
    "gradcampp": "Grad-CAM++",
    "integrated_gradients": "Integrated Gradients",
    "saliency": "Saliency Maps"
}

# Colores para visualizaci√≥n
method_colors = {
    "gradcam": "#1b9e77",   # teal
    "gradcampp": "#d95f02", # orange
    "integrated_gradients": "#1f77b4", # blue
    "saliency": "#d62728",  # red
}

print(f"‚úÖ Configuraci√≥n inicial completada")
print(f"üìÅ Directorio de outputs: {OUTPUTS_DIR}")

In [None]:
# Carga de resultados Quantus desde los archivos JSON

results_by_dataset = {}
metadata_rows = []

for dataset in datasets:
    json_path = OUTPUTS_DIR / f"quantus_metrics_{dataset}.json"
    if json_path.exists():
        with open(json_path, "r", encoding="utf-8") as f:
            results_by_dataset[dataset] = json.load(f)
        print(f"‚úÖ Cargado: {dataset} ({json_path.name})")

        meta = results_by_dataset[dataset].get("metadata", {})
        metadata_rows.append({
            "Dataset": dataset.upper(),
            "Num samples": meta.get("num_samples"),
            "Sample strategy": meta.get("sample_strategy"),
            "Seed": meta.get("seed"),
            "Target": meta.get("target"),
            "M√©todos": ", ".join(meta.get("methods", [])) if meta else None,
        })
    else:
        print(f"‚ö†Ô∏è  No encontrado: {json_path.name}")
        print(f"   Ejecuta `python quantus_evaluation.py --dataset {dataset} --num_samples 100` antes de usar este notebook.")

if not results_by_dataset:
    raise ValueError("‚ùå No se encontraron resultados Quantus. Genera primero los ficheros JSON con quantus_evaluation.py.")

if metadata_rows:
    print("")
    print("Resumen de metadata:")
    display(pd.DataFrame(metadata_rows))

In [None]:
# Cargar datos individuales (scores por muestra) desde los JSON

def load_individual_scores(dataset_name: str) -> dict:
    """
    Carga los valores individuales (scores) por muestra para cada m√©todo y m√©trica.
    
    Returns:
        dict: {
            method: {
                metric: [score1, score2, ..., scoreN]  # Lista de valores por muestra
            }
        }
    """
    results = results_by_dataset[dataset_name]
    individual_data = {}
    
    for method in methods:
        if method not in results:
            continue
        individual_data[method] = {}
        for metric in metric_names:
            method_metric = results[method].get(metric, None)
            if method_metric is None:
                individual_data[method][metric] = None
            else:
                scores = method_metric.get("scores", [])
                # Filtrar None (valores inv√°lidos) y convertir a numpy array
                valid_scores = [s for s in scores if s is not None]
                if len(valid_scores) == 0:
                    individual_data[method][metric] = None
                else:
                    individual_data[method][metric] = np.array(valid_scores, dtype=float)
    
    return individual_data

# Cargar datos individuales para todos los datasets
individual_scores_by_dataset = {}
for dataset in datasets:
    individual_scores_by_dataset[dataset] = load_individual_scores(dataset)
    print(f"‚úÖ Datos individuales cargados para {dataset}")

print(f"\nüìä N√∫mero de muestras v√°lidas por dataset:")
for dataset in datasets:
    for method in methods:
        if method in individual_scores_by_dataset[dataset]:
            for metric in metric_names:
                scores = individual_scores_by_dataset[dataset][method].get(metric)
                if scores is not None:
                    print(f"  {dataset}/{method}/{metric}: {len(scores)} muestras v√°lidas")
                    break

In [None]:
# Calcular Intervalos de Confianza del 95% (IC95%)

def calculate_confidence_interval(scores: np.ndarray, confidence: float = 0.95) -> tuple:
    """
    Calcula el intervalo de confianza usando la distribuci√≥n t de Student.
    
    Args:
        scores: Array de valores
        confidence: Nivel de confianza (default: 0.95)
    
    Returns:
        (mean, lower_bound, upper_bound, sem)
    """
    if scores is None or len(scores) == 0:
        return (None, None, None, None)
    
    n = len(scores)
    mean = np.mean(scores)
    sem = stats.sem(scores)  # Error est√°ndar de la media
    
    # Grados de libertad
    df = n - 1
    
    # Valor cr√≠tico t para IC95%
    t_critical = stats.t.ppf((1 + confidence) / 2, df)
    
    # Intervalo de confianza
    margin = t_critical * sem
    lower = mean - margin
    upper = mean + margin
    
    return (mean, lower, upper, sem)

# Calcular IC95% para todos los datasets, m√©todos y m√©tricas
confidence_intervals = {}

for dataset in datasets:
    confidence_intervals[dataset] = {}
    for method in methods:
        if method not in individual_scores_by_dataset[dataset]:
            continue
        confidence_intervals[dataset][method] = {}
        for metric in metric_names:
            scores = individual_scores_by_dataset[dataset][method].get(metric)
            if scores is not None and len(scores) > 1:
                mean, lower, upper, sem = calculate_confidence_interval(scores)
                confidence_intervals[dataset][method][metric] = {
                    "mean": mean,
                    "lower_95": lower,
                    "upper_95": upper,
                    "sem": sem,
                    "n": len(scores)
                }
            else:
                confidence_intervals[dataset][method][metric] = None

print("‚úÖ Intervalos de confianza calculados")

In [None]:
# Mostrar tablas de Intervalos de Confianza del 95%

def display_confidence_intervals_table(dataset_name: str, metric_name: str):
    """Muestra una tabla con IC95% para una m√©trica espec√≠fica."""
    data_rows = []
    
    for method in methods:
        if method not in confidence_intervals[dataset_name]:
            continue
        ci_data = confidence_intervals[dataset_name][method].get(metric_name)
        if ci_data is not None:
            data_rows.append({
                "M√©todo": method_labels.get(method, method),
                "Media": f"{ci_data['mean']:.4f}",
                "IC95% Inferior": f"{ci_data['lower_95']:.4f}",
                "IC95% Superior": f"{ci_data['upper_95']:.4f}",
                "SEM": f"{ci_data['sem']:.4f}",
                "N": ci_data['n']
            })
    
    if data_rows:
        df_ci = pd.DataFrame(data_rows)
        print(f"\n{'='*80}")
        print(f"Intervalos de Confianza del 95% - {dataset_name.upper()} - {metric_labels.get(metric_name, metric_name)}")
        print(f"{'='*80}")
        display(df_ci)
        return df_ci
    return None

# Mostrar IC95% para todas las m√©tricas y datasets
for dataset in datasets:
    print(f"\n{'#'*80}")
    print(f"# INTERVALOS DE CONFIANZA DEL 95% - {dataset.upper()}")
    print(f"{'#'*80}")
    
    for metric in metric_names:
        display_confidence_intervals_table(dataset, metric)

In [None]:
# Tests de Significaci√≥n Estad√≠stica: Test de Wilcoxon (comparaci√≥n por pares)

def perform_wilcoxon_tests(dataset_name: str, metric_name: str, alpha: float = 0.05) -> pd.DataFrame:
    """
    Realiza tests de Wilcoxon (signed-rank test) para comparar m√©todos XAI por pares.
    
    El test de Wilcoxon es no param√©trico y adecuado para:
    - Muestras peque√±as (n < 30)
    - Distribuciones no normales
    - Datos pareados
    
    Args:
        dataset_name: Nombre del dataset
        metric_name: Nombre de la m√©trica
        alpha: Nivel de significaci√≥n (default: 0.05)
    
    Returns:
        DataFrame con resultados de los tests
    """
    # Obtener m√©todos disponibles
    available_methods = [m for m in methods if m in individual_scores_by_dataset[dataset_name]]
    available_methods = [m for m in available_methods 
                        if individual_scores_by_dataset[dataset_name][m].get(metric_name) is not None]
    
    if len(available_methods) < 2:
        return None
    
    # Realizar comparaciones por pares
    test_results = []
    
    for i, method1 in enumerate(available_methods):
        scores1 = individual_scores_by_dataset[dataset_name][method1].get(metric_name)
        if scores1 is None or len(scores1) == 0:
            continue
            
        for method2 in available_methods[i+1:]:
            scores2 = individual_scores_by_dataset[dataset_name][method2].get(metric_name)
            if scores2 is None or len(scores2) == 0:
                continue
            
            # Asegurar que tienen la misma longitud (tomar el m√≠nimo)
            min_len = min(len(scores1), len(scores2))
            s1 = scores1[:min_len]
            s2 = scores2[:min_len]
            
            # Test de Wilcoxon (signed-rank test)
            try:
                statistic, p_value = wilcoxon(s1, s2, alternative='two-sided')
                
                # Determinar significaci√≥n
                is_significant = p_value < alpha
                
                # Calcular diferencia de medias
                mean_diff = np.mean(s1) - np.mean(s2)
                
                test_results.append({
                    "M√©todo 1": method_labels.get(method1, method1),
                    "M√©todo 2": method_labels.get(method2, method2),
                    "Media 1": f"{np.mean(s1):.4f}",
                    "Media 2": f"{np.mean(s2):.4f}",
                    "Diferencia": f"{mean_diff:.4f}",
                    "Estad√≠stico W": f"{statistic:.2f}",
                    "p-valor": f"{p_value:.4f}",
                    f"Significativo (Œ±={alpha})": "S√≠" if is_significant else "No"
                })
            except Exception as e:
                # Si hay un error (p. ej., todas las diferencias son cero)
                test_results.append({
                    "M√©todo 1": method_labels.get(method1, method1),
                    "M√©todo 2": method_labels.get(method2, method2),
                    "Media 1": f"{np.mean(s1):.4f}",
                    "Media 2": f"{np.mean(s2):.4f}",
                    "Diferencia": f"{np.mean(s1) - np.mean(s2):.4f}",
                    "Estad√≠stico W": "N/A",
                    "p-valor": "N/A",
                    f"Significativo (Œ±={alpha})": "Error"
                })
    
    if test_results:
        df_tests = pd.DataFrame(test_results)
        return df_tests
    return None

# Realizar tests de Wilcoxon para todas las m√©tricas y datasets
wilcoxon_results = {}

for dataset in datasets:
    wilcoxon_results[dataset] = {}
    print(f"\n{'#'*80}")
    print(f"# TESTS DE WILCOXON - {dataset.upper()}")
    print(f"{'#'*80}")
    
    for metric in metric_names:
        df_tests = perform_wilcoxon_tests(dataset, metric)
        if df_tests is not None and len(df_tests) > 0:
            wilcoxon_results[dataset][metric] = df_tests
            print(f"\n{metric_labels.get(metric, metric).upper()}:")
            display(df_tests)
        else:
            print(f"\n{metric_labels.get(metric, metric).upper()}: No hay datos suficientes para realizar tests")
            wilcoxon_results[dataset][metric] = None

In [None]:
# Guardar resultados estad√≠sticos en archivos CSV

print("=== Guardando resultados estad√≠sticos en outputs/ ===\n")

# Guardar intervalos de confianza
for dataset in datasets:
    ci_rows = []
    for method in methods:
        if method not in confidence_intervals[dataset]:
            continue
        for metric in metric_names:
            ci_data = confidence_intervals[dataset][method].get(metric)
            if ci_data is not None:
                ci_rows.append({
                    "Dataset": dataset,
                    "M√©todo": method,
                    "M√©trica": metric,
                    "Media": ci_data['mean'],
                    "IC95_Lower": ci_data['lower_95'],
                    "IC95_Upper": ci_data['upper_95'],
                    "SEM": ci_data['sem'],
                    "N": ci_data['n']
                })
    
    if ci_rows:
        df_ci_all = pd.DataFrame(ci_rows)
        ci_path = OUTPUTS_DIR / f"quantus_confidence_intervals_{dataset}.csv"
        df_ci_all.to_csv(ci_path, index=False)
        print(f"üìÅ Guardado: {ci_path.name}")

# Guardar tests de Wilcoxon
for dataset in datasets:
    for metric in metric_names:
        if metric in wilcoxon_results[dataset] and wilcoxon_results[dataset][metric] is not None:
            df_wilcoxon = wilcoxon_results[dataset][metric]
            wilcoxon_path = OUTPUTS_DIR / f"quantus_wilcoxon_{dataset}_{metric}.csv"
            df_wilcoxon.to_csv(wilcoxon_path, index=False)
            print(f"üìÅ Guardado: {wilcoxon_path.name}")

print("\n‚úÖ Resultados estad√≠sticos guardados")

In [None]:
# Visualizaci√≥n: Intervalos de Confianza del 95% por M√©todo y M√©trica

def plot_confidence_intervals(dataset_name: str, metric_name: str, figsize=(10, 6)):
    """Genera un gr√°fico de barras con intervalos de confianza del 95%."""
    data_rows = []
    
    for method in methods:
        if method not in confidence_intervals[dataset_name]:
            continue
        ci_data = confidence_intervals[dataset_name][method].get(metric_name)
        if ci_data is not None:
            data_rows.append({
                "method": method,
                "mean": ci_data['mean'],
                "lower": ci_data['lower_95'],
                "upper": ci_data['upper_95'],
                "sem": ci_data['sem']
            })
    
    if not data_rows:
        print(f"No hay datos para {dataset_name} - {metric_name}")
        return
    
    df_plot = pd.DataFrame(data_rows)
    df_plot = df_plot.sort_values('mean', ascending=True)
    
    fig, ax = plt.subplots(figsize=figsize)
    
    x_pos = np.arange(len(df_plot))
    means = df_plot['mean'].values
    lowers = df_plot['lower'].values
    uppers = df_plot['upper'].values
    
    # Barras de error
    errors = [means - lowers, uppers - means]
    
    bars = ax.barh(x_pos, means, xerr=errors, capsize=5, 
                   color=[method_colors.get(m, 'gray') for m in df_plot['method'].values],
                   alpha=0.7, edgecolor='black', linewidth=1.2)
    
    ax.set_yticks(x_pos)
    ax.set_yticklabels([method_labels.get(m, m) for m in df_plot['method'].values])
    ax.set_xlabel(f'{metric_labels.get(metric_name, metric_name)} (IC95%)', fontsize=12)
    ax.set_title(f'Intervalos de Confianza del 95% - {dataset_name.upper()} - {metric_labels.get(metric_name, metric_name)}', 
                 fontsize=14, fontweight='bold')
    ax.grid(axis='x', alpha=0.3, linestyle='--')
    ax.axvline(x=0, color='black', linewidth=0.8, linestyle='-')
    
    # A√±adir valores en las barras
    for i, (mean, lower, upper) in enumerate(zip(means, lowers, uppers)):
        ax.text(mean, i, f' {mean:.3f}', va='center', fontsize=9, fontweight='bold')
    
    plt.tight_layout()
    
    # Guardar figura
    out_path = OUTPUTS_DIR / f"quantus_ci_{dataset_name}_{metric_name}.png"
    fig.savefig(out_path, dpi=300, facecolor='white', bbox_inches='tight')
    print(f"‚úÖ Figura guardada: {out_path.name}")
    
    plt.show()
    plt.close()

# Generar gr√°ficos de IC95% para m√©tricas clave
print("Generando gr√°ficos de Intervalos de Confianza...\n")

key_metrics = ["faithfulness", "robustness", "localization"]  # M√©tricas m√°s importantes

for dataset in datasets:
    for metric in key_metrics:
        if metric in metric_names:
            plot_confidence_intervals(dataset, metric)

## Discusi√≥n: Limitaciones de Potencia Estad√≠stica

### Tama√±o Muestral y Potencia

**Tama√±o muestral actual**: 100 muestras por dataset

**Consideraciones**:

1. **Potencia Estad√≠stica Limitada para Diferencias Peque√±as**:
   - Con n=100, la potencia para detectar diferencias peque√±as (efectos peque√±os, d < 0.3) es limitada.
   - Para detectar diferencias peque√±as con potencia del 80% (Œ±=0.05), se necesitar√≠an aproximadamente 200-300 muestras.
   - Las diferencias grandes (efectos grandes, d > 0.8) son detectables con n=100.

2. **Tests No Param√©tricos (Wilcoxon)**:
   - El test de Wilcoxon es menos potente que tests param√©tricos (t-test) cuando los datos son normales.
   - Sin embargo, es m√°s robusto ante violaciones de normalidad y adecuado para muestras peque√±as.
   - Con n=100, el test de Wilcoxon tiene buena potencia para diferencias medianas-grandes.

3. **Correcci√≥n por M√∫ltiples Comparaciones**:
   - Se realizan m√∫ltiples tests (4 m√©todos ‚Üí 6 comparaciones por m√©trica).
   - Sin correcci√≥n (Bonferroni, FDR), aumenta el riesgo de falsos positivos (Type I error).
   - **Recomendaci√≥n**: Considerar correcci√≥n de Bonferroni para an√°lisis m√°s conservadores:
     - Œ±_ajustado = Œ± / n√∫mero_de_comparaciones
     - Para 6 comparaciones: Œ±_ajustado = 0.05 / 6 ‚âà 0.0083

4. **Intervalos de Confianza del 95%**:
   - Los IC95% proporcionan una estimaci√≥n del rango probable de los valores reales.
   - Con n=100, los IC95% son razonablemente precisos (SEM ‚âà œÉ/‚àö100).
   - Si los IC95% de dos m√©todos no se solapan, sugiere una diferencia significativa.

### Recomendaciones para Futuros Estudios

1. **Aumentar tama√±o muestral a 200-300 muestras** para mejorar la potencia estad√≠stica.
2. **Aplicar correcci√≥n de Bonferroni o FDR** para controlar el error de tipo I en m√∫ltiples comparaciones.
3. **Realizar an√°lisis de potencia a priori** para determinar el tama√±o muestral necesario seg√∫n el tama√±o del efecto esperado.
4. **Considerar an√°lisis bayesiano** como alternativa complementaria para comparaciones de m√©todos.

### Interpretaci√≥n de Resultados

- **p-valor < 0.05**: Evidencia estad√≠stica de diferencia (sin correcci√≥n por m√∫ltiples comparaciones).
- **IC95% no solapados**: Sugiere diferencia significativa entre m√©todos.
- **Diferencia de medias peque√±a pero significativa**: Puede no ser cl√≠nicamente relevante; considerar tama√±o del efecto (Cohen's d).
