In [None]:
# Evaluaci√≥n Cuantitativa de Explicabilidad con Quantus

Este notebook eval√∫a cuantitativamente la calidad de las explicaciones XAI usando la librer√≠a Quantus.

**M√©tricas evaluadas:**
- **Fidelidad (Faithfulness)**: Faithfulness Correlation - mide si la explicaci√≥n refleja el comportamiento interno del modelo
- **Robustez (Robustness)**: Average Sensitivity - eval√∫a la estabilidad ante perturbaciones leves
- **Complejidad (Complexity)**: Entropy/Complexity - estima la simplicidad de la explicaci√≥n
- **Aleatorizaci√≥n (Randomization)**: Randomization Test - mide la dependencia respecto a la semilla
- **Localizaci√≥n (Localization)**: Region Perturbation - determina la precisi√≥n espacial

**M√©todos XAI evaluados:**
- Grad-CAM
- Grad-CAM++
- Integrated Gradients
- Saliency Maps

**Nota:** Este notebook eval√∫a los 3 modelos individuales (blood, retina, breast) y genera un gr√°fico radar comparativo.

(True, 'Quadro RTX 6000')

In [None]:
# Configuraci√≥n inicial

import os
import json
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
from math import pi

# Cambiar al directorio del proyecto
PROJECT_DIR = Path("/home/TFM_Laura_Monne")
os.chdir(PROJECT_DIR)
print(f"Directorio de trabajo: {os.getcwd()}")

# Configuraci√≥n
OUTPUTS_DIR = PROJECT_DIR / "outputs"
OUTPUTS_DIR.mkdir(exist_ok=True)

# N√∫mero de muestras a evaluar (puedes ajustarlo seg√∫n tus necesidades)
NUM_SAMPLES = 30  # Aumenta para mayor precisi√≥n, pero tardar√° m√°s

print(f"Directorio de outputs: {OUTPUTS_DIR}")
print(f"Muestras a evaluar por dataset: {NUM_SAMPLES}")


'/home/TFM_Laura_Monne'

In [None]:
# Ejecutar evaluaci√≥n Quantus para cada dataset

datasets = ["blood", "retina", "breast"]

for dataset in datasets:
    print(f"\n{'='*60}")
    print(f"Evaluando dataset: {dataset}")
    print(f"{'='*60}")
    
    !python quantus_evaluation.py \
        --dataset {dataset} \
        --data_dir ./data \
        --num_samples {NUM_SAMPLES} \
        --methods gradcam gradcampp integrated_gradients saliency \
        --output outputs/quantus_metrics_{dataset}.json
    
    print(f"‚úÖ Evaluaci√≥n completada para {dataset}\n")

  EVALUACI√ìN QUANTUS - RESNET18 XAI
Dispositivo: cuda
M√©todos: ['gradcam', 'gradcampp', 'integrated_gradients', 'saliency']
Muestras a evaluar: 5
Cargando modelo desde results/best_model.pth...
Modelo ResNet-18 creado:
  - Par√°metros totales: 22,362,142
  - Par√°metros entrenables: 22,362,142
  - N√∫mero de clases: 15
‚úÖ Modelo cargado correctamente.
Cargando datasets de MedMNIST...

Cargando BLOODMNIST...
  - Entrenamiento: 11959
  - Validaci√≥n:    1712
  - Test:          3421
  - Clases:        8
  - Canales (orig):3 -> input: 3

Cargando RETINAMNIST...
  - Entrenamiento: 1080
  - Validaci√≥n:    120
  - Test:          400
  - Clases:        5
  - Canales (orig):3 -> input: 3

Cargando BREASTMNIST...
  - Entrenamiento: 546
  - Validaci√≥n:    78
  - Test:          156
  - Clases:        2
  - Canales (orig):1 -> input: 3
DataLoaders creados:
  - Train: 13585 muestras, 13585 batches
  - Val:   1910 muestras, 1910 batches
  - Test:  3977 muestras, 3977 batches
Recolectando muestra

In [None]:
# Cargar resultados de los 3 datasets

results_by_dataset = {}

for dataset in datasets:
    json_path = OUTPUTS_DIR / f"quantus_metrics_{dataset}.json"
    if json_path.exists():
        with open(json_path, "r") as f:
            results_by_dataset[dataset] = json.load(f)
        print(f"‚úÖ Cargado: {dataset} ({json_path.name})")
    else:
        print(f"‚ö†Ô∏è  No encontrado: {json_path.name}")
        print(f"   Ejecuta primero la celda anterior para generar los resultados.")

if not results_by_dataset:
    raise ValueError("‚ùå No se encontraron resultados. Ejecuta la celda anterior primero.")


In [None]:
# Extraer y normalizar m√©tricas para el gr√°fico radar

def normalize_metric(value, metric_name, method_name):
    """
    Normaliza las m√©tricas al rango [0, 1] para el gr√°fico radar.
    
    Para cada m√©trica:
    - Faithfulness: valores m√°s altos son mejores (correlaci√≥n)
    - Robustness: valores m√°s bajos son mejores (menos sensibilidad)
    - Complexity: valores m√°s bajos son mejores (menos complejidad)
    - Randomization: valores m√°s bajos son mejores (menos dependencia)
    - Localization: valores m√°s altos son mejores (mejor localizaci√≥n)
    """
    # Valores t√≠picos observados (puedes ajustarlos seg√∫n tus resultados)
    ranges = {
        "faithfulness": (-1.0, 1.0),  # Correlaci√≥n t√≠picamente entre -1 y 1
        "robustness": (0.0, 1.0),     # Sensibilidad t√≠picamente entre 0 y 1
        "complexity": (0.0, 20.0),    # Complejidad t√≠picamente entre 0 y 20
        "randomization": (0.0, 1.0),  # Randomization t√≠picamente entre 0 y 1
        "localization": (0.0, 1.0),   # Localization t√≠picamente entre 0 y 1
    }
    
    if metric_name not in ranges:
        return 0.5  # Valor por defecto
    
    min_val, max_val = ranges[metric_name]
    
    # Normalizar al rango [0, 1]
    normalized = (value - min_val) / (max_val - min_val) if max_val != min_val else 0.5
    normalized = max(0.0, min(1.0, normalized))  # Clamp a [0, 1]
    
    # Invertir si valores m√°s bajos son mejores
    if metric_name in ["robustness", "complexity", "randomization"]:
        normalized = 1.0 - normalized
    
    return normalized

# M√©tricas a mostrar en el radar
metric_names = ["faithfulness", "robustness", "complexity", "localization"]
metric_labels = ["Fidelidad", "Robustez", "Complejidad", "Localizaci√≥n"]

# M√©todos XAI
methods = ["gradcam", "gradcampp", "integrated_gradients", "saliency"]
method_labels = {
    "gradcam": "Grad-CAM",
    "gradcampp": "Grad-CAM++",
    "integrated_gradients": "Integrated Gradients",
    "saliency": "Saliency"
}

# Recopilar m√©tricas normalizadas (promedio entre los 3 datasets)
normalized_metrics = {method: {metric: [] for metric in metric_names} for method in methods}

for dataset, results in results_by_dataset.items():
    for method in methods:
        if method not in results:
            continue
        for metric in metric_names:
            if metric in results[method] and results[method][metric] is not None:
                mean_val = results[method][metric].get("mean", 0.0)
                norm_val = normalize_metric(mean_val, metric, method)
                normalized_metrics[method][metric].append(norm_val)

# Promediar entre datasets
for method in methods:
    for metric in metric_names:
        values = normalized_metrics[method][metric]
        if values:
            normalized_metrics[method][metric] = np.mean(values)
        else:
            normalized_metrics[method][metric] = 0.0

print("M√©tricas normalizadas (promedio entre datasets):")
for method in methods:
    print(f"\n{method_labels[method]}:")
    for metric in metric_names:
        print(f"  {metric}: {normalized_metrics[method][metric]:.4f}")


In [None]:
# Generar gr√°fico radar (spider chart)

# Configuraci√≥n del gr√°fico
fig, ax = plt.subplots(figsize=(10, 10), subplot_kw=dict(projection='polar'))

# √Ångulos para cada m√©trica
angles = [n / float(len(metric_names)) * 2 * pi for n in range(len(metric_names))]
angles += angles[:1]  # Cerrar el c√≠rculo

# Colores para cada m√©todo
colors = {
    "gradcam": "#FF6B6B",  # Rojo
    "gradcampp": "#9B59B6",  # Morado
    "integrated_gradients": "#8B4513",  # Marr√≥n
    "saliency": "#808080"  # Gris
}

# Dibujar cada m√©todo
for method in methods:
    values = [normalized_metrics[method][metric] for metric in metric_names]
    values += values[:1]  # Cerrar el c√≠rculo
    
    ax.plot(angles, values, 'o-', linewidth=2, label=method_labels[method], color=colors[method])
    ax.fill(angles, values, alpha=0.25, color=colors[method])

# Configurar etiquetas
ax.set_xticks(angles[:-1])
ax.set_xticklabels(metric_labels, fontsize=12)

# Configurar el rango radial
ax.set_ylim(0, 1)
ax.set_yticks([0.2, 0.4, 0.6, 0.8, 1.0])
ax.set_yticklabels(['0.2', '0.4', '0.6', '0.8', '1.0'], fontsize=10)
ax.grid(True, linestyle='--', alpha=0.5)

# T√≠tulo
plt.title('Perfil de M√©tricas por M√©todo XAI (Normalizado 0-1)', 
          size=16, fontweight='bold', pad=20)

# Leyenda
ax.legend(loc='upper right', bbox_to_anchor=(1.3, 1.1), fontsize=11)

# Guardar figura
output_path = OUTPUTS_DIR / "quantus_radar_chart.png"
plt.tight_layout()
plt.savefig(output_path, dpi=300, bbox_inches='tight')
print(f"‚úÖ Gr√°fico guardado en: {output_path}")

plt.show()


In [None]:
# Tabla resumen de m√©tricas (valores originales, no normalizados)

summary_rows = []

for dataset, results in results_by_dataset.items():
    for method in methods:
        if method not in results:
            continue
        for metric in metric_names:
            if metric in results[method] and results[method][metric] is not None:
                mean_val = results[method][metric].get("mean", 0.0)
                std_val = results[method][metric].get("std", 0.0)
                summary_rows.append({
                    "Dataset": dataset.upper(),
                    "M√©todo": method_labels[method],
                    "M√©trica": metric_labels[metric_names.index(metric)],
                    "Media": f"{mean_val:.4f}",
                    "Std": f"{std_val:.4f}",
                })

df_summary = pd.DataFrame(summary_rows)
print("üìä Resumen de m√©tricas por dataset y m√©todo:")
display(df_summary)

# Guardar tabla
csv_path = OUTPUTS_DIR / "quantus_metrics_summary.csv"
df_summary.to_csv(csv_path, index=False)
print(f"\n‚úÖ Tabla guardada en: {csv_path}")
