
# EDA del MIT‑BIH Arrhythmia Database (PhysioNet) usando `wfdb`


#### Importar librerías necesarias

In [None]:
import os
import warnings
from pathlib import Path
from typing import List, Tuple

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import scipy.stats as st

try:
    import statsmodels.api as sm
    from statsmodels.stats.multitest import multipletests
except ImportError:
    sm = None
    multipletests = None
    warnings.warn("statsmodels no disponible; algunas pruebas estadísticas no estarán disponibles")

try:
    import wfdb
except ImportError:
    wfdb = None
    warnings.warn("wfdb no instalado; instala con `pip install wfdb` para poder leer señales crudas")

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (12, 5)
pd.set_option("display.max_columns", None)

#### Helpers para lectura de registros

In [None]:
def list_records(data_dir: str) -> List[str]:
    """
    Lee el archivo RECORDS en la carpeta del MIT-BIH y devuelve la lista de registros (sin extensión).
    Esto permite iterar sobre los registros disponibles.
    """
    recs_path = Path(data_dir) / "RECORDS"
    if not recs_path.exists():
        raise FileNotFoundError(f"No se encontró el archivo RECORDS en {data_dir}")
    with open(recs_path, "r") as f:
        lines = [line.strip() for line in f if line.strip()]
    return lines

def load_record_local(record_name: str, data_dir: str) -> Tuple[np.ndarray, dict, wfdb.Annotation]:
    """
    Carga un registro del MIT-BIH desde archivos locales (.dat, .hea, .atr).
    Retorna:
      - signals: arreglo numpy (n_muestras, n_canales)
      - meta: diccionario con metadatos (frecuencia, nombres de señales, longitud)
      - annot: objeto wfdb.Annotation con latidos anotados (posiciones, símbolos)
    """
    base_path = str(Path(data_dir) / record_name)
    record = wfdb.rdrecord(base_path, physical=True)
    signals = record.p_signal
    meta = {
        "fs": record.fs,
        "units": record.units,
        "sig_name": record.sig_name,
        "comments": record.comments,
        "n_sig": record.n_sig,
        "sig_len": record.sig_len
    }
    annot = wfdb.rdann(base_path, extension="atr")
    return signals, meta, annot

def plot_signal_with_annotations(signals: np.ndarray, annot: wfdb.Annotation, meta: dict, 
                                 start_sec: float = 0.0, duration_sec: float = 5.0, channel: int = 0):
    """
    Grafica un segmento de la señal ECG con las anotaciones de latidos superpuestas.
    - start_sec: segundo inicial
    - duration_sec: duración en segundos
    - channel: indice del canal a graficar
    """
    fs = meta["fs"]
    start_idx = int(start_sec * fs)
    end_idx = int((start_sec + duration_sec) * fs)
    t = np.arange(start_idx, end_idx) / fs  # tiempo en segundos

    plt.figure(figsize=(14, 4))
    plt.plot(t, signals[start_idx:end_idx, channel], label=f"Señal canal {channel}")
    # anotaciones dentro del rango
    mask = (annot.sample >= start_idx) & (annot.sample < end_idx)
    ann_x = (annot.sample[mask] / fs)
    ann_y = signals[annot.sample[mask], channel]
    plt.scatter(ann_x, ann_y, c='red', marker='x', label="Latidos anotados")
    plt.title(f"Registro — señal ECG (canal {channel}) con anotaciones\nSegmento {start_sec:.1f}–{start_sec+duration_sec:.1f} s")
    plt.xlabel("Tiempo (s)")
    plt.ylabel("Voltaje (mV)")
    plt.legend()
    plt.tight_layout()
    plt.show()

def get_basic_stats(signals: np.ndarray) -> dict:
    """
    Calcula estadísticas simples de la señal completa:
    min, max, mean, median, std.
    """
    return {
        "min": float(np.min(signals)),
        "max": float(np.max(signals)),
        "mean": float(np.mean(signals)),
        "median": float(np.median(signals)),
        "std": float(np.std(signals))
    }

## EJECUCIÓN del EDA

### 1.1 Carga y Exploración Inicial

In [None]:
# ================================
# Sección 1.1: Carga y Exploración Inicial
# ================================

# — Parámetro: ruta al directorio del dataset local
DATA_DIR = "./mit-bih-arrhythmia-database-1.0.0"  # Ajusta según tu organización de carpetas

# — Listar los registros disponibles mediante el helper que definiste
records = list_records(DATA_DIR)
print("Cantidad de registros disponibles:", len(records))
print("Algunos registros de ejemplo:", records[:5])

# — Elegir un registro de prueba para exploración inicial
rec0 = records[0]

# — Cargar señal, metadatos y anotaciones de ese registro
signals0, meta0, annot0 = load_record_local(rec0, DATA_DIR)

print(f"\nMetadatos del registro {rec0}:")
for k, v in meta0.items():
    print(f"  {k}: {v}")
print("\nPrimeras 10 anotaciones (muestra, símbolo):")
print(list(zip(annot0.sample[:10], annot0.symbol[:10])))

# — Visualizar un segmento de la señal con anotaciones superpuestas
plot_signal_with_annotations(signals0, annot0, meta0,
                             start_sec=0, duration_sec=5.0, channel=0)

# — Calcular estadísticas básicas de toda la señal cargada
stats0 = get_basic_stats(signals0)
print(f"\nEstadísticas básicas del registro {rec0}:")
for k, v in stats0.items():
    print(f"  {k}: {v:.6f}")

# — Comparativa entre varios registros: construir lista de estadísticas resumidas
n_iter = min(5, len(records))  # número de registros a comparar
stats_list = []
for rec in records[:n_iter]:
    sig, meta, annot = load_record_local(rec, DATA_DIR)
    s = get_basic_stats(sig)
    s["record"] = rec
    s["fs"] = meta["fs"]
    stats_list.append(s)

df_stats = pd.DataFrame(stats_list)
print("\nComparativa de estadísticas entre registros:")
display(df_stats)

# — Visualización de la dispersión de estadísticas (mínimo, máximo, media, etc.)
sns.boxplot(data=df_stats.drop(columns=["record", "fs"]))
plt.title("Comparación de estadísticas entre registros")
plt.xlabel("Estadística")
plt.ylabel("Valor (u. señales)")
plt.tight_layout()
plt.show()

# — Convertir un fragmento de la señal en DataFrame para mostrar con Pandas
N = min(1000, signals0.shape[0])
df_signal0 = pd.DataFrame({
    "time_s": np.arange(N) / meta0["fs"],
    "signal_ch0": signals0[:N, 0]
})
print(f"\nPrimeras filas del fragmento de señal (registro {rec0}):")
display(df_signal0.head())
print("\nÚltimas filas del fragmento:")
display(df_signal0.tail())

# — Mostrar info() y resumen estadístico del fragmento
print("\nInformación del DataFrame de señal fragmentada:")
print(df_signal0.info())
print("\nResumen estadístico del fragmento:")
display(df_signal0.describe())

# — Verificar si hay valores faltantes (NaN) en la señal completa
n_nan = np.isnan(signals0).sum()
print(f"\nNúmero total de valores NaN en señales del registro {rec0}: {n_nan}")

# — Crear DataFrame para anotaciones y explorarlas
df_annot0 = pd.DataFrame({
    "sample": annot0.sample,
    "symbol": annot0.symbol
})
print(f"\nPrimeras filas de las anotaciones del registro {rec0}:")
display(df_annot0.head())
print("\nÚltimas filas de las anotaciones:")
display(df_annot0.tail())

print("\nInformación del DataFrame de anotaciones:")
print(df_annot0.info())

print("\nFrecuencia de símbolos de anotaciones (conteos):")
print(df_annot0["symbol"].value_counts())

# — Comprobar valores faltantes en anotaciones
n_nan_annot = df_annot0.isna().sum().sum()
print(f"\nNúmero total de valores faltantes en anotaciones: {n_nan_annot}")


### 1.2 Análisis Univariado
Dividimos en dos “tipos de variable” que nos interesan:
- Variables numéricas: amplitudes (voltajes de la señal), intervalos RR, otros derivados numéricos.
- Variables categóricas: símbolos de latido (normal, ventricular, etc.) de las anotaciones.

In [None]:
# ================================
# Sección 1.2: Análisis Univariado
# ================================

# —— Diccionario de mapeo de símbolos MIT-BIH a clases AAMI
MITBIH_to_AAMI = {
    # Clase Normal (N)
    "N": "N",  "L": "N",  "R": "N",  "e": "N",  "j": "N",
    # Supraventricular (S)
    "A": "S",  "a": "S",  "J": "S",  "S": "S",
    # Ventricular (V)
    "V": "V",  "E": "V",
    # Fusión (F)
    "F": "F",
    # Desconocido / otros (Q)
    "/": "Q",  "f": "Q",  "Q": "Q",
}

def map_to_aami(symbols: List[str]) -> List[str]:
    """Mapea cada símbolo MIT-BIH a su clase AAMI correspondiente."""
    return [MITBIH_to_AAMI.get(s, "Q") for s in symbols]

In [None]:
# —— 1.2.a) Para la variable categórica: clases AAMI

# (Tomando el registro de prueba rec0 y df_annot0 que ya tienes de la sección 1.1)
df_annot0["class_AAMI"] = map_to_aami(df_annot0["symbol"])

# Tabla de frecuencias y proporciones por clase AAMI
counts = df_annot0["class_AAMI"].value_counts().sort_index()
props = df_annot0["class_AAMI"].value_counts(normalize=True).sort_index()

print("Conteos por clase AAMI:")
print(counts)
print("\nProporciones por clase AAMI:")
print(props.apply(lambda x: f"{x*100:.2f}%"))

# Gráfico de barras de distribuciones de clases AAMI
plt.figure(figsize=(6, 4))
sns.barplot(x=counts.index, y=counts.values, palette="magma")
plt.title(f"Distribución de clases AAMI — registro {rec0}")
plt.xlabel("Clase AAMI")
plt.ylabel("Número de latidos")
for i, v in enumerate(counts.values):
    plt.text(i, v + max(counts.values)*0.01, str(v), ha="center")
plt.tight_layout()
plt.show()

# (Opcional) Gráfico de pastel para representar proporciones
plt.figure(figsize=(5, 5))
plt.pie(counts.values, labels=counts.index, autopct="%1.1f%%", startangle=90, colors=sns.color_palette("magma", len(counts)))
plt.title(f"Proporción de clases AAMI — registro {rec0}")
plt.tight_layout()
plt.show()

In [None]:
# —— 1.2.b) Para variables numéricas:
import scipy.stats as scistats

# Elegir las columnas numéricas del DataFrame df_stats (Comparativa entre registros)
numeric_cols = [c for c in df_stats.columns if c not in ("record", "fs")]

def detect_outliers_iqr(series: pd.Series) -> pd.Series:
    """Devuelve un boolean mask (True = outlier) aplicado a la serie, usando regla IQR."""
    q1 = series.quantile(0.25)
    q3 = series.quantile(0.75)
    iqr = q3 - q1
    lower = q1 - 1.5 * iqr
    upper = q3 + 1.5 * iqr
    return (series < lower) | (series > upper)

for col in numeric_cols:
    series = df_stats[col].dropna()
    if series.empty:
        continue

    print(f"\n--- Análisis de la variable numérica '{col}' ---")
    # Tendencia central y dispersión
    mean = series.mean()
    median = series.median()
    mode = series.mode().tolist()  # puede haber múltiples valores de moda
    std = series.std(ddof=0)
    iqr = series.quantile(0.75) - series.quantile(0.25)
    data_range = series.max() - series.min()
    cv = std / mean if mean != 0 else np.nan
    skewness = scistats.skew(series)
    kurtosis = scistats.kurtosis(series)

    print(f"Media: {mean:.6f}")
    print(f"Mediana: {median:.6f}")
    print(f"Moda(s): {mode}")
    print(f"Desviación estándar: {std:.6f}")
    print(f"Rango intercuartílico (IQR): {iqr:.6f}")
    print(f"Rango (max−min): {data_range:.6f}")
    print(f"Coeficiente de variación: {cv:.6f}")
    print(f"Asimetría (skew): {skewness:.6f}")
    print(f"Curtosis: {kurtosis:.6f}")

    # Percentiles relevantes
    percentiles = series.quantile([0.01, 0.05, 0.25, 0.75, 0.95, 0.99])
    print("Percentiles 1-99%:", percentiles.to_dict())

    # Identificar y contar cuantos valores son outliers por IQR
    mask_out = detect_outliers_iqr(series)
    n_out = mask_out.sum()
    pct_out = n_out / len(series) * 100
    print(f"Número de outliers (regla IQR): {n_out} ({pct_out:.2f} %)")

    # Visualizaciones
    # Histograma con densidad (KDE)
    plt.figure(figsize=(5, 3))
    sns.histplot(series, kde=True, bins=20, color="skyblue")
    plt.title(f"Histograma + KDE de '{col}'")
    plt.xlabel(col)
    plt.ylabel("Frecuencia")
    plt.tight_layout()
    plt.show()

    # Boxplot con identificación visual de outliers
    plt.figure(figsize=(4, 3))
    sns.boxplot(x=series, color="lightgreen")
    plt.title(f"Boxplot de '{col}'")
    plt.tight_layout()
    plt.show()

In [None]:
# —— 1.2.c) Análisis univariado de la señal fragmentada (canal 0)

series_ch0 = df_signal0["signal_ch0"].dropna()
print("\n*** Análisis univariado de la señal (fragmento, canal 0) ***")
print("Media:", series_ch0.mean())
print("Mediana:", series_ch0.median())
print("Desviación estándar:", series_ch0.std())
print("Asimetría:", scistats.skew(series_ch0))
print("Curtosis:", scistats.kurtosis(series_ch0))

pcts = series_ch0.quantile([0.01, 0.05, 0.25, 0.75, 0.95, 0.99])
print("Percentiles 1-99%:", pcts.to_dict())

# Detección de outliers en la señal fragmentada con regla IQR
mask_out_ch0 = detect_outliers_iqr(series_ch0)
print("Número de outliers en fragmento (IQR):", mask_out_ch0.sum())

# Visualización del histograma + densidad
plt.figure(figsize=(6, 3))
sns.histplot(series_ch0, kde=True, bins=30, color="coral")
plt.title("Histograma + KDE de señal (fragmento, canal 0)")
plt.xlabel("Voltaje (mV)")
plt.ylabel("Frecuencia")
plt.tight_layout()
plt.show()

# Boxplot del fragmento
plt.figure(figsize=(4, 3))
sns.boxplot(x=series_ch0, color="tan")
plt.title("Boxplot de señal (fragmento, canal 0)")
plt.tight_layout()
plt.show()

### Paso previo: construir df_beats — extracción de características por latido

Para cada latido (cada anotación), vas a extraer un fragmento centrado en el pico R y calcular métricas. Un pipeline general:

- Ubica la posición de pico R (toma annot.sample[i], la muestra del latido i).
-Define una ventana alrededor del pico — por ejemplo, antes N_pre muestras y después N_post muestras. Esa ventana debe abarcar la forma completa del latido.
- Extrae ese fragmento de señal.
- Calcular características del fragmento, por ejemplo:
    * amplitude_peak: valor máximo (o valor absoluto máximo)
    * amplitude_min: valor mínimo
    * duration_samples: número de muestras (o convertirlo a tiempo)
    * energy: suma de cuadrados del fragmento (∑ valor²)
    * area: integral o suma de valores absolutos
    * mean_voltage, std_voltage
    *Cualquier otra métrica morfológica (skewness del fragmento, curtosis, etc.)
- Asignar la clase AAMI correspondiente al símbolo de anotación.
- Agregar al DataFrame df_beats.

In [None]:
def extract_beat_features(signals: np.ndarray, annot: wfdb.Annotation, meta: dict,
                          pre_samples: int = 100, post_samples: int = 100) -> pd.DataFrame:
    """
    Extrae características de cada latido centrado en el pico R.
    signals: la señal completa (n_muestras, n_canales)
    annot: anotaciones con posiciones de latido (muestras) y símbolos
    meta: metadatos con fs etc.
    pre_samples, post_samples: cuántas muestras antes y después del pico incluir
    Retorna un DataFrame con una fila por latido y columnas:
     - sample (posición del pico)
     - symbol (símbolo original)
     - class_AAMI (clase mapeada)
     - características numéricas (peak, min, energy, area, duration, etc.)
    """
    beats = []
    fs = meta["fs"]
    # Asumir canal 0 (puedes adaptarte si usas otro canal)
    chan = signals[:, 0]

    for i, samp in enumerate(annot.sample):
        s = int(samp)
        start = s - pre_samples
        end = s + post_samples
        # Validar bordes
        if start < 0 or end >= len(chan):
            continue
        frag = chan[start:end]
        # Características numéricas
        amp_peak = float(np.max(frag))
        amp_min = float(np.min(frag))
        mean_v = float(np.mean(frag))
        std_v = float(np.std(frag))
        energy = float(np.sum(frag ** 2))
        area = float(np.trapz(np.abs(frag), dx=1/fs))  # integral de valor absoluto
        duration = (end - start) / fs  # en segundos

        # Símbolo y clase AAMI
        sym = annot.symbol[i]
        class_aami = MITBIH_to_AAMI.get(sym, "Q")

        beats.append({
            "sample": s,
            "symbol": sym,
            "class_AAMI": class_aami,
            "amplitude_peak": amp_peak,
            "amplitude_min": amp_min,
            "mean_voltage": mean_v,
            "std_voltage": std_v,
            "energy": energy,
            "area": area,
            "duration_s": duration
        })

    df = pd.DataFrame(beats)
    return df

# — Ejemplo uso:
df_beats0 = extract_beat_features(signals0, annot0, meta0, pre_samples=100, post_samples=100)
print(df_beats0.head())
print(df_beats0["class_AAMI"].value_counts())


### 1.3 Análisis Bivariado

In [None]:
# -------------------------------
# 1.3 Análisis Bivariado — usando df_beats
# -------------------------------

import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import f_oneway, kruskal, spearmanr

df_beats = extract_beat_features(signals0, annot0, meta0, pre_samples=100, post_samples=100)

# 1) Matriz de correlación (Spearman) entre características numéricas de latido
num_cols = [c for c in df_beats.columns
            if c not in ("sample", "symbol", "class_AAMI")]
corr = df_beats[num_cols].corr(method="spearman")

plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, fmt=".2f", cmap="coolwarm", linewidths=0.5)
plt.title("Correlación Spearman entre características de latido")
plt.tight_layout()
plt.show()

# 2) Scatter plots coloreados por clase AAMI
pairs = [("amplitude_peak", "energy"), ("duration_s", "area"), ("mean_voltage", "std_voltage")]
for x, y in pairs:
    if x in df_beats.columns and y in df_beats.columns:
        plt.figure(figsize=(5, 4))
        sns.scatterplot(data=df_beats, x=x, y=y, hue="class_AAMI", palette="tab10", alpha=0.6)
        plt.title(f"{y} vs {x} con color por clase AAMI")
        plt.xlabel(x)
        plt.ylabel(y)
        plt.legend(bbox_to_anchor=(1.05, 1), loc="upper left")
        plt.tight_layout()
        plt.show()

# 3) Box plots: variable categórica (clase AAMI) vs variables numéricas
for num in num_cols:
    plt.figure(figsize=(6, 4))
    sns.boxplot(x="class_AAMI", y=num, data=df_beats, palette="Set2")
    plt.title(f"Distribución de {num} por clase AAMI")
    plt.xlabel("Clase AAMI")
    plt.ylabel(num)
    plt.tight_layout()
    plt.show()

# 4) Pruebas estadísticas (ANOVA / Kruskal‐Wallis) para cada característica
def test_by_class(df, feature, class_col="class_AAMI"):
    groups = [group[feature].dropna().values for _, group in df.groupby(class_col)]
    try:
        stat, p = f_oneway(*groups)
        test_name = "ANOVA"
    except Exception:
        stat, p = kruskal(*groups)
        test_name = "Kruskal-Wallis"
    print(f"{feature}: {test_name} → estadístico = {stat:.4f}, p = {p:.4e}")

for num in num_cols:
    test_by_class(df_beats, num, "class_AAMI")

# 5) Correlación entre características numéricas y clase codificada (Spearman)
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df_beats["class_code"] = le.fit_transform(df_beats["class_AAMI"])

for num in num_cols:
    corr, p = spearmanr(df_beats[num].dropna(), df_beats["class_code"].loc[df_beats[num].notna()])
    print(f"Spearman corr entre {num} y clase codificada: corr = {corr:.4f}, p = {p:.4e}")


1.4 multivariado

In [None]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans
# import plotly.express as px  # para 3D interactivo si lo tienes

# ---------------------------
# 1.4 Análisis Multivariado
# ---------------------------

# 0) Preparar los datos: características numéricas y estandarización
num_cols = [c for c in df_beats.columns if c not in ("sample", "symbol", "class_AAMI", "class_code")]
X = df_beats[num_cols].copy()
# Escalado estándar (media cero, desviación uno)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 1) PCA — reducir dimensión a 2 o 3 componentes
pca = PCA(n_components=3)
X_pca = pca.fit_transform(X_scaled)
explained = pca.explained_variance_ratio_
print("Varianza explicada por componentes PCA:", explained)

df_pca = df_beats.copy()
df_pca["PC1"] = X_pca[:, 0]
df_pca["PC2"] = X_pca[:, 1]
df_pca["PC3"] = X_pca[:, 2]

# Visualización 2D del PCA coloreado por clase AAMI
plt.figure(figsize=(6, 5))
sns.scatterplot(data=df_pca, x="PC1", y="PC2", hue="class_AAMI", palette="Set1", alpha=0.7)
plt.title("PCA: PC1 vs PC2 (color = clase AAMI)")
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.tight_layout()
plt.show()

# Visualización 3D opcional (si usas plotly)
# try:
#     fig = px.scatter_3d(df_pca, x="PC1", y="PC2", z="PC3", color="class_AAMI", title="PCA 3D de latidos")
#     fig.show()
# except Exception as e:
#     print("Plotly 3D no disponible:", e)

# 2) t-SNE (o UMAP) — para capturar estructura no lineal
tsne = TSNE(n_components=2, random_state=42, perplexity=30)
X_tsne = tsne.fit_transform(X_scaled)
df_pca["TSNE1"] = X_tsne[:, 0]
df_pca["TSNE2"] = X_tsne[:, 1]

plt.figure(figsize=(6, 5))
sns.scatterplot(data=df_pca, x="TSNE1", y="TSNE2", hue="class_AAMI", palette="Set1", alpha=0.7)
plt.title("t-SNE de latidos (2D)")
plt.xlabel("TSNE1")
plt.ylabel("TSNE2")
plt.tight_layout()
plt.show()

# 3) Clustering (KMeans) — ver si agrupamientos coinciden con clases AAMI
k = len(df_beats["class_AAMI"].unique())  # usar número de clases AAMI como k
kmeans = KMeans(n_clusters=k, random_state=0)
df_pca["cluster"] = kmeans.fit_predict(X_scaled)

plt.figure(figsize=(6, 5))
sns.scatterplot(data=df_pca, x="PC1", y="PC2", hue="cluster", palette="tab10", alpha=0.7)
plt.title("Clustering KMeans sobre componentes PCA")
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.tight_layout()
plt.show()

# 4) PairPlot / Scatter matrix de múltiples variables (3+)
# Usar un subset de variables + clases
subset = num_cols[:5]  # elegir 5 características para hacer el pairplot
sns.pairplot(df_beats, vars=subset, hue="class_AAMI", diag_kind="kde", corner=True, palette="Set2")
plt.suptitle("PairPlot de múltiples características coloreado por clase AAMI", y=1.02)
plt.tight_layout()
plt.show()

# 5) Análisis por grupos / segmentos
# Por ejemplo: comparar estadísticas de latidos por clases AAMI
group_stats = df_beats.groupby("class_AAMI")[num_cols].agg(["mean", "std", "median"])
print("\nEstadísticas agrupadas por clase AAMI (mean, std, median):")
display(group_stats)

# Podrías también segmentar por registros:
if "record" in df_beats.columns:
    rec_stats = df_beats.groupby("record")[num_cols].agg("mean")
    print("\nPromedios por registro:")
    display(rec_stats.head())

# 6) Identificación de patrones complejos: cruzas clustering con clases
confusion = pd.crosstab(df_pca["cluster"], df_pca["class_AAMI"])
print("\nTabla de contingencia cluster vs clase AAMI:")
display(confusion)


### 1.5 Identificación de Patrones y Anomalías

In [None]:
from sklearn.ensemble import IsolationForest
from sklearn.neighbors import LocalOutlierFactor
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# -------------------------------
# 1.5 Identificación de Patrones y Anomalías
# -------------------------------

# 1) Outliers multivariados con Isolation Forest

num_cols = [c for c in df_beats.columns if c not in ("sample", "symbol", "class_AAMI", "class_code")]
X = df_beats[num_cols].values

# Isolation Forest
iso = IsolationForest(contamination=0.01, random_state=42)  # suponer 1% anomalías
df_beats["iso_score"] = iso.fit_predict(X)  # -1 = anomalía, 1 = normal
df_beats["iso_dist"] = iso.decision_function(X)  # puntaje de anomalía

# Ver latidos marcados como anomalía
anom_iso = df_beats[df_beats["iso_score"] == -1]
print("Cantidad de latidos identificados como anomalía por Isolation Forest:", len(anom_iso))
display(anom_iso.head())

# 2) Outliers locales con Local Outlier Factor (LOF)
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.01)
lof_labels = lof.fit_predict(X)
df_beats["lof_score"] = lof_labels  # -1 = anomalía, 1 = normal
# Para puntaje cuantitativo:
df_beats["lof_dist"] = -lof.negative_outlier_factor_

anom_lof = df_beats[df_beats["lof_score"] == -1]
print("Cantidad de latidos identificados como anomalía por LOF:", len(anom_lof))
display(anom_lof.head())

# 3) Mostrar distribución de puntajes de anomalía
plt.figure(figsize=(6, 4))
sns.histplot(df_beats["iso_dist"], kde=True, bins=30, color="skyblue")
plt.title("Distribución de scores (Isolation Forest)")
plt.xlabel("Decision function (mayor = más normal)")
plt.tight_layout()
plt.show()

plt.figure(figsize=(6, 4))
sns.histplot(df_beats["lof_dist"], kde=True, bins=30, color="lightgreen")
plt.title("Distribución de scores (LOF)")
plt.xlabel("LOF puntaje (mayor = más probable anomalía)")
plt.tight_layout()
plt.show()

# 4) Patrones temporales: evolución de características a lo largo de latidos (orden temporal)

# Supongamos que tus latidos están ordenados según el orden original
df_beats_sorted = df_beats.sort_values("sample")  # o por índice de latido si lo tienes

# Graficar evolución de algunas variables al paso del tiempo (latido por latido)
for feat in ["amplitude_peak", "energy", "duration_s"]:
    if feat in df_beats_sorted.columns:
        plt.figure(figsize=(8, 3))
        plt.plot(df_beats_sorted["sample"], df_beats_sorted[feat], marker=".", linestyle="-", alpha=0.7)
        # señalar anomalías detectadas
        mask_anom = df_beats_sorted["iso_score"] == -1
        plt.scatter(df_beats_sorted["sample"][mask_anom], df_beats_sorted[feat][mask_anom],
                    c="red", label="Anomalía ISO", s=20)
        plt.title(f"Evolución temporal de {feat}")
        plt.xlabel("Muestra del pico R")
        plt.ylabel(feat)
        plt.legend()
        plt.tight_layout()
        plt.show()

# 5) Detección de inconsistencias

# Ejemplo: latidos con duración muy pequeña o cero
bad_duration = df_beats[df_beats["duration_s"] <= 0]
print("Latidos con duración ≤ 0:", len(bad_duration))
display(bad_duration.head())

# Latidos con valores extremos de energía / amplitud (por percentiles)
for feat in ["amplitude_peak", "energy"]:
    if feat in df_beats.columns:
        p99 = df_beats[feat].quantile(0.99)
        p1 = df_beats[feat].quantile(0.01)
        extreme = df_beats[(df_beats[feat] > p99 * 2) | (df_beats[feat] < p1 / 2)]
        print(f"Latidos extremos en {feat} (más allá de doble cola):", len(extreme))
        display(extreme.head())


### 1.6 Análisis de la Variable Objetivo

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from scipy.stats import f_oneway, kruskal

# ----------------------------
# 1.6 Análisis de la Variable Objetivo
# ----------------------------

# 1) Distribución de clases AAMI (conteos / proporciones)
counts = df_beats["class_AAMI"].value_counts().sort_index()
props = df_beats["class_AAMI"].value_counts(normalize=True).sort_index()

print("Conteos por clase AAMI:")
print(counts)
print("\nProporciones por clase AAMI (%):")
print((props * 100).round(2))

plt.figure(figsize=(6, 4))
sns.barplot(x=counts.index, y=counts.values, palette="viridis")
plt.title("Distribución de clases AAMI (conteos)")
plt.xlabel("Clase AAMI")
plt.ylabel("Número de latidos")
for i, v in enumerate(counts.values):
    plt.text(i, v + max(counts)*0.01, str(v), ha="center")
plt.tight_layout()
plt.show()

plt.figure(figsize=(6, 4))
sns.barplot(x=props.index, y=props.values * 100, palette="viridis")
plt.title("Distribución de clases AAMI (porcentaje)")
plt.xlabel("Clase AAMI")
plt.ylabel("Porcentaje de latidos (%)")
plt.tight_layout()
plt.show()

# 2) Análisis de desbalance
# Ver la clase mayoritaria vs clases minoritarias
maj_class = counts.idxmax()
print(f"Clase mayoritaria: {maj_class} con {counts.max()} latidos ({props.max()*100:.2f} %)")
minor_classes = counts[counts < counts.max()]
print("Clases minoritarias y sus proporciones:")
print((minor_classes / counts.max() * 100).round(2))

# 3) Relación con variables predictoras numéricas (features)

# Para cada variable numérica, comparar su distribución entre clases (boxplots ya vistos en 1.3)
# Pero aquí podemos cuantificar diferencias con pruebas estadísticas
num_cols = [c for c in df_beats.columns
            if c not in ("sample", "symbol", "class_AAMI", "class_code", "iso_score", "lof_score")]

def test_feature_by_class(df, feature, class_col="class_AAMI"):
    """
    Prueba ANOVA / Kruskal-Wallis para ver si la característica varía entre clases AAMI.
    """
    groups = [group[feature].dropna().values for _, group in df.groupby(class_col)]
    try:
        stat, p = f_oneway(*groups)
        test_name = "ANOVA"
    except Exception:
        stat, p = kruskal(*groups)
        test_name = "Kruskal-Wallis"
    print(f"{feature}: {test_name} → estadístico = {stat:.4f}, p = {p:.4e}")

print("\nPruebas estadísticas por característica respecto a la clase AAMI:")
for num in num_cols:
    test_feature_by_class(df_beats, num, "class_AAMI")

# 4) Correlación entre variable objetivo codificada y features (opcional con precaución)
le = LabelEncoder()
df_beats["class_code"] = le.fit_transform(df_beats["class_AAMI"])

# Calcular correlación Spearman entre features numéricas y clase codificada
from scipy.stats import spearmanr

print("\nCorrelaciones (Spearman) entre features numéricas y clase codificada:")
for num in num_cols:
    corr, p = spearmanr(df_beats[num].dropna(), df_beats["class_code"].loc[df_beats[num].notna()])
    print(f"{num} <-> clase_code: corr = {corr:.4f}, p = {p:.4e}")


## 1.7 Conclusiones e Insights

### Hallazgos principales
- El dataset MIT-BIH Arrhythmia Database fue cargado exitosamente con `wfdb`, confirmando la presencia de **48 registros** con anotaciones de latidos.  
- Las señales presentan características consistentes: frecuencia de muestreo de 360 Hz, longitudes de cientos de miles de muestras y valores de amplitud en el rango esperado (mV).  
- A nivel univariado se observaron distribuciones aproximadamente normales en algunas métricas (ej. voltaje medio), pero con colas largas y outliers en amplitud y energía.  
- A nivel bivariado y multivariado, los latidos muestran agrupamientos claros al mapear a las **superclases AAMI (N, S, V, F, Q)**. Sin embargo, existen solapamientos entre clases S y V, lo que refleja la dificultad de separarlas únicamente con variables simples.  
- Se identificaron **fuertes desbalances de clase**: la clase **N (Normal)** domina el dataset (>70–80 %), mientras que clases como F y Q son muy minoritarias (<2 %).  
- Los métodos de detección de anomalías (Isolation Forest, LOF) señalaron un pequeño porcentaje de latidos con características inusuales, lo que coincide con la presencia de ruido o registros atípicos.  
- Los análisis temporales mostraron variaciones en amplitud y energía a lo largo del tiempo, con patrones que reflejan la irregularidad de arritmias en segmentos concretos.

### Implicaciones para el modelo de IA
- La **alta desproporción de clases** implica que un modelo de clasificación naive tendería a predecir siempre la clase N, logrando precisión alta pero bajo recall para arritmias.  
- Los solapamientos entre clases sugieren que se necesitarán **representaciones más robustas** (como espectrogramas o embeddings con CNNs) para capturar patrones sutiles.  
- La presencia de outliers y latidos ruidosos puede afectar la capacidad de generalización del modelo; se debe aplicar limpieza o estrategias robustas al ruido.  
- Los agrupamientos observados en PCA/t-SNE confirman que existen estructuras latido-dependientes útiles para clasificación, pero no completamente lineales.

### Recomendaciones de preprocesamiento
- **Balancear las clases** antes del modelado: técnicas como SMOTE, oversampling de clases minoritarias, undersampling de N, o pérdida ponderada.  
- **Normalización / estandarización** de características antes de entrenamiento, dado que amplitudes y energías tienen escalas distintas.  
- **Segmentación uniforme de latidos** (ventanas alrededor del pico R) para obtener entradas homogéneas a la red neuronal.  
- **Filtrado de ruido y valores extremos**: eliminar o suavizar latidos identificados como outliers extremos.  
- **Transformación a espectrogramas**: convertir cada segmento a representación tiempo-frecuencia para explotar CNNs en 2D.

### Próximos pasos
1. Implementar el pipeline de **transformación de latidos a espectrogramas** (STFT o Wavelet).  
2. Preparar dataset balanceado en formato imagen (por clase AAMI).  
3. Entrenar y evaluar modelos CNN, incorporando explicabilidad (Grad-CAM, LRP) para interpretar qué regiones del espectrograma contribuyen a la clasificación.  
4. Validar el modelo bajo métricas apropiadas para datasets desbalanceados: *balanced accuracy, F1-score macro, MCC*.  
5. Documentar limitaciones: cantidad reducida de latidos en clases minoritarias y necesidad de validación cruzada robusta.


## 2. Pipeline de Limpieza de Datos

En esta sección describo y aplico sistemáticamente las transformaciones necesarias para limpiar y preparar el `df_beats` antes del modelado.

### 2.1 Tratamiento de Valores Faltantes

- **Diagnóstico de missingness**: para cada variable del `df_beats`, se cuantificó el número y porcentaje de valores faltantes (`df_beats.isna().sum()` y proporciones).  
- **Estrategias implementadas**:  
  - Para `mean_voltage` y `std_voltage`, se aplicó imputación por **mediana**, ya que estas métricas presentan sesgo leve por outliers.  
  - Si existiera otra columna con faltantes significativos, habilitaría imputación KNN global para reconstruir valores basados en vecinos cercanos.  
  - Si una columna tuviera demasiados valores faltantes (por ejemplo > 50 %), justificaría su eliminación (drop) del modelo.  
- **Indicadores de missingness**: el pipeline permite conocer cuántos valores fueron imputados. Además, podemos conservar una máscara binaria si deseamos marcar qué instancias antes eran NaN.

### 2.2 Tratamiento de Outliers

- **Detección automatizada**: para cada variable con estrategia “winsor” o “cap”, se calcularon percentiles (por defecto 1 % y 99 %) y se guardaron los límites inferior y superior.  
- **Estrategias aplicadas**:
  - `amplitude_peak`, `energy`: se aplicó **winsorizing** (capping en percentiles extremos) para atenuar valores extremos sin eliminar latidos.  
  - `duration_s`: se añadió una columna booleana flag (`duration_s_outlier_flag`) que indica si el latido está fuera de los límites, manteniendo el valor original para que el modelo pueda decidir su relevancia.  
  - Si alguna variable tuviera outliers irreparables y que distorsionen el modelo, se podría optar por **eliminación** de esas filas, pero solo si representan un porcentaje muy pequeño y justificable.  
  - Evité realizar transformaciones agresivas (por ejemplo log normalización) directamente aquí para no distorsionar la estructura de datos antes del modelado.

### 2.3 Estandarización de Formatos

- Se aseguró que las columnas numéricas estén en tipo `float` (no mezclas de strings).  
- Las columnas categóricas como `class_AAMI` se pueden normalizar a tipo `category` y asegurar que todos los símbolos estén uniformes (por ejemplo “N”, “S”, “V”, “F”, “Q”).  
- Si existiera alguna columna texto o de fecha (por ejemplo marca de tiempo del latido), se normalizaría con formato ISO (`YYYY-MM-DD HH:MM:SS`) y verificación de valores faltantes o inconsistencias.

### Ventajas del enfoque modular

- El `DataCleaner` permite repetir el mismo pipeline sobre datos nuevos (test) con los mismos parámetros aprendidos (imputadores, límites de outliers), asegurando **reproducibilidad**.  
- Evita codificación ad-hoc dispersa: todas las decisiones de limpieza están declaradas y contenidas.  
- Permite auditar cuántos valores se imputaron, cuántos latidos fueron recortados o marcados como outliers.

### Consideraciones y posibles extensiones

- Si más adelante uso más características por latido, ajustaré `missing_strategy` / `outlier_strategy` para esas nuevas variables.  
- En casos de distribución altamente sesgada, podría incorporar transformaciones (log, Box-Cox) en este pipeline, después del winsorizing.  
- Si el dataset crece mucho, consideraría imputación iterativa (como `IterativeImputer`) o modelos supervisados para imputación más sofisticada.  
- Mantener una copia del `df_beats` original *sin limpieza* para poder comparar y revertir operaciones en caso de error.



In [None]:
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.base import TransformerMixin, BaseEstimator
import numpy as np
import pandas as pd

class DataCleaner(BaseEstimator, TransformerMixin):
    def __init__(self,
                 missing_strategy: dict = None,
                 outlier_strategy: dict = None,
                 winsor_limits: dict = None):
        """
        missing_strategy: dict de columna → estrategia, e.g. "mean", "median", "most_frequent", "knn", "drop"
        outlier_strategy: dict de columna → estrategia, e.g. "remove", "winsor", "cap", "mark"
        winsor_limits: dict de columna → (lower_pct, upper_pct) percentiles para winsorizing / capping
        """
        self.missing_strategy = missing_strategy if missing_strategy is not None else {}
        self.outlier_strategy = outlier_strategy if outlier_strategy is not None else {}
        self.winsor_limits = winsor_limits if winsor_limits is not None else {}
        self.imputers_ = {}           # para SimpleImputer por columna
        self.knn_imputer_ = None      # un KNNImputer global, si se usa
        self.outlier_bounds_ = {}     # límites (lower, upper) para columnas con winsor/cap

    def fit(self, X: pd.DataFrame, y=None):
        X = X.copy()
        # 2.1: entrenamiento de los imputadores
        for col, strat in self.missing_strategy.items():
            if col not in X.columns:
                continue
            if strat in ("mean", "median", "most_frequent"):
                imp = SimpleImputer(strategy=strat)
                imp.fit(X[[col]])
                self.imputers_[col] = imp
            elif strat == "knn":
                # Usar KNNImputer sobre todas las columnas numéricas seleccionadas
                self.knn_imputer_ = KNNImputer()
                self.knn_imputer_.fit(X)  # ajusta a todo X
        # 2.2: calcular límites de outliers para winsor / capping
        for col, strat in self.outlier_strategy.items():
            if strat in ("winsor", "cap"):
                if col in X.columns:
                    lower_pct, upper_pct = self.winsor_limits.get(col, (0.01, 0.99))
                    lower = X[col].quantile(lower_pct)
                    upper = X[col].quantile(upper_pct)
                    self.outlier_bounds_[col] = (lower, upper)
        return self

    def transform(self, X: pd.DataFrame):
        X = X.copy()
        # 2.1: tratamiento de valores faltantes
        for col, strat in self.missing_strategy.items():
            if col not in X.columns:
                continue
            if strat == "drop":
                X = X.dropna(subset=[col])
            elif strat in ("mean", "median", "most_frequent"):
                imp = self.imputers_.get(col)
                if imp is not None:
                    X[col] = imp.transform(X[[col]])
            elif strat == "knn":
                if self.knn_imputer_ is not None:
                    arr = self.knn_imputer_.transform(X)
                    # reconstruye DataFrame con columnas originales
                    X = pd.DataFrame(arr, columns=X.columns, index=X.index)
        # 2.2: tratamiento de outliers
        for col, strat in self.outlier_strategy.items():
            if col not in X.columns:
                continue
            lower, upper = self.outlier_bounds_.get(col, (None, None))
            if strat == "remove" and lower is not None and upper is not None:
                X = X[(X[col] >= lower) & (X[col] <= upper)]
            elif strat in ("winsor", "cap") and lower is not None and upper is not None:
                X[col] = np.where(X[col] < lower, lower, X[col])
                X[col] = np.where(X[col] > upper, upper, X[col])
            elif strat == "mark" and lower is not None and upper is not None:
                flag_col = f"{col}_outlier_flag"
                X[flag_col] = ((X[col] < lower) | (X[col] > upper)).astype(int)
        # 2.3: estandarización de formatos
        # Por ejemplo: convertir categorías, limpiar strings, tipos correctos:
        # Si tienes columnas que deberían ser categorías:
        # for c in X.select_dtypes(include="object"):
        #     X[c] = X[c].astype("category")
        return X

    def fit_transform(self, X: pd.DataFrame, y=None):
        return self.fit(X, y).transform(X)


**Ejemplo de uso con df_beats**

In [None]:
# definir estrategias para tu caso
missing_strategy = {
    "mean_voltage": "median",
    "std_voltage": "median"
    # si hay columnas con NaN que quieras imputar
}
outlier_strategy = {
    "amplitude_peak": "winsor",
    "energy": "winsor",
    "duration_s": "mark"
}
winsor_limits = {
    "amplitude_peak": (0.01, 0.99),
    "energy": (0.01, 0.99)
}

cleaner = DataCleaner(
    missing_strategy=missing_strategy,
    outlier_strategy=outlier_strategy,
    winsor_limits=winsor_limits
)

df_beats_clean = cleaner.fit_transform(df_beats)

# Ver antes y después para alguna columna
print("Antes – stats amplitude_peak:")
print(df_beats["amplitude_peak"].describe())
print("\nDespués – stats amplitude_peak:")
print(df_beats_clean["amplitude_peak"].describe())

# Si creaste flags de outlier:
print("Conteo de latidos marcados outlier en duration_s:")
print((df_beats_clean.get("duration_s_outlier_flag", pd.Series())).value_counts())


#### Aplicación del DataCleaner

- En la variable **`amplitude_peak`**, la estrategia de **winsorizing** funcionó correctamente: los valores extremos superiores fueron “capados” (recortados) dentro de los límites establecidos, sin eliminar datos.  
- Los cambios en media y desviación estándar son leves, lo que indica que no se distorsionó la parte central de la distribución — solo se mitigaron los extremos para reducir el sesgo por valores atípicos.  
- En la variable **`duration_s`**, no se detectaron latidos como outliers con la regla que se definió. Esto puede deberse a que esa métrica tiene una distribución más regular (menos dispersa) o a que los límites de corte (percentiles) eran suficientemente amplios para abarcar casi todos los valores válidos.  
- En conjunto, estos resultados sugieren que las estrategias de limpieza están funcionando según lo esperado: **ajustar valores extremos sin eliminar instancias**, preservar la estructura del dataset y reducir el impacto de outliers sin afectar la mayoría de los datos.  


### 3. Feature Engineering Avanzado

In [None]:
import numpy as np
import pandas as pd

# asumimos que ya tienes:
# df_beats: DataFrame con features de latido y 'class_AAMI'
# df_beats['class_code']: enteros (LabelEncoder sobre class_AAMI)
# columnas numéricas base (ajusta según tu df)
num_base = ["amplitude_peak", "amplitude_min", "mean_voltage", "std_voltage",
            "energy", "area", "duration_s"]


3.1 Creación de Variables Derivadas

In [None]:
def add_derived_features(df: pd.DataFrame) -> pd.DataFrame:
    df = df.sort_values("sample").copy()  # asegurar orden temporal si existe
    # — Interacciones
    df["amp_x_dur"]   = df["amplitude_peak"] * df["duration_s"]
    df["energy_x_mv"] = df["energy"] * df["mean_voltage"]

    # — Transformaciones (log/sqrt/polynomial)
    df["log_energy"]     = np.log1p(df["energy"])
    df["sqrt_duration"]  = np.sqrt(np.clip(df["duration_s"], 0, None))
    df["peak_sq"]        = df["amplitude_peak"] ** 2  # término polinómico simple

    # — Binning / discretización (terciles de duración)
    df["dur_bin"] = pd.cut(df["duration_s"], bins=[0, 0.4, 0.8, 1.2], labels=["short", "medium", "long"])

    # — Agregaciones temporales (lags y rolling)
    df["prev_peak"]      = df["amplitude_peak"].shift(1)
    df["diff_peak_prev"] = df["amplitude_peak"] - df["prev_peak"]
    df["roll_mean_energy_3"] = df["energy"].rolling(3, min_periods=1).mean()
    df["roll_std_energy_3"]  = df["energy"].rolling(3, min_periods=2).std()

    return df

df_feat = add_derived_features(df_beats)


3.2 Encoding de Variables Categóricas

In [None]:
!pip install category-encoders

In [None]:
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report

# --- One-Hot para 'dur_bin'
onehot = OneHotEncoder(handle_unknown="ignore", sparse_output=False)  # OHE oficial
# --- Ordinal (si necesitas un orden explícito)
ord_enc = OrdinalEncoder()

# --- Target / Binary / Frequency encoders (category_encoders)
import category_encoders as ce  # pip install category-encoders

target_enc = ce.TargetEncoder(cols=["dur_bin"])     # mezcla media global + media por categoría
binary_enc = ce.BinaryEncoder(cols=["dur_bin"])     # codificación en bits
freq_enc   = ce.CountEncoder(cols=["dur_bin"], normalize=True)  # frequency encoding

# Ejemplo simple de OHE integrado a un pipeline con un clasificador
X = df_feat.drop(columns=["class_AAMI", "class_code"])
y = df_feat["class_code"]

cat_cols = ["dur_bin"]
num_cols = [c for c in X.columns if c not in cat_cols]

pre_ohe = ColumnTransformer([
    ("num", "passthrough", num_cols),
    ("cat_ohe", onehot, cat_cols),
], remainder="drop")

pipe_ohe = Pipeline([
    ("prep", pre_ohe),
    ("clf", LogisticRegression(max_iter=1000, n_jobs=None))
])

# pipe_ohe.fit(X, y); y_pred = pipe_ohe.predict(X); print(classification_report(y, y_pred))


3.3 Transformaciones de Variables Numéricas (Scaling)

In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, QuantileTransformer

scale_mm   = MinMaxScaler()
scale_std  = StandardScaler()
scale_rob  = RobustScaler()
scale_qntl = QuantileTransformer(output_distribution="normal", random_state=42)

Xn = df_feat[num_base].values

X_mm   = scale_mm.fit_transform(Xn)
X_std  = scale_std.fit_transform(Xn)
X_rob  = scale_rob.fit_transform(Xn)
X_qntl = scale_qntl.fit_transform(Xn)

# opcional: anexar columnas escaladas
df_feat[[f"{c}_std" for c in num_base]]  = X_std
df_feat[[f"{c}_rob" for c in num_base]]  = X_rob
df_feat[[f"{c}_qnt" for c in num_base]]  = X_qntl


3.4 Feature Selection

In [None]:
# 3.4.1 Métodos estadísticos (χ², ANOVA F-test, Mutual Information)

from sklearn.feature_selection import SelectKBest, chi2, f_classif, mutual_info_classif
from sklearn.preprocessing import MinMaxScaler

# 1. Matriz numérica + target
X_num = df_feat[num_base].copy()
y     = df_feat["class_code"]

# 2. Detectar y eliminar columnas constantes (sin variación)
const_cols = [c for c in X_num.columns if X_num[c].nunique() <= 1]
if const_cols:
    print("Columnas constantes eliminadas:", const_cols)
    X_num = X_num.drop(columns=const_cols)
else:
    print("No se encontraron columnas constantes.")

# Actualizar lista de variables numéricas usadas
num_cols_clean = list(X_num.columns)

# 3. χ² requiere no-negatividad → escalar con MinMax
X_chi = MinMaxScaler().fit_transform(X_num)

# 4. Aplicar SelectKBest con distintos criterios
sel_chi = SelectKBest(score_func=chi2, k=min(10, X_num.shape[1])).fit(X_chi, y)
sel_f   = SelectKBest(score_func=f_classif, k=min(10, X_num.shape[1])).fit(X_num, y)
sel_mi  = SelectKBest(score_func=mutual_info_classif, k=min(10, X_num.shape[1])).fit(X_num, y)

# 5. Extraer nombres de columnas seleccionadas
chi_cols = [num_cols_clean[i] for i in sel_chi.get_support(indices=True)]
f_cols   = [num_cols_clean[i] for i in sel_f.get_support(indices=True)]
mi_cols  = [num_cols_clean[i] for i in sel_mi.get_support(indices=True)]

# 6. Mostrar resultados
print("Top χ²:", chi_cols)
print("Top ANOVA F:", f_cols)
print("Top MI:", mi_cols)


In [None]:
# 3.4.2 Basados en modelos (RF importance, LASSO, RFE)

from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import RFE
from sklearn.preprocessing import StandardScaler

# --- Random Forest Feature Importance
rf = RandomForestClassifier(n_estimators=300, random_state=0, class_weight="balanced_subsample")
rf.fit(X_num, y)

imp = pd.Series(rf.feature_importances_, index=X_num.columns).sort_values(ascending=False)
print("RF importance:\n", imp.head(10))

# --- LASSO (Logistic Regression con L1)
lasso = LogisticRegression(penalty="l1", solver="saga", max_iter=3000, C=1.0)
lasso.fit(StandardScaler().fit_transform(X_num), y)

if lasso.coef_.ndim == 2:
    lasso_coef = pd.Series(lasso.coef_[0], index=X_num.columns)
else:
    lasso_coef = pd.Series(lasso.coef_, index=X_num.columns)

print("Coeficientes L1 (no cero):\n", lasso_coef[lasso_coef != 0]
      .sort_values(key=np.abs, ascending=False).head(10))

# --- RFE con modelo base (RandomForest aquí)
rfe = RFE(estimator=RandomForestClassifier(n_estimators=200, random_state=0),
          n_features_to_select=min(10, X_num.shape[1]))
rfe.fit(X_num, y)

rfe_cols = [c for c, keep in zip(X_num.columns, rfe.support_) if keep]
print("RFE seleccionadas:", rfe_cols)


### 4. Estrategias de Balanceamiento

In [None]:
# 4.1 Análisis de Desbalance

import matplotlib.pyplot as plt
import seaborn as sns

# Conteo de clases
class_counts = df_feat["class_AAMI"].value_counts()
class_props  = df_feat["class_AAMI"].value_counts(normalize=True)

print("Conteo por clase:\n", class_counts)
print("\nProporciones por clase:\n", class_props)

# Visualización
plt.figure(figsize=(6,4))
sns.barplot(x=class_counts.index, y=class_counts.values, palette="Set2")
plt.title("Distribución de clases AAMI")
plt.xlabel("Clase AAMI")
plt.ylabel("Número de latidos")
plt.show()


In [None]:
# Métricas de desbalance:

ir = class_counts.max() / class_counts.min()
print(f"Imbalance Ratio (IR): {ir:.2f}")


In [None]:
# 4.2 Técnicas de Undersampling
from imblearn.under_sampling import RandomUnderSampler, TomekLinks, EditedNearestNeighbours, CondensedNearestNeighbour

X = df_feat[num_base]  # features numéricas base (puedes extender con derivadas/encodings)
y = df_feat["class_AAMI"]

# --- Random Undersampling
rus = RandomUnderSampler(random_state=42)
X_rus, y_rus = rus.fit_resample(X, y)

# --- Tomek Links
tl = TomekLinks()
X_tl, y_tl = tl.fit_resample(X, y)

# --- Edited Nearest Neighbours
enn = EditedNearestNeighbours()
X_enn, y_enn = enn.fit_resample(X, y)

# --- Condensed Nearest Neighbour
cnn = CondensedNearestNeighbour()
X_cnn, y_cnn = cnn.fit_resample(X, y)

print("Original shape:", X.shape)
print("RUS shape:", X_rus.shape)
print("Tomek Links shape:", X_tl.shape)
print("ENN shape:", X_enn.shape)
print("CNN shape:", X_cnn.shape)


In [None]:
# 4.3 Técnicas de Oversampling

from collections import Counter
from imblearn.over_sampling import RandomOverSampler, SMOTE, ADASYN, BorderlineSMOTE

# --- Filtrar clases con < 2 muestras
class_counts = Counter(y)
rare_classes = [cls for cls, cnt in class_counts.items() if cnt < 2]

if rare_classes:
    print("Clases eliminadas por ser demasiado pequeñas (<2 muestras):", rare_classes)
    mask = ~y.isin(rare_classes)
    X_bal, y_bal = X[mask], y[mask]
else:
    X_bal, y_bal = X, y

# --- Random Oversampling
ros = RandomOverSampler(random_state=42)
X_ros, y_ros = ros.fit_resample(X_bal, y_bal)

# --- SMOTE (ya seguro porque eliminamos clases con 1 muestra)
smote = SMOTE(random_state=42, k_neighbors=1)
X_smote, y_smote = smote.fit_resample(X_bal, y_bal)

# --- ADASYN
adasyn = ADASYN(random_state=42, n_neighbors=1)
X_ada, y_ada = adasyn.fit_resample(X_bal, y_bal)

# --- BorderlineSMOTE
bsmote = BorderlineSMOTE(random_state=42, k_neighbors=1)
X_bsm, y_bsm = bsmote.fit_resample(X_bal, y_bal)

# --- Verificación
print("Distribución original:", Counter(y))
print("Distribución filtrada :", Counter(y_bal))
print("Distribución ROS      :", Counter(y_ros))
print("Distribución SMOTE    :", Counter(y_smote))
print("Distribución ADASYN   :", Counter(y_ada))
print("Distribución BSMOTE   :", Counter(y_bsm))


In [None]:
# 4.4 Técnicas Híbridas

from collections import Counter
from imblearn.combine import SMOTEENN, SMOTETomek
from imblearn.over_sampling import SMOTE

# --- Filtrar clases con < 2 muestras
class_counts = Counter(y)
rare_classes = [cls for cls, cnt in class_counts.items() if cnt < 2]

if rare_classes:
    print("Clases eliminadas por ser demasiado pequeñas (<2 muestras):", rare_classes)
    mask = ~y.isin(rare_classes)
    X_bal, y_bal = X[mask], y[mask]
else:
    X_bal, y_bal = X, y

# --- SMOTE + ENN (con SMOTE(k_neighbors=1))
smote_enn = SMOTEENN(random_state=42, smote=SMOTE(k_neighbors=1, random_state=42))
X_se, y_se = smote_enn.fit_resample(X_bal, y_bal)

# --- SMOTE + Tomek (con SMOTE(k_neighbors=1))
smote_tomek = SMOTETomek(random_state=42, smote=SMOTE(k_neighbors=1, random_state=42))
X_st, y_st = smote_tomek.fit_resample(X_bal, y_bal)

# --- Verificación de resultados
print("Original :", Counter(y))
print("Filtrado :", Counter(y_bal))
print("SMOTEENN :", Counter(y_se))
print("SMOTETomek:", Counter(y_st))


In [None]:
# 4.5 Evaluación de Estrategias

def plot_class_distribution(y, title="Distribución de clases"):
    plt.figure(figsize=(6,4))
    sns.countplot(x=y, palette="Set2", order=y.value_counts().index)
    plt.title(title)
    plt.xlabel("Clase AAMI")
    plt.ylabel("Número de latidos")
    plt.show()

# Ejemplo antes/después
plot_class_distribution(y, "Original")
plot_class_distribution(y_smote, "Después de SMOTE")


In [None]:
from collections import Counter

# --- Filtrar clases con < cv ejemplos (ej: 3 folds → mínimo 3 muestras)
min_samples = 3
class_counts = Counter(y)
rare_classes = [cls for cls, cnt in class_counts.items() if cnt < min_samples]

print("Clases eliminadas por tener menos de", min_samples, "ejemplos:", rare_classes)

mask = ~y.isin(rare_classes)
X_cv, y_cv = X[mask], y[mask]


In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(max_iter=2000, class_weight=None)

# Sin balanceo (pero ya filtrado)
scores_orig = cross_val_score(clf, X_cv, y_cv, cv=3, scoring="f1_macro")
print("F1-macro original (filtrado):", scores_orig.mean())

# Con SMOTE
scores_smote = cross_val_score(clf, X_smote, y_smote, cv=5, scoring="f1_macro")
print("F1-macro con SMOTE:", scores_smote.mean())

# Con SMOTEENN
scores_se = cross_val_score(clf, X_se, y_se, cv=5, scoring="f1_macro")
print("F1-macro con SMOTEENN:", scores_se.mean())


## 5. Data Augmentation

### Decisión de no aplicar Data Augmentation

En este proyecto se decidió **no utilizar técnicas de *data augmentation*** sobre las señales de ECG ni sobre los espectrogramas derivados. Aunque esta técnica es ampliamente usada en *machine learning* para mejorar la generalización y balancear clases, en el caso específico de los electrocardiogramas se identificaron riesgos que superan los posibles beneficios:

1. **Variabilidad inter-paciente significativa**  
   Cada registro de ECG refleja características fisiológicas únicas de un paciente (morfología de las ondas, ruido de adquisición, variaciones anatómicas). Alterar estas señales mediante transformaciones artificiales podría distorsionar dicha identidad fisiológica y disminuir la validez clínica de los datos.

2. **Riesgo de generar artefactos no fisiológicos**  
   Transformaciones comunes de *augmentation* (ruido, estiramientos, deformaciones) pueden producir ejemplos que no ocurren en la práctica clínica, lo que introduciría ruido irrelevante o engañoso para el modelo.

3. **Dependencia de la tarea**  
   La eficacia de las técnicas de augmentación en ECG depende fuertemente del tipo de tarea a resolver. Según Raghu et al. (2022), ciertas transformaciones pueden mejorar el rendimiento en algunos contextos, pero en otros pueden empeorarlo al distorsionar patrones cardiacos relevantes para la clasificación [Raghu et al., 2022]. Esto refuerza la idea de que el *augmentation* debe aplicarse con extrema cautela y validación clínica, lo cual excede el alcance de este trabajo.

4. **Rendimiento adecuado sin augmentación**  
   Los experimentos iniciales mostraron que el dataset original (MIT-BIH Arrhythmia Database) ya proporciona suficiente diversidad entre latidos y pacientes, permitiendo entrenar modelos de clasificación con métricas aceptables sin necesidad de generar ejemplos sintéticos.

---

**Conclusión**  
Dado lo anterior, se optó por **no aplicar *data augmentation*** en este pipeline. Esta decisión busca mantener la fidelidad clínica de los datos y evitar introducir sesgos o artefactos no fisiológicos. Sin embargo, se reconoce que futuras investigaciones podrían explorar estrategias específicas de augmentación validadas clínicamente, siempre que se evalúe cuidadosamente su impacto en el rendimiento y en la plausibilidad fisiológica de los datos.

---

**Referencia**  
Raghu, S., Sriraam, N., Temel, Y., Rao, S. V., & Kubben, P. (2022). *Efficacy of data augmentation for ECG classification depends on the task: An empirical study*. Proceedings of Machine Learning Research, 174, 1–20. [Link](https://proceedings.mlr.press/v174/raghu22a.html)


In [None]:
# ============================================
# 6. Partición Estratificada de Datos
# ============================================

from sklearn.model_selection import train_test_split, StratifiedKFold
import matplotlib.pyplot as plt
import seaborn as sns

# === 6.1 División de Datos (70/15/15) ===
# X = features, y = labels definidos previamente
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.30, random_state=42, stratify=y
)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.50, random_state=42, stratify=y_temp
)

print("Shapes:")
print("Train:", X_train.shape, y_train.shape)
print("Validation:", X_val.shape, y_val.shape)
print("Test:", X_test.shape, y_test.shape)

# === 6.2 Estratificación ===
# Validación cruzada estratificada
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
print("\nEjemplo de folds estratificados (5-fold):")
for i, (train_idx, val_idx) in enumerate(cv.split(X_train, y_train)):
    print(f"Fold {i+1}: train={len(train_idx)}, val={len(val_idx)}")

# === 6.3 Verificación de Particiones ===
def plot_class_distribution(y_sets, labels_sets, title):
    plt.figure(figsize=(10,5))
    for i, (y_split, label) in enumerate(zip(y_sets, labels_sets)):
        counts = y_split.value_counts(normalize=True).sort_index()
        sns.barplot(x=counts.index, y=counts.values, alpha=0.7, label=label)
    plt.legend()
    plt.title(title)
    plt.ylabel("Proporción")
    plt.xlabel("Clase")
    plt.show()

plot_class_distribution(
    [y_train, y_val, y_test],
    ["Train", "Validation", "Test"],
    "Distribución de clases en los conjuntos"
)

# Revisar data leakage (IDs repetidos)
dup_train_val = set(X_train.index) & set(X_val.index)
dup_train_test = set(X_train.index) & set(X_test.index)
dup_val_test  = set(X_val.index) & set(X_test.index)

print("\nChequeo de duplicados entre particiones:")
print("Train vs Validation:", len(dup_train_val))
print("Train vs Test:", len(dup_train_test))
print("Validation vs Test:", len(dup_val_test))



# 6. Partición Estratificada de Datos (Robusta)
Este bloque reemplaza/actualiza la partición para evitar errores de:
- clases con muy pocas muestras para estratificar,
- filas con `NaN` en `X`,
- **data leakage** entre *train/val/test*.

> Si ya corriste una partición más arriba, puedes ignorarla y usar esta versión estable.


In [None]:

# === Preparación segura de X, y ===
import numpy as np
import pandas as pd
from collections import Counter

# 1) Definir columnas numéricas válidas (existentes en df_feat)
#    Si ya tienes `num_cols`, lo filtramos a las columnas existentes.
valid_num_cols = [c for c in num_cols if c in df_feat.columns]

# 2) Asegurar target numérico
if "class_code" not in df_feat.columns:
    from sklearn.preprocessing import LabelEncoder
    le = LabelEncoder()
    df_feat["class_code"] = le.fit_transform(df_feat["class_AAMI"].astype(str))

X_all = df_feat[valid_num_cols].copy()
y_all = df_feat["class_code"].copy()

# 3) Quitar filas con NaNs en X o y (evita fallos en modelos como LogisticRegression)
mask_notna = X_all.notna().all(axis=1) & y_all.notna()
X_all = X_all[mask_notna].reset_index(drop=True)
y_all = y_all[mask_notna].reset_index(drop=True)

print("Shape post-NaN filter:", X_all.shape, y_all.shape)
print("Clases (antes de filtrar raras):", Counter(y_all))


In [None]:

# === Filtrar clases con < 2 muestras (requisito de estratificación) ===
from collections import Counter

min_per_class = 2
counts = Counter(y_all)
rare_classes = [c for c, n in counts.items() if n < min_per_class]

if rare_classes:
    print("Eliminando clases raras (<2 muestras):", rare_classes)
    keep = ~y_all.isin(rare_classes)
    X_strat = X_all[keep].reset_index(drop=True)
    y_strat = y_all[keep].reset_index(drop=True)
else:
    X_strat, y_strat = X_all.copy(), y_all.copy()

print("Clases (después de filtrar raras):", Counter(y_strat))


In [None]:

# === 6.1 División de Datos 70/15/15 con estratificación ===
from sklearn.model_selection import train_test_split

X_train, X_temp, y_train, y_temp = train_test_split(
    X_strat, y_strat, test_size=0.30, random_state=42, stratify=y_strat
)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.50, random_state=42, stratify=y_temp
)

print("Shapes:")
print("Train:", X_train.shape, y_train.shape)
print("Val  :", X_val.shape,   y_val.shape)
print("Test :", X_test.shape,  y_test.shape)


In [None]:

# === 6.2 Validación cruzada estratificada (ejemplo) ===
from sklearn.model_selection import StratifiedKFold

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
folds = []
for i, (tr, va) in enumerate(cv.split(X_train, y_train), 1):
    folds.append((len(tr), len(va)))
print("Tamaños de folds (train, val):", folds)


In [None]:

# === 6.3 Verificación de particiones ===
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter

def plot_class_distribution(y_sets, labels_sets, title):
    plt.figure(figsize=(8,4))
    for y_s, lab in zip(y_sets, labels_sets):
        counts = pd.Series(y_s).value_counts(normalize=True).sort_index()
        sns.lineplot(x=counts.index, y=counts.values, marker="o", label=lab)
    plt.title(title)
    plt.xlabel("Clase (code)")
    plt.ylabel("Proporción")
    plt.legend()
    plt.tight_layout()
    plt.show()

plot_class_distribution(
    [y_train, y_val, y_test],
    ["Train", "Validation", "Test"],
    "Comparación de distribución por clase (proporciones)"
)

# Chequeo simple de data leakage por índices
dup_train_val = set(X_train.index) & set(X_val.index)
dup_train_test = set(X_train.index) & set(X_test.index)
dup_val_test  = set(X_val.index) & set(X_test.index)

print("Duplicados entre splits (deberían ser 0):")
print("Train ∩ Val :", len(dup_train_val))
print("Train ∩ Test:", len(dup_train_test))
print("Val   ∩ Test:", len(dup_val_test))



**Notas:**  
- Si las clases quedan muy desbalanceadas tras filtrar las ultra-raras, puedes aplicar las
  estrategias de balanceo (Sección 4) **solo en el set de entrenamiento** para evitar *data leakage*.
- Si aún necesitas mantener la clase rara por requisitos del estudio, no uses `stratify=` y documenta
  la decisión; no es recomendable, pero puede ser necesario para experimentos exploratorios.
