
# EDA — MIT-BIH Arrhythmia (AAMI)
**Proyecto:** *Clasificación explicable de arritmias cardíacas a partir de electrocardiogramas transformados en espectrogramas mediante redes neuronales convolucionales*

**Dataset:** MIT-BIH Arrhythmia Database (Kaggle).  
**Objetivo:** EDA completo + estandarización AAMI (N, S, V, F, Q).


# EDA — MIT-BIH Arrhythmia Database

## Descripción del Proyecto
Este notebook realiza un **Análisis Exploratorio de Datos (EDA)** sobre el dataset **MIT-BIH Arrhythmia Database**.

- **Nombre del proyecto**: Clasificación de arritmias cardíacas
- **Dataset**: MIT-BIH Arrhythmia (señales y anotaciones de ECG)
- **Objetivo del EDA**: Identificar patrones y anomalías en las señales de ECG que permitan guiar el desarrollo de un modelo de IA para la clasificación de arritmias.

## Objetivos Específicos
1. Explorar y comprender la estructura del dataset.
2. Analizar distribuciones univariadas y bivariadas de las variables.
3. Detectar correlaciones entre variables relevantes.
4. Identificar patrones multivariados y posibles anomalías.
5. Extraer **insights** que orienten el preprocesamiento y modelado.


# Explicación del Dataset MIT-BIH

Contexto
El dataset proviene del **MIT-BIH Arrhythmia Database**, un estándar en cardiología computacional para el diagnóstico automático de arritmias.  
Contiene registros de **electrocardiogramas (ECG)** tomados con monitores Holter a 360 Hz, con 2 derivaciones principales y anotaciones clínicas realizadas por cardiólogos.

## Variables del Dataset

#### Señales de ECG (features)
Los nombres de columnas como **`MLII`, `V1`, `V2`, `V4`, `V5`, `V6`** corresponden a **derivaciones estándar del electrocardiograma**:

- **MLII (Lead II modificado):** derivación más usada en el MIT-BIH, muy informativa para detectar arritmias.  
- **V1, V2, V4, V5, V6:** derivaciones precordiales colocadas en distintas posiciones del pecho, capturan la actividad eléctrica del corazón desde diferentes ángulos.

Estas variables representan las **señales crudas de ECG** que servirán como entrada al modelo de IA.

#### Variable objetivo (`type`)
La columna **`type`** contiene las etiquetas que clasifican cada latido, anotadas por cardiólogos.  
Se siguen las categorías de la **AAMI (Association for the Advancement of Medical Instrumentation):**

- **N:** Latido normal (Normal beat).  
- **S:** Latido supraventricular ectópico (ej. prematuro auricular).  
- **V:** Latido ventricular ectópico (ej. PVC).  
- **F:** Latido de fusión (mezcla entre normal y ventricular).  
- **Q:** Latidos no clasificables o desconocidos.  



## Relación entre variables

| Variables (`features`) | Qué representan | Uso |
|-------------------------|-----------------|-----|
| `MLII`, `V1`, `V2`, `V4`, `V5`, `V6` | Señales crudas de ECG en distintas derivaciones | Entrada (input) al modelo |
| `type` | Clase del latido (N, S, V, F, Q) | Salida (target) del modelo |


## Implicaciones para el modelo
- El modelo debe aprender a **mapear patrones en las señales de ECG** hacia una clasificación en `type`.  
- Los *features* pueden provenir de:
  - **Señales crudas:** ventanas de ECG alrededor de cada latido.  
  - **Features handcrafted:** amplitudes, duración de ondas QRS, intervalos RR, etc.  
  - **Transformaciones:** wavelets, espectrogramas o embeddings generados con redes neuronales (CNN/RNN).

In [None]:

# (Opcional) instala faltantes
%pip install statsmodels pingouin numpy pandas matplotlib seaborn scipy


## Importación de librerías y utilidades

In [None]:

import os, warnings
from pathlib import Path
from typing import List, Tuple

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

try:
    import statsmodels.api as sm
    from statsmodels.stats.multitest import multipletests
except Exception:
    sm = None
    multipletests = None
    warnings.warn("statsmodels no disponible; se continuará sin algunas pruebas.")

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (12, 5)
pd.set_option("display.max_columns", None)

print("Versions -> pandas:", pd.__version__, "| numpy:", np.__version__)


## 1) Carga de datos y exploración inicial

In [None]:

# Configuración
DATA_DIR = Path(r"C:\Users\luisa\Documents\Titulacion_UEES\Notebooks\EDA-MIT-BIH-Arrhythmia-Database\kaggle_dataset")
FS = 360  # Hz

if not DATA_DIR.exists():
    candidates = []
    for p in Path(".").rglob("*"):
        try:
            if p.is_dir():
                has_csv = any(Path(p).glob("[0-9][0-9][0-9].csv"))
                has_ann = any(Path(p).glob("[0-9][0-9][0-9]annotations.txt"))
                if has_csv and has_ann:
                    candidates.append(p)
        except Exception:
            pass
    if candidates:
        DATA_DIR = candidates[0]
        print("DATA_DIR auto-detectado en:", DATA_DIR.resolve())
    else:
        print("⚠️ Ajusta DATA_DIR manualmente.")

DATA_DIR = DATA_DIR.resolve()
DATA_DIR


In [None]:

# Lectores y utilidades
def _clean_signal_df(df: pd.DataFrame) -> pd.DataFrame:
    # normaliza nombres de columnas y tipos para CSV de señales
    df = df.copy()
    df.columns = [c.replace("'", "").strip() for c in df.columns]
    rename_map = {}
    for c in df.columns:
        cc = c.lower().replace(" ", "").replace("#", "")
        if cc == "sample":
            rename_map[c] = "sample"
    if rename_map:
        df = df.rename(columns=rename_map)
    for c in list(df.columns):
        clean = c.strip().upper().replace(" ", "")
        if clean in ("MLII", "ML2"):
            df = df.rename(columns={c: "MLII"})
        elif clean in ("V1","V2","V3","V4","V5","V6"):
            df = df.rename(columns={c: clean})
    if "sample" not in df.columns:
        raise RuntimeError("El archivo de señales no contiene 'sample'.")
    for c in df.columns:
        if c != "type":
            df[c] = pd.to_numeric(df[c], errors='coerce')
    canal_cols = [col for col in df.columns if col in ("MLII","V1","V2","V3","V4","V5","V6")]
    df = df.dropna(subset=["sample"], how="any")
    if canal_cols:
        df = df.dropna(subset=canal_cols, how="all")
    df = df.reset_index(drop=True)
    df['sample'] = df['sample'].astype(int)
    df['time_sec'] = df['sample'] / FS
    if 'type' in df.columns:
        df['type'] = df['type'].astype(str).str.strip().replace('', np.nan).astype('category')
    return df

def read_signal_csv(csv_path: Path) -> pd.DataFrame:
    df = pd.read_csv(csv_path)
    return _clean_signal_df(df)

def read_annotations_txt(ann_path: Path) -> pd.DataFrame:
    colnames = ['Time','sample','type','Sub','Chan','Num','Aux']
    try:
        df = pd.read_fwf(ann_path, names=colnames, header=0)
    except Exception:
        df = pd.read_csv(ann_path, sep=r"\\s+", engine='python', names=colnames, header=0)
    df['sample'] = pd.to_numeric(df['sample'], errors='coerce')
    df = df.dropna(subset=['sample']).reset_index(drop=True)
    df['sample'] = df['sample'].astype(int)
    df['type'] = df['type'].astype(str).str.strip()
    df = df[df['type'] != ""].reset_index(drop=True)
    df['type'] = df['type'].astype('category')
    try:
        pd.to_timedelta(df['Time'])
        df['time_sec'] = pd.to_timedelta(df['Time']).dt.total_seconds()
    except Exception:
        df['time_sec'] = df['sample'] / FS
    for col in ['Sub','Chan','Num','Aux']:
        if col not in df.columns:
            df[col] = np.nan
    return df[['sample','type','Sub','Chan','Num','Aux','time_sec']].copy()

def list_record_ids(base_dir: Path = DATA_DIR, min_records: int = 1) -> List[str]:
    ids = sorted(p.stem for p in base_dir.glob("[0-9][0-9][0-9].csv"))
    if len(ids) < min_records:
        raise RuntimeError(f"Se encontraron {len(ids)} registros en {base_dir}.")
    return ids

def load_record(record_id: str, base_dir: Path = DATA_DIR) -> Tuple[pd.DataFrame, pd.DataFrame]:
    csv_path = base_dir / f"{record_id}.csv"
    ann_path = base_dir / f"{record_id}annotations.txt"
    sig = read_signal_csv(csv_path)
    ann = read_annotations_txt(ann_path)
    sig['record'] = str(record_id)
    ann['record'] = str(record_id)
    sig = sig.merge(ann[['sample','type']], on='sample', how='left')
    sig['type'] = pd.Categorical(sig['type'])
    return sig, ann


### Estandarización a AAMI

In [None]:

AAMI_MAP = {
    'N':'N','L':'N','R':'N','e':'N','j':'N',        # N
    'A':'S','a':'S','J':'S','S':'S',                # S
    'V':'V','E':'V',                                # V
    'F':'F',                                        # F
    'P':'Q','f':'Q','Q':'Q','?':'Q','/':'Q','~':'Q','|':'Q','x':'Q'  # Q/otros
}
def to_aami(beat_symbol: str) -> str:
    if pd.isna(beat_symbol):
        return np.nan
    b = str(beat_symbol).strip()
    return AAMI_MAP.get(b, 'Q')

def add_aami_labels(df_ann: pd.DataFrame) -> pd.DataFrame:
    df = df_ann.copy()
    df['aami'] = df['type'].astype(str).map(to_aami).astype('category')
    return df

ids = list_record_ids(DATA_DIR)
print("Registros detectados:", ids[:10], "… total:", len(ids))

sig_0, ann_0 = load_record(ids[0])
ann_0 = add_aami_labels(ann_0)
display(ann_0.head())


In [None]:

print("Señal:", sig_0.shape, "| columnas:", sig_0.columns.tolist())
print("Anotaciones:", ann_0.shape, "| columnas:", ann_0.columns.tolist())

display(sig_0.head(3)); display(sig_0.tail(3))
display(ann_0.head(10))

print("\nInfo de señales:")
display(sig_0.info())

print("\nValores faltantes (señal):")
display(sig_0.isna().sum())

print("\nResumen estadístico (señal):")
display(sig_0.describe().T)


### Dataset latido-a-latido

In [None]:

def build_beats_dataframe(record_ids: List[str], base_dir: Path = DATA_DIR, win_ms: int = 100) -> pd.DataFrame:
    rows = []
    half_win = int((win_ms/1000.0) * FS / 2)
    for rid in record_ids:
        sig, ann = load_record(rid, base_dir)
        ann = add_aami_labels(ann)
        channel_cols = [c for c in sig.columns if c in ("MLII","V1","V2","V3","V4","V5","V6")]
        sig_idx = sig.set_index('sample')
        for _, a in ann.iterrows():
            s = int(a['sample'])
            rec = {'record': rid, 'sample': s, 'time_sec': a['time_sec'],
                   'type': str(a['type']), 'aami': str(a['aami'])}
            for ch in channel_cols:
                rec[f'{ch}_val'] = sig_idx.loc[s, ch] if s in sig_idx.index else np.nan
            lo, hi = s - half_win, s + half_win
            win = sig_idx.loc[lo:hi, channel_cols] if (lo in sig_idx.index and hi in sig_idx.index) else None
            if win is not None and len(win) > 1:
                for ch in channel_cols:
                    rec[f'{ch}_mean'] = float(win[ch].mean())
                    rec[f'{ch}_std']  = float(win[ch].std())
            rows.append(rec)
    dfb = pd.DataFrame(rows)
    for c in ['record','type','aami']:
        if c in dfb.columns:
            dfb[c] = dfb[c].astype('category')
    return dfb

n_ids = min(10, len(ids))
beats_df = build_beats_dataframe(ids[:n_ids])
print(beats_df.shape)
display(beats_df.head())
display(beats_df['aami'].value_counts(dropna=False))


## 2) Análisis Univariado

In [None]:

num_cols = [c for c in beats_df.columns if any(s in c for s in ['_val','_mean','_std'])]
desc = beats_df[num_cols].describe().T
desc['coef_var'] = desc['std'] / desc['mean'].replace(0, np.nan)
display(desc.head(20))

col_example = next((c for c in num_cols if c.endswith('_val')), num_cols[0])
fig, ax = plt.subplots(); ax.hist(beats_df[col_example].dropna(), bins=50)
ax.set_title(f'Histograma: {col_example}'); ax.set_xlabel(col_example); ax.set_ylabel('Frecuencia'); plt.show()

fig, ax = plt.subplots(); ax.boxplot(beats_df[col_example].dropna(), vert=True)
ax.set_title(f'Boxplot: {col_example}'); ax.set_ylabel(col_example); plt.show()

z = np.abs(stats.zscore(beats_df[num_cols].dropna(), nan_policy='omit'))
outlier_mask = (z > 3).any(axis=1)
print("Outliers (Z>3):", int(outlier_mask.sum()))


In [None]:

cat_counts = beats_df['aami'].value_counts().sort_values(ascending=False)
display(cat_counts)
(cat_counts / cat_counts.sum()).plot(kind='bar', title='Distribución de clases AAMI')
plt.xlabel('Clase AAMI'); plt.ylabel('Proporción'); plt.show()


- Variables numéricas: histogramas y boxplots de '*_val*' (p. ej., MLII_val, V5_val).
- Estadísticas de distribución: media/mediana/moda (desde describe y visualizaciones).
-  Outliers: visualizados en boxplots; consistentes con artefactos/latidos ectópicos.
-  Variables categóricas: barras de frecuencia/proporción por clase AAMI (N, S, V, F, Q).
Hallazgos: distribuciones unimodales con colas; presencia de outliers; desbalance marcado (N≫S,V; F,Q marginales).


## 3) Análisis Bivariado

In [None]:
# === Solo columnas de valor crudo ===
val_cols = [c for c in beats_df.columns if c.endswith('_val')]
if len(val_cols) < 2:
    raise ValueError("No hay suficientes columnas *_val para correlación/scatter.")

# Quita filas totalmente vacías en esas columnas
X = beats_df[val_cols].dropna(how='all')

# --- Heatmap de correlación (Pearson) SOLO con *_val ---
corr = X.corr(method='pearson')

plt.figure(figsize=(10, 8))
sns.heatmap(corr, cmap='coolwarm', center=0, annot=False)
plt.title('Matriz de correlación (solo *_val)')
plt.tight_layout()
plt.show()

# --- Scatter entre dos columnas *_val (ejemplo) ---
xcol, ycol = val_cols[0], val_cols[1]
plt.figure(figsize=(7, 5))
plt.scatter(beats_df[xcol], beats_df[ycol], alpha=0.3)
plt.title(f'{xcol} vs {ycol}')
plt.xlabel(xcol); plt.ylabel(ycol)
plt.tight_layout()
plt.show()

# --- Boxplot de una columna *_val por clase AAMI (sin estadísticas) ---
col_example = val_cols[0]
fig, ax = plt.subplots(figsize=(8, 5))
cats = beats_df['aami'].cat.categories if hasattr(beats_df['aami'], 'cat') else sorted(beats_df['aami'].dropna().unique())
groups = [beats_df.loc[beats_df['aami'] == k, col_example].dropna() for k in cats]
ax.boxplot(groups, labels=list(cats))
ax.set_title(f'{col_example} por clase AAMI')
ax.set_xlabel('Clase AAMI'); ax.set_ylabel(col_example)
plt.tight_layout()
plt.show()


- Matriz de correlación (Pearson) usando solo columnas '*_val*'.
- Scatter plots entre variables '*_val*' para evaluar relaciones y posible separación por clase (recomendado colorear por 'aami').
- Boxplots de '*_val*' por clase AAMI para observar diferencias de medianas/variabilidad.
- Análisis con variable objetivo: diferencias por clase observables visualmente.
Hallazgos: correlaciones bajas–moderadas (MLII vs V5) sin multicolinealidad; diferencias por clase visibles en boxplots (V suele mostrar mayor variabilidad).


## 4) Análisis multivariado

In [None]:
# Solo *_val para evitar medias/std
val_cols = [c for c in beats_df.columns if c.endswith('_val')]
x, y = val_cols[0], val_cols[1]

plt.figure(figsize=(7,5))
plt.scatter(beats_df[x], beats_df[y], alpha=0.3, s=10)
plt.title(f'{x} vs {y}')
plt.xlabel(x); plt.ylabel(y)
plt.tight_layout(); plt.show()


## 5) Detección de anomalías

In [None]:
# ============================
# 1) Distribución por clase (AAMI)
# ============================
ax = beats_df['aami'].value_counts().sort_index().plot(kind='bar', figsize=(6,4))
ax.set_title('Distribución de latidos por clase AAMI')
ax.set_xlabel('Clase AAMI'); ax.set_ylabel('Conteos')
plt.tight_layout(); plt.show()


# ============================
# 2) Conteos cada 10s (un solo registro), leyenda = clases
# ============================
df = beats_df.copy()

# tiempo relativo por registro (arranca en 0 s)
df['t_rel_s'] = df.groupby('record')['time_sec'].transform(lambda s: s - s.min())

# bin de 10s (0, 10, 20, ...)
df['bin_10s'] = (df['t_rel_s'] // 10).astype(int) * 10

# elige un registro (el primero)
rid = str(df['record'].astype(str).iloc[0])

# tabla de conteos por bin y clase
cur = (df[df['record'].astype(str) == rid]
       .groupby(['bin_10s','aami']).size()
       .rename('count').reset_index())

# pivot para graficar: filas = tiempo (seg), columnas = clase
plot_df = cur.pivot(index='bin_10s', columns='aami', values='count').fillna(0)

ax = plot_df.plot(figsize=(10,4))
ax.set_title(f'Conteos cada 10s por clase — record {rid}')
ax.set_xlabel('Tiempo (segundos)'); ax.set_ylabel('Conteos')
plt.tight_layout(); plt.show()


In [None]:
val_cols = [c for c in beats_df.columns if c.endswith('_val')]
col_example = val_cols[0]
beats_df[[col_example]].boxplot(figsize=(5,4))
plt.title(f'Boxplot de {col_example} (IQR y outliers)')
plt.tight_layout(); plt.show()


- Detección de outliers: lectura visual mediante boxplots; opcionalmente IQR para conteo.
- Patrones temporales: conteos por bins de 10 s con tiempo relativo por 'record' y columnas = clases AAMI.
- Distribuciones anómalas/inconsistencias: revisión de colas y segmentos con actividad S/V intensa.
Hallazgos: episodios temporales con picos de S/V; recomendable muestreo estratificado por segmentos activos para balancear ventanas.



## 7) Conclusiones e *insights*
## Hallazgos principales

- Se identificó un **desbalance severo** en la distribución de clases AAMI: la clase **N** predomina ampliamente, mientras que las clases **S** y **V** aparecen en menor proporción, y **F** y **Q** son marginales.
- Las **correlaciones entre canales crudos** (como MLII y V5) fueron **bajas a moderadas**, sin evidencia de colinealidad fuerte, lo que permite su combinación o tratamiento independiente.
- Las señales crudas mostraron **distribuciones unimodales con colas largas y presencia de outliers**, lo cual sugiere artefactos, deriva de línea base o eventos fisiológicos atípicos (p. ej., latidos ectópicos).
- El análisis temporal por bloques de 10 segundos reveló **episodios localizados de actividad S/V**, evidenciando una distribución **no estacionaria** a lo largo del registro.
- Se validó el correcto **mapeo de anotaciones MIT-BIH a clases AAMI** (N, S, V, F, Q), así como la estandarización de la frecuencia de muestreo (360 Hz).


## Implicaciones para el modelado (CNN + espectrogramas + XAI)

- El **desbalance de clases** obliga a emplear estrategias como **ponderación por clase**, **muestreo estratificado por registro** y enfoques cuidadosos de augmentación.
- Se observaron **diferencias en amplitud y variabilidad entre clases** en los valores crudos, lo que justifica una **normalización por ventana** previa a la extracción espectral (STFT/CWT).
- La dinámica episódica de S/V sugiere que el muestreo de entrenamiento debe enfocarse en **ventanas representativas** de esas clases para evitar sobreajuste a N.
- La baja colinealidad entre MLII y V5 permite la **entrada multi-canal** en modelos CNN, ya sea apilando canales o mediante fusión posterior.
- Para la explicación de decisiones (XAI), se propone el uso de **Grad-CAM o Integrated Gradients** sobre espectrogramas log-power, permitiendo **localizar bandas temporales relevantes por clase**.


## Recomendaciones de preprocesamiento

1. **Filtrado y detrending**: aplicar filtros pasa-banda (0.5–40 Hz), eliminación de ruido de red (50/60 Hz si aplica), y corrección de la línea base.
2. **Normalización por ventana**: usar z-score o métodos robustos (mediana/IQR), evitando la normalización global.
3. **Clipping robusto**: limitar amplitudes a los percentiles [1, 99] para reducir la influencia de artefactos severos.
4. **Ventaneo de señales**: segmentos de 5 segundos con 50% de solape; asignación de etiquetas basada en la clase dominante o presencia de S/V.
5. **Control de fuga de información**: asegurar partición por paciente/registro en fases de entrenamiento, validación y prueba.



## Próximos pasos

1. Implementar el pipeline de **ventaneo con etiquetas AAMI** y exportación de **espectrogramas log-power** por canal.
2. Construir un índice estructurado (CSV/Parquet) con **metadatos clave**: ruta, canal, clase AAMI, timestamps y parámetros de transformación espectral.
3. Entrenar una arquitectura base **CNN ligera** (e.g., ResNet-18/EfficientNet-B0) con **class weighting y validación por sujeto**, registrando métricas clave como F1-macro y recall por clase.
4. Aplicar técnicas de XAI (**Grad-CAM**) sobre predicciones de clases S y V para identificar **activaciones relevantes** y retroalimentar ajustes de preprocesamiento.
5. Documentar los resultados mediante **matrices de confusión, curvas PR por clase y análisis de errores**, integrando consideraciones clínicas para una evaluación más completa.

