# EDA — MIT-BIH Arrhythmia Database

## Descripción del Proyecto
Este notebook realiza un **Análisis Exploratorio de Datos (EDA)** sobre el dataset **MIT-BIH Arrhythmia Database**.

- **Nombre del proyecto**: *Clasificación explicable de arritmias cardíacas a partir de electrocardiogramas transformados en espectrogramas mediante redes neuronales convolucionales*
- **Dataset**: MIT-BIH Arrhythmia (señales y anotaciones de ECG)
- **Objetivo del EDA**: Identificar patrones y anomalías en las señales de ECG que permitan guiar el desarrollo de un modelo de IA para la clasificación de arritmias.

## Objetivos Específicos
1. Explorar y comprender la estructura del dataset.
2. Analizar distribuciones univariadas y bivariadas de las variables.
3. Detectar correlaciones entre variables relevantes.
4. Identificar patrones multivariados y posibles anomalías.
5. Extraer **insights** que orienten el preprocesamiento y modelado.


# Explicación del Dataset MIT-BIH

Contexto
El dataset proviene del **MIT-BIH Arrhythmia Database**, un estándar en cardiología computacional para el diagnóstico automático de arritmias.  
Contiene registros de **electrocardiogramas (ECG)** tomados con monitores Holter a 360 Hz, con 2 derivaciones principales y anotaciones clínicas realizadas por cardiólogos.

## Variables del Dataset

#### Señales de ECG (features)
Los nombres de columnas como **`MLII`, `V1`, `V2`, `V4`, `V5`, `V6`** corresponden a **derivaciones estándar del electrocardiograma**:

- **MLII (Lead II modificado):** derivación más usada en el MIT-BIH, muy informativa para detectar arritmias.  
- **V1, V2, V4, V5, V6:** derivaciones precordiales colocadas en distintas posiciones del pecho, capturan la actividad eléctrica del corazón desde diferentes ángulos.

Estas variables representan las **señales crudas de ECG** que servirán como entrada al modelo de IA.

#### Variable objetivo (`type`)
La columna **`type`** contiene las etiquetas que clasifican cada latido, anotadas por cardiólogos.  
Se siguen las categorías de la **AAMI (Association for the Advancement of Medical Instrumentation):**

- **N:** Latido normal (Normal beat).  
- **S:** Latido supraventricular ectópico (ej. prematuro auricular).  
- **V:** Latido ventricular ectópico (ej. PVC).  
- **F:** Latido de fusión (mezcla entre normal y ventricular).  
- **Q:** Latidos no clasificables o desconocidos.  



## Relación entre variables

| Variables (`features`) | Qué representan | Uso |
|-------------------------|-----------------|-----|
| `MLII`, `V1`, `V2`, `V4`, `V5`, `V6` | Señales crudas de ECG en distintas derivaciones | Entrada (input) al modelo |
| `type` | Clase del latido (N, S, V, F, Q) | Salida (target) del modelo |


## Implicaciones para el modelo
- El modelo debe aprender a **mapear patrones en las señales de ECG** hacia una clasificación en `type`.  
- Los *features* pueden provenir de:
  - **Señales crudas:** ventanas de ECG alrededor de cada latido.  
  - **Features handcrafted:** amplitudes, duración de ondas QRS, intervalos RR, etc.  
  - **Transformaciones:** wavelets, espectrogramas o embeddings generados con redes neuronales (CNN/RNN).

In [None]:

# (Opcional) instala faltantes
%pip install statsmodels pingouin numpy pandas matplotlib seaborn scipy


## Importación de librerías y utilidades

In [None]:

import os, warnings
from pathlib import Path
from typing import List, Tuple

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

try:
    import statsmodels.api as sm
    from statsmodels.stats.multitest import multipletests
except Exception:
    sm = None
    multipletests = None
    warnings.warn("statsmodels no disponible; se continuará sin algunas pruebas.")

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (12, 5)
pd.set_option("display.max_columns", None)

print("Versions -> pandas:", pd.__version__, "| numpy:", np.__version__)


### Patch · Configuración visual estándar
Para homogeneizar todas las figuras del EDA se ajusta el tamaño por defecto y, si está disponible, una paleta consistente.

In [None]:
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (7, 4)
# Si usas seaborn en este notebook, aplica una paleta consistente (no es obligatorio).
try:
    import seaborn as sns
    sns.set_palette('tab10')
except Exception:
    pass
print("Configuración de figuras aplicada: figsize=(7,4).")

# EDA

## 1.1 Carga de datos y exploración inicial

### Configuración: ruta de datos y frecuencia de muestreo (FS)

- **`DATA_DIR`**: carpeta donde están los archivos del dataset.  
  Si la ruta no existe, el bloque **auto-detecta** una carpeta que contenga archivos tipo `NNN.csv` y `NNNannotations.txt` y la usa.

- **`FS = 360` Hz**: frecuencia de muestreo de la base **MIT-BIH Arrhythmia** original  
  (≈ **1 muestra cada 2.78 ms**). Se usa para:
  - Convertir `sample → time_sec` (`time_sec = sample / FS`).
  - Traducir ventanas en milisegundos a **número de muestras** (p. ej., `win_ms`).
  > Si `FS` es incorrecto, tiempos y ventanas quedan mal escalados.

**¿Por qué 360 Hz?**  
Porque los registros estándar de MIT-BIH fueron adquiridos a **360 Hz**. Algunas copias/derivados pueden estar **re-muestreados**; si ese es tu caso, ajusta `FS`.

**Chequeo rápido (opcional) si el TXT trae `Time` real:**
```python
# Estimar FS comparando rango de samples vs rango de tiempo real
t = pd.to_timedelta(ann['Time']).dt.total_seconds()
FS_est = round((sig['sample'].max() - sig['sample'].min()) / (t.max() - t.min()))
print("FS estimado:", FS_est)


In [None]:

# Configuración
DATA_DIR = Path(r"C:\Users\luisa\Documents\Titulacion_UEES\Notebooks\EDA-MIT-BIH-Arrhythmia-Database\mit-bih-arrhythmia_dataset")
FS = 360  # Hz

if not DATA_DIR.exists():
    candidates = []
    for p in Path(".").rglob("*"):
        try:
            if p.is_dir():
                has_csv = any(Path(p).glob("[0-9][0-9][0-9].csv"))
                has_ann = any(Path(p).glob("[0-9][0-9][0-9]annotations.txt"))
                if has_csv and has_ann:
                    candidates.append(p)
        except Exception:
            pass
    if candidates:
        DATA_DIR = candidates[0]
        print("DATA_DIR auto-detectado en:", DATA_DIR.resolve())
    else:
        print("⚠️ Ajusta DATA_DIR manualmente.")

DATA_DIR = DATA_DIR.resolve()
DATA_DIR


### Lectores y utilidades

Este bloque define **funciones de lectura y limpieza** para construir dataframes consistentes a partir de los archivos del MIT-BIH (CSV de señales y TXT de anotaciones). Deja todo listo para el EDA y para funciones posteriores (p. ej., `build_beats_dataframe`).

- **_clean_signal_df(df)**: estandariza columnas (`sample`, `MLII`, `V1`–`V6`), convierte a numérico, quita filas vacías, asegura `sample` (int) y crea `time_sec = sample / FS`. **Error** si falta `sample`. → **Devuelve señales limpias**.

- **read_signal_csv(path)**: `read_csv` + `_clean_signal_df`. → **DataFrame de señales listo**.

- **read_annotations_txt(path)**: lee TXT (FWF o whitespace), asegura `sample` (int) y `type` (category), calcula `time_sec` desde `Time` o `sample/FS`, completa `Sub/Chan/Num/Aux` si faltan. → **`['sample','type','Sub','Chan','Num','Aux','time_sec']`**.

- **list_record_ids(base_dir, min_records=1)**: lista ordenada de IDs a partir de archivos `NNN.csv`; **error** si hay menos de `min_records`.

- **load_record(record_id, base_dir)**: carga **señales** y **anotaciones**, añade `record`, y hace *left join* de `type` (anotaciones) sobre señales por `sample`. → **Retorna `(sig, ann)`**.

**Supuestos**: `FS` (frecuencia de muestreo) y `DATA_DIR` definidos.


In [None]:

# Lectores y utilidades
def _clean_signal_df(df: pd.DataFrame) -> pd.DataFrame:
    # normaliza nombres de columnas y tipos para CSV de señales
    df = df.copy()
    df.columns = [c.replace("'", "").strip() for c in df.columns]
    rename_map = {}
    for c in df.columns:
        cc = c.lower().replace(" ", "").replace("#", "")
        if cc == "sample":
            rename_map[c] = "sample"
    if rename_map:
        df = df.rename(columns=rename_map)
    for c in list(df.columns):
        clean = c.strip().upper().replace(" ", "")
        if clean in ("MLII", "ML2"):
            df = df.rename(columns={c: "MLII"})
        elif clean in ("V1","V2","V3","V4","V5","V6"):
            df = df.rename(columns={c: clean})
    if "sample" not in df.columns:
        raise RuntimeError("El archivo de señales no contiene 'sample'.")
    for c in df.columns:
        if c != "type":
            df[c] = pd.to_numeric(df[c], errors='coerce')
    canal_cols = [col for col in df.columns if col in ("MLII","V1","V2","V3","V4","V5","V6")]
    df = df.dropna(subset=["sample"], how="any")
    if canal_cols:
        df = df.dropna(subset=canal_cols, how="all")
    df = df.reset_index(drop=True)
    df['sample'] = df['sample'].astype(int)
    df['time_sec'] = df['sample'] / FS
    if 'type' in df.columns:
        df['type'] = df['type'].astype(str).str.strip().replace('', np.nan).astype('category')
    return df

def read_signal_csv(csv_path: Path) -> pd.DataFrame:
    df = pd.read_csv(csv_path)
    return _clean_signal_df(df)

def read_annotations_txt(ann_path: Path) -> pd.DataFrame:
    colnames = ['Time','sample','type','Sub','Chan','Num','Aux']
    try:
        df = pd.read_fwf(ann_path, names=colnames, header=0)
    except Exception:
        df = pd.read_csv(ann_path, sep=r"\\s+", engine='python', names=colnames, header=0)
    df['sample'] = pd.to_numeric(df['sample'], errors='coerce')
    df = df.dropna(subset=['sample']).reset_index(drop=True)
    df['sample'] = df['sample'].astype(int)
    df['type'] = df['type'].astype(str).str.strip()
    df = df[df['type'] != ""].reset_index(drop=True)
    df['type'] = df['type'].astype('category')
    try:
        pd.to_timedelta(df['Time'])
        df['time_sec'] = pd.to_timedelta(df['Time']).dt.total_seconds()
    except Exception:
        df['time_sec'] = df['sample'] / FS
    for col in ['Sub','Chan','Num','Aux']:
        if col not in df.columns:
            df[col] = np.nan
    return df[['sample','type','Sub','Chan','Num','Aux','time_sec']].copy()

def list_record_ids(base_dir: Path = DATA_DIR, min_records: int = 1) -> List[str]:
    ids = sorted(p.stem for p in base_dir.glob("[0-9][0-9][0-9].csv"))
    if len(ids) < min_records:
        raise RuntimeError(f"Se encontraron {len(ids)} registros en {base_dir}.")
    return ids

def load_record(record_id: str, base_dir: Path = DATA_DIR) -> Tuple[pd.DataFrame, pd.DataFrame]:
    csv_path = base_dir / f"{record_id}.csv"
    ann_path = base_dir / f"{record_id}annotations.txt"
    sig = read_signal_csv(csv_path)
    ann = read_annotations_txt(ann_path)
    sig['record'] = str(record_id)
    ann['record'] = str(record_id)
    sig = sig.merge(ann[['sample','type']], on='sample', how='left')
    sig['type'] = pd.Categorical(sig['type'])
    return sig, ann


### Estandarización a AAMI

### Etiquetado AAMI: mapeo de símbolos a 5 clases

**Qué hace**
- Define `AAMI_MAP` para convertir símbolos de latido de MIT-BIH a las **5 clases AAMI**:  
  **N** (normal), **S** (supraventricular), **V** (ventricular), **F** (fusión), **Q** (otros/ruido).
- `to_aami(beat_symbol)`: limpia el símbolo y devuelve su clase AAMI.  
  Si no está en el mapa o es `NaN`, retorna **'Q'** (u `NaN` si la entrada es `NaN`).
- `add_aami_labels(df_ann)`: crea una copia de anotaciones y añade la columna **`aami`** (tipo `category`).

**Por qué**
- Unifica la gran variedad de **símbolos** de MIT-BIH en un **esquema estándar (AAMI)** para EDA y modelado (clases coherentes y comparables).

**Detalle del mapa (ejemplos)**
- **N**: `N, L, R, e, j`
- **S**: `A, a, J, S`
- **V**: `V, E`
- **F**: `F`
- **Q** (otros/ruido): `P, f, Q, ?, /, ~, |, x` **y cualquier símbolo no mapeado**

**Demostración rápida**
- `ids = list_record_ids(DATA_DIR)` → lista registros disponibles.
- `sig_0, ann_0 = load_record(ids[0])` → carga señales/anotaciones del primer registro.
- `ann_0 = add_aami_labels(ann_0)` → agrega columna `aami` lista para análisis.


In [None]:

AAMI_MAP = {
    'N':'N','L':'N','R':'N','e':'N','j':'N',        # N
    'A':'S','a':'S','J':'S','S':'S',                # S
    'V':'V','E':'V',                                # V
    'F':'F',                                        # F
    'P':'Q','f':'Q','Q':'Q','?':'Q','/':'Q','~':'Q','|':'Q','x':'Q'  # Q/otros
}
def to_aami(beat_symbol: str) -> str:
    if pd.isna(beat_symbol):
        return np.nan
    b = str(beat_symbol).strip()
    return AAMI_MAP.get(b, 'Q')

def add_aami_labels(df_ann: pd.DataFrame) -> pd.DataFrame:
    df = df_ann.copy()
    df['aami'] = df['type'].astype(str).map(to_aami).astype('category')
    return df

ids = list_record_ids(DATA_DIR)
print("Registros detectados:", ids[:10], "… total:", len(ids))

sig_0, ann_0 = load_record(ids[0])
ann_0 = add_aami_labels(ann_0)
display(ann_0.head())


In [None]:

print("Señal:", sig_0.shape, "| columnas:", sig_0.columns.tolist())
print("Anotaciones:", ann_0.shape, "| columnas:", ann_0.columns.tolist())

display(sig_0.head(3)); display(sig_0.tail(3))
display(ann_0.head(10))

print("\nInfo de señales:")
display(sig_0.info())

print("\nValores faltantes (señal):")
display(sig_0.isna().sum())

print("\nResumen estadístico (señal):")
display(sig_0.describe().T)


### Dataset latido-a-latido

### Dataset latido-a-latido (`build_beats_dataframe`)

**Qué es:** Convierte las señales + anotaciones del MIT-BIH en una **tabla donde cada fila es un latido** con su clase **AAMI** y features simples.

**Cómo lo hace:** Para cada anotación (pico R) toma:
- el **valor puntual** de cada canal (`*_val`) en ese instante, y
- la **media** y **desviación estándar** en una **ventana centrada** de `win_ms` ms (`*_mean`, `*_std`).
Además guarda `record`, `sample`, `time_sec`, `type`, `aami`.

**Para qué sirve:** Deja los datos listos para **EDA** (distribuciones, correlaciones, outliers, desbalance) y **modelado** rápido (baselines tabulares o recortes para espectrogramas/CNN).

> Nota: si el latido está muy cerca del inicio/fin, la ventana puede quedar incompleta y algunas features serán `NaN`.

In [None]:

def build_beats_dataframe(record_ids: List[str], base_dir: Path = DATA_DIR, win_ms: int = 100) -> pd.DataFrame:
    rows = []
    half_win = int((win_ms/1000.0) * FS / 2)
    for rid in record_ids:
        sig, ann = load_record(rid, base_dir)
        ann = add_aami_labels(ann)
        channel_cols = [c for c in sig.columns if c in ("MLII","V1","V2","V3","V4","V5","V6")]
        sig_idx = sig.set_index('sample')
        for _, a in ann.iterrows():
            s = int(a['sample'])
            rec = {'record': rid, 'sample': s, 'time_sec': a['time_sec'],
                   'type': str(a['type']), 'aami': str(a['aami'])}
            for ch in channel_cols:
                rec[f'{ch}_val'] = sig_idx.loc[s, ch] if s in sig_idx.index else np.nan
            lo, hi = s - half_win, s + half_win
            win = sig_idx.loc[lo:hi, channel_cols] if (lo in sig_idx.index and hi in sig_idx.index) else None
            if win is not None and len(win) > 1:
                for ch in channel_cols:
                    rec[f'{ch}_mean'] = float(win[ch].mean())
                    rec[f'{ch}_std']  = float(win[ch].std())
            rows.append(rec)
    dfb = pd.DataFrame(rows)
    for c in ['record','type','aami']:
        if c in dfb.columns:
            dfb[c] = dfb[c].astype('category')
    return dfb

n_ids = min(10, len(ids))
beats_df = build_beats_dataframe(ids[:n_ids])
print(beats_df.shape)
display(beats_df.head())
display(beats_df['aami'].value_counts(dropna=False))


In [None]:
try:
    print("\nInfo anotaciones:")
    ann_0.info()
    print("\nNA anotaciones:")
    print(ann_0.isna().sum())
except Exception as e:
    print("No se pudo evaluar ann_0:", e)

try:
    print("\nInfo beats_df:")
    beats_df.info()
    print("\nNA beats_df:")
    print(beats_df.isna().sum())
    print("\nTail beats_df:")
    print(beats_df.tail())
except Exception as e:
    print("No se pudo evaluar beats_df:", e)

## 1.2) Análisis Univariado

### Análisis univariado — numéricas y clase objetivo

- **Selección de features numéricas**
  - `num_cols = [...]` toma columnas con sufijos `*_val`, `*_mean`, `*_std` (features por latido).
- **Estadísticos básicos + variabilidad**
  - `describe().T` da conteo, media, std, qtiles, etc.
  - `coef_var = std / mean` (usa `NaN` si `mean==0`) para comparar **variabilidad relativa** entre features.

- **Distribución de una variable ejemplo**
  - `col_example`: primera columna `*_val` disponible (o la primera numérica).
  - **Histograma** (bins=50) → forma de la distribución.
  - **Boxplot** → mediana, IQR y colas (posibles outliers).

- **Outliers estadísticos (Z-score)**
  - `zscore(..., nan_policy='omit')` sobre **todas** las numéricas.
  - `outlier_mask = (z > 3).any(axis=1)` cuenta latidos con al menos un feature fuera de ±3σ.

- **Distribución de clases (variable objetivo `aami`)**
  - `value_counts()` y **barras de proporción** para ver **desbalance** entre clases AAMI.

> Ajustes comunes: cambiar `bins`, umbral de outliers (p. ej. 3.5σ), o filtrar/transformar (log) antes de graficar si hay colas muy largas.


In [None]:

num_cols = [c for c in beats_df.columns if any(s in c for s in ['_val','_mean','_std'])]
desc = beats_df[num_cols].describe().T
desc['coef_var'] = desc['std'] / desc['mean'].replace(0, np.nan)
display(desc.head(20))

col_example = next((c for c in num_cols if c.endswith('_val')), num_cols[0])
fig, ax = plt.subplots(); ax.hist(beats_df[col_example].dropna(), bins=50)
ax.set_title(f'Histograma: {col_example}'); ax.set_xlabel(col_example); ax.set_ylabel('Frecuencia'); plt.show()

fig, ax = plt.subplots(); ax.boxplot(beats_df[col_example].dropna(), vert=True)
ax.set_title(f'Boxplot: {col_example}'); ax.set_ylabel(col_example); plt.show()

z = np.abs(stats.zscore(beats_df[num_cols].dropna(), nan_policy='omit'))
outlier_mask = (z > 3).any(axis=1)
print("Outliers (Z>3):", int(outlier_mask.sum()))


In [None]:

cat_counts = beats_df['aami'].value_counts().sort_values(ascending=False)
display(cat_counts)
(cat_counts / cat_counts.sum()).plot(kind='bar', title='Distribución de clases AAMI')
plt.xlabel('Clase AAMI'); plt.ylabel('Proporción'); plt.show()


- Variables numéricas: histogramas y boxplots de '*_val*' (p. ej., MLII_val, V5_val).
- Estadísticas de distribución: media/mediana/moda (desde describe y visualizaciones).
-  Outliers: visualizados en boxplots; consistentes con artefactos/latidos ectópicos.
-  Variables categóricas: barras de frecuencia/proporción por clase AAMI (N, S, V, F, Q).
Hallazgos: distribuciones unimodales con colas; presencia de outliers; desbalance marcado (N≫S,V; F,Q marginales).


## 1.3 Análisis Bivariado

### Análisis bivariado — correlaciones, dispersión y clase vs valor

- **Selección de columnas crudas (`*_val`)**
  - `val_cols = [...]` toma solo las features puntuales por canal (no medias/std).
  - Se exige ≥2 columnas para poder correlacionar y graficar `scatter`.

- **Preparación**
  - `X = beats_df[val_cols].dropna(how='all')`: descarta filas sin datos en **todas** las `*_val`.

- **Heatmap de correlación (Pearson)**
  - `corr = X.corr(method='pearson')` → asume relación **lineal** y sensibilidad a **outliers**.
  - `sns.heatmap(corr, ...)` muestra fuerza/dirección de relación entre canales `*_val`.
  - Útil para detectar **redundancia** y seleccionar features.

- **Dispersión entre dos variables**
  - `plt.scatter(beats_df[xcol], beats_df[ycol], alpha=0.3)` visualiza relación (forma/nube, colas, clusters).
  - Sirve para ver **linealidad** y posibles **outliers** bivariados.

- **Boxplot por clase AAMI**
  - Para una `col_example` (`*_val`), compara su distribución **entre clases** (`aami`).
  - Ayuda a evaluar **separabilidad** de la variable respecto a la **clase objetivo**.

> Notas:
> - Si hay no linealidad o muchos outliers, prueba `corr(method='spearman')`.
> - Considera estandarizar o recortar extremos antes de scatter si hay escalas muy distintas.


In [None]:
# === Solo columnas de valor crudo ===
val_cols = [c for c in beats_df.columns if c.endswith('_val')]
if len(val_cols) < 2:
    raise ValueError("No hay suficientes columnas *_val para correlación/scatter.")

# Quita filas totalmente vacías en esas columnas
X = beats_df[val_cols].dropna(how='all')

# --- Heatmap de correlación (Pearson) SOLO con *_val ---
corr = X.corr(method='pearson')

plt.figure(figsize=(10, 8))
sns.heatmap(corr, cmap='coolwarm', center=0, annot=False)
plt.title('Matriz de correlación (solo *_val)')
plt.tight_layout()
plt.show()

# --- Scatter entre dos columnas *_val (ejemplo) ---
xcol, ycol = val_cols[0], val_cols[1]
plt.figure(figsize=(7, 5))
plt.scatter(beats_df[xcol], beats_df[ycol], alpha=0.3)
plt.title(f'{xcol} vs {ycol}')
plt.xlabel(xcol); plt.ylabel(ycol)
plt.tight_layout()
plt.show()

# --- Boxplot de una columna *_val por clase AAMI (sin estadísticas) ---
col_example = val_cols[0]
fig, ax = plt.subplots(figsize=(8, 5))
cats = beats_df['aami'].cat.categories if hasattr(beats_df['aami'], 'cat') else sorted(beats_df['aami'].dropna().unique())
groups = [beats_df.loc[beats_df['aami'] == k, col_example].dropna() for k in cats]
ax.boxplot(groups, labels=list(cats))
ax.set_title(f'{col_example} por clase AAMI')
ax.set_xlabel('Clase AAMI'); ax.set_ylabel(col_example)
plt.tight_layout()
plt.show()


- Matriz de correlación (Pearson) usando solo columnas '*_val*'.
- Scatter plots entre variables '*_val*' para evaluar relaciones y posible separación por clase (recomendado colorear por 'aami').
- Boxplots de '*_val*' por clase AAMI para observar diferencias de medianas/variabilidad.
- Análisis con variable objetivo: diferencias por clase observables visualmente.
Hallazgos: correlaciones bajas–moderadas (MLII vs V5) sin multicolinealidad; diferencias por clase visibles en boxplots (V suele mostrar mayor variabilidad).


## 1.4 Análisis multivariado

### Análisis multivariado — dispersión base y cómo escalarlo

**Qué hace este bloque**
- Toma dos columnas `*_val` (`x`, `y`) y dibuja un **scatter** (`alpha=0.3`, `s=10`) para ver la relación entre **dos** variables.
- Nota: con solo `x` e `y` es técnicamente **bivariado**; sirve como base para multivariado.

**Cómo volverlo realmente multivariado (3+ variables)**
- **Color** por `aami` (tercera variable) y/o **tamaño** por alguna `*_std` (cuarta variable):
```python
cats = beats_df['aami'].astype('category')
c = cats.cat.codes  # color por clase AAMI
s = 10 * (1 + beats_df.filter(like='_std').iloc[:,0].fillna(0).rank(pct=True))  # tamaño por variabilidad
plt.figure(figsize=(7,5))
plt.scatter(beats_df[x], beats_df[y], c=c, s=s, alpha=0.35)
plt.title(f'{x} vs {y} (color: AAMI, tamaño: std)')
plt.xlabel(x); plt.ylabel(y); plt.tight_layout(); plt.show()


In [None]:
# Solo *_val para evitar medias/std
val_cols = [c for c in beats_df.columns if c.endswith('_val')]
x, y = val_cols[0], val_cols[1]

plt.figure(figsize=(7,5))
plt.scatter(beats_df[x], beats_df[y], alpha=0.3, s=10)
plt.title(f'{x} vs {y}')
plt.xlabel(x); plt.ylabel(y)
plt.tight_layout(); plt.show()


## 1.5 Detección de anomalías

### Detección de anomalías — patrones y calidad de datos

### 1) Distribución de clases (AAMI)
- Grafica los **conteos por clase** (`aami`).  
- Sirve para **detectar desbalance** (p. ej., clases muy raras) que afecta el modelado y la evaluación.

### 2) Patrones temporales (bins de 10 s)
- Normaliza el tiempo por `record` (`t_rel_s`) y agrupa en **ventanas de 10 s** (`bin_10s`).
- Para un `record` ejemplo, grafica **conteos por clase en el tiempo**.  
- Útil para ver **ráfagas**/episodios anómalos (picos de V, S, etc.) y **estacionaridad**.

### 3) Outliers por IQR (boxplot de una `*_val`)
- Boxplot de una feature cruda (`col_example`) para **IQR y puntos extremos**.  
- Ayuda a detectar **outliers univariados** y distribuciones con **colas largas**.

### 4) Chequeos programáticos de calidad (data sanity)
- **Duplicados**: `sig_0.duplicated()` y `beats_df.duplicated()` → registros repetidos.
- **Rangos extremos**: cuantiles `[0.1%, 99.9%]` en `sig_0` → valores fuera de rango esperado.
- **Monotonicidad de `sample`**: debe **crecer** (muestras en orden temporal).
- **Anotaciones fuera de rango**: `ann_0['sample']` debe caer dentro del rango de `sig_0['sample']`.

> Conjunto: (1–3) detectan **anomalías de comportamiento**; (4) detecta **inconsistencias del dataset**. Ambos son necesarios antes de modelar.


## Patch · Cuantificación de outliers por feature (IQR)
Se listan umbrales **IQR (1.5×IQR)** por variable numérica y el **conteo de outliers** para priorizar limpieza/caps.
> **Configurable:** ajusta `DF_CANDIDATES` si tu `DataFrame` principal tiene otro nombre.

In [None]:
import pandas as pd
DF_CANDIDATES = ['beats_df','df','data','dataset']

def _pick_df():
    g = globals()
    for name in DF_CANDIDATES:
        if name in g and isinstance(g[name], pd.DataFrame):
            return g[name], name
    raise ValueError("No se pudo detectar automáticamente el DataFrame. Ajusta DF_CANDIDATES.")

df, df_name = _pick_df()

num_cols = [c for c in df.columns if pd.api.types.is_numeric_dtype(df[c])]
rows = []
for col in num_cols:
    s = df[col].dropna()
    if s.empty:
        continue
    q1, q3 = s.quantile([0.25, 0.75])
    iqr = q3 - q1
    lo, hi = q1 - 1.5*iqr, q3 + 1.5*iqr
    n_out = int(((s < lo) | (s > hi)).sum())
    rows.append((col, float(lo), float(hi), n_out))

out_df = pd.DataFrame(rows, columns=['feature','low','high','n_outliers']).sort_values('n_outliers', ascending=False)
print(f"DF detectado: {df_name}")
display(out_df)

In [None]:
# ============================
# 1) Distribución por clase (AAMI)
# ============================
ax = beats_df['aami'].value_counts().sort_index().plot(kind='bar', figsize=(6,4))
ax.set_title('Distribución de latidos por clase AAMI')
ax.set_xlabel('Clase AAMI'); ax.set_ylabel('Conteos')
plt.tight_layout(); plt.show()


# ============================
# 2) Conteos cada 10s (un solo registro), leyenda = clases
# ============================
df = beats_df.copy()

# tiempo relativo por registro (arranca en 0 s)
df['t_rel_s'] = df.groupby('record')['time_sec'].transform(lambda s: s - s.min())

# bin de 10s (0, 10, 20, ...)
df['bin_10s'] = (df['t_rel_s'] // 10).astype(int) * 10

# elige un registro (el primero)
rid = str(df['record'].astype(str).iloc[0])

# tabla de conteos por bin y clase
cur = (df[df['record'].astype(str) == rid]
       .groupby(['bin_10s','aami']).size()
       .rename('count').reset_index())

# pivot para graficar: filas = tiempo (seg), columnas = clase
plot_df = cur.pivot(index='bin_10s', columns='aami', values='count').fillna(0)

ax = plot_df.plot(figsize=(10,4))
ax.set_title(f'Conteos cada 10s por clase — record {rid}')
ax.set_xlabel('Tiempo (segundos)'); ax.set_ylabel('Conteos')
plt.tight_layout(); plt.show()


In [None]:
val_cols = [c for c in beats_df.columns if c.endswith('_val')]
col_example = val_cols[0]
beats_df[[col_example]].boxplot(figsize=(5,4))
plt.title(f'Boxplot de {col_example} (IQR y outliers)')
plt.tight_layout(); plt.show()


In [None]:
import numpy as np

# Duplicados
try:
    d_sig = int(sig_0.duplicated().sum())
    print("Duplicados en señales:", d_sig)
except Exception as e:
    print("Duplicados en señales: N/A", e)

try:
    d_beats = int(beats_df.duplicated().sum())
    print("Duplicados en beats_df:", d_beats)
except Exception as e:
    print("Duplicados en beats_df: N/A", e)

# Rangos por cuantiles extremos (sanity checks)
try:
    num_cols_sig = sig_0.select_dtypes(include=[np.number]).columns
    if len(num_cols_sig) > 0:
        q = sig_0[num_cols_sig].quantile([0.001, 0.999])
        print("\nQuantiles [0.1%, 99.9%] señales:")
        print(q)
    else:
        print("No hay columnas numéricas en sig_0.")
except Exception as e:
    print("Quantiles señales: N/A", e)

# Monotonicidad de sample
try:
    monotonic = bool(sig_0['sample'].is_monotonic_increasing)
    print("\nsample monotónico en señales:", monotonic)
except Exception as e:
    print("Monotonicidad sample: N/A", e)

# Anotaciones dentro del rango de sample
try:
    ann_outside = (~ann_0['sample'].between(sig_0['sample'].min(), sig_0['sample'].max())).sum()
    print("Anotaciones fuera de rango de sample:", int(ann_outside))
except Exception as e:
    print("Chequeo de rango de anotaciones: N/A", e)

- Detección de outliers: lectura visual mediante boxplots; opcionalmente IQR para conteo.
- Patrones temporales: conteos por bins de 10 s con tiempo relativo por 'record' y columnas = clases AAMI.
- Distribuciones anómalas/inconsistencias: revisión de colas y segmentos con actividad S/V intensa.
Hallazgos: episodios temporales con picos de S/V; recomendable muestreo estratificado por segmentos activos para balancear ventanas.


### Variable objetivo (AAMI) — distribución, desbalance y relación con features

- **Clasificación**: se grafica la distribución de clases `aami`, se calculan métricas de **desbalance** (IR, entropía, Gini) y **pesos sugeridos**.
- **Relación con predictoras**: ANOVA por feature (`*_val/_mean/_std`) + tamaño de efecto (η²) y boxplots de las más discriminativas.
- **Regresión (opcional)**: si hubiera un objetivo numérico (`target`, `y`, `target_reg`), se grafica su distribución y correlación con las features.


## Patch · Análisis explícito de desbalance de clases
Cálculo de métricas de desbalance: **Imbalance Ratio (IR)** por clase, **entropía**, **índice de Gini** y **class_weight** sugeridos para entrenamiento.
> **Configurable:** el código intenta detectar automáticamente el `DataFrame` y la columna de etiqueta. Si no coincide con tus nombres, edita `DF_CANDIDATES` y `LABEL_CANDIDATES` al inicio del bloque.

In [None]:
# Intento de autoconfiguración: escoger DF y etiqueta objetivo (AAMI/label)
DF_CANDIDATES = ['beats_df','df','data','dataset']
LABEL_CANDIDATES = ['aami','AAMI','label','class','target','y']

def _pick_df_and_label():
    import pandas as pd
    g = globals()
    for df_name in DF_CANDIDATES:
        if df_name in g and isinstance(g[df_name], pd.DataFrame):
            df = g[df_name]
            for col in LABEL_CANDIDATES:
                if col in df.columns:
                    return df, col, df_name
    raise ValueError("No se pudo detectar automáticamente el DF/columna. Ajusta DF_CANDIDATES/LABEL_CANDIDATES.")

try:
    df, label_col, df_name = _pick_df_and_label()
except Exception as e:
    raise e

from collections import Counter
import numpy as np
import pandas as pd

y = df[label_col].dropna()
cnt = Counter(y)
N = sum(cnt.values())
props = {k: v/N for k, v in cnt.items()}
maj = max(cnt.values())
IR = {k: maj/v for k, v in cnt.items()}
p = np.array(list(props.values()), dtype=float)
entropy = float(-(p * np.log(p + 1e-12)).sum())
gini = float(1 - (p**2).sum())
class_weight = {k: float(N / (len(cnt) * v)) for k, v in cnt.items()}

res = pd.DataFrame({
    'count': pd.Series(cnt, dtype='float'),
    'prop': pd.Series(props, dtype='float'),
    'IR': pd.Series(IR, dtype='float'),
    'class_weight': pd.Series(class_weight, dtype='float'),
}).rename_axis('clase').sort_values('count', ascending=False)

print(f"DF detectado: {df_name} | etiqueta: {label_col}")
display(res)
print(f"Entropía={entropy:.3f}  |  Gini={gini:.3f}")

In [None]:
# ==== Config ====
import numpy as np, pandas as pd, matplotlib.pyplot as plt, seaborn as sns
from scipy import stats

target_cls = 'aami'  # objetivo para clasificación (AAMI)

# ==== 1) Distribución de clases (clasificación) ====
assert target_cls in beats_df.columns, f"No existe la columna objetivo '{target_cls}'."
cls_counts = beats_df[target_cls].value_counts(dropna=False).sort_index()
cls_props  = cls_counts / cls_counts.sum()

display(pd.DataFrame({'count': cls_counts, 'prop': cls_props}).rename_axis('clase'))

ax = cls_props.plot(kind='bar', rot=0, figsize=(6,4))
ax.set_title('Distribución de clases (AAMI)')
ax.set_xlabel('Clase'); ax.set_ylabel('Proporción')
plt.tight_layout(); plt.show()

# ==== 2) Métricas de desbalance ====
# IR (Imbalance Ratio) = mayoria/minoria
ir = (cls_counts.max() / cls_counts[cls_counts > 0].min()) if (cls_counts > 0).any() else np.nan
entropy_bits = -np.sum(cls_props.values * np.log2(np.clip(cls_props.values, 1e-12, 1)))
gini_impurity = 1 - np.sum(cls_props.values**2)

# Pesos balanceados (útiles para sklearn)
class_weights = {str(k): (len(beats_df) / (len(cls_counts) * v)) for k, v in cls_counts.items() if v > 0}

print(f"IR (mayoría/minoría): {ir:.2f}")
print(f"Entropía (bits): {entropy_bits:.3f}")
print(f"Gini impurity: {gini_impurity:.3f}")
print("Pesos sugeridos (class_weight):", class_weights)

# ==== 3) Relación con variables predictoras ====
num_cols = [c for c in beats_df.columns if any(s in c for s in ['_val','_mean','_std'])]
anova_rows = []

for col in num_cols:
    # grupos por clase (solo si hay datos)
    groups = [beats_df.loc[beats_df[target_cls]==k, col].dropna() for k in cls_counts.index]
    valid = [g for g in groups if len(g) >= 3]
    if len(valid) < 2:
        anova_rows.append((col, np.nan, np.nan, np.nan))
        continue
    # ANOVA de una vía
    try:
        F, p = stats.f_oneway(*valid)
    except Exception:
        F, p = np.nan, np.nan
    # Tamaño de efecto (eta^2)
    all_vals = pd.concat(valid)
    grand = all_vals.mean()
    ssb = sum(len(g)*(g.mean()-grand)**2 for g in valid)
    sst = sum(((g - grand)**2).sum() for g in valid)
    eta2 = ssb/sst if sst > 0 else np.nan
    anova_rows.append((col, F, p, eta2))

anova_df = (pd.DataFrame(anova_rows, columns=['feature','F','p_value','eta2'])
            .sort_values(['p_value','eta2'], na_position='last'))
display(anova_df.head(15))

# Boxplots de las 3 features más discriminativas (menor p-value)
topk = [f for f in anova_df['feature'].dropna().head(3)]
for col in topk:
    fig, ax = plt.subplots(figsize=(8,4))
    cats = list(cls_counts.index)
    data = [beats_df.loc[beats_df[target_cls]==k, col].dropna() for k in cats]
    ax.boxplot(data, labels=[str(k) for k in cats])
    ax.set_title(f'{col} por clase AAMI')
    ax.set_xlabel('Clase AAMI'); ax.set_ylabel(col)
    plt.tight_layout(); plt.show()

# ==== 4) (Opcional) Caso regresión: distribución y relación con predictoras ====
# Si tuvieras un objetivo numérico, define su nombre aquí o detecta uno común:
reg_candidates = [c for c in ['target','y','target_reg'] if c in beats_df.columns and pd.api.types.is_numeric_dtype(beats_df[c])]
reg_target = reg_candidates[0] if len(reg_candidates) else None

if reg_target:
    print(f"[Regresión] Objetivo detectado: {reg_target}")
    # Distribución del objetivo numérico
    fig, ax = plt.subplots(figsize=(6,4))
    ax.hist(beats_df[reg_target].dropna(), bins=50)
    ax.set_title(f'Distribución del objetivo: {reg_target}')
    ax.set_xlabel(reg_target); ax.set_ylabel('Frecuencia')
    plt.tight_layout(); plt.show()

    # Correlación de features con el objetivo
    corr_with_y = (beats_df[num_cols + [reg_target]]
                   .corr(method='pearson')[reg_target]
                   .drop(index=reg_target).sort_values(ascending=False))
    display(corr_with_y.to_frame('corr_con_objetivo').head(15))

    plt.figure(figsize=(8,6))
    sns.heatmap(beats_df[num_cols + [reg_target]].corr(), cmap='coolwarm', center=0)
    plt.title('Correlación features ↔ objetivo (regresión)')
    plt.tight_layout(); plt.show()
else:
    print("No se detectó objetivo numérico para regresión (sección opcional omitida).")



## 1.6 Conclusiones e *insights*
## Hallazgos principales

- Se identificó un **desbalance severo** en la distribución de clases AAMI: la clase **N** predomina ampliamente, mientras que las clases **S** y **V** aparecen en menor proporción, y **F** y **Q** son marginales.
- Las **correlaciones entre canales crudos** (como MLII y V5) fueron **bajas a moderadas**, sin evidencia de colinealidad fuerte, lo que permite su combinación o tratamiento independiente.
- Las señales crudas mostraron **distribuciones unimodales con colas largas y presencia de outliers**, lo cual sugiere artefactos, deriva de línea base o eventos fisiológicos atípicos (p. ej., latidos ectópicos).
- El análisis temporal por bloques de 10 segundos reveló **episodios localizados de actividad S/V**, evidenciando una distribución **no estacionaria** a lo largo del registro.
- Se validó el correcto **mapeo de anotaciones MIT-BIH a clases AAMI** (N, S, V, F, Q), así como la estandarización de la frecuencia de muestreo (360 Hz).


## Implicaciones para el modelado (CNN + espectrogramas + XAI)

- El **desbalance de clases** obliga a emplear estrategias como **ponderación por clase**, **muestreo estratificado por registro** y enfoques cuidadosos de augmentación.
- Se observaron **diferencias en amplitud y variabilidad entre clases** en los valores crudos, lo que justifica una **normalización por ventana** previa a la extracción espectral (STFT/CWT).
- La dinámica episódica de S/V sugiere que el muestreo de entrenamiento debe enfocarse en **ventanas representativas** de esas clases para evitar sobreajuste a N.
- La baja colinealidad entre MLII y V5 permite la **entrada multi-canal** en modelos CNN, ya sea apilando canales o mediante fusión posterior.
- Para la explicación de decisiones (XAI), se propone el uso de **Grad-CAM o Integrated Gradients** sobre espectrogramas log-power, permitiendo **localizar bandas temporales relevantes por clase**.


## Recomendaciones de preprocesamiento

1. **Filtrado y detrending**: aplicar filtros pasa-banda (0.5–40 Hz), eliminación de ruido de red (50/60 Hz si aplica), y corrección de la línea base.
2. **Normalización por ventana**: usar z-score o métodos robustos (mediana/IQR), evitando la normalización global.
3. **Clipping robusto**: limitar amplitudes a los percentiles [1, 99] para reducir la influencia de artefactos severos.
4. **Ventaneo de señales**: segmentos de 5 segundos con 50% de solape; asignación de etiquetas basada en la clase dominante o presencia de S/V.
5. **Control de fuga de información**: asegurar partición por paciente/registro en fases de entrenamiento, validación y prueba.



## Próximos pasos

1. Implementar el pipeline de **ventaneo con etiquetas AAMI** y exportación de **espectrogramas log-power** por canal.
2. Construir un índice estructurado (CSV/Parquet) con **metadatos clave**: ruta, canal, clase AAMI, timestamps y parámetros de transformación espectral.
3. Entrenar una arquitectura base **CNN ligera** (e.g., ResNet-18/EfficientNet-B0) con **class weighting y validación por sujeto**, registrando métricas clave como F1-macro y recall por clase.
4. Aplicar técnicas de XAI (**Grad-CAM**) sobre predicciones de clases S y V para identificar **activaciones relevantes** y retroalimentar ajustes de preprocesamiento.
5. Documentar los resultados mediante **matrices de confusión, curvas PR por clase y análisis de errores**, integrando consideraciones clínicas para una evaluación más completa.



## Patch · Visualización multivariada (3+ variables)
**Scatter** de dos variables numéricas, coloreado por la **clase objetivo**; el **tamaño** puede mapearse a una tercera numérica (opcional).
> **Configurable:** si no se detecta automáticamente, asigna manualmente `x_col`, `y_col` y `size_col`.

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

# Detectar DF y etiqueta
DF_CANDIDATES = ['beats_df','df','data','dataset']
LABEL_CANDIDATES = ['aami','AAMI','label','class','target','y']

def _pick_df_and_label():
    g = globals()
    for df_name in DF_CANDIDATES:
        if df_name in g and isinstance(g[df_name], pd.DataFrame):
            df = g[df_name]
            for col in LABEL_CANDIDATES:
                if col in df.columns:
                    return df, col, df_name
    raise ValueError("Ajusta DF_CANDIDATES y LABEL_CANDIDATES.")

df, label_col, df_name = _pick_df_and_label()
num_cols = [c for c in df.columns if pd.api.types.is_numeric_dtype(df[c]) and c != label_col]

# Heurística: dos primeras numéricas con varianza mayor
if len(num_cols) >= 2:
    variances = df[num_cols].var().sort_values(ascending=False)
    x_col, y_col = variances.index[:2]
else:
    raise ValueError("No hay suficientes columnas numéricas para scatter.")

size_col = variances.index[2] if len(variances) >= 3 else None

plt.figure()
for cls, sub in df.groupby(label_col):
    sizes = (sub[size_col] - sub[size_col].min()) / (sub[size_col].max() - sub[size_col].min() + 1e-12) * 40 + 10 if size_col else 20
    plt.scatter(sub[x_col], sub[y_col], s=sizes, alpha=0.6, label=str(cls))

plt.title(f"Scatter multivariado: {x_col} vs {y_col} (color={label_col}" + (f", size={size_col}" if size_col else "") + ")")
plt.xlabel(x_col); plt.ylabel(y_col); plt.legend(title=str(label_col), fontsize=8)
plt.show()