# Diagnóstico de Overfitting y Underfitting en Modelos de Machine Learning

Este notebook tiene como objetivo **diagnosticar problemas de overfitting y underfitting** 
utilizando el dataset procesado `df_feat.csv` proveniente de la base MIT-BIH Arrhythmia.  

Se explorarán las características del dataset, se entrenarán modelos base, se generarán 
curvas de aprendizaje (training/validation) y se implementarán estrategias de mejora para 
mitigar problemas detectados.  

---

## Carga y Exploración del Dataset

En esta sección se realiza la carga del dataset preprocesado (`df_feat.csv`) y un análisis 
exploratorio inicial de las características. El objetivo es comprender:

- La dimensión del dataset
- La estructura de las variables
- La distribución de las clases (desbalance o no)
- Valores faltantes o inconsistencias
- Estadísticas descriptivas de las features
- Correlación entre variables

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.model_selection import learning_curve, validation_curve
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split


# Configuración visual
plt.style.use("seaborn-v0_8")
sns.set_palette("Set2")
pd.set_option("display.max_columns", None)

In [None]:
# === Carga del dataset ===
df_feat  = pd.read_csv("df_feat_processed.csv")

print("Shape del dataset:", df_feat.shape)
df_feat .head()

In [None]:
# === Información general ===
print("\n--- Información del DataFrame ---")
df_feat.info()

In [None]:
# === Resumen estadístico ===
print("\n--- Resumen estadístico (numérico) ---")
display(df_feat.describe().T)

#### Análisis Resumido del Dataset

- El dataset contiene **112,572 muestras** con múltiples variables de señal y derivadas.  
- **Voltajes y amplitudes** tienen rangos amplios (≈ -5 a +5 mV), reflejando la variabilidad de los latidos.  
- **Duración (`duration_s`)** es constante (0.555 s), por lo que no aporta información relevante.  
- Varias variables están **escaladas/normalizadas** (`*_std`, `*_rob`, `*_qnt`) con media cercana a 0 y desviación ≈ 1.  
- Se observan **outliers** en variables energéticas (`energy`, `energy_x_mv`, `lof_dist`), que podrían influir en el modelado.  
- La variable de clase (`class_code`) muestra **desbalance entre categorías**.  

In [None]:
# === Valores faltantes ===
print("\n--- Conteo de valores nulos por columna ---")
display(df_feat.isnull().sum()[df_feat.isnull().sum() > 0])

In [None]:
# === Distribución de clases ===
if "class_AAMI" in df_feat.columns:
    class_counts = df_feat["class_AAMI"].value_counts().sort_index()
    print("\n--- Distribución de clases (AAMI) ---")
    display(class_counts)

    plt.figure(figsize=(7,4), dpi=120)
    sns.barplot(x=class_counts.index, y=class_counts.values)
    plt.title("Distribución de clases (AAMI)")
    plt.ylabel("Número de instancias")
    plt.xlabel("Clase AAMI")
    plt.grid(True, axis="y", linestyle="--", alpha=0.7)
    plt.show()

In [None]:
# Correlación entre variables numéricas
num_cols = df_feat.select_dtypes(include=[np.number]).columns
if len(num_cols) > 1:
    corr = df_feat[num_cols].corr()

    plt.figure(figsize=(10,8), dpi=120)
    sns.heatmap(corr, cmap="coolwarm", center=0, 
                annot=False, cbar=True, linewidths=0.5)
    plt.title("Mapa de calor de correlaciones entre variables numéricas")
    plt.show()

#### Análisis del Mapa de Calor de Correlaciones

- El mapa muestra la **relación lineal** entre variables numéricas, con valores entre **-1 y +1**.  
  - **Rojo intenso**: correlación positiva alta.  
  - **Azul intenso**: correlación negativa alta.  
  - **Gris/blanco**: baja correlación.  

#### Observaciones principales
- **Variables derivadas similares** (`*_std`, `*_rob`, `*_qnt`) presentan correlaciones fuertes entre sí → son versiones escaladas o transformadas de la misma señal.  
- **Métricas de energía** (`energy`, `log_energy`, `energy_rob`, `roll_std_energy_3`) están altamente correlacionadas entre sí, lo cual es esperable porque miden aspectos similares.  
- **Amplitud y área** (`amplitude_peak`, `amplitude_min`, `area`) muestran correlaciones moderadas, reflejando la relación natural entre la forma del latido y su área.  
- Variables como **`record`** o **`sample`** casi no se correlacionan con las demás → actúan más como identificadores que como features útiles.  

#### Conclusión
- Existen **grupos de variables redundantes** (energía, amplitud, versiones escaladas).  
- Para evitar problemas de **multicolinealidad** en algunos modelos, puede ser recomendable:  
  - Seleccionar solo una variable representativa por grupo, o  
  - Usar reducción de dimensionalidad (ej. PCA o selección basada en modelos).  

In [None]:
# === Distribuciones univariadas ===

cols_to_plot = [
    "amplitude_peak", "amplitude_min", "mean_voltage", 
    "std_voltage", "energy", "area", "log_energy"
]

fig, axes = plt.subplots(2, 4, figsize=(16, 8), dpi=120)
axes = axes.flatten()

for i, col in enumerate(cols_to_plot):
    sns.histplot(df_feat[col], bins=40, kde=True, ax=axes[i], color="teal")
    axes[i].set_title(col)

# Eliminar el último subplot vacío
for j in range(len(cols_to_plot), len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout()
plt.show()

#### Análisis de Distribuciones Univariadas (variables clave)

- **amplitude_peak / amplitude_min**: distribuciones centradas en torno a 0, con ligera asimetría y colas largas. Reflejan la variabilidad de los picos positivos y negativos de los latidos.  
- **mean_voltage**: concentrado cerca de 0, con pocos casos extremos. Indica que la línea base de la señal está bien centrada tras el preprocesamiento.  
- **std_voltage**: valores principalmente entre 0.2 y 0.6, lo que muestra una variabilidad moderada en los latidos, con pocos outliers más altos.  
- **energy**: muy sesgada a la derecha (muchos valores bajos y algunos extremadamente altos). Esto confirma la necesidad de transformaciones como `log_energy`.  
- **area**: concentrada entre 0 y 0.5, con pocos valores más grandes. Sugiere que la mayoría de los latidos tienen áreas pequeñas bajo la curva.  
- **log_energy**: distribución más balanceada y cercana a normal tras la transformación logarítmica, reduciendo el efecto de outliers.  

**Conclusión**: La mayoría de las variables presentan distribuciones sesgadas con outliers, especialmente en medidas de energía. Transformaciones como el logaritmo ayudan a estabilizar las escalas y mejorar la preparación para el modelado.  

## 1. Implementación de Tracking de Métricas

#### Preparar X, y y partición

In [None]:
# Features y target
X = df_feat.select_dtypes(include=[np.number]).drop(columns=["class_code", "record", "sample"], errors="ignore")
y = df_feat["class_code"]

# División Train/Test (estratificada)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

print("Train:", X_train.shape, " Test:", X_test.shape)

#### 1.1 Sistema de Monitoreo Básico

In [None]:
# Se prepara los datos (X = features numéricas, y = clases)
X = df_feat.select_dtypes(include=[np.number]).drop(
    columns=["class_code", "record", "sample"], errors="ignore"
)
y = df_feat["class_code"]

# División Train/Test estratificada
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)

print("Train:", X_train.shape, " Test:", X_test.shape)

In [None]:
# Modelo base: Regresión Logística
model = LogisticRegression(max_iter=1000, solver="saga", penalty="l2")

# Tracking de métricas con curva de aprendizaje (learning_curve)
train_sizes, train_scores, val_scores = learning_curve(
    model, X_train, y_train,
    cv=5, scoring="accuracy",
    train_sizes=np.linspace(0.1, 1.0, 5),
    n_jobs=-1
)

# Promedio y desviación
train_mean = np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)
val_mean = np.mean(val_scores, axis=1)
val_std = np.std(val_scores, axis=1)

# Gráfico: Accuracy en Train vs Validation según tamaño de datos
plt.figure(figsize=(8,6), dpi=120)
plt.plot(train_sizes, train_mean, "o-", color="teal", label="Train score")
plt.plot(train_sizes, val_mean, "o-", color="orange", label="Validation score")
plt.fill_between(train_sizes, train_mean-train_std, train_mean+train_std, alpha=0.2, color="teal")
plt.fill_between(train_sizes, val_mean-val_std, val_mean+val_std, alpha=0.2, color="orange")
plt.title("Curva de Aprendizaje (Logistic Regression)")
plt.xlabel("Tamaño del conjunto de entrenamiento")
plt.ylabel("Accuracy")
plt.legend(loc="best")
plt.grid(True, linestyle="--", alpha=0.7)
plt.show()

#### 1.2 Tracking para Diferentes Tipos de Modelos (Scikit-learn)

In [None]:
# Se usa validation_curve para ver el efecto de un hiperparámetro (C)
param_range = np.logspace(-3, 2, 6)  # valores de C para regularización

train_scores, val_scores = validation_curve(
    model, X_train, y_train,
    param_name="C", param_range=param_range,
    cv=5, scoring="accuracy", n_jobs=-1
)

# Promedio de scores
train_mean = np.mean(train_scores, axis=1)
val_mean = np.mean(val_scores, axis=1)

# Gráfico: Accuracy en Train vs Validation según C
plt.figure(figsize=(8,6), dpi=120)
plt.semilogx(param_range, train_mean, "o-", color="teal", label="Train score")
plt.semilogx(param_range, val_mean, "o-", color="orange", label="Validation score")
plt.title("Validation Curve (Logistic Regression, parámetro C)")
plt.xlabel("Parámetro C (regularización inversa)")
plt.ylabel("Accuracy")
plt.legend(loc="best")
plt.grid(True, linestyle="--", alpha=0.7)
plt.show()