
# EDA Visual – Gráficas y Correlaciones

Esta sección muestra:
- Histogramas de distribución
- Boxplots para outliers
- Matriz de correlación


In [7]:
import os
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Load dataset (already cleaned)
df = pd.read_csv("../data/raw/raw_medical_records.csv")
df.columns = df.columns.str.lower()

# Create IMG folder if it doesn't exist
img_dir = "../Report/IMG"
os.makedirs(img_dir, exist_ok=True)

# 1. Histogramas
df.hist(bins=15, figsize=(15, 12))
plt.suptitle("Distribución de las variables")
plt.tight_layout()
plt.savefig(f"{img_dir}/01_histogramas.png")
plt.close()

# 2. Boxplots (excluye la variable objetivo)
features_only = df.drop(columns=["num"])
plt.figure(figsize=(15, 10))
features_only.boxplot(rot=90)
plt.title("Boxplots para detección de outliers")
plt.tight_layout()
plt.savefig(f"{img_dir}/02_boxplots.png")
plt.close()

# 3. Correlation Matrix
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title("Matriz de correlación")
plt.tight_layout()
plt.savefig(f"{img_dir}/03_matriz_correlacion.png")
plt.close()

print(f"Gráficas exportadas correctamente en la carpeta '{img_dir}'")


Gráficas exportadas correctamente en la carpeta '../Report/IMG'


# Conclusiones

- A partir de los histogramas se encuentra que las variables exang, fbs, y sex están altamente desbalanceadas - (mayoría de valores 0).
- Se encontraron outliers en variables como chol, trestbps, y oldpeak, lo cual es clínicamente plausible pero debe validarse médicamente o con expertos.
- La matriz de correlación muestra una correlación negativa entre thalach y exang (esperado: a mayor frecuencia cardíaca, menos probabilidad de angina inducida por ejercicio).