In [3]:
# ===============================================
# 🔍 ANÁLISIS EXPLORATORIO Y VISUALIZACIÓN DE DATOS
# ===============================================

# Importación de librerías
import os
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización
plt.style.use('ggplot')
sns.set_theme()

# Cargar el dataset
file_path = 'Hipertension_Arterial_Mexico.csv'  # Ajusta esta ruta si tienes el archivo en otro lugar
data = pd.read_csv(file_path)

# Crear carpeta para guardar imágenes
os.makedirs('graficas_data_understanding', exist_ok=True)

# 1️⃣ Histogramas
for col in ['peso', 'estatura', 'masa_corporal', 'medida_cintura']:
    plt.figure(figsize=(6, 4))
    sns.histplot(data[col], bins=20, kde=True)
    plt.title(f'Distribución de {col}')
    plt.savefig(f'graficas_data_understanding/histograma_{col}.png')
    plt.close()

# 2️⃣ Boxplots
for col in ['peso', 'estatura', 'masa_corporal', 'medida_cintura']:
    plt.figure(figsize=(6, 4))
    sns.boxplot(x=data[col])
    plt.title(f'Boxplot de {col}')
    plt.savefig(f'graficas_data_understanding/boxplot_{col}.png')
    plt.close()

# 3️⃣ Heatmap de correlación
plt.figure(figsize=(12, 10))
sns.heatmap(data.corr(), annot=False, cmap='coolwarm')
plt.title('Mapa de Calor de Correlación')
plt.savefig('graficas_data_understanding/heatmap_correlacion.png')
plt.close()


In [5]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Cargar el dataset (ajusta el path si es necesario)
df = pd.read_csv("Hipertension_Arterial_Mexico.csv")

# Crear carpeta para guardar gráficas
carpeta = "graficas_data_understanding"
os.makedirs(carpeta, exist_ok=True)

# Lista de biomarcadores clínicos que quieres graficar
biomarcadores = [
    'valor_acido_urico',
    'valor_colesterol_total',
    'valor_colesterol_hdl',
    'valor_colesterol_ldl',
    'resultado_glucosa',
    'valor_trigliceridos'
]

# Estilo de los gráficos
sns.set(style="whitegrid")

# Generar y guardar los histogramas
for variable in biomarcadores:
    plt.figure(figsize=(6, 4))
    sns.histplot(df[variable], bins=20, kde=True, color="skyblue")
    plt.title(f'Distribución de {variable}', fontsize=12)
    plt.xlabel(variable)
    plt.ylabel("Frecuencia")
    plt.tight_layout()
    ruta = os.path.join(carpeta, f"histograma_{variable}.png")
    plt.savefig(ruta)
    plt.close()

print("Gráficas guardadas exitosamente en la carpeta:", carpeta)


Gráficas guardadas exitosamente en la carpeta: graficas_data_understanding


In [7]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Cargar el dataset
df = pd.read_csv("Hipertension_Arterial_Mexico.csv")

# Crear carpeta para guardar los gráficos
os.makedirs("graficas_data_understanding", exist_ok=True)

# Variables biométricas
variables = ['peso', 'estatura', 'masa_corporal', 'medida_cintura']

# Generar histogramas
for var in variables:
    plt.figure(figsize=(6, 4))
    sns.histplot(df[var], bins=30, kde=True)
    plt.title(f'Distribución de {var.replace("_", " ").capitalize()}')
    plt.xlabel(var.replace("_", " ").capitalize())
    plt.ylabel('Frecuencia')
    plt.tight_layout()
    plt.savefig(f"graficas_data_understanding/histograma_{var}.png")
    plt.close()


In [9]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Configuración visual uniforme
sns.set_theme(style="whitegrid", palette="deep")

# Cargar los datos
df = pd.read_csv("Hipertension_Arterial_Mexico.csv")

# Crear carpeta para guardar gráficas
os.makedirs("graficas_data_understanding", exist_ok=True)

# Figuras 1 y 2 - Biométricas
biometric_vars = ['peso', 'estatura', 'masa_corporal', 'medida_cintura']
for var in biometric_vars:
    # Figura 1: Histograma
    plt.figure(figsize=(6, 4))
    sns.histplot(df[var], bins=30, kde=True)
    plt.title(f'Distribución de {var.replace("_", " ").capitalize()}')
    plt.xlabel(var.replace("_", " ").capitalize())
    plt.ylabel("Frecuencia")
    plt.tight_layout()
    plt.savefig(f"graficas_data_understanding/figura1_histograma_{var}.png")
    plt.close()

    # Figura 2: Boxplot
    plt.figure(figsize=(6, 4))
    sns.boxplot(x=df[var])
    plt.title(f'Boxplot de {var.replace("_", " ").capitalize()}')
    plt.xlabel(var.replace("_", " ").capitalize())
    plt.tight_layout()
    plt.savefig(f"graficas_data_understanding/figura2_boxplot_{var}.png")
    plt.close()

# Figuras 3 y 4 - Laboratorio
lab_vars = ['valor_acido_urico', 'valor_colesterol_total', 'valor_colesterol_ldl', 'resultado_glucosa', 'valor_trigliceridos']
for var in lab_vars:
    # Figura 3: Histograma
    plt.figure(figsize=(6, 4))
    sns.histplot(df[var], bins=30, kde=True)
    plt.title(f'Distribución de {var.replace("_", " ").capitalize()}')
    plt.xlabel(var.replace("_", " ").capitalize())
    plt.ylabel("Frecuencia")
    plt.tight_layout()
    plt.savefig(f"graficas_data_understanding/figura3_histograma_{var}.png")
    plt.close()

    # Figura 4: Boxplot
    plt.figure(figsize=(6, 4))
    sns.boxplot(x=df[var])
    plt.title(f'Boxplot de {var.replace("_", " ").capitalize()}')
    plt.xlabel(var.replace("_", " ").capitalize())
    plt.tight_layout()
    plt.savefig(f"graficas_data_understanding/figura4_boxplot_{var}.png")
    plt.close()


In [11]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

df = pd.read_csv("Hipertension_Arterial_Mexico.csv")
os.makedirs("graficas_data_understanding", exist_ok=True)
sns.set_theme(style="whitegrid", palette="deep")

# Figura 5: Distribución de sueño
plt.figure(figsize=(6, 4))
sns.countplot(x="sueno_horas", data=df)
plt.title("Distribución de Categorías de Horas de Sueño")
plt.xlabel("Código de horas dormidas (1 = ≤5 h, 5 = ≥9 h)")
plt.ylabel("Número de participantes")
plt.tight_layout()
plt.savefig("graficas_data_understanding/figura5_sueno_horas.png")
plt.close()

# Figura 6: Distribución de actividad física
plt.figure(figsize=(6, 4))
sns.histplot(df["actividad_total"], bins=30, kde=True)
plt.title("Distribución de Actividad Física Total (min/semana)")
plt.xlabel("Minutos semanales de actividad")
plt.ylabel("Frecuencia")
plt.tight_layout()
plt.savefig("graficas_data_understanding/figura6_actividad_total.png")
plt.close()


In [19]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Cargar datos
df = pd.read_csv("Hipertension_Arterial_Mexico.csv")
os.makedirs("graficas_data_understanding", exist_ok=True)
sns.set_theme(style="whitegrid", palette="deep")

# Lista de pares de variables duplicadas
pares = [
    ("peso", "segundamedicion_peso"),
    ("estatura", "segundamedicion_estatura"),
    ("medida_cintura", "segundamedicion_cintura")
]

# Graficar cada par
for var1, var2 in pares:
    plt.figure(figsize=(6, 4))
    sns.scatterplot(x=df[var1], y=df[var2])
    plt.title(f'{var1.replace("_", " ").capitalize()} vs {var2.replace("_", " ").capitalize()}')
    plt.xlabel(var1.replace("_", " ").capitalize())
    plt.ylabel(var2.replace("_", " ").capitalize())
    plt.tight_layout()
    plt.savefig(f"graficas_data_understanding/figura7_{var1}_vs_{var2}.png")
    plt.close()


In [23]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Cargar datos
df = pd.read_csv("Hipertension_Arterial_Mexico.csv")
os.makedirs("graficas_data_understanding", exist_ok=True)
sns.set_theme(style="whitegrid")

# Calcular correlaciones entre pares
correlaciones = {
    "peso vs segundamedicion_peso": df["peso"].corr(df["segundamedicion_peso"]),
    "estatura vs segundamedicion_estatura": df["estatura"].corr(df["segundamedicion_estatura"]),
    "medida_cintura vs segundamedicion_cintura": df["medida_cintura"].corr(df["segundamedicion_cintura"])
}

# Convertir a DataFrame
corr_df = pd.DataFrame(list(correlaciones.items()), columns=["Par de variables", "Correlación"])

# Graficar
plt.figure(figsize=(8, 4))
sns.barplot(x="Correlación", y="Par de variables", data=corr_df, hue="Par de variables", palette="Blues_d", legend=False)
plt.title("Figura 7. Correlación entre variables duplicadas")
plt.xlim(0.90, 1.00)
plt.tight_layout()
plt.savefig("graficas_data_understanding/figura7_correlacion_duplicadas.png")
plt.close()


In [25]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Cargar dataset
df = pd.read_csv("Hipertension_Arterial_Mexico.csv")

# Crear carpeta para guardar si no existe
os.makedirs("graficas_data_understanding", exist_ok=True)

# Seleccionar solo variables numéricas
numeric_df = df.select_dtypes(include="number")

# Calcular la matriz de correlación
correlation_matrix = numeric_df.corr(method="pearson")

# Generar el mapa de calor
plt.figure(figsize=(16, 12))
sns.heatmap(correlation_matrix, annot=False, cmap="coolwarm", center=0, linewidths=0.5)
plt.title("Figura 8. Mapa de calor de correlación entre variables numéricas")
plt.tight_layout()
plt.savefig("graficas_data_understanding/figura8_matriz_correlacion.png")
plt.close()
