# Análisis Visual con Seaborn

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_theme(style="whitegrid")

In [None]:
df = pd.read_csv('../data/02_processed/brfss_2022_cleaned.csv')

## Gráficos de Distribución

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(18, 10))

sns.histplot(df, x='AGE_G', ax=axes[0, 0], kde=True).set_title('Distribución de Grupos de Edad')
sns.countplot(x='SEXVAR', data=df, ax=axes[0, 1]).set_title('Distribución por Sexo')
sns.histplot(df, x='_BMI5', ax=axes[1, 0], kde=True).set_title('Distribución del IMC')
sns.countplot(x='_RFHLTH', data=df, ax=axes[1, 1]).set_title('Estado General de Salud')

plt.tight_layout()
plt.show()

## Matriz de Correlación

In [None]:
plt.figure(figsize=(12, 10))
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=False, cmap='coolwarm').set_title('Matriz de Correlación')
plt.show()

## Pair Plots

In [None]:
pairplot_df = df[['AGE_G', '_BMI5', 'HeartDisease', 'SEXVAR', '_RFHLTH']].sample(n=1000, random_state=42)
sns.pairplot(pairplot_df, hue='HeartDisease', diag_kind='kde')
plt.show()

## Insights
- **Distribuciones:** La edad y el IMC muestran distribuciones que pueden ser relevantes para la predicción de enfermedades cardíacas.
- **Correlaciones:** La matriz de correlación revela relaciones lineales entre las variables. Es importante notar que la ausencia de correlación lineal no implica independencia.
- **Relaciones Bivariadas:** Los pair plots permiten una exploración visual de las interacciones entre un subconjunto de variables, diferenciando por la variable objetivo.