# **Taller 1 - Explorando la Salud de EE. UU. con Datos de NHANES**

---



---



<img src="https://upload.wikimedia.org/wikipedia/commons/6/6c/Javeriana.svg">

---
---
## **Gestión de Datos**

**Grupo: Anderson Alvarado, Maria Paula y Camila**

# **1.   Instalación y llamado de Líbrerias**

In [2]:
%pip install pandas numpy matplotlib seaborn scikit-learn plotly nbformat ipywidgets IPython

Note: you may need to restart the kernel to use updated packages.


In [27]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import numpy as np
import plotly.graph_objects as go
from IPython.display import display
import ipywidgets as widgets
import warnings
warnings.filterwarnings('ignore')

In [4]:
# Configuramos estilo de visualización
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("viridis")
plt.rcParams['figure.figsize'] = [12, 8]
plt.rcParams['font.size'] = 12

# **2.   Carga de los Datos**

In [5]:
df_nhanes = pd.read_csv("Data/NHANES2009-2012.csv")
df_nhanes.head()

Unnamed: 0,SurveyYr,ID,Gender,Age,AgeDecade,AgeMonths,Race1,Race3,Education,MaritalStatus,...,AgeFirstMarij,RegularMarij,AgeRegMarij,HardDrugs,SexEver,SexAge,SexNumPartnLife,SexNumPartYear,SameSex,SexOrientation
0,2009_10,55829,female,28,20-29,343.0,White,,CollegeGrad,Married,...,15.0,No,,Yes,Yes,13.0,20.0,1.0,No,Heterosexual
1,2009_10,57112,male,14,10-19,170.0,White,,,,...,,,,,,,,,,
2,2009_10,60232,male,80,,,White,,8thGrade,Married,...,,,,,,,,,,
3,2009_10,59919,male,22,20-29,268.0,White,,HighSchool,NeverMarried,...,10.0,Yes,10.0,Yes,Yes,18.0,3.0,1.0,No,Heterosexual
4,2009_10,56351,male,1,0-9,16.0,White,,,,...,,,,,,,,,,


# **3.   Exploración y Familiarización con los Datos**


Columnas numéricas y categóricas

In [6]:
num_cols = df_nhanes.select_dtypes(include=np.number).columns.tolist()
cat_cols = df_nhanes.select_dtypes(include='object').columns.tolist()
print(f"Columnas numéricas: \n Total: {len(num_cols)} \n {num_cols}\n")
print(f"Columnas categóricas: \n Total: {len(cat_cols)} \n {cat_cols}\n")

Columnas numéricas: 
 Total: 45 
 ['ID', 'Age', 'AgeMonths', 'HHIncomeMid', 'Poverty', 'HomeRooms', 'Weight', 'Length', 'HeadCirc', 'Height', 'BMI', 'Pulse', 'BPSysAve', 'BPDiaAve', 'BPSys1', 'BPDia1', 'BPSys2', 'BPDia2', 'BPSys3', 'BPDia3', 'Testosterone', 'DirectChol', 'TotChol', 'UrineVol1', 'UrineFlow1', 'UrineVol2', 'UrineFlow2', 'DiabetesAge', 'DaysPhysHlthBad', 'DaysMentHlthBad', 'nPregnancies', 'nBabies', 'Age1stBaby', 'SleepHrsNight', 'PhysActiveDays', 'TVHrsDayChild', 'CompHrsDayChild', 'AlcoholDay', 'AlcoholYear', 'SmokeAge', 'AgeFirstMarij', 'AgeRegMarij', 'SexAge', 'SexNumPartnLife', 'SexNumPartYear']

Columnas categóricas: 
 Total: 30 
 ['SurveyYr', 'Gender', 'AgeDecade', 'Race1', 'Race3', 'Education', 'MaritalStatus', 'HHIncome', 'HomeOwn', 'Work', 'BMICatUnder20yrs', 'BMI_WHO', 'Diabetes', 'HealthGen', 'LittleInterest', 'Depressed', 'SleepTrouble', 'PhysActive', 'TVHrsDay', 'CompHrsDay', 'Alcohol12PlusYr', 'SmokeNow', 'Smoke100', 'Smoke100n', 'Marijuana', 'RegularMarij'

In [64]:
# Grafica de cantidad de columnas numéricas y categóricas
def plot_distributions_cant(df):
    """
    Función que recibe un dataframe y muestra un gráfico de barras con la cantidad
    de columnas numéricas y categóricas.
    
    Parámetros:
    df (DataFrame): El dataframe a analizar
    """
    num_cols = df.select_dtypes(include=np.number).columns.tolist()
    cat_cols = df.select_dtypes(include='object').columns.tolist()
    
    counts = {'Numéricas': len(num_cols), 'Categóricas': len(cat_cols)}
    
    # agregarle color diferente a cada barra
    colors = ['royalblue', '#EF553B']
    fig = px.bar(x=list(counts.keys()), y=list(counts.values()),
                 labels={'x': 'Tipo de columna', 'y': 'Cantidad'},
                 title='Cantidad de columnas numéricas y categóricas',
                 text=list(counts.values()))
    fig.update_traces(marker_color=colors)
    fig.update_layout(title_x=0.5, title_font_size=20, 
                      xaxis_title_font_size=16, yaxis_title_font_size=16)
    fig.update_layout(xaxis_tickfont_size=14, yaxis_tickfont_size=14)
    fig.update_traces(texttemplate='%{text}', textposition='outside')
    fig.update_layout(bargap=0.2, margin=dict(l=20, r=20, t=50, b=20))
    fig.update_yaxes(range=[0, max(counts.values()) + 1])
    fig.update_xaxes(tickangle=0, tickmode='array', tickvals=list(counts.keys()),
                     ticktext=list(counts.keys()))
    fig.update_layout(showlegend=False)
    fig.update_layout(font=dict(family='Arial, sans-serif', size=14, color      ='black'))
    fig.update_layout(xaxis=dict(showgrid=False, zeroline=False, showline=False),
                      yaxis=dict(showgrid=False, zeroline=False, showline=False))
    fig.update_layout(title_font_family='Arial, sans-serif', title_font_color='black')
    fig.update_layout(xaxis_title='Tipo de columna', yaxis_title='Cantidad')
    fig.update_layout(legend_title_text='Tipo de columna')          
    
    return fig

plot_distributions_cant(df_nhanes).show()

## Valores Nulos y Duplicados en el DataFrame

In [None]:
def analizar_dataframe(df):
    """
    Función que recibe un dataframe y muestra información sobre su estructura,
    valores nulos y duplicados en formato de DataFrames.
    
    Parámetros:
    df (DataFrame): El dataframe a analizar
    """

    print(f"Número de filas y columnas: {df.shape}\n")

    # Nulos por columna
    nulos_col = df.isnull().sum().to_frame('Nulos')
    nulos_col['% Nulos'] = (df.isnull().mean() * 100).round(2)
    display(nulos_col)

    # Total de nulos
    print(f"\nNúmero total de nulos: {df.isna().sum().values.sum()} \n")

    # Duplicados
    n_duplicados = len(df) - len(df.drop_duplicates())
    pct_duplicados = 100 * n_duplicados / len(df)
    duplicados_df = pd.DataFrame({'Duplicados': [n_duplicados], '% Duplicados': [pct_duplicados]})
    display(duplicados_df)

In [26]:
analizar_dataframe(df_nhanes)

Número de filas y columnas: (10000, 75)



Unnamed: 0,Nulos,% Nulos
SurveyYr,0,0.00
ID,0,0.00
Gender,0,0.00
Age,0,0.00
AgeDecade,333,3.33
...,...,...
SexAge,4460,44.60
SexNumPartnLife,4275,42.75
SexNumPartYear,5072,50.72
SameSex,4232,42.32



Número total de nulos: 279722 



Unnamed: 0,Duplicados,% Duplicados
0,2168,21.68


In [65]:
#Grafica de valores nulos
def plot_nulls(df):
    """
    Función que recibe un dataframe y muestra un gráfico de barras con la cantidad
    de valores nulos por columna.
    
    Parámetros:
    df (DataFrame): El dataframe a analizar
    """
    null_counts = df.isnull().sum()
    null_counts = null_counts[null_counts > 0]
    
    fig = px.bar(null_counts, 
                 labels={'index': 'Columnas', 'value': 'Cantidad de Nulos'},
                 title='Cantidad de Valores Nulos por Columna',
                 text=null_counts.values)
    
    fig.update_traces(marker_color='royalblue')
    fig.update_traces(texttemplate='%{text}', textposition='outside')
    fig.update_layout(title_x=0.5, title_font_size=20, 
                      xaxis_title_font_size=16, yaxis_title_font_size=16)
    fig.update_layout(xaxis_tickfont_size=14, yaxis_tickfont_size=14)
    fig.update_layout(bargap=0.2, margin=dict(l=20, r=20, t=50, b=20))
    fig.update_yaxes(range=[0, max(null_counts.values) + 1])
    fig.update_xaxes(tickangle=45)
    
    return fig

plot_nulls(df_nhanes).show()

## Estadísticas Básicas

In [None]:
# Estaditicas de las variables numéricas
def basic_statistics(df):
    """
    Calcula estadísticas básicas para las variables numéricas en el DataFrame.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        
    Returns:
        pandas.DataFrame: DataFrame con las estadísticas calculadas.
    """
    numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns
    stats = df[numerical_cols].describe().T
    stats['skew'] = df[numerical_cols].skew()
    stats['kurtosis'] = df[numerical_cols].kurtosis()
    stats['missing'] = df[numerical_cols].isnull().sum()
    stats['% missing'] = (df[numerical_cols].isnull().mean() * 100).round(2)
    
    return stats.T

basic_statistics(df_nhanes)

Unnamed: 0,ID,Age,AgeMonths,HHIncomeMid,Poverty,HomeRooms,Weight,Length,HeadCirc,Height,...,TVHrsDayChild,CompHrsDayChild,AlcoholDay,AlcoholYear,SmokeAge,AgeFirstMarij,AgeRegMarij,SexAge,SexNumPartnLife,SexNumPartYear
count,10000.0,10000.0,4962.0,9189.0,9274.0,9931.0,9922.0,543.0,88.0,9647.0,...,653.0,653.0,4914.0,5922.0,3080.0,2891.0,1366.0,5540.0,5725.0,4928.0
mean,61944.6438,36.7421,420.123942,57206.170421,2.801844,6.248918,70.981798,85.016022,41.180682,161.877838,...,1.938744,2.19755,2.914123,75.101655,17.826623,17.022829,17.691069,17.4287,15.085066,1.34233
std,5871.16716,22.397566,259.043091,33020.276584,1.677909,2.277538,29.125357,13.705026,2.311483,20.186567,...,1.434431,2.516667,3.182672,103.033738,5.32666,3.89501,4.806103,3.716551,57.846434,2.782688
min,51624.0,0.0,0.0,2500.0,0.0,1.0,2.8,47.1,34.2,83.6,...,0.0,0.0,1.0,0.0,6.0,1.0,5.0,9.0,0.0,0.0
25%,56904.5,17.0,199.0,30000.0,1.24,5.0,56.1,75.7,39.575,156.8,...,1.0,0.0,1.0,3.0,15.0,15.0,15.0,15.0,2.0,1.0
50%,62159.5,36.0,418.0,50000.0,2.7,6.0,72.7,87.0,41.45,166.0,...,2.0,1.0,2.0,24.0,17.0,16.0,17.0,17.0,5.0,1.0
75%,67039.0,54.0,624.0,87500.0,4.71,8.0,88.9,96.1,42.925,174.5,...,3.0,6.0,3.0,104.0,19.0,19.0,19.0,19.0,12.0,1.0
max,71915.0,80.0,959.0,100000.0,5.0,13.0,230.7,112.2,45.4,200.4,...,6.0,6.0,82.0,364.0,72.0,48.0,52.0,50.0,2000.0,69.0
skew,-0.047521,0.164758,0.127731,0.034227,0.046897,0.553082,-0.027578,-0.467427,-0.445026,-1.656941,...,0.736361,0.697689,8.229423,1.58282,2.785306,2.10122,2.827955,1.884001,16.824483,13.59118
kurtosis,-1.200112,-1.012651,-1.030937,-1.478502,-1.47227,0.183368,0.563009,-0.583972,-0.190749,2.89425,...,0.089507,-1.292429,144.378922,1.483005,14.999605,11.404581,13.408393,8.539735,385.285387,252.62637


## Análisis de variables numéricas

In [60]:
# Función para crear todas las visualizaciones de distribución
def plot_distributions(df, figsize=(15, 5)):
    """
    Crea gráficos de distribución (histograma y KDE) para todas las variables numéricas.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        figsize (tuple): Tamaño de la figura.
    """
    # Determinamos el número de variables y configuramos los subplots
    numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns
    n_vars = len(numerical_cols)
    rows = int(np.ceil(n_vars / 2))
    
    # Creamos la figura y los subplots
    fig, axes = plt.subplots(rows, 2, figsize=figsize)
    axes = axes.flatten()
    
    # Iteramos sobre cada variable y creamos sus visualizaciones
    for i, col in enumerate(numerical_cols):
        # Histograma con KDE
        sns.histplot(df[col], kde=True, ax=axes[i], color='royalblue')
        
        # Añadimos líneas verticales para estadísticas clave
        median = df[col].median()
        mean = df[col].mean()
        
        axes[i].axvline(median, color='red', linestyle='--', linewidth=1.5, 
                        label=f'Mediana: {median:.2f}')
        axes[i].axvline(mean, color='green', linestyle='-', linewidth=1.5, 
                       label=f'Media: {mean:.2f}')
        
        # Configuramos títulos y etiquetas
        axes[i].set_title(f'Distribución de {col}', fontsize=14)
        axes[i].set_xlabel(col, fontsize=12)
        axes[i].set_ylabel('Frecuencia', fontsize=12)
        axes[i].legend(fontsize=10)
        
        # Añadimos texto con estadísticas adicionales
        skew = df[col].skew()
        kurtosis = df[col].kurtosis()
        axes[i].text(1.02, 0.90, f'Asimetría: {skew:.2f}\nCurtosis: {kurtosis:.2f}', 
                    transform=axes[i].transAxes, fontsize=10,
                    bbox=dict(facecolor='white', alpha=0.8))
    
    # Ocultamos los ejes vacíos si el número de variables es impar
    if n_vars % 2 != 0:
        axes[-1].set_visible(False)
    
    plt.tight_layout()
    plt.suptitle('Histogramas y Distribuciones de las Variables', fontsize=18, y=1.05)
    return fig

In [61]:
# crea funcion con wigets para seleccionar la variable numérica y enviarla a la funcion plot_distributions
def interactive_numeric_analysis():
    num_dropdown = widgets.Dropdown(
        options=num_cols,
        description='Variable Numérica:',
        disabled=False,
    )
    
    def update_plot(selected_col):
        fig = plot_distributions(df_nhanes[[selected_col]])
        plt.show(fig)
    
    # Conectar el dropdown a la función de actualización
    widgets.interact(update_plot, selected_col=num_dropdown)
    
    # Mostrar el widget
    display(num_dropdown)

interactive_numeric_analysis()


interactive(children=(Dropdown(description='Variable Numérica:', options=('ID', 'Age', 'AgeMonths', 'HHIncomeM…

Dropdown(description='Variable Numérica:', options=('ID', 'Age', 'AgeMonths', 'HHIncomeMid', 'Poverty', 'HomeR…

In [79]:
# Función para crear boxplots y detectar outliers
def plot_boxplots(df, figsize=(15, 5)):
    """
    Crea boxplots para todas las variables numéricas e identifica outliers.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        figsize (tuple): Tamaño de la figura.
    """

    # Determinamos el número de variables y configuramos los subplots Select only numerical columns
    numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns
    n_vars = len(numerical_cols)
    rows = int(np.ceil(n_vars / 2))
    
    # Creamos la figura y los subplots
    fig, axes = plt.subplots(rows, 2, figsize=figsize)
    axes = axes.flatten()
    
    # Iteramos sobre cada variable y creamos sus boxplots
    for i, col in enumerate(numerical_cols):
        # Calculamos los límites para los outliers
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        
        # Identificamos los outliers
        outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)][col]
        n_outliers = len(outliers)
        
        # Creamos el boxplot
        sns.boxplot(x=df[col], ax=axes[i], color='lightgreen', width=0.5)
        
        # Superponemos el strip plot para ver la distribución de puntos
        sns.stripplot(x=df[col], ax=axes[i], color='darkblue', alpha=0.3, size=4)
        
        # Configuramos títulos y etiquetas
        axes[i].set_title(f'Boxplot de {col} ({n_outliers} outliers)', fontsize=14)
        axes[i].set_xlabel(col, fontsize=12)
        
        # Añadimos texto con estadísticas sobre los outliers
        pct_outliers = (n_outliers / len(df)) * 100
        axes[i].text(1.02, 0.90, 
                    f'Outliers: {n_outliers} ({pct_outliers:.1f}%)\n' + 
                    f'Rango normal: [{lower_bound:.2f}, {upper_bound:.2f}]',
                    transform=axes[i].transAxes, fontsize=10,
                    bbox=dict(facecolor='white', alpha=0.8))
    
    # Ocultamos los ejes vacíos si el número de variables es impar
    if n_vars % 2 != 0:
        axes[-1].set_visible(False)
    
    plt.tight_layout()
    plt.suptitle('Boxplots con Detección de Outliers', fontsize=18, y=1.005)
    return fig

In [None]:
def interactive_boxplot_analysis():
    num_dropdown = widgets.Dropdown(
        options=num_cols,
        description='Variable Numérica:',
        disabled=False,
    )
    
    def update_plot(selected_col):
        fig = plot_boxplots(df_nhanes[[selected_col]])
        fig.show()
    
    # Conectar el dropdown a la función de actualización
    widgets.interact(update_plot, selected_col=num_dropdown)
    
    # Mostrar el widget
    display(num_dropdown)
interactive_boxplot_analysis()

interactive(children=(Dropdown(description='Variable Numérica:', options=('ID', 'Age', 'AgeMonths', 'HHIncomeM…

Dropdown(description='Variable Numérica:', options=('ID', 'Age', 'AgeMonths', 'HHIncomeMid', 'Poverty', 'HomeR…

## Análisis de variables categóricas

In [72]:
def plot_categorical_analysis(df, categorical_var, numerical_var=None):
    """
    Crea visualizaciones para variables categóricas con análisis opcional contra una variable numérica.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        categorical_var (str): Nombre de la variable categórica a analizar.
        numerical_var (str, optional): Nombre de la variable numérica para comparación. 
                                      Si no se proporciona, solo se muestra el análisis univariado.
    """
    fig, axes = plt.subplots(1, 3 if numerical_var else 1, figsize=(18, 6) if numerical_var else (8, 6))
    
    # Ajuste para cuando no hay variable numérica
    if not numerical_var:
        axes = [axes]  # Convertimos en lista para mantener consistencia en el acceso
    
    # Gráfico de conteo
    sns.countplot(x=categorical_var, data=df, ax=axes[0], palette='Set2')
    axes[0].set_title(f'Conteo por categorías de {categorical_var}', fontsize=14)
    axes[0].set_xlabel(categorical_var, fontsize=12)
    axes[0].set_ylabel('Conteo', fontsize=12)
    
    # Añadimos porcentajes
    total = len(df)
    for i, count in enumerate(df[categorical_var].value_counts().values):
        percentage = count / total * 100
        axes[0].annotate(f'{percentage:.1f}%', 
                         xy=(i, count), 
                         xytext=(0, 5),
                         textcoords='offset points',
                         ha='center')
    
    # Solo continuamos con los otros gráficos si hay variable numérica
    if numerical_var:
        # Boxplot de la variable numérica por categoría
        sns.boxplot(x=categorical_var, y=numerical_var, data=df, ax=axes[1], palette='Set2')
        axes[1].set_title(f'{numerical_var} por categorías de {categorical_var}', fontsize=14)
        axes[1].set_xlabel(categorical_var, fontsize=12)
        axes[1].set_ylabel(numerical_var, fontsize=12)
        
        # Violinplot de la variable numérica por categoría
        sns.violinplot(x=categorical_var, y=numerical_var, data=df, ax=axes[2], palette='Set2', inner='quartile')
        axes[2].set_title(f'Distribución de {numerical_var} por {categorical_var}', fontsize=14)
        axes[2].set_xlabel(categorical_var, fontsize=12)
        axes[2].set_ylabel(numerical_var, fontsize=12)
    
    plt.tight_layout()
    plt.suptitle(f'Análisis de la variable {categorical_var}', fontsize=18, y=1.05)
    return fig

In [None]:
def interactive_categorical_analysis():
    cat_dropdown = widgets.Dropdown(
        options=cat_cols,
        description='Categorical:',
        value=cat_cols[0]
    )
    num_dropdown = widgets.Dropdown(
        options=[None] + num_cols,
        description='Numerical:',
        value=None
    )

    def update_plot(categorical_var, numerical_var):
        fig = plot_categorical_analysis(df_nhanes, categorical_var, numerical_var)
        plt.show()

    ui = widgets.HBox([cat_dropdown, num_dropdown])
    out = widgets.interactive_output(update_plot, {'categorical_var': cat_dropdown, 'numerical_var': num_dropdown})

    display(ui, out)

interactive_categorical_analysis()


HBox(children=(Dropdown(description='Categorical:', options=('SurveyYr', 'Gender', 'AgeDecade', 'Race1', 'Race…

Output()

In [101]:
# Función para crear pairplots para variables seleccionadas
def plot_pairplot(df, target, features=None):
    """
    Crea pairplots para las variables más importantes relacionadas.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        target (str): Nombre de la variable objetivo.
        features (list): Lista de características a incluir. Si es None, se seleccionan
                      automáticamente las más correlacionadas con el target.
    """
    if features is None:
        # Seleccionamos las 5 variables más correlacionadas
        corr_with_target = df.corr()[target].abs().sort_values(ascending=False)
        features = corr_with_target.index[1:6].tolist()  # Excluimos el target mismo
    
    # Creamos el subset de datos
    plot_data = df[features + [target]].copy()
    
    # Creamos el pairplot
    fig = sns.pairplot(plot_data, height=2.5, 
                      diag_kind='kde', 
                      plot_kws={'alpha': 0.6, 's': 80, 'edgecolor': 'k'},
                      corner=True)

    fig.fig.suptitle(f'Pairplot de Variables Importantes vs {target}', fontsize=18, y=1.02)

    return fig.fig

In [None]:
def interactive_pairplot_analysis():
    target_dropdown = widgets.Dropdown(
        options=num_cols,
        description='Target:',
        value='Age'
    )
    feature_dropdown = widgets.SelectMultiple(
        options=num_cols,
        description='Features:',
        value=['Weight', 'BMI']
    )

    def update_plot(target, features):
        fig = plot_pairplot(df_nhanes, target=target, features=list(features))
        plt.show(fig)

    ui = widgets.HBox([target_dropdown, feature_dropdown])
    out = widgets.interactive_output(update_plot, {'target': target_dropdown, 'features': feature_dropdown})

    display(ui, out)
interactive_pairplot_analysis()

HBox(children=(Dropdown(description='Target:', index=1, options=('ID', 'Age', 'AgeMonths', 'HHIncomeMid', 'Pov…

Output()

## Correlación de Variables

In [110]:
# Función para crear la matriz de correlación usando Plotly
def plot_correlation_matrix(df, figsize=(1000, 800)):
    """
    Crea una matriz de correlación para todas las variables numéricas usando Plotly.
    
    Args:
        df (pandas.DataFrame): DataFrame que contiene los datos.
        figsize (tuple): Tamaño de la figura en pixeles (ancho, alto).
    """
    # Seleccionamos solo columnas numéricas
    numerical_cols = df.select_dtypes(include=['int64', 'float64']).columns
    corr_matrix = df[numerical_cols].corr().round(2)
    
    # Creamos el heatmap con Plotly
    fig = px.imshow(
        corr_matrix,
        text_auto=True,
        color_continuous_scale=px.colors.diverging.RdBu_r,
        zmin=-1, zmax=1,
        aspect="auto",
        labels=dict(color="Correlación"),
        x=corr_matrix.columns,
        y=corr_matrix.index,
        title="Matriz de Correlación"
    )
    fig.update_layout(
        width=figsize[0], height=figsize[1],
        title_x=0.5, title_font_size=24,
        xaxis_title="", yaxis_title="",
        font=dict(family='Arial, sans-serif', size=14, color='black'),
        margin=dict(l=20, r=20, t=60, b=20)
    )
    fig.update_xaxes(tickangle=45, side="top")
    fig.update_yaxes(autorange="reversed")
    return fig

In [111]:
plot_correlation_matrix(df_nhanes).show()