# Introducción y contexto

El **Sleep Health and Lifestyle Dataset** es un conjunto de datos que abarca información detallada sobre la salud del sueño y los hábitos diarios de 400 individuos. Consta de **13 variables**, que incluyen aspectos demográficos, métricas del sueño, actividad física, niveles de estrés y parámetros cardiovasculares.  

Este dataset ofrece una oportunidad valiosa para analizar la relación entre el estilo de vida y la calidad del sueño, así como la presencia de trastornos del sueño.  

## Variables 
- **Person ID**: Un identificador único para cada individuo.
- **Gender**: El género de la persona (Masculino/Femenino).
- **Age**: La edad de la persona en años.
- **Occupation**: La ocupación o profesión de la persona.
- **Sleep Duration (hours)**: El número de horas que la persona duerme al día.
- **Quality of Sleep (scale: 1-10)**: Una calificación subjetiva de la calidad del sueño, en una escala del 1 al 10.
- **Physical Activity Level (minutes/day)**: El número de minutos que la persona dedica a la actividad física diaria.
- **Stress Level (scale: 1-10)**: Una calificación subjetiva del nivel de estrés experimentado por la persona, en una escala del 1 al 10.
- **BMI Category**: La categoría de IMC de la persona (por ejemplo, Bajo peso, Normal, Sobrepeso).
- **Blood Pressure (systolic/diastolic)**: La medición de la presión arterial de la persona, indicada como presión sistólica sobre presión diastólica.
- **Heart Rate (bpm)**: La frecuencia cardíaca en reposo de la persona en latidos por minuto.
- **Daily Steps**: El número de pasos que la persona camina al día.
- **Sleep Disorder**: La presencia o ausencia de un trastorno del sueño en la persona (Ninguno, Insomnio, Apnea del sueño).


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import plotly.express as px
from scipy.stats import chi2_contingency
from scipy.stats import shapiro
import warnings


In [None]:
# Cargar datos (Asegúrate de que el archivo esté en la misma carpeta o especifica la ruta correcta)
data_base = pd.read_csv("Sleep_health_and_lifestyle_dataset.csv")

# Explorar los datos

In [None]:
# Ajustar la visualización del ancho de la tabla
pd.set_option('display.width', 200)

# Mostrar las primeras filas del DataFrame
data_base.head()

In [None]:


# Asegurar que los nombres de columnas no tengan espacios
data_base.columns = data_base.columns.str.replace(" ", "_")

# Reemplazar NaN en la columna 'Sleep_Disorder' con "None"
data_base['Sleep_Disorder'] = data_base['Sleep_Disorder'].fillna("None")

# Verificar que los cambios se hayan aplicado
print(data_base['Sleep_Disorder'].value_counts(dropna=False))  # Esto mostrará cuántos valores son "None"

# Gráficos de Variables Categóricas 

In [None]:

warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning) 
# Definir variables categóricas
categorical_vars = ["Gender", "BMI_Category", "Sleep_Disorder"]

# Reestructurar datos en formato largo
data_long_cat = data_base.melt(value_vars=categorical_vars, var_name="Variable", value_name="Valor")

# Configurar estilo de los gráficos
sns.set_style("whitegrid")

# Crear gráficos de barras con facetas
g = sns.FacetGrid(data_long_cat, col="Variable", sharex=False, sharey=False, height=4, aspect=1.2)
g.map_dataframe(sns.countplot, x="Valor", palette="Set2", edgecolor="black")

# Ajustar etiquetas para evitar superposición
for ax in g.axes.flat:
    ax.set_xticklabels(ax.get_xticklabels(), rotation=30, ha="right")

# Agregar título general
plt.subplots_adjust(top=0.85)  # Ajustar espacio para el título
g.fig.suptitle("Distribución de Variables Categóricas", fontsize=16, y=1.02)  # Ajustar posición del título

# Mostrar gráficos
plt.show()


## Análisis de variables categóricas significativas

**Interpretación**

1. **Género (Gender)**  
   - La distribución de género es equilibrada, con una cantidad similar de personas identificadas como Female (Mujer) y Male (Hombre).  
   - No parece haber sesgo de género en la muestra, ya que ambas categorías tienen casi la misma frecuencia.  

2. **Categoría de IMC (BMI Category)**  
   - La mayoría de las personas tienen un IMC normal, seguido por aquellas con sobrepeso (*Overweight*).  
   - Un menor porcentaje cae en la categoría de peso normal (*Normal Weight*) y obesidad (*Obese*).  
   - Esto sugiere que la muestra está compuesta en su mayoría por individuos con un IMC dentro de rangos normales o con cierto sobrepeso.  

3. **Trastornos del Sueño (Sleep Disorder)**  
   - La mayoría de los individuos no tienen trastorno del sueño (*None*).  
   - La segunda condición más común es insomnio (*Insomnia*), seguida de apnea del sueño (*Sleep Apnea*).  
   - Esto indica que, aunque la mayoría no tiene problemas de sueño, una parte significativa experimenta insomnio y una fracción menor sufre de apnea del sueño.  

**Conclusiones**  

- La muestra es equilibrada en cuanto al género.  
- La mayoría tiene un IMC en rango normal o con tendencia al sobrepeso.  
- Aunque la mayoría no presenta trastornos del sueño, hay una porción importante con insomnio.  




# Gráficos Variables Numéricas  

In [None]:

warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)
# Definir variables numéricas
numeric_vars = ["Sleep_Duration", "Quality_of_Sleep",
                "Physical_Activity_Level", "Stress_Level",
                "Heart_Rate", "Daily_Steps"]

# Reestructurar los datos en formato largo
data_long = data_base.melt(value_vars=numeric_vars, var_name="Variable", value_name="Valor")

# Configurar estilo de los gráficos
sns.set_style("whitegrid")

# Crear histogramas con facetas
g = sns.FacetGrid(data_long, col="Variable", sharex=False, sharey=False, height=4, aspect=1.2)
g.map_dataframe(sns.histplot, x="Valor", bins=30, kde=True, color="steelblue", edgecolor="black", alpha=0.7)

# Ajustar etiquetas para evitar superposición
for ax in g.axes.flat:
    ax.set_xticklabels(ax.get_xticklabels(), rotation=15, ha="right")

# Agregar título general
plt.subplots_adjust(top=0.85)
g.fig.suptitle("Histogramas de Variables Numéricas", fontsize=16)

plt.show()


## **Interpretaciones**

1. **Sleep Duration:**  
   - Distribución multimodal, con picos alrededor de 6.5, 7 y 8 horas.  
   - Datos dispersos sin una forma claramente normal.  

2. **Quality of Sleep:**  
   - Distribución discreta con valores frecuentes en 6, 7, 8 y 9.  
   - No hay valores intermedios entre estos puntos.  

3. **Physical Activity Level:**  
   - Distribución con valores específicos repetidos (posiblemente categorías predefinidas).  
   - Picos en 40, 60 y 80.  

4. **Stress Level:**  
   - Similar a la Calidad del Sueño, con valores discretos en 3, 4, 5, 6, 7 y 8.  
   - Picos en cada uno de estos valores.  

5. **Heart Rate:**  
   - Pico alrededor de 70 bpm.  
   - Algunos valores en el rango de 75-85 bpm.  
   - Sesgo hacia la derecha debido a valores más altos.  

6. **Daily Steps:**  
   - Distribución discreta con picos en ciertos valores como 6000, 8000 y 10000 pasos.  
   - No es una distribución continua, lo que indica valores predefinidos o hábitos consistentes.  


In [None]:
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)
# Lista de variables numéricas
numeric_vars = ["Sleep_Duration", "Quality_of_Sleep", 
                "Physical_Activity_Level", "Stress_Level", 
                "Heart_Rate", "Daily_Steps"]

# Reestructurar los datos al formato largo
data_long = data_base.melt(value_vars=numeric_vars, var_name="Variable", value_name="Valor")

# Configurar el gráfico de boxplots
plt.figure(figsize=(12, 8))
g = sns.FacetGrid(data_long, col="Variable", col_wrap=3, sharex=False, sharey=False)
g.map(sns.boxplot, "Valor", color="orange")
g.set_titles("{col_name}")
g.set_axis_labels("Valor", "")
g.fig.suptitle("Boxplots de Variables Numéricas", fontsize=14, y=1.02)

plt.show()


## Interpretaciones

1. **Sleep Duration (Duración del Sueño)**:  
   - Mediana alrededor de 7 horas.  
   - Rango intercuartil entre 6 y 8 horas.  
   - No hay valores atípicos evidentes.  

2. **Quality of Sleep (Calidad del Sueño)**:  
   - Mediana en torno a 7.  
   - Distribución similar a la duración del sueño.  
   - No hay valores atípicos.  

3. **Physical Activity Level (Nivel de Actividad Física)**:  
   - Mediana alrededor de 60.  
   - Amplio rango de variabilidad (aproximadamente de 20 a 80).  
   - No hay valores atípicos.  

4. **Stress Level (Nivel de Estrés)**:  
   - Mediana en torno a 5.  
   - Distribución relativamente simétrica.  
   - Sin valores atípicos.  

5. **Heart Rate (Frecuencia Cardiaca)**:  
   - Mediana cercana a 70 bpm.  
   - Algunos valores atípicos por encima de 80 bpm.  
   - Rango intercuartil más estrecho comparado con otras variables.  

6. **Daily Steps (Pasos Diarios)**:  
   - Mediana alrededor de 7000 pasos.  
   - Amplio rango de variabilidad (entre aproximadamente 3000 y 10000).  
   - No hay valores atípicos.  




# Relación entre variables  

## Duración del Sueño por Género

In [None]:

warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)
# Asegurar que los nombres de columnas no tengan espacios
data_base.columns = data_base.columns.str.replace(" ", "_")

# Gráfico: Relación entre Duración del Sueño y Calidad del Sueño por Género (Boxplot)
plt.figure(figsize=(8, 6))
sns.boxplot(x="Gender", y="Sleep_Duration", data=data_base, palette="pastel")
plt.title("Duración del Sueño por Género")
plt.xlabel("Género")
plt.ylabel("Duración del Sueño (horas)")
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()




- **Descripción:**  
  Este gráfico muestra la duración del sueño (en horas) para los géneros "Female" (Mujer) y "Male" (Hombre).

- **Análisis:**  
  - Parece que las mujeres tienen una duración de sueño ligeramente mayor que los hombres.  
  - La distribución de la duración del sueño es similar entre ambos géneros, pero las mujeres alcanzan un máximo ligeramente más alto.  

- **Conclusión:**  
  - Las diferencias en la duración del sueño entre géneros pueden ser mínimas, pero es importante considerar factores adicionales como la calidad del sueño y los trastornos asociados.  




## Nivel de Actividad Física por Categoría de BMI

In [None]:
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning) 
# Configuración del gráfico
plt.figure(figsize=(10, 6))
sns.violinplot(data=data_base, x="BMI_Category", y="Physical_Activity_Level", hue="BMI_Category", palette="Set2", alpha=0.7)

# Personalización
plt.title("Nivel de Actividad Física por Categoría de BMI")
plt.xlabel("Categoría de BMI")
plt.ylabel("Actividad Física (min/día)")
plt.xticks(rotation=45)  # Rotar etiquetas para mejor visibilidad
plt.legend(title="BMI Category")  # Agregar leyenda

# Mostrar gráfico
plt.show()


- **Descripción:** Este gráfico muestra el nivel de actividad física (en minutos por día) para diferentes categorías de BMI: "Normal", "Normal Weight", "Obese" y "Overweight".

- **Análisis:**  
  - Las personas con un BMI "Normal" tienden a tener un nivel de actividad física más alto.  
  - Las categorías "Obese" y "Overweight" muestran niveles de actividad física más bajos.  
  - La categoría "Normal Weight" tiene un nivel de actividad física intermedio.  

- **Conclusión:**  
  - Existe una correlación inversa entre el BMI y el nivel de actividad física: a mayor BMI, menor actividad física.  
  - Esto sugiere que el aumento de peso puede estar relacionado con un estilo de vida más sedentario.  



## Distribución de Trastornos del Sueño por Categoría de BMI

In [None]:
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)

# Crear el gráfico de barras apiladas
fig = px.histogram(data_base, 
                   x='BMI_Category', 
                   color='Sleep_Disorder', 
                   barmode='stack',
                   title='Distribución de Trastornos del Sueño por Categoría de BMI',
                   labels={'BMI_Category': 'Categoría de BMI', 'Sleep_Disorder': 'Trastorno del Sueño'},
                   histnorm='percent')  # Normaliza para mostrar proporciones

# Ajustar el diseño del gráfico
fig.update_layout(
    xaxis_title='Categoría de BMI',
    yaxis_title='Proporción',
    template='plotly_white',  # Tema minimalista
    xaxis_tickangle=-45,  # Rotar las etiquetas del eje x
    showlegend=True
)

# Mostrar el gráfico
fig.show()

## Distribución de Trastornos del Sueño por Categoría de BMI

### Descripción  
Este gráfico muestra la proporción de trastornos del sueño ("Insomnia", "None", "Sleep Apnea") en diferentes categorías de BMI.

### Análisis  
- La categoría **"Obese"** tiene una mayor proporción de trastornos del sueño, especialmente **"Sleep Apnea"**.  
- La categoría **"Normal"** tiene una mayor proporción de personas sin trastornos del sueño (**"None"**).  
- La categoría **"Overweight"** muestra una distribución intermedia, con una presencia significativa de **"Insomnia"**.  

### Conclusión  
El **BMI** está relacionado con la presencia de trastornos del sueño, especialmente en personas con **sobrepeso** y **obesidad**.  
- **La apnea del sueño** es más común en personas obesas.  
- **El insomnio** es más frecuente en personas con sobrepeso.  



# Matriz de Correlación

In [None]:
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)

# Definir las variables numéricas
numeric_vars = ["Sleep_Duration", "Quality_of_Sleep", 
                "Physical_Activity_Level", "Stress_Level", 
                "Heart_Rate", "Daily_Steps"]

# Calcular la matriz de correlación
corr_matrix = data_base[numeric_vars].corr()

# Visualizar la matriz de correlación
plt.figure(figsize=(8, 6))  # Tamaño de la figura
sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap="coolwarm", 
            vmin=-1, vmax=1, linewidths=0.5, linecolor="black")

# Añadir título
plt.title("Matriz de Correlación", fontsize=16)

# Mostrar el gráfico
plt.show()

## Correlación entre Variables Numéricas

### Descripción  
Este gráfico muestra la correlación entre varias variables numéricas:  
- **Heart Rate**  
- **Stress Level**  
- **Physical Activity Level**  
- **Quality of Sleep**  
- **Sleep Duration**  

### Análisis  
- **Sleep Duration** tiene una **correlación positiva fuerte** con **Quality of Sleep** (0.88), lo que indica que una mayor duración del sueño está asociada con una mejor calidad del sueño.  
- **Stress Level** tiene una **correlación negativa moderada** con **Quality of Sleep** (-0.66), lo que sugiere que un mayor estrés está asociado con una peor calidad del sueño.  
- **Physical Activity Level** tiene una **correlación positiva débil** con **Quality of Sleep** (0.19), lo que indica que la actividad física puede tener un impacto positivo en la calidad del sueño, aunque no muy fuerte.  
- **Heart Rate** no muestra una correlación significativa con otras variables.  

### Conclusión  
- **La duración y la calidad del sueño están fuertemente relacionadas.**  
- **El estrés es un factor importante** que afecta negativamente la calidad del sueño.  
- **La actividad física puede tener un impacto positivo** en la calidad del sueño, aunque no es el factor más determinante.  

---

## Conclusiones Generales  

### 1. Género y Sueño  
- **Las mujeres** tienden a dormir **ligeramente más** que los hombres, pero las diferencias no son muy significativas.  
- Es importante investigar otros factores como la **calidad del sueño** y los **trastornos asociados** para entender mejor estas diferencias.  

### 2. BMI y Actividad Física  
- **Las personas con un BMI más alto** tienden a tener un **nivel de actividad física más bajo**.  
- Esto sugiere que el aumento de peso puede estar relacionado con un **estilo de vida más sedentario**.  

### 3. BMI y Trastornos del Sueño  
- **Las personas con sobrepeso y obesidad** tienen una **mayor prevalencia de trastornos del sueño**, especialmente **apnea del sueño e insomnio**.  
- Esto indica que el **control del peso** puede ser importante para **prevenir estos trastornos**.  

### 4. Correlaciones entre Variables  
- **La duración y la calidad del sueño están fuertemente relacionadas.**  
- **El estrés afecta negativamente la calidad del sueño.**  
- **La actividad física tiene un impacto positivo**, aunque no muy fuerte, en la calidad del sueño.  

---



# Asociación entre Variables Categóricas (Chi-Cuadrado)  

In [None]:
# Crear tabla de contingencia entre BMI Category y Sleep Disorder
table_bmi_sleep = pd.crosstab(data_base["BMI_Category"], data_base["Sleep_Disorder"])

# Prueba de Chi-Cuadrado
chi2_stat, p_value, dof, expected = stats.chi2_contingency(table_bmi_sleep)

# Resultados
print("Estadístico Chi-Cuadrado:", chi2_stat)
print("Valor p:", p_value)
print("Grados de libertad:", dof)
print("Frecuencias esperadas:\n", expected)

## Asociación entre BMI y Trastornos del Sueño (Chi-Cuadrado)

### Resultados de la Prueba de Chi-Cuadrado:
- **Estadístico Chi-Cuadrado:** 246.97  
- **Valor p:** 1.82e-50  
- **Grados de libertad:** 6  
- **Frecuencias esperadas:**
  
  | BMI Category | None | Insomnia | Sleep Apnea |
  |-------------|------|----------|-------------|
  | Normal      | 114.18 | 40.15 | 40.67 |
  | Normal Weight | 12.30 | 4.32 | 4.38 |
  | Obese       | 5.86 | 2.06 | 2.09 |
  | Overweight  | 86.66 | 30.47 | 30.87 |

### Análisis:
1. **El valor p es extremadamente bajo (1.82e-50), lo que indica que hay una asociación significativa entre la categoría de BMI y la presencia de trastornos del sueño.**  
2. **Las frecuencias observadas y esperadas sugieren que ciertos trastornos del sueño son más comunes en categorías específicas de BMI:**  
   - **Las personas con obesidad tienen una mayor prevalencia de apnea del sueño en comparación con lo esperado.**  
   - **Las personas con peso normal tienen una mayor proporción de individuos sin trastornos del sueño.**  
   - **El insomnio es más frecuente en individuos con sobrepeso en comparación con otras categorías.**  
3. **La relación entre el BMI y los trastornos del sueño refuerza la importancia del control del peso para la prevención de problemas del sueño.**

### Conclusión:
El análisis de Chi-Cuadrado confirma una asociación estadísticamente significativa entre el índice de masa corporal (BMI) y los trastornos del sueño. La obesidad está particularmente vinculada con la apnea del sueño, mientras que el insomnio se observa con mayor frecuencia en personas con sobrepeso. Esto sugiere que mantener un peso saludable puede ser un factor clave en la prevención de trastornos del sueño.


# Resumen estadístico entre variables

In [None]:

# Resumen estadístico de variables numéricas por Género
summary_by_gender = data_base.groupby("Gender").agg(
    Avg_Sleep_Duration=('Sleep_Duration', 'mean'),
    Median_Sleep_Duration=('Sleep_Duration', 'median'),
    SD_Sleep_Duration=('Sleep_Duration', 'std'),
    Min_Sleep_Duration=('Sleep_Duration', 'min'),
    Max_Sleep_Duration=('Sleep_Duration', 'max'),
    
    Avg_Quality_of_Sleep=('Quality_of_Sleep', 'mean'),
    Median_Quality_of_Sleep=('Quality_of_Sleep', 'median'),
    SD_Quality_of_Sleep=('Quality_of_Sleep', 'std'),
    Min_Quality_of_Sleep=('Quality_of_Sleep', 'min'),
    Max_Quality_of_Sleep=('Quality_of_Sleep', 'max'),
    
    Avg_Physical_Activity=('Physical_Activity_Level', 'mean'),
    Median_Physical_Activity=('Physical_Activity_Level', 'median'),
    SD_Physical_Activity=('Physical_Activity_Level', 'std'),
    Min_Physical_Activity=('Physical_Activity_Level', 'min'),
    Max_Physical_Activity=('Physical_Activity_Level', 'max'),
    
    Avg_Stress_Level=('Stress_Level', 'mean'),
    Median_Stress_Level=('Stress_Level', 'median'),
    SD_Stress_Level=('Stress_Level', 'std'),
    Min_Stress_Level=('Stress_Level', 'min'),
    Max_Stress_Level=('Stress_Level', 'max')
)

# Resumen estadístico de variables numéricas por Categoría de BMI
summary_by_bmi = data_base.groupby("BMI_Category").agg(
    Avg_Sleep_Duration=('Sleep_Duration', 'mean'),
    Median_Sleep_Duration=('Sleep_Duration', 'median'),
    SD_Sleep_Duration=('Sleep_Duration', 'std'),
    Min_Sleep_Duration=('Sleep_Duration', 'min'),
    Max_Sleep_Duration=('Sleep_Duration', 'max'),
    
    Avg_Quality_of_Sleep=('Quality_of_Sleep', 'mean'),
    Median_Quality_of_Sleep=('Quality_of_Sleep', 'median'),
    SD_Quality_of_Sleep=('Quality_of_Sleep', 'std'),
    Min_Quality_of_Sleep=('Quality_of_Sleep', 'min'),
    Max_Quality_of_Sleep=('Quality_of_Sleep', 'max'),
    
    Avg_Physical_Activity=('Physical_Activity_Level', 'mean'),
    Median_Physical_Activity=('Physical_Activity_Level', 'median'),
    SD_Physical_Activity=('Physical_Activity_Level', 'std'),
    Min_Physical_Activity=('Physical_Activity_Level', 'min'),
    Max_Physical_Activity=('Physical_Activity_Level', 'max'),
    
    Avg_Stress_Level=('Stress_Level', 'mean'),
    Median_Stress_Level=('Stress_Level', 'median'),
    SD_Stress_Level=('Stress_Level', 'std'),
    Min_Stress_Level=('Stress_Level', 'min'),
    Max_Stress_Level=('Stress_Level', 'max')
)

# Mostrar tablas
print("Resumen estadístico por Género:")
print(summary_by_gender)

print("\nResumen estadístico por Categoría de BMI:")
print(summary_by_bmi)


# **Análisis y Conclusiones**  

## **Análisis por Género**  

### **Duración del Sueño:**  
- Las mujeres duermen en promedio **7.23 horas**, mientras que los hombres duermen **7.04 horas**.  
- La dispersión del sueño es mayor en mujeres (**desviación estándar de 0.88 vs. 0.69 en hombres**).  
- La mínima duración del sueño es menor en hombres (**5.9 h vs. 5.8 h en mujeres**).  

### **Calidad del Sueño:**  
- Las mujeres reportan una mejor calidad del sueño en promedio (**7.66 vs. 6.97 en hombres**).  
- La variabilidad de la calidad del sueño es mayor en mujeres.  
- Tanto hombres como mujeres tienen la misma calidad de sueño mínima (**4**) y máxima (**9**).  

### **Nivel de Actividad Física:**  
- No hay una diferencia significativa entre géneros en la actividad física promedio (**~59**).  
- La dispersión es similar en ambos grupos (**~21**).  

### **Nivel de Estrés:**  
- Los hombres tienen un nivel de estrés significativamente mayor (**6.08 vs. 4.67 en mujeres**).  
- La mediana del estrés es **6 en hombres y 4 en mujeres**, lo que confirma la diferencia.  
- La variabilidad del estrés es mayor en mujeres (**1.91 vs. 1.30 en hombres**).  

---

## **Análisis por Categoría de BMI**  

### **Duración del Sueño:**  
- Las personas con **BMI normal** duermen más (**7.39 h**) y las con **sobrepeso** duermen menos (**6.77 h**).  
- La desviación estándar es mayor en personas obesas, lo que indica mayor variabilidad.  

### **Calidad del Sueño:**  
- La calidad del sueño disminuye con el aumento del BMI:  
  - **Normal:** **7.66**  
  - **Normal Weight:** **7.42**  
  - **Overweight:** **6.89**  
  - **Obese:** **6.40**  
- Las personas con obesidad tienen la mayor variabilidad en calidad del sueño.  

### **Nivel de Actividad Física:**  
- Disminuye con el aumento del BMI, con la categoría **obesa teniendo el nivel más bajo (~51)**.  
- Las personas con **BMI normal tienen mayor actividad (~66)**.  

### **Nivel de Estrés:**  
- A mayor BMI, mayor estrés:  
  - **Normal:** **5.37**  
  - **Normal Weight:** **5.33**  
  - **Overweight:** **5.94**  
  - **Obese:** **6.40**  
- La mayor variabilidad en el estrés se encuentra en personas con **sobrepeso y obesidad**.  

---

## **Conclusiones Generales**  

1. **Género y Sueño:**  
   - Las mujeres duermen más y tienen mejor calidad de sueño.  
   - Los hombres reportan niveles de estrés más altos, lo que puede afectar la calidad del sueño.  

2. **BMI y Sueño:**  
   - Las personas con BMI normal tienen **mejor calidad y duración del sueño**.  
   - El sueño se deteriora con el aumento del BMI, especialmente en **personas obesas**.  

3. **Actividad Física y Estrés:**  
   - A mayor BMI, **menor actividad física y mayor estrés**.  
   - La actividad física podría ser un factor clave para **mejorar el sueño y reducir el estrés**.  

4. **Impacto del Estrés:**  
   - Las personas con **altos niveles de estrés tienen peor calidad del sueño**.  
   - La **gestión del estrés** podría mejorar significativamente el descanso y la salud general.  



# Valores faltantes


In [None]:
# Contar valores NA en cada columna
na_count = data_base.isna().sum()

print("Cantidad de valores NA por columna:")
print(na_count)


**Análisis**

No hay valores NA en ninguna columna, lo que indica que los datos están completos y no requieren imputación.


# Normalidad 

In [None]:
# Lista de variables numéricas
numeric_vars = data_base.select_dtypes(include=['number']).columns  

# Aplicar la prueba de Shapiro-Wilk a cada variable numérica
shapiro_results = {var: shapiro(data_base[var].dropna()).pvalue for var in numeric_vars}

# Convertir resultados a DataFrame
shapiro_results_df = pd.DataFrame(list(shapiro_results.items()), columns=["Variable", "P_value"])

# Mostrar resultados
print(shapiro_results_df)

## Prueba de Normalidad (Shapiro-Wilk)

### Descripción:
Se realizó la prueba de normalidad de **Shapiro-Wilk** para evaluar si las variables numéricas siguen una distribución normal. El valor p (`P_value`) indica si podemos aceptar la hipótesis nula (los datos siguen una distribución normal).

### Análisis:
Los resultados muestran valores p extremadamente pequeños para todas las variables (muy por debajo de 0.05), lo que sugiere que ninguna de ellas sigue una distribución normal. En particular:
- **Sleep_Duration**, **Quality_of_Sleep**, **Physical_Activity_Level**, **Stress_Level**, **Heart_Rate** y **Daily_Steps** presentan una desviación significativa de la normalidad.
- La variable **Person_ID** no es relevante para la normalidad, ya que representa identificadores únicos.

### Conclusión:
Dado que todas las variables presentan una distribución **no normal**, se recomienda el uso de **pruebas no paramétricas** para análisis posteriores (como U de Mann-Whitney, Kruskal-Wallis o correlaciones de Spearman), en lugar de pruebas paramétricas que asumen normalidad (como t-test o ANOVA).
