In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## **Dataset : Salud del sueño y estilo de vida** 🥱
### Primera parte

1. **Ejercicio 1:**
Realizar un análisis exploratorio del dataset proporcionado a su grupo.
* Identificar la cantidad de variables y observaciones presentes.
* Realizar un resumen estadístico univariado.
* Describir brevemente la naturaleza de los datos.
* Determinar las columnas con valores faltantes.
2. **Ejercicio 2:**
* Seleccionar variables de interés y realizar gráficas que representen conjuntamente varias
columnas en función de algún criterio seleccionado. Justificar la selección de las mismas y
explicar brevemente el resultado obtenido.
3. **Ejercicio 3:**
Realizar un preprocesamiento del conjunto de datos:
* Proponer una estrategia y llevarla adelante para el manejo de valores faltantes y
eliminación de duplicados.
* Considerar la normalización o estandarización de las variables numéricas y la
codificación de las variables categóricas para su posterior análisis.
* Realiza la “dummificación” de al menos una variable categórica y una variable
numérica
Documentar los pasos realizados y justificar las decisiones tomadas.


## **Características de las variables** 📑 
Person ID: An identifier for each individual.<br>
Gender: The gender of the person (Male/Female).<br>
Age: The age of the person in years.<br>
Occupation: The occupation or profession of the person.<br>
Sleep Duration (hours): The number of hours the person sleeps per day.<br>
Quality of Sleep (scale: 1-10): A subjective rating of the quality of sleep, ranging from 1 to 10.<br>
Physical Activity Level (minutes/day): The number of minutes the person engages in physical activity daily.<br>
Stress Level (scale: 1-10): A subjective rating of the stress level experienced by the person, ranging from 1 to 10.<br>
BMI Category: The BMI category of the person (e.g., Underweight, Normal, Overweight).<br>
Blood Pressure (systolic/diastolic): The blood pressure measurement of the person, indicated as systolic pressure over diastolic pressure.<br>
Heart Rate (bpm): The resting heart rate of the person in beats per minute.<br>
Daily Steps: The number of steps the person takes per day.<br>
Sleep Disorder: The presence or absence of a sleep disorder in the person (None, Insomnia, Sleep Apnea).<br>

In [4]:
# Carga del dataset
df = pd.read_csv("../data/health_mod.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,Person ID,Gender,Age,Occupation,Sleep Duration,Quality of Sleep,Physical Activity Level,Stress Level,BMI Category,Blood Pressure,Heart Rate,Daily Steps,Sleep Disorder
0,0,1,Male,27.0,Software Engineer,6.1,6,42,6.0,Overweight,126/83,77,4200,
1,1,2,Male,28.0,Doctor,6.2,6,60,8.0,Normal,125/80,75,10000,
2,2,3,Male,28.0,Doctor,6.2,6,60,8.0,Normal,125/80,75,10000,
3,3,4,Male,28.0,Sales Representative,5.9,4,30,8.0,Obese,140/90,85,3000,Sleep Apnea
4,4,5,Male,28.0,Sales Representative,5.9,4,30,8.0,Obese,140/90,85,3000,Sleep Apnea


In [6]:
# Cantidad de variables y observaciones presentes
print("Cantidad de variables: ", df.shape[1], "\nCantidad de observaciones: ", df.shape[0])

Cantidad de variables:  14 
Cantidad de observaciones:  374


In [8]:
# Determinar columnas con valores nulos     
df.isnull().sum()

Unnamed: 0                  0
Person ID                   0
Gender                     37
Age                         7
Occupation                  0
Sleep Duration             16
Quality of Sleep            0
Physical Activity Level     0
Stress Level               11
BMI Category                0
Blood Pressure              0
Heart Rate                  0
Daily Steps                 0
Sleep Disorder              0
dtype: int64

In [12]:
print("Las columnas con valores nulos son: ", df.columns[df.isnull().any()])

Las columnas con valores nulos son:  Index(['Gender', 'Age', 'Sleep Duration', 'Stress Level'], dtype='object')


In [13]:
# Tipos de datos 
df.dtypes

Unnamed: 0                   int64
Person ID                    int64
Gender                      object
Age                        float64
Occupation                  object
Sleep Duration             float64
Quality of Sleep             int64
Physical Activity Level      int64
Stress Level               float64
BMI Category                object
Blood Pressure              object
Heart Rate                   int64
Daily Steps                  int64
Sleep Disorder              object
dtype: object