In [1]:
import pandas as pd

folder = '../datasets'

# Cargar los datasets en variables con el separador adecuado
data_science_salaries = pd.read_csv(f"{folder}/ds_salary.csv", sep=';')  
gym_members_exercise = pd.read_csv(f"{folder}/gym_ex.csv", sep=';')  
sleep_health_lifestyle = pd.read_csv(f"{folder}/health_lifestyle.csv")  
covid19_epidemiology = pd.read_csv(f"{folder}/covid.csv")  

# Ejercicio 1: Análisis de categorías en los salarios de Data Science
Crea un gráfico de barras para comparar los promedios de salario según el nivel de experiencia.

### Instrucciones
1. Agrupa los datos por nivel de experiencia (`experience_level`).
2. Calcula el salario promedio para cada grupo.
3. Crea un gráfico de barras con los resultados.

**Dataset:** `Data Science Salaries 2023`


In [11]:
import plotly.express as px

# Agrupar los datos por nivel de experiencia y calcular el salario promedio
average_salary = data_science_salaries.groupby("experience_level")["salary_in_usd"].mean().reset_index()

fig = px.bar(average_salary, 
             x="experience_level", 
             y="salary_in_usd",
             title="Salario promedio por nivel de experiencia",
             labels={"experience_level": "Nivel de experiencia", "salary_in_usd": "Salario promedio (USD)"},
             color="experience_level")
             
# Mostrar el gráfico
fig.show()


# Ejercicio 2: Relación entre género y tipo de ejercicio
Crea un gráfico de pastel para visualizar la proporción de tipos de ejercicio según el género.

### Instrucciones
1. Filtra los datos por tipo de ejercicio.
2. Muestra las proporciones por género utilizando un gráfico de pastel.

**Dataset:** `Gym Members Exercise Dataset`


In [14]:
import plotly.express as px

# Agrupar los datos por género y tipo de ejercicio, y calcular la frecuencia
exercise_distribution = gym_members_exercise.groupby(["Gender", "Workout_Type"]).size().reset_index(name="count")

fig = px.pie(exercise_distribution, 
             values="count", 
             names="Workout_Type", 
             color="Gender",
             title="Distribución de tipos de ejercicio por género",
             labels={"Workout_Type": "Tipo de ejercicio", "count": "Frecuencia"},
             hole=0.4)

# Mostrar el gráfico
fig.show()


# Ejercicio 3: Tendencias en la duración del sueño
Crea un gráfico de líneas para observar cómo varía la duración promedio del sueño según la edad.

### Instrucciones
1. Agrupa los datos por rango de edad.
2. Calcula el promedio de horas de sueño.
3. Representa los datos con un gráfico de líneas.

**Dataset:** `Sleep Health and Lifestyle Dataset`


In [27]:
import plotly.express as px
import pandas as pd

# Crear los rangos de edad con divisiones más pequeñas
sleep_health_lifestyle["Age_Group"] = pd.cut(sleep_health_lifestyle["Age"], 
                                             bins=[23, 28, 33, 38, 43, 48, 53, 58, 63],  
                                             labels=[ "24-28", "29-33", "34-38", "39-43", 
                                                     "44-48", "49-53", "54-58", "59-63"],
                                             include_lowest=True)

# Agrupar y calcular la duración promedio del sueño por rango de edad
sleep_avg_by_age = sleep_health_lifestyle.groupby("Age_Group")["Sleep Duration"].mean().reset_index()

# Crear el gráfico
fig = px.line(sleep_avg_by_age, x="Age_Group", 
              y="Sleep Duration",
              title="Duración promedio del sueño según rango de edad",
              labels={"Age_Group": "Rango de edad", "Sleep Duration": "Duración promedio del sueño (horas)"},
              markers=True)

fig.show()






# Ejercicio 4: Comparación de salarios por región
Crea un gráfico de barras agrupadas para comparar el salario promedio en diferentes regiones.

### Instrucciones
1. Agrupa los datos por región (`company_location`) y nivel de experiencia (`experience_level`).
2. Calcula el salario promedio para cada combinación.
3. Crea un gráfico de barras agrupadas mostrando las regiones y los niveles de experiencia.

**Dataset:** `Data Science Salaries 2023`


In [29]:
salary_by_region = data_science_salaries.groupby(["company_location", "experience_level"])["salary_in_usd"].mean().reset_index()

fig = px.bar(salary_by_region, 
             x="company_location", 
             y="salary_in_usd", 
             color="experience_level",
             title="Salario promedio por región y nivel de experiencia",
             labels={"company_location": "Región", "salary_in_usd": "Salario (USD)", "experience_level": "Nivel de experiencia"})
fig.show()


# Ejercicio 5: Frecuencia de tipos de ejercicio
Crea un gráfico de barras apiladas para mostrar la frecuencia de cada tipo de ejercicio por género.

### Instrucciones
1. Agrupa los datos por tipo de ejercicio (`Workout_Type`) y género (`Gender`).
2. Cuenta la frecuencia de cada combinación.
3. Representa los datos con un gráfico de barras apiladas.

**Dataset:** `Gym Members Exercise Dataset`


In [35]:
exercise_freq = gym_members_exercise.groupby(["Workout_Type", "Gender"]).size().reset_index(name="count")

fig = px.bar(exercise_freq, 
             x="Workout_Type", 
             y="count", 
             color="Gender",
             title="Frecuencia de tipos de ejercicio por género",
             labels={"Workout_Type": "Tipo de ejercicio", "count": "Frecuencia", "Gender": "Género"})
fig.show()


# Ejercicio 6: Comparación de horas de sueño entre grupos de edad
Crea un gráfico de barras horizontales para comparar las horas promedio de sueño entre grupos de edad (Ejercicio 3).

### Instrucciones
1. Agrupa los datos en rangos de edad.
2. Calcula el promedio de horas de sueño para cada grupo.
3. Crea un gráfico de barras horizontales.

**Dataset:** `Sleep Health and Lifestyle Dataset`


In [40]:
# Crear los nuevos rangos de edad
sleep_health_lifestyle["Age_Group"] = pd.cut(sleep_health_lifestyle["Age"], 
                                             bins=[23, 28, 33, 38, 43, 48, 53, 58, 63],  
                                             labels=["24-28", "29-33", "34-38", "39-43", 
                                                     "44-48", "49-53", "54-58", "59-63"],
                                             include_lowest=True)

# Agrupar y calcular la duración promedio del sueño por rango de edad
sleep_by_age = sleep_health_lifestyle.groupby("Age_Group")["Sleep Duration"].mean().reset_index()

# Crear el gráfico de barras horizontal
fig = px.bar(sleep_by_age, 
             x="Sleep Duration", 
             y="Age_Group", 
             orientation="h",
             title="Promedio de horas de sueño por grupo de edad",
             labels={"Sleep Duration": "Horas de sueño", "Age_Group": "Grupo de edad"})

# Mostrar el gráfico
fig.show()






# Ejercicio 7: Evolución de casos confirmados de COVID-19
Crea un gráfico de líneas para mostrar la evolución de los casos confirmados en un país específico.

### Instrucciones
1. Filtra los datos para un país de tu elección.
2. Agrupa los datos por fecha (`date`).
3. Suma los casos confirmados diarios (`confirmed_cases`) para cada fecha.
4. Representa los resultados en un gráfico de líneas.

**Dataset:** `COVID-19 Epidemiology Dataset`


In [8]:
location_data = covid19_epidemiology[covid19_epidemiology["location_key"] == "ES"]

covid_trend = location_data.groupby("date")["cumulative_confirmed"].sum().reset_index()

fig = px.line(covid_trend, 
              x="date", 
              y="cumulative_confirmed",
              title="Evolución de casos confirmados de COVID-19 en España",
              labels={"date": "Fecha", "cumulative_confirmed": "Casos confirmados"})
fig.show()

### Ejercicio 10: Relación entre calorías quemadas y duración de la sesión
Crea un gráfico de dispersión para analizar cómo la duración de la sesión afecta la cantidad de calorías quemadas.

### Instrucciones
1. Utiliza las columnas `Calories_Burned` (calorías quemadas) y `Session_Duration (hours)` (duración de la sesión en horas).
2. Diferencia los datos según el género (`Gender`) utilizando colores.
3. Agrega detalles adicionales como el nivel de experiencia (`Experience_Level`) y el tipo de entrenamiento (`Workout_Type`) en la información mostrada al pasar el cursor sobre los puntos.

**Dataset:** `Gym Members Exercise Dataset`


In [49]:
import plotly.express as px

# Crear el gráfico de dispersión
fig = px.scatter(gym_members_exercise, 
                 x="Calories_Burned", 
                 y="Session_Duration (hours)", 
                 color="Gender",
                 title="Relación entre calorías quemadas y duración de la sesión",
                 labels={"Calories_Burned": "Calorías quemadas", 
                         "Session_Duration (hours)": "Duración de la sesión (horas)", 
                         "Gender": "Género"},
                 hover_data=["Experience_Level", "Workout_Type"])

# Mostrar el gráfico
fig.show()
