In [6]:
import os

! pip install gdown

output_dir = '../datasets'  
if not os.path.exists(output_dir):
    os.makedirs(output_dir)



# Introducción a las Bases de Datos

A continuación se presentan tres bases de datos que se utilizarán en el trabajo de visualización de datos. Cada una de ellas aborda temas diferentes y ofrece oportunidades para explorar y analizar datos de interés.

## 1. Data Science Salaries 2023

- **Referencia**: [Data Science Salaries 2023](https://www.kaggle.com/datasets/arnabchaki/data-science-salaries-2023/data)
  
- **Descripción**: Esta base de datos contiene información sobre los salarios de los profesionales en el campo de la ciencia de datos a nivel mundial para el año 2023. Los datos incluyen diversas variables que permiten un análisis detallado de los factores que influyen en los salarios.

- **Estructura**:
  - `job_title`: Título del trabajo.
  - `salary`: Salario anual en USD.
  - `experience`: Años de experiencia del profesional.
  - `location`: Ubicación geográfica del trabajo.
  - `education`: Nivel educativo del profesional.
  - `skills`: Habilidades mencionadas en el trabajo.

In [7]:
import gdown

file_id = '1aYGUS1HCVz8j1yURxXt4P1UXIJ54aODI'

output = output_dir +'/health_lifestyle.csv'  
gdown.download(f'https://drive.google.com/uc?id={file_id}', output, quiet=False)


Downloading...
From: https://drive.google.com/uc?id=1aYGUS1HCVz8j1yURxXt4P1UXIJ54aODI
To: c:\Users\Cristian\Desktop\Apuntes\UMU\1Q\Visualización Datos\Trabajo dirigido\PlotlyLibrary\datasets\health_lifestyle.csv
100%|██████████| 24.1k/24.1k [00:00<00:00, 1.33MB/s]


'../datasets/health_lifestyle.csv'

## 2. Gym Members Exercise Dataset

- **Referencia**: [Gym Members Exercise Dataset](https://www.kaggle.com/datasets/valakhorasani/gym-members-exercise-dataset)
  
- **Descripción**: Esta base de datos recopila información sobre los miembros de un gimnasio y sus hábitos de ejercicio. Permite analizar la relación entre diferentes factores y el comportamiento de ejercicio de los miembros.

- **Estructura**:
  - `member_id`: Identificación única del miembro.
  - `age`: Edad del miembro.
  - `gender`: Género del miembro.
  - `height`: Altura en centímetros.
  - `weight`: Peso en kilogramos.
  - `exercise_type`: Tipo de ejercicio realizado.
  - `workout_time`: Duración del ejercicio en minutos.

In [8]:
import gdown

file_id = '1BETAfnn8Poa_om5oDTyrrf8FGbTDF0QQ'

output = output_dir +'/gym_ex.csv'    
gdown.download(f'https://drive.google.com/uc?id={file_id}', output, quiet=False)


Downloading...
From: https://drive.google.com/uc?id=1BETAfnn8Poa_om5oDTyrrf8FGbTDF0QQ
To: c:\Users\Cristian\Desktop\Apuntes\UMU\1Q\Visualización Datos\Trabajo dirigido\PlotlyLibrary\datasets\gym_ex.csv
100%|██████████| 66.1k/66.1k [00:00<00:00, 2.23MB/s]


'../datasets/gym_ex.csv'

## 3. Sleep Health and Lifestyle Dataset

- **Referencia**: [Sleep Health and Lifestyle Dataset](https://www.kaggle.com/datasets/uom190346a/sleep-health-and-lifestyle-dataset)
  
- **Descripción**: Este conjunto de datos investiga la salud del sueño y los estilos de vida de los encuestados. Incluye información sobre los hábitos de sueño y su relación con diferentes factores de salud y estilo de vida.

- **Estructura**:
  - `respondent_id`: Identificación única del encuestado.
  - `age`: Edad del encuestado.
  - `gender`: Género del encuestado.
  - `sleep_hours`: Horas de sueño por noche.
  - `exercise_frequency`: Frecuencia de ejercicio semanal.
  - `health_status`: Estado de salud reportado.

In [9]:
import gdown

file_id = '1FJct-dcfXFTgszpOaDEX9PftiSP6Vqlh'

output = output_dir +'/ds_salary.csv'     
gdown.download(f'https://drive.google.com/uc?id={file_id}', output, quiet=False)


Downloading...
From: https://drive.google.com/uc?id=1FJct-dcfXFTgszpOaDEX9PftiSP6Vqlh
To: c:\Users\Cristian\Desktop\Apuntes\UMU\1Q\Visualización Datos\Trabajo dirigido\PlotlyLibrary\datasets\ds_salary.csv
100%|██████████| 225k/225k [00:00<00:00, 4.04MB/s]


'../datasets/ds_salary.csv'

## 4. COVID-19 Epidemiology Dataset

- **Referencia**: [COVID-19 Epidemiology Dataset](https://github.com/GoogleCloudPlatform/covid-19-open-data/blob/main/docs/table-epidemiology.md)

- **Descripción**: Este conjunto de datos proporciona información sobre la epidemiología de COVID-19, incluyendo datos sobre casos, hospitalizaciones, pruebas y muertes, a nivel global. Está diseñado para facilitar el análisis de la propagación de la pandemia y los factores epidemiológicos relacionados en distintas regiones.

- **Estructura**:
  - `date`: Fecha de la observación.
  - `location_key`: Identificador único de la ubicación, permitiendo el análisis por país, región o subdivisión.
  - `new_confirmed`: Nuevos casos confirmados de COVID-19 en la fecha especificada.
  - `new_deceased`: Nuevas muertes reportadas en la fecha especificada.
  - `new_recovered`: Nuevos casos recuperados reportados en la fecha especificada.
  - `new_tested`: Nuevas pruebas de COVID-19 realizadas en la fecha especificada.
  - `cumulative_confirmed`: Total acumulado de casos confirmados de COVID-19.
  - `cumulative_deceased`: Total acumulado de muertes por COVID-19.
  - `cumulative_recovered`: Total acumulado de casos recuperados.
  - `cumulative_tested`: Total acumulado de pruebas realizadas.


In [10]:
import gdown

file_id = '1OkUEeWmwGZJmq125mS7nwQ6aKm9JDG69'

output = output_dir +'/covid.csv'    
gdown.download(f'https://drive.google.com/uc?id={file_id}', output, quiet=False)


Downloading...
From (original): https://drive.google.com/uc?id=1OkUEeWmwGZJmq125mS7nwQ6aKm9JDG69
From (redirected): https://drive.google.com/uc?id=1OkUEeWmwGZJmq125mS7nwQ6aKm9JDG69&confirm=t&uuid=7d8a109e-4d4b-440d-aa76-5fdf7a8e5c7d
To: c:\Users\Cristian\Desktop\Apuntes\UMU\1Q\Visualización Datos\Trabajo dirigido\PlotlyLibrary\datasets\covid.csv
100%|██████████| 521M/521M [00:09<00:00, 56.1MB/s] 


'../datasets/covid.csv'

## Conclusión

Las bases de datos presentadas ofrecen una variedad de temas y estructuras que permitirán realizar análisis significativos y visualizaciones informativas. A medida que avanzamos en el trabajo de visualización de datos, se explorarán estas bases de datos para identificar patrones y obtener conclusiones relevantes.
