# Análisis de datos: Bellabeat

### Autor: Gonzalo F. Benitez Peressi

### Fecha: 28 Febrero 2023


![Bellabeat_caratura_2023.png](attachment:244c81b5-b597-40bc-a9cd-43a30d1bd3f6.png)

En este documento se detallan las etapas esenciales para llevar a cabo un análisis de datos efectivo enfocado en resolver una problemática específica en la empresa Bellabeat. Como resultado, se presentarán recomendaciones fundamentadas en datos para respaldar la toma de decisiones informadas. Este informe incluye los siguientes entregables:

1. Un resumen claro de la tarea empresarial.
2. Una descripción de todas las fuentes de datos utilizadas.
3. Documentación de cualquier limpieza o manipulación de datos.
4. Un resumen de su análisis.
5. Visualizaciones de apoyo y hallazgos clave.
6. Recomendaciones de contenido de alto nivel basadas en el análisis realizado.


# Etapa de Preguntas


## Información Recolectada

El caso de estudio nos proporciona la siguiente [documentación](https://drive.google.com/file/d/1X1QNAkww9iOk1xjunZbnGrqE0JNtoww4/view?usp=share_link) acerca de Bellabeat. Esto representa la información recolectada a través de la fase de preguntas.


## Contexto del Problema 

Según la información del estudio de caso de Bellabeat, el problema que intentan resolver es cómo satisfacer mejor las necesidades de salud y bienestar de las mujeres, concretamente mediante el uso de la tecnología. Reconocen que las mujeres tienen problemas de salud únicos y que el sector tradicional de la salud y el bienestar puede no tenerlos plenamente en cuenta. Bellabeat pretende ofrecer soluciones personalizadas y holísticas que ayuden a las mujeres a tomar las riendas de su salud y bienestar.  Para ello se nos suministró un dataset que contiene datos de los usuarios que utilizan un dispositivos inteligentes de la competencia.  Bellabeat desea poder tomar decisiones informadas a través del análisis de estos datos, para  mejorar sus productos y servicios.

## Resumen de la tarea empresarial

Proporcionar consejos alineados al crecimiento de Bellabeat que faciliten la toma de decisiones empresariales basadas en datos  a partir de la identificación de las tendencias y patrones de los usuarios que utilizan dispositivos inteligentes de la competencia. Estas conclusiones de alto nivel deben extrapolarse para crear recomendaciones orientadas  para la campaña de marketing de Bellabeat.

## Objetivo del Análisis de Datos

Proporcionar consejos que faciliten la toma de decisiones empresariales basadas en datos para ayudar a crear recomendaciones para la campaña de marketing de Bellabeat. 

Según los datos disponibles y la tarea empresarial solicitada se buscará crear recomendaciones que colaboren con el crecimiento de Bellabeat, en el análisis de datos posterior se buscará:



1. **Mejorar sus productos:** A través de la identificación de tendencias y patrones en un comportamiento de los clientes bellabeat puede decidir:
    * Desarrollar nuevos productos.
    * Agregar nuevas funcionalidades a sus productos actuales.
2. **Mejorar la Satisfacción de Clientes**: Entendiendo de una manera más clara las preferencias y necesidades de sus clientes, Belabeat puede tomar decisiones informadas para el desarrollo de productos. 
3. **Mejorar  los servicios y experiencia de cliente:** El análisis continuo de los datos recopilados permite realizar recomendaciones para descubrir nuevas necesidades y mejorar la experiencia de cliente. Esto es clave para permitir que Bellabeat se adapte rápidamente al entorno y a los cambios de sus clientes.


## Servicios y Productos de Bellabeat

**<span style="text-decoration:underline;">Bellabeat App</span>:** La aplicación Bellabeat proporciona a los clientes datos de salud relacionados con su actividad, sueño y estrés, ciclo menstrual y hábitos de atención plena. Estos datos pueden ayudar a los clientes a comprender mejor sus hábitos actuales y tomar decisiones saludables. La aplicación Bellabeat se conecta a su línea de productos inteligentes para el bienestar.

**<span style="text-decoration:underline;">Leaf</span>**: El rastreador de bienestar clásico de Bellabeat se puede llevar como pulsera, collar o clip. El rastreador Leaf se conecta a la aplicación Bellabeat para realizar un seguimiento de la actividad, el sueño y el estrés.

**<span style="text-decoration:underline;">Time</span>**: Este reloj de bienestar combina el aspecto atemporal de un reloj clásico con la tecnología inteligente para realizar un seguimiento del cliente actividad, sueño y estrés. El reloj Time se conecta a la app Bellabeat para ofrecerte información sobre tu bienestar diario.

**<span style="text-decoration:underline;">Spring</span>**: Se trata de una botella de agua que realiza un seguimiento de la ingesta diaria de agua mediante tecnología inteligente para garantizar que estás adecuadamente hidratado durante todo el día. La botella Spring se conecta a la aplicación Bellabeat para realizar un seguimiento de tu niveles de hidratación.

**<span style="text-decoration:underline;">Bellabeat membership</span>**: Bellabeat también ofrece un programa de suscripción para los clientes. La afiliación ofrece a los clientes acceso ininterrumpido a información totalmente personalizada sobre nutrición, actividad, sueño, salud y bienestar.

**<span style="text-decoration:underline;">E-commerce Chanel</span>**: A través de su página web [https://bellabeat.com/](https://bellabeat.com/) Bellabeat ofrece sus productos y servicios a sus clientes. 


## Personal Relevante



* **Urška Sršen:** Cofundador y Director Creativo de Bellabeat
* **Sando Mur:** Matemático y cofundador de Bellabeat; miembro clave del equipo ejecutivo de Bellabeat.
* **Equipo de análisis de marketing de Bellabeat:** Un equipo de analistas de datos encargado de recopilar, analizar y analizar datos que ayudan a orientar la estrategia de marketing de Bellabeat. Se incorporó a este equipo hace seis meses y de Bellabeat y sus objetivos empresariales, así como la forma en que usted, como analista de datos junior, puede ayudar a Bellabeat a conseguirlos.

## Lenguajes y Herramientas

Cada etapa del análisis tendrá el suficiente nivel de detalle para que otros colegas, los stakeholders o  personal supervisor puedan inspeccionar cada paso y los resultados obtenidos. Es por este motivo que se optó por utilizar Python para el análisis para que cada comando o script pueda ser  comentado y revisado. Es por este mismo motivo que no se utiliza Excel para el análisis de datos.

# Etapa de Preparación


## Descripción de la fuente de datos utilizada



* La fuente de datos es de dominio publico y está disponible para su consulta desde la siguiente página [FitBit Fitness Tracker Data](https://www.kaggle.com/datasets/arashnic/fitbit/code), el archivo puede descargarse desde el siguiente [link](https://www.kaggle.com/datasets/arashnic/fitbit/download?datasetVersionNumber=1).  
* Autores del dataset: Furberg, R., Brinton, J., Keating, M., & Ortiz, A. (2016). Crowd-sourced Fitbit datasets 03.12.2016-05.12.2016
* Fuente original del dataset: [Zenado](https://zenodo.org/record/53894#.X9oeh3Uzaao)
* Esto permite descargar un archivo zip el cual cuenta con 18 archivos en formato csv.
* Treinta usuarios elegibles de Fitbit dieron su consentimiento para el envío de datos personales, incluidos los resultados a nivel de minuto de la actividad física, la frecuencia cardíaca y la monitorización del sueño.
* Este conjunto de datos fue generado por los participantes de una encuesta distribuida a través de Amazon Mechanical Turk entre el 03.12.2016-05.12.2016.

## Limitaciones del dataset:



* Las recomendaciones para la campaña de marketing asociadas a las preferencias, patrones y tendencias  encontradas en los datos  estarán basadas en datos que tienen 8 años de antigüedad por lo que no pueden no ser relevantes ni oportunas.
* La muestra solo tiene 30 personas por lo cual es difícil que las recomendaciones que se produzcan a través del análisis sean representativas de la población completa.
* La muestra tiene 30 participantes y no se especifica el sexo de los participantes. Esto impacta en las recomendaciones producidas debido a que el público objetivo del Bellabeat son las mujeres.
* Los datos fueron recolectados a través de diferentes dispositivos de fitbit ergo diferentes clases de sensores con los que se toman las mediciones.

## Rocc: Análisis de la integridad y credibilidad de los datos

* R:Reliable(Confiabilidad->Baja): La muestra soloes de 30 personas.
* Original(Origen de la fuente de datos -> Medio): Proveedor de tercero (Amazon Mechanical Turk) pero pertenece a una empresa reconocida.
* Comprensive(La fuente contiene toda la datos para realizar el análisis -> Medio: Bellabeat utiliza atributos similares para sus dispositivos.
* Current (Datos actuales -> Bajo): Los datos tienen 7 años (Análisis del informe actual: 23/02/2023).
* Cited (La proveedor cita su fuente de datos-> Medio): El proveedor es de terceros, pero es de una empresa reconocida del medio. Amazon Mechanical Turk. No se dispone de la metodología de recolección.


## Selección de archivos a analizar

* ### 1. Se ha realizado un copia de seguridad con los archivos fuentes originales.
* ### 2. Se enuncia ha continuación los archivos que se procesan.

dailyActivity_merged.csv

weightLogInfo_merged.csv

sleepDay_merged.csv

# Etapa de Procesamiento

 * Cada acción realizada se documenta por medio de un comentario.

In [None]:
# Entorno virtual

# Se deben instalar las siguientes paquetes:  numPy, pandas, matplotlib, datetime  

# Se importan las librerias a usarse y se utiliza un alias para su facil referencia.
import numpy as np  # arreglos multidimensionales
import matplotlib.pyplot as plta # creación de visualizaciónes
import datetime as dt # gestion de fecha y horas
import pandas as pd # Manipulación y Análisis de datos
import seaborn as sns # # creación de visualizaciónes con más estilo
from sklearn.preprocessing import LabelEncoder

### Carga inicial de las archivos:

In [None]:
actividad_dia = pd.read_csv("/kaggle/input/fitbit/Fitabase Data 4.12.16-5.12.16/dailyActivity_merged.csv", skipinitialspace = True)

peso_dia = pd.read_csv("/kaggle/input/fitbit/Fitabase Data 4.12.16-5.12.16/weightLogInfo_merged.csv", skipinitialspace = True)

sueño_dia = pd.read_csv("/kaggle/input/fitbit/Fitabase Data 4.12.16-5.12.16/sleepDay_merged.csv", skipinitialspace = True)

# nota: con skipinitialspace = True se remueven posibles espacios en blanco iniciales de cada valor presente en el dataframe.


### Secuencia para al inspeccion, limpieza y manipulacion de los datos.

* Observar y familiarizarse con los datos.

* Comprobar valores nulos o faltantes

* Realizar verificación de sentido común en los datos

## Inspección inicial de datasets


In [None]:
actividad_dia.head()

In [None]:
peso_dia.head()

In [None]:
sueño_dia.head()

## Idea general para la preparación de datos

* Se va explorar en más detalle cada dataset. 
* Se debe corregir el campo fecha, algunos dataset presetan formato date-time
* Se debe evaluar que existan la cantidad de id únicos para poder evaluar y unir estos datasets.

### A priori un merge (join) de id y fecha entre estos dataset, puede producir un dataset que sea util para poder evaluar multiples atributos de relevancia (horas de sueño, variación de peso diario, calorias y actividad diaria).
	* En la exploración se encontró que el dataset de peso_dia solo tiene 8 id únicos y no 30 como se informaba en la encuesta. Por lo tanto queda descartado para ser incluido en el merge (join).
    * En la exploración se encontró que el dataset de sueño_dia solo tiene 24 id únicos y no 30 como se informaba en la encuesta. 
    * Puede ser considerado para ser el merge (join) con el dataset de actividad_dia.
    * Se descarta la idea general, debido a que al hacer el merge (join) por id y fecha entre los dataset de actividad_dia y sueño_dia solo se tiene como resultado 412 observaciones. Lo que es insuficiente para hacer cualquier recomendación. 
             
### Se continua analizando unicamente el dataset actividad_dia

##                                                        Dataset actividad_dia

In [None]:
#### se remueven posibles observaciones duplicadas del dataset.
actividad_dia.drop_duplicates() 

### Entendiendo el contexto del dataset.

#### **Id**: Es un identificador único para cada registro de actividad de un participante de la encuesta.

#### **Activity Date**: Es la fecha en la que se registraron los datos de actividad.

#### **Total Steps**: Es la cantidad total de pasos dados durante la actividad registrada.

#### **Total Distance(km)**: Es la distancia total recorrida durante la actividad registrada, medida en la unidad de longitud configurada en tu reloj inteligente.

#### **Tracker Distance (km)**: Es la distancia recorrida según los datos del dispositivo rastreador en tu reloj inteligente.

#### **Logged Activities Distance (km)**: Es la distancia recorrida durante las actividades registradas manualmente, como nadar o andar en bicicleta.

#### **Very Active Distance (km)**: Es la distancia recorrida durante las actividades de alta intensidad, como correr o hacer ejercicio de cardio.

#### **Moderately Active Distance (km)**: Es la distancia recorrida durante las actividades de intensidad moderada, como caminar a un ritmo constante.

#### **Light Active Distance (km)**: Es la distancia recorrida durante las actividades ligeras, como estiramientos o tareas domésticas.

#### **Sedentary Active Distance (km)**: Es la distancia recorrida mientras se está sentado o realizando actividades sedentarias.

#### **Very Active Minutes**: Es el tiempo total dedicado a actividades de alta intensidad durante la actividad registrada.

#### **Fairly Active Minutes**: Es el tiempo total dedicado a actividades de intensidad moderada durante la actividad registrada.

#### **Lightly Active Minutes**: Es el tiempo total dedicado a actividades ligeras durante la actividad registrada.

#### **Sedentary Minutes**: Es el tiempo total dedicado a actividades sedentarias durante la actividad registrada.

#### **Calories**: Es la cantidad de calorías quemadas durante la actividad registrada.

In [None]:
# información acerca de la estructura del dataset
actividad_dia.info()

### No se observan valores Null en ningun  valor del dataset.

### Error en tipo de dato de ActivityDate --> object
 * Se debe hacer un casteo para convertirlo a Date

In [None]:
# Error en tipo de dato: ActivityDate esta como object --> se lo cambia a DATE con formato YYYY-MM-DD
actividad_dia["ActivityDate"] = pd.to_datetime(actividad_dia["ActivityDate"], format="%m/%d/%Y")


In [None]:
# revisamos que cast haya sido exitoso.
actividad_dia.dtypes

In [None]:
# se inspecciona que el cast no hayan afectado los datos.
actividad_dia.head(3)

### Se buscan valores atipicos y se evalua si deben ser o no eliminados. 

In [None]:
# Resumen estadistico. 
actividad_dia.describe()

#### El minimo nos indica que existen observaciones que estan completamente en 0, puede que el dispositivo no se haya usado ese día o se haya usado brevemente.
#### Existe un maximo de 28.03 km y 4900 calorias, lo cual es posible para un atleta de alto rendimiento. Se mantienen estas observaciones de alto desempeño.

### Se investiga cuantas observaciones tienen sus  cantidad de pasos en 0 y un consumo de calorias muy bajo <= 99
#### * Se decide eliminar estas observaciones debido a que las considero erroneas ( no se uso el dispositivo o uso breve del dispositivo) y afectan los resultados finales.

In [None]:
# se investiga cuantas observaciones no tienen sus observaciones en 0.
sin_pasos = actividad_dia["TotalSteps"] == 0
pocas_calorias = actividad_dia["Calories"] <= 99 # se busca aquellas observaciones que fueron producto de usar brevemente el dispositivo
dias_sin_actividad = actividad_dia[sin_pasos | pocas_calorias ]
dias_sin_actividad.info()
dias_sin_actividad.head(10)               

### Se decide eliminar estas observaciones al no presentar información.

In [None]:
sin_pasos = actividad_dia["TotalSteps"] == 0
pocas_calorias = actividad_dia["Calories"] <= 99 # se busca aquellas observaciones que fueron producto de usar brevemente el dispositivo
actividad_dia.drop(actividad_dia[sin_pasos | pocas_calorias ].index, inplace=True)
actividad_dia.shape # vemos si se eliminaron las observaciones

### Se decide investigar si existe alguna error en las observaciones de aquellos participantes con alto consumo de calorias.

In [None]:
dias_alta_actividad = actividad_dia.Calories >= 2794
alto_rendimiento = actividad_dia[dias_alta_actividad]
alto_rendimiento.info()
alto_rendimiento.head(100)

* ### A priori no se encontran problemas con los valores presentes.

### La cantidad de ID unicos debe ser igual a 30.

In [None]:
cantidad_id_unicos = len(pd.unique(actividad_dia["Id"]))
print("cantidad de id unicos es igual a:", cantidad_id_unicos)

#### Existen 3 Id que estan de más, si estos no se encuentra en los otros dataset, al hacer el join estos no seran contemplados en el análisis.

In [None]:
actividad_dia.head()

In [None]:
# Se agrega la columna dayOfWeek para cada fecha en el dataset.
actividad_dia["dayOfWeek"] = actividad_dia["ActivityDate"].dt.day_name()


In [None]:
actividad_dia.head(3)

In [None]:
# renombramos el atributo ActivityDate por TimeOfReport
actividad_dia = actividad_dia.rename(columns={"ActivityDate": "DateOfReport"})

In [None]:
# vemos el cambio
actividad_dia.dtypes

In [None]:
actividad_dia.head()

# Etapa de Análisis

## Se describen las estadisticas principales del dataset.

* conteo - no.de observaciones
* media (promedio)
* Desviación Estándar
* mínimo y máximo
* percentiles 25%, 50%, 75%

In [None]:
actividad_dia.describe()

## Centro mi atención para en el analisis en:
* ### El atributo caloria y su relación con los niveles de actividades de los participantes, 
	* Puede contener información valiosa para la campaña de marketing

In [None]:
sns.histplot(actividad_dia['Calories'],kde=True);

### Análisis:

Se observa un histograma bimodal con un sesgo a derecha. 
Los dos picos donde se concentran el mayor número de observaciones de los participantes (aprox. el rango IRQ).
* El primer pico esta entorno al las 2000 calorias, valor muy cercano a la mediana.
	* Estas observaciones perteneces a las participantes con poco o ninguna actividad diaria, en la cual el [dispositivo](https://help.fitbit.com/articles/es/Help_article/1141.htm) solo registro un aproximado de la cantidad de calorias que el participante gasto solo por realizar las [actividades minimas](https://www.nhs.uk/live-well/healthy-weight/managing-your-weight/understanding-calories/) 
* El segundo pico esta entorno a las 2800 calorias.
	* Estas observaciones pertenecen a los participantes con algun tipo de actividad diaria. Esta fue registrada por el dispositivo.
* Existe una "cola" que va reduciendo que va desde los los 3200 a las 4900 calorias.
	* Estas observaciones las clasifico como aquellos participantes que realizan actividades diaria más prolongada o más intensa.
* Existen unas  observaciones con un consumo de calorias menor a 1200 calorias. 
	* Sin información adicional acerca del sexo, edad, peso etc de los participantes Estoy propenso a pensar a que estas observaciones son producto de usar poco tiempo el dispositivo a lo largo del día.

In [None]:
atributos_interes = ['Calories', 'VeryActiveMinutes', 'FairlyActiveMinutes', 'LightlyActiveMinutes', 'SedentaryMinutes']
correlacion_atributos = actividad_dia[atributos_interes]

correlaciones = correlacion_atributos.corr()

sns.heatmap(correlaciones, annot=True)

### Interpretación:
    
* Claramente se ve una correlación moderada (c= 0.61), entre el tiempo utilizado en actividades intensas y el consumo de calorías. Lo que indica que al aumentar el tiempo realizando este tipo de actividad la cantidad de calorías gastadas también aumente. Los demás tiempos de de actividad (moderadas e ligeras) también muestran una correlación positiva, aunque solo baja y muy baja.
    
* Se nota ademas que correlación negativa(c= -0.044) entre las calorías gastadas y los minutos sedentarios del participante. Esto significa que al aumentar los minutos sedentarios
    del participante se produce un decremento en la cantidad de calorías gastadas.
    
    * la correlación no implica causalidad.

## Detalle del análisis:

* Se va a realizar una comparación entre los diferente niveles de actividades y el nivel de calorías que se consumen.
    
* Se selecciona el consumo de calorías en el rango IRQ (25% al 75%) y  las calorías que están encima del IRQ hasta el máximo ( >75% al 100%). 

### Dataset nivel_actividad_frecuente: Se selecciona el consumo de calorías en el rango IRQ (25% al 75%)

In [None]:
# Este rango corresponde aproximandamente al inicio del primer pico hasta aproximadamente el sengundo pico del histograma.

IRQ_Q1 = 1856.7
IRQ_Q3 = 2832

nivel_actividad_frecuente = actividad_dia[((actividad_dia["Calories"] >= IRQ_Q1) & (actividad_dia["Calories"] <= IRQ_Q3))]
print("Este dataset tiene una cantidad de (observaciones, atributos) =",nivel_actividad_frecuente.shape)
print("En este dataset existen observaciones de:",len(pd.unique(nivel_actividad_frecuente["Id"])),"participantes de la encuesta")


### Analizando el dataset de nivel_actividad_frecuente

In [None]:
nivel_actividad_frecuente.describe()

In [None]:
# Calculamos los diferentes tipos de actividad para el dataset de nivel_actividad_frecuente.
actividad_intensa_min = nivel_actividad_frecuente["VeryActiveMinutes"].sum()
actividad_moderada_min = nivel_actividad_frecuente["FairlyActiveMinutes"].sum()
actividad_ligera_min = nivel_actividad_frecuente["LightlyActiveMinutes"].sum()
actividad_sedentaria_min = nivel_actividad_frecuente["SedentaryMinutes"].sum()


# Creando el gráfico de circular
slices = [actividad_intensa_min, actividad_moderada_min, actividad_ligera_min, actividad_sedentaria_min]
labels = ["actividad intensa min", "actividad moderada min", "actividad ligera min", "actividad sedentaria min"]
colours = ["indianred", "orange", "cornflowerblue", "peru"]
explode = [0.0, 0.2, 0.0, 0.1]
plta.style.use("ggplot")
plta.pie(slices, labels = labels, 
        colors = colours, wedgeprops = {"edgecolor": "yellow"}, 
        explode = explode, autopct = "%1.1f%%")
plta.title("Porcentaje de los tipos de actividad más frecuentes en minutos")
plta.tight_layout()
plta.show()

### Análisis: Porcentaje de los tipos de actividad más frecuentes en minutos

* Teniendo el cuenta el nivel de intensidad de las diferentes actividades se nota que las actividades ligeras son las más populas ya sea porque se hacen ejercicios ligeros o por las actividades del día a día que se registran como tales.
* Las actividades intensas son mas populares que las moderadas.
* Este tipo de actividades son las más [beneficios](https://www.who.int/es/news-room/fact-sheets/detail/physical-activity) tienen para la salud. 


In [None]:
atributos = ['Calories','dayOfWeek']
df_actividad_frec = nivel_actividad_frecuente[atributos]
box_plot_calorias = sns.catplot(data=df_actividad_frec, x="dayOfWeek", y="Calories", kind="box")
box_plot_calorias.set_xticklabels(rotation=45)
box_plot_calorias.set(title='Gasto de calorias en días de la semana (Rango IRQ)')
box_plot_calorias

### Análisis: Gasto de calorías en días de la semana (Rango IRQ) 

* Se observa un ligero aumento en el gasto de calorías los días Domingos. Esto podría estar asociado a una mayor cantidad de actividades físicas en estos días.

* Se observa una gran dispersión en el gasto de calorías durante los días de la semana, en general podemos decir que este gasto se encuentra dentro de lo [normal](https://www.nhs.uk/common-health-questions/food-and-diet/what-should-my-daily-intake-of-calories-be/#:~:text=Generally%2C%20the%20recommended%20daily%20calorie,women%20and%202%2C500%20for%20men.), pero es un calculo complejo que depende de una multitud de factores. Según lo investigado este Fitbit toma una multitud de variables, entre ellas están: el peso, altura, edad y el metabolismo basal (consumo de calorías que el organismo consume por estar vivo) para realizar las estimación del gasto de calorías diarios. Se interpreta que estos resultado se relacionan a observaciones de actividades de los participantes que realizaron poca o ninguna actividad física.


### Dataset nivel_actividad_frecuente: Se selecciona el consumo de calorías en el rango Q3 a Max 

In [None]:
# Este rango corresponde aproximandamente al fin del segundo pico hasta los valores más altos del histograma.
IRQ_Q3 = 2833
Max = 4900

nivel_actividad_alta = actividad_dia[((actividad_dia["Calories"] >= IRQ_Q3) & (actividad_dia["Calories"] <= Max))]
print("Este dataset tiene una cantidad de (observaciones, atributos) =",nivel_actividad_alta.shape)
print("En este dataset existen observaciones de:",len(pd.unique(nivel_actividad_alta["Id"])),"participantes de la encuesta")

## Analizando el dataset de nivel_actividad_alta

In [None]:
nivel_actividad_alta.describe()

In [None]:

# Calculamos los diferentes tipos de actividad para el dataset de nivel_actividad_frecuente.
actividad_intensa_min = nivel_actividad_alta["VeryActiveMinutes"].sum()
actividad_moderada_min = nivel_actividad_alta["FairlyActiveMinutes"].sum()
actividad_ligera_min = nivel_actividad_alta["LightlyActiveMinutes"].sum()
actividad_sedentaria_min = nivel_actividad_alta["SedentaryMinutes"].sum()

import matplotlib.pyplot as plta

# Creando el gráfico de circular
slices = [actividad_intensa_min, actividad_moderada_min, actividad_ligera_min, actividad_sedentaria_min]
labels = ["actividad intensa min", "actividad moderada min", "actividad ligera min", "actividad sedentaria min"]
colours = ["indianred", "orange", "cornflowerblue", "peru"]
explode = [0.0, 0.2, 0.0, 0.1]
plta.style.use("ggplot")
plta.pie(slices, labels = labels, 
        colors = colours, wedgeprops = {"edgecolor": "yellow"}, 
        explode = explode, autopct = "%1.1f%%")
plta.title("Alto consumo de calorias y los tipos de actividad más frecuentes")
plta.tight_layout()
plta.show()

### Análisis: Consumo de calorías alto y el porcentaje de los tipos de actividad más frecuentes en minutos

* Teniendo el cuenta el nivel de intensidad de las diferentes actividades se nota que las actividades ligeras son las más populares, ya sea porque se hacen ejercicios ligeros o por las actividades del día a día que se registran como tales.
* Las actividades intensas son el doble de populares que las moderadas.
* Este tipo de actividades son las más [beneficios](https://www.who.int/es/news-room/fact-sheets/detail/physical-activity) tienen para la salud. 

* Si comparamos los resultados de los tiempos que se utilizan para cada tipo de actividad entre las observaciones dentro del rango IRQ y entre Q3 a Max, se nota que las actividades intensas crecen 4 veces más  y las moderadas casi el doble. 

In [None]:
atributos = ['Calories','dayOfWeek']
df_actividad_alta = nivel_actividad_alta[atributos]
box_plot_calorias = sns.catplot(data=df_actividad_alta, x="dayOfWeek", y="Calories", kind="box")
box_plot_calorias.set(xlabel='días de la semana', ylabel='Calorias')
box_plot_calorias.set_xticklabels(rotation=45)
box_plot_calorias.set(title='Gasto de calorias durante una semana intensa (Rango Q3 a Max)')


### Análisis: Gasto de calorías en días de la semana (Rango Q3 a Max) 

#### Para las observaciones de los participantes que registraron un alto consumo de calorías se interpreta que:

#### * Se observa un ligero aumento en el gasto de calorías los días Sábados y Domingos.
		* Esto podría estar asociado a una mayor cantidad de actividades físicas en estos días.
    	* Esto podría estar asociado a cierta popularidad de hacer estas actividades en estos días específicos.																	
                                                                            
#### * Se observa que los días Lunes, Martes, Miércoles y Jueves en consumo de calorías se mantiene alto y existe una gran dispersión. 
		* Esto podría estar asociado la realización de actividades físicas de manera regular.

# Etapa de Compartir

 ### A partir del objetivo planteado, se llevan a cabo recomendaciones para mejorar su campaña de marketing en base al análisis realizado previamente:
    

* #### Enfatizar la importancia de la monitorización: La monitorización de la actividad física es un aspecto clave de la tecnología de Bellabeat. La empresa podría destacar la importancia de la monitorización de la actividad física en su publicidad, y así atraer a usuarios interesados en mejorar su salud y bienestar.
* #### Enfatizar la importancia de un control inteligente para la realización de actividades fisica: Establecer  objetivos, recordatorios y los tiempos adecuados diarios para cada nivel de actividad (ligero, moderado, intenso) para permitir cumplir con las recomendaciones mininas de ejercicio establecidas por organismos reconocidos.
* #### Diseñar campañas enfocadas en los fines de semana: Según los datos, los usuarios tienen un gasto calórico mayor los fines de semana, lo que sugiere que están más activos en estos días. Bellabeat podría diseñar campañas publicitarias enfocadas en promover actividades para el fin de semana y así aumentar la cantidad de usuarios activos durante estos días.
* #### Enfatizar los efectos negativos del sedentarismo y como los Bellabeat a traves de sus dispositivos proporciona alertas y recordatorias para mantener una vida activa.
* #### Enfatizar las nuevos retos y rutinas de ejercicios intenso que Bellabeat proporciona todas las semanas.
* #### Enfatizar sobre la importancia de los estiramientos y tiempos de recuperación inteligente que Bellabeat proporciona antes y luego de la realización de las actividades físicas.