## Tarea semana 3: Prueba de hipótesis para la diferencia de medias

### Caso de negocio: Stats Health

En un mundo cada vez más digitalizado, la atención médica remota ha emergido como una solución crucial para superar barreras geográficas y mejorar la accesibilidad a los servicios de salud. En este contexto, Stats Health ha desarrollado una plataforma de telemedicina de vanguardia que integra tecnología de punta para brindar atención médica a distancia a pacientes de todo el mundo. La plataforma de telemedicina de Stats Health ofrece una variedad de servicios, desde consultas médicas virtuales hasta monitoreo de pacientes en tiempo real. Los datos recopilados a través de la plataforma son diversos y abarcan desde la efectividad del sistema hasta la satisfacción del usuario y las características demográficas de los pacientes.

Recientemente, Stats Health ha desarrollado una plataforma de telerehabilitación innovadora que utiliza la tecnología Kinect para proporcionar terapia remota a pacientes. La plataforma ha sido diseñada para ayudar a los pacientes a realizar ejercicios de rehabilitación desde la comodidad de sus hogares, lo que elimina las barreras geográficas y mejora la accesibilidad a la atención médica. Uno de los aspectos clave de la experiencia del usuario en la plataforma de telerehabilitación de Stats Health es el tiempo que los usuarios tardan en completar los ejercicios de rehabilitación.

El objetivo es determinar si hay evidencia estadística suficiente para concluir que existe una diferencia significativa en el tiempo requerido para completar los ejercicios entre los dos grupos de género. Este análisis proporcionará información valiosa para mejorar la experiencia del usuario y personalizar la plataforma de telerehabilitación de acuerdo con las necesidades y características de diferentes grupos de usuarios. Considera que eres parte del equipo de analistas de Stats Health y se te ha encomendado encontrar posibles causas y soluciones a este problema.


- La empresa Stats Health está desarrollando un análisis de [usabilidad](https://en.wikipedia.org/wiki/Usability) de un nuevo sistema informático de tele-rehabilitación para pacientes de artroplastia de cadera.
  - Vea: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8606428

- Stats Health ha recopilado un dataset acerca de la usabilidad de la interfaz del sistema que contiene:
  - Variables de uso de la aplicación: **Time**, y la escala de usabilidad dada por el usuario: **SUS**.
  - Variables demográficas del usuario, Género (**Gender**), Edad (**Age**), entre otras.
  
Uno de los aspectos clave de la experiencia del usuario en la plataforma de telerehabilitación de Stats Health es el tiempo que los usuarios tardan en completar los ejercicios de rehabilitación. La empresa está interesada en comprender si hay diferencias significativas en el tiempo requerido para completar los ejercicios entre los usuarios de diferentes géneros.

Con el fin de abordar esta pregunta, Stats Health ha encargado un estudio de inferencia estadística para comparar las medias del tiempo requerido para completar los ejercicios entre grupos de usuarios masculinos y femeninos. El objetivo es determinar si hay evidencia estadística suficiente para concluir que existe una diferencia significativa en el tiempo requerido para completar los ejercicios entre los dos grupos de género. Este análisis proporcionará información valiosa para mejorar la experiencia del usuario y personalizar la plataforma de telerehabilitación de acuerdo con las necesidades y características de diferentes grupos de usuarios.

**Archivo de datos:**  

- [UX_data.csv](https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d8f05f3905fce97c1f7636a2/data/UX_data.csv)

- Lea el archivo csv y ordene las variables categóricas de una manera adecuada. 
  
```Python
import pandas as pd
import seaborn as sns

data = pd.read_csv("../data/UX_data.csv")  # si la estructura es la del repositorio de GitHub

# si está trabajando en local y el archivo de datos y el notebook están en el mismo directorio
# data = pd.read_csv("UX_data.csv") 

# También puede leer el archivo desde el repositorio de GitHub.
#data = pd.read_csv("https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d8f05f3905fce97c1f7636a2/data/UX_data.csv")

data['Age'] = pd.Categorical(data['Age'],
                                   categories=['twenty', 'thirty', 'forty'],
                                   ordered=True)
data.head()
```

- Encabezado de nuestro datasest.

|    |   SUS |   Time | ID      | Gender   | Age    | Kinect   | NUI     | Games   |
|---:|------:|-------:|:--------|:---------|:-------|:---------|:--------|:--------|
|  0 |  42.5 |  179.3 | student | M        | twenty | high     | average | high    |
|  1 |  92.5 |  153.3 | student | M        | twenty | high     | high    | high    |
|  2 |  95   |  135.7 | student | M        | twenty | average  | average | high    |
|  3 |  92.5 |  148.3 | student | F        | twenty | average  | high    | high    |
|  4 |  80   |  148   | student | M        | twenty | average  | average | high    |

**Variables:**

- SUS (System Usability Scale): Escala de Usabilidad del Sistema. 
  - Un valor entre 0 y 100, dado por el usuario al evaluar el sistema informático. 
  - Ver: https://www.usability.gov/how-to-and-tools/methods/system-usability-scale.html

- Time: Tiempo en que el usuario realizó la prueba del sistema. 

- Gender: M (Male, masculino), F (Female, Femenino).

- Age: twenty (veinte añeros), thirty (treinta añeros), forty (cuarenta añeros).
    
### Instrucciones generales
  
**Prueba de Hipótesis para Diferencia de Medias entre Grupos (Gender):**

La empresa Stats Health ha llevado a cabo un análisis de usabilidad de un nuevo sistema informático de tele-rehabilitación para pacientes de artroplastia de cadera. En este estudio, se recopiló un dataset que incluye información sobre el tiempo de uso del sistema (variable Time) y el género de los usuarios (variable Gender), entre otras variables.

El objetivo de esta prueba de hipótesis es investigar si hay diferencias significativas en el tiempo de uso del sistema entre los diferentes grupos de género (Male y Female). Primero, se realizará una prueba para comprobar si las varianzas del tiempo de uso son iguales entre los grupos. Luego, se llevará a cabo una prueba de medias para determinar si hay diferencias significativas en el tiempo de uso entre los grupos de género.

**Instrucciones para la Prueba:**

1. **Prueba de Igualdad de Varianzas:**
   - **Hipótesis Nula (H0):** Las varianzas del tiempo de uso son iguales entre los grupos de género.
   - **Hipótesis Alternativa (H1):** Las varianzas del tiempo de uso no son iguales entre los grupos de género.
   - Se utilizará una prueba estadística apropiada para evaluar esta hipótesis.

2. **Prueba de Diferencia de Medias:**
   - **Hipótesis Nula (H0):** No hay diferencia significativa en el tiempo de uso del sistema entre los grupos de género.
   - **Hipótesis Alternativa (H1):** Existe una diferencia significativa en el tiempo de uso del sistema entre los grupos de género.
   - Se llevará a cabo una prueba estadística apropiada (por ejemplo, la prueba t de Student) para evaluar esta hipótesis.
   - Asuma varianzas iguales o no, de acuerdo al resultado de la prueba de igualdad de varianzas. 

**Entrega de Resultados:**
Se deben proporcionar los resultados de ambas pruebas, incluyendo las estadísticas de prueba, los valores p y cualquier otra información relevante. Además, se debe interpretar y discutir los resultados obtenidos, considerando su relevancia para el análisis de usabilidad del sistema de tele-rehabilitación.
  
### OPCIÓN 1: LOW-CODE Y RÉPLICA DE NOTEBOOK

1.**(2 pt)** Escriba el código Python para construir un diagrama de cajas que muestre el género (**Gender**) en $x$ y el tiempo de ejecución de la tarea (**Time**) en $y$.
  - **Discuta:** Observa diferencia en el tiempo de ejecución de la tarea en sistema (Time) realizada por los usuarios de acuerdo al género (Gender). Realice el análisis con respecto a la información mostrada en el diagrama de cajas (resumen de 5 puntos, posición (de los cuartiles), dispersión (IQR, bigotes), etc.).
  
- Vea la [siguiente sección](https://nbviewer.org/github/marsgr6/EN-online/blob/main/exploratory_data_analysis.ipynb#txdxs)

- **Código basee:**
```Python
sns.boxplot(data=data, x="columna_categorica", y="columna_numerica", hue="columna_categorica")
```
  
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Gender_vs_Time.png)

2.**(2 pt)** Escriba el código Python para construir un diagrama de líneas con barras de error (CI: 0.95) que muestre el género (**Gender**) en $x$ y el tiempo de ejecución de la tarea (**Time**) en $y$.
  - **Discuta:** Observa diferencia en el tiempo de ejecución de la tarea en sistema (Time) por los usuarios de acuerdo al género (Gender). 
  
- **Código basee:**
```Python
sns.lineplot(data=data, x="columna_categorica", y="columna_numerica", err_style="bars", errorbar=('ci', 68))
```
  
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Gender_vs_Time_eb.png)

3.**(2 pt)** Escriba el código Python para construir un diagrama de densidad que muestre el género (**Gender**) en $x$ y el tiempo de ejecución de la tarea (**Time**) en $y$.
  - **Discuta:** Observa diferencia en el tiempo de ejecución de la tarea en sistema (Time) por los usuarios de acuerdo al género (Gender). 
  
- **Código basee:**
```Python
sns.kdeplot(data=data, x="columna_numerica", hue="columna_categorica", common_norm=False, fill=True)
```

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Gender_vs_Time_kde.png)

### Prueba de hipótesis para la diferencia de medias

4.**(2 pt)** Realice una prueba de dos varianzas para los grupos masculino y femenino (**Gender**). 
  - **Discuta** los resultados. 

```Python  
from scipy.stats import levene

hombres = data.query("Gender=='M'")["Time"]
mujeres = data.query("Gender=='F'")["Time"]

levene(grupo_1, grupo_2)
 ```
 
- Resultado esperado:

```
LeveneResult(statistic=1.9540611787515463, pvalue=0.1731268834510407)
```

5.**(2 pt)** A partir de la prueba anterior realice una prueba de diferencias de medias para los grupos masculino y femenino (**Gender**).
  - Debe decidir si usar varianzas iguales o no, a partir de la prueba anterior.
  - Vea la [siguiente sección](https://nbviewer.org/github/marsgr6/EN-online/blob/main/statistical_tests.ipynb#varnotequal)
  - **Discuta** los resultados. 
  
```Python  
from scipy.stats import ttest_ind

mx = mujeres.mean()
my = hombres.mean()

# Asumimos varianzas iguales equal_var=True
# Asumimos varianzas no_iguales equal_var=False
# y prueba de dos colas alternative='two-sided'
# alternative: {'two-sided', 'less', 'greater'}
ttest_ind(mujeres, hombres, 
          equal_var=True, alternative='two-sided'), "Diferencia", mx - my
```
 
- Resultado esperado:

```
(TtestResult(statistic=2.8304210808891264, pvalue=0.00850683391306472, df=28.0),
 'Diferencia',
 22.034999999999968)
```

### OPCIÓN 2: REPORTE EJECUTIVO PARA GERENCIA

- **Elabore un informe ejecutivo** discutiendo las figuras y resultados anteriores, puntos 1 a 5 de la Opción Low Code.

El reporte ejecutivo debe tener una extensión máxima de 3 páginas. Crea un documento en word que incluya lo siguiente:
  1. Descripción general del problema empresarial: explica el contexto o problema empresarial y el enfoque analítico. 
  2. Diccionario de variables o base de datos: describe los datos utilizados para el análisis. 
  3. Análisis exploratorio de datos: utiliza los gráficos del notebook para interpretar los datos utilizados acorde al contexto empresarial.
  4. Interpretación de las técnicas de inferencia estadística: explica por qué las pruebas de hipótesis usadas son adecuadas para este problema. También incluye una interpretación de los resultados de dichas técnicas con detalle. **Los resultados (de las pruebas de hipótesis) están disponibles en las secciones 1 a 5 de la Opción Low Code.** 
  5. Conclusión y Recomendaciones: ofrece recomendaciones gerenciales y sugerencias estratégicas que permita a la empresa tomar decisiones.
  
La explicación en todas las secciones del reporte ejecutivo debe ser detallado, justificado y relacionado al contexto o problema empresarial. Está información será utilizada por el director de tele rehabilitación de Stats Health y un reporte ambiguo podría causar toma de decisiones incorrectas y pérdida de dinero.