## Tarea semana 2: Prueba de hipótesis para la diferencia de medias

### Problema: Stats Health

- La empresa Stats Health está desarrollando un análisis de [usabilidad](https://en.wikipedia.org/wiki/Usability) de un nuevo sistema informático de tele-rehabilitación para pacientes de artroplastia de cadera.
  - Vea: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8606428

- Stats Health ha recopilado un dataset acerca de la usabilidad de la interfaz del sistema que contiene:
  - Variables de uso de la aplicación: **Time**, y la escala de usabilidad dada por el usuario: **SUS**.
  - Variables demográficas del usuario, Género (**Gender**), Edad (**Age**), entre otras.

**Archivo de datos:**  

- [UX_data.csv](https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d8f05f3905fce97c1f7636a2/data/UX_data.csv)

- Lea el archivo csv y ordene las variables categóricas de una manera adecuada. 
  
```Python
import pandas as pd
import seaborn as sns

data = pd.read_csv("../data/UX_data.csv")  # si la estructura es la del repositorio de GitHub

# si está trabajando en local y el archivo de datos y el notebook están en el mismo directorio
# data = pd.read_csv("UX_data.csv") 

# También puede leer el archivo desde el repositorio de GitHub.
#data = pd.read_csv("https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d8f05f3905fce97c1f7636a2/data/UX_data.csv")

data['Age'] = pd.Categorical(data['Age'],
                                   categories=['twenty', 'thirty', 'forty'],
                                   ordered=True)
data.head()
```

- Encabezado de nuestro datasest.

|    |   SUS |   Time | ID      | Gender   | Age    | Kinect   | NUI     | Games   |
|---:|------:|-------:|:--------|:---------|:-------|:---------|:--------|:--------|
|  0 |  42.5 |  179.3 | student | M        | twenty | high     | average | high    |
|  1 |  92.5 |  153.3 | student | M        | twenty | high     | high    | high    |
|  2 |  95   |  135.7 | student | M        | twenty | average  | average | high    |
|  3 |  92.5 |  148.3 | student | F        | twenty | average  | high    | high    |
|  4 |  80   |  148   | student | M        | twenty | average  | average | high    |

**Variables:**

- SUS (System Usability Scale): Escala de Usabilidad del Sistema. 
  - Un valor entre 0 y 100, dado por el usuario al evaluar el sistema informático. 
  - Ver: https://www.usability.gov/how-to-and-tools/methods/system-usability-scale.html

- Time: Tiempo en que el usuario realizó la prueba del sistema. 

- Gender: M (Male, masculino), F (Female, Femenino).

- Age: twenty (veinte añeros), thirty (treinta añeros), forty (cuarenta añeros).
    
### Instrucciones generales
  
**Prueba de Hipótesis para Diferencia de Medias entre Grupos (Gender):**

La empresa Stats Health ha llevado a cabo un análisis de usabilidad de un nuevo sistema informático de tele-rehabilitación para pacientes de artroplastia de cadera. En este estudio, se recopiló un dataset que incluye información sobre el tiempo de uso del sistema (variable Time) y el género de los usuarios (variable Gender), entre otras variables.

El objetivo de esta prueba de hipótesis es investigar si hay diferencias significativas en el tiempo de uso del sistema entre los diferentes grupos de género (Male y Female). Primero, se realizará una prueba para comprobar si las varianzas del tiempo de uso son iguales entre los grupos. Luego, se llevará a cabo una prueba de medias para determinar si hay diferencias significativas en el tiempo de uso entre los grupos de género.

**Instrucciones para la Prueba:**

1. **Prueba de Igualdad de Varianzas:**
   - **Hipótesis Nula (H0):** Las varianzas del tiempo de uso son iguales entre los grupos de género.
   - **Hipótesis Alternativa (H1):** Las varianzas del tiempo de uso no son iguales entre los grupos de género.
   - Se utilizará una prueba estadística apropiada para evaluar esta hipótesis.

2. **Prueba de Diferencia de Medias:**
   - **Hipótesis Nula (H0):** No hay diferencia significativa en el tiempo de uso del sistema entre los grupos de género.
   - **Hipótesis Alternativa (H1):** Existe una diferencia significativa en el tiempo de uso del sistema entre los grupos de género.
   - Se llevará a cabo una prueba estadística apropiada (por ejemplo, la prueba t de Student) para evaluar esta hipótesis.
   - Asuma varianzas iguales o no, de acuerdo al resultado de la prueba de igualdad de varianzas. 

**Entrega de Resultados:**
Se deben proporcionar los resultados de ambas pruebas, incluyendo las estadísticas de prueba, los valores p y cualquier otra información relevante. Además, se debe interpretar y discutir los resultados obtenidos, considerando su relevancia para el análisis de usabilidad del sistema de tele-rehabilitación.
  
### Instrucciones específicas

1.**(2 pt)** Escriba el código Python para construir un diagrama de cajas que muestre el género (**Gender**) en $x$ y el tiempo de ejecución de la tarea (**Time**) en $y$.
  - **Discuta:** Observa diferencia en el tiempo de ejecución de la tarea en sistema (Time) realizada por los usuarios de acuerdo al género (Gender). Realice el análisis con respecto a la información mostrada en el diagrama de cajas (resumen de 5 puntos, posición (de los cuartiles), dispersión (IQR, bigotes), etc.).
  
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Gender_vs_Time.png)

2.**(2 pt)** Escriba el código Python para construir un diagrama de líneas con barras de error (CI: 0.95) que muestre el género (**Gender**) en $x$ y el tiempo de ejecución de la tarea (**Time**) en $y$.
  - **Discuta:** Observa diferencia en el tiempo de ejecución de la tarea en sistema (Time) por los usuarios de acuerdo al género (Gender). 
  
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Gender_vs_Time_eb.png)

3.**(2 pt)** Escriba el código Python para construir un diagrama de densidad que muestre el género (**Gender**) en $x$ y el tiempo de ejecución de la tarea (**Time**) en $y$.
  - **Discuta:** Observa diferencia en el tiempo de ejecución de la tarea en sistema (Time) por los usuarios de acuerdo al género (Gender). 
  
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Gender_vs_Time_kde.png)

### Prueba de hipótesis para la diferencia de medias

4.**(2 pt)** Realice una prueba de dos varianzas para los grupos masculino y femenino (**Gender**). 
  - Escriba (reutilce) el código Python.
  - **Discuta** los resultados. 
  
5.**(2 pt)** A partir de la prueba anterior realice una prueba de diferencias de medias para los grupos masculino y femenino (**Gender**).
  - Escriba (reutilce) el código Python.
  - **Discuta** los resultados. 