## Tarea semana 1: Análisis descriptivo

### Caso de negocio: Stats Health

Stats Health es una empresa líder en el campo de la salud digital que se especializa en el desarrollo de soluciones innovadoras para mejorar la accesibilidad y eficacia de la atención médica. Con sede en una región tecnológica en crecimiento, Stats Health ha estado a la vanguardia de la integración de tecnología avanzada en el sector de la salud, buscando constantemente formas de mejorar la calidad de vida de los pacientes y facilitar el trabajo de los profesionales de la salud. En línea con su misión de proporcionar soluciones de salud accesibles y efectivas, Stats Health ha desarrollado una plataforma de telerehabilitación pionera que utiliza la tecnología Kinect. Esta plataforma permite a los pacientes acceder a sesiones de rehabilitación desde la comodidad de sus hogares, eliminando las barreras geográficas y mejorando la continuidad del cuidado. Con el fin de garantizar la efectividad y la satisfacción del usuario, la empresa reconoce la importancia de recopilar y analizar datos sobre la experiencia del usuario en su plataforma de telerehabilitación. Este análisis de datos descriptivo y exploratorio tiene como objetivo comprender mejor los patrones, tendencias y características de la experiencia del usuario, proporcionando así información valiosa para la evaluación y mejora continua de la plataforma.

- La empresa Stats Health está desarrollando un análisis de [usabilidad](https://en.wikipedia.org/wiki/Usability) de un nuevo sistema informático de tele-rehabilitación para pacientes de artroplastia de cadera.
  - Vea: https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8606428
  
- El problema planteado por Stats Health consiste en llevar a cabo un análisis detallado de la usabilidad de un nuevo sistema de tele-rehabilitación para pacientes de artroplastia de cadera. Para ello, han recopilado un dataset que incluye variables relacionadas con el uso de la aplicación, como el tiempo de uso (Time) y la escala de usabilidad (SUS) proporcionada por el usuario. Además, se han incluido variables demográficas del usuario, como género (Gender), edad (Age) e identificación (ID) como estudiante o empleado, así como información sobre la experiencia previa en el uso de tecnologías como Kinect, Natural User Interface y Games.

- El objetivo principal de este análisis es realizar un estudio descriptivo, tanto univariado como multivariado, de estas variables. Se pretende seleccionar los gráficos adecuados para representar tanto variables continuas como categóricas y mixtas, con el fin de comprender mejor cómo se relacionan el tiempo de uso y la usabilidad percibida con el resto de variables demográficas y de experiencia. El análisis proporcionará una visión más completa de cómo se comportan estas variables en conjunto, lo que permitirá a Stats Health obtener insights valiosos para mejorar la usabilidad de su sistema de tele-rehabilitación.

- Estudiar la usabilidad del sistema de tele rehabilitación es fundamental por varias razones:

  1. Mejora de la experiencia del usuario: La usabilidad adecuada garantiza que los pacientes puedan utilizar el sistema de manera efectiva y sin problemas, lo que mejora su experiencia y aumenta la probabilidad de que continúen con el tratamiento de rehabilitación.

  2. Efectividad del tratamiento: Un sistema de tele rehabilitación con una buena usabilidad puede aumentar la adherencia del paciente al tratamiento, lo que puede llevar a una recuperación más rápida y efectiva de lesiones o cirugías.

  3. Accesibilidad: La tele rehabilitación puede proporcionar acceso a servicios de rehabilitación a personas que de otra manera no podrían recibir tratamiento debido a barreras geográficas, físicas o de otro tipo. La usabilidad adecuada garantiza que el sistema sea accesible para todos los usuarios, independientemente de sus habilidades o limitaciones.

  4. Eficiencia del sistema de salud: La tele rehabilitación puede reducir la carga en los sistemas de salud al permitir que los pacientes reciban tratamiento en sus hogares, en lugar de tener que viajar a instalaciones médicas. Una buena usabilidad asegura que el sistema sea fácil de usar para los pacientes y los profesionales de la salud, lo que puede aumentar la eficiencia en la prestación de servicios de rehabilitación.

  Estudiar la usabilidad de un sistema de tele rehabilitación es crucial para garantizar que el tratamiento sea efectivo, accesible y eficiente, lo que puede mejorar significativamente la calidad de vida de los pacientes y optimizar los recursos del sistema de salud.

- Stats Health ha recopilado un dataset acerca de la usabilidad de la interfaz del sistema que contiene:
  - Variables de uso de la aplicación: **Time**, y la escala de usabilidad dada por el usuario: **SUS** y variables demográficas del usuario: Género (**Gender**), Edad (**Age**), entre otras.

**Archivo de datos:**  

- Lea el archivo csv y ordene las variables categóricas de una manera adecuada. 

  - [UX_data.csv](https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d8f05f3905fce97c1f7636a2/data/UX_data.csv)

- **Código base:** 

```Python
import pandas as pd
import seaborn as sns

# data = pd.read_csv("../data/UX_data.csv")  # si la estructura es la del repositorio de GitHub

# si está trabajando en local y el archivo de datos y el notebook están en el mismo directorio
# data = pd.read_csv("UX_data.csv") 

# También puede leer el archivo desde el repositorio de GitHub.
data = pd.read_csv("https://raw.githubusercontent.com/marsgr6/EN-online/8a1cee296279c274d8f05f3905fce97c1f7636a2/data/UX_data.csv")

data['Age'] = pd.Categorical(data['Age'],
                                   categories=['twenty', 'thirty', 'forty'],
                                   ordered=True)
data.head()
```

- Encabezado de nuestro datasest.

|    |   SUS |   Time | ID      | Gender   | Age    | Kinect   | NUI     | Games   |
|---:|------:|-------:|:--------|:---------|:-------|:---------|:--------|:--------|
|  0 |  42.5 |  179.3 | student | M        | twenty | high     | average | high    |
|  1 |  92.5 |  153.3 | student | M        | twenty | high     | high    | high    |
|  2 |  95   |  135.7 | student | M        | twenty | average  | average | high    |
|  3 |  92.5 |  148.3 | student | F        | twenty | average  | high    | high    |
|  4 |  80   |  148   | student | M        | twenty | average  | average | high    |

**Variables:**

- SUS (System Usability Scale): Escala de Usabilidad del Sistema. 
  - Un valor entre 0 y 100, dado por el usuario al evaluar el sistema informático. 
  - Ver: https://www.usability.gov/how-to-and-tools/methods/system-usability-scale.html

- Time: Tiempo en que el usuario realizó la prueba del sistema. 

- Gender: M (Male, masculino), F (Female, Femenino).

- Age: twenty (veinte añeros), thirty (treinta añeros), forty (cuarenta añeros).

- Experiencia en uso de Kinect, NUI (Natural User Interfaces), Games: Alta (high), media (average), baja (low).
    
### Análisis descriptivo uni y multivariado del dataset proporcionado por Stats Health:

1. **Carga de datos:** Importa el dataset a la herramienta de análisis estadístico Python con pandas.

2. **Exploración inicial de datos:** Examina las primeras filas del dataset para comprender su estructura y el tipo de datos que contiene. Identifica las variables disponibles y revisa si hay valores faltantes o anomalías en los datos.

3. **Análisis univariado:** Realiza un análisis descriptivo de cada variable por separado. Calcula medidas de resumen como la media, mediana, desviación estándar, y cuartiles para las variables continuas. Para las variables categóricas, calcula la frecuencia y proporción de cada categoría.

4. **Visualización de datos univariados:** Utiliza gráficos adecuados para representar las distribuciones de las variables continuas y la distribución de frecuencias para las variables categóricas. Histogramas, gráficos de barras, y diagramas de caja son algunas opciones útiles.

5. **Análisis multivariado:** Examina las relaciones entre las variables mediante técnicas de análisis multivariado. Calcula correlaciones entre las variables continuas para identificar posibles asociaciones. Realiza tablas de contingencia y pruebas de independencia para las variables categóricas.

6. **Visualización de datos multivariados:** Utiliza gráficos de dispersión para visualizar relaciones entre pares de variables continuas. Para variables categóricas, considera gráficos de barras apiladas o diagramas de calor para explorar asociaciones entre categorías.

7. **Análisis de grupos:** Considera realizar un análisis agrupado usando las variables categóricas. Esto podría proporcionar información adicional sobre los diferentes segmentos de usuarios y sus comportamientos.

8. **Interpretación de resultados:** Finalmente, interpreta los resultados obtenidos en tu análisis descriptivo. Identifica patrones o tendencias significativas en los datos y extrae conclusiones relevantes que puedan ayudar a Stats Health a comprender mejor la usabilidad de su sistema de tele-rehabilitación.


### OPCIÓN 1: LOW-CODE Y RÉPLICA DE NOTEBOOK

Consulte el material presesión: 
- [Análisis descriptivo](https://nbviewer.org/github/marsgr6/EN-online/blob/main/descriptive_statistics.ipynb)
- [Introducción al Análisis Exploratorio de Datos](https://nbviewer.org/github/marsgr6/EN-online/blob/main/exploratory_data_analysis.ipynb)
- [Visualización de Datos](https://nbviewer.org/github/marsgr6/EN-online/blob/main/data_visualization.ipynb)


A partir de los datos **UX_data.csv** realice un análisis descriptivo de: 


1.**(1 pt)** Variable numéricas:

- **Código base:**
```Python
data.describe()
```

  - Replicar código de la [siguiente sección](https://nbviewer.org/github/marsgr6/EN-online/blob/main/exploratory_data_analysis.ipynb#describe).

  - Escriba el código Python para describir las **variables numéricas** del conjunto de datos (vea el resultado esperado en en la tabla a continuación). 
  - Interprete los cuartiles para cada variable.

  - Resultado esperado:

|       |     SUS |     Time |
|:------|--------:|---------:|
| count | 30      |  30      |
| mean  | 76.0833 | 157.5    |
| std   | 14.617  |  22.3994 |
| min   | 40      | 112.7    |
| 25%   | 68.125  | 140.025  |
| 50%   | 78.75   | 159.7    |
| 75%   | 87.5    | 177.05   |
| max   | 95      | 188.3    |

2.**(1 pt)** Variables categóricas.

- **Código base:**
```Python
pd.DataFrame(data["column_name"].value_counts())
```  

  - Escriba el código Python para describir las variables categóricas del conjunto de datos (vea el resultado esperado en en la tabla a continuación para **ID, Gender y Age**).


  - Resultado esperado:

|          |   ID |
|:---------|-----:|
| employee |   15 |
| student  |   15 |

|    |   Gender |
|:---|---------:|
| M  |       20 |
| F  |       10 |

|        |   Age |
|:-------|------:|
| twenty |    17 |
| thirty |     7 |
| forty  |     6 |

3.**(1 pt)** Descripción de variables numéricas agrupadas:

- **Código base:**
```Python
data.groupby("column_name").describe()
```

  - Escriba el código Python para describir las **variables numéricas** del dataset agrupadas por **"Gender"**.

  - Interprete las medidas de centralidad y dispersión para cada variable agrupadas por género, es decir compare las clases F (Female) vs M (Male).

|        |           |        F |        M |
|:--------|:----------|---------:|---------:|
| **SUS** | count  |  10      |  20      |
|  | mean   |  74      |  77.125  |
|  | std   |  17.3285 |  13.4329 |
|  | min    |  40      |  42.5    |
|  | 25%    |  66.25   |  69.375  |
|  | 50%    |  77.5    |  80      |
|  | 75%    |  87.5    |  87.5    |
|  | max   |  92.5    |  95      |
| **Time** | count |  10      |  20      |
|  | mean  | 172.19   | 150.155  |
|  | std   |  15.6563 |  21.8936 |
|  |min   | 144      | 112.7    |
|  |25%   | 165.975  | 135.6    |
|  |50%   | 175.5    | 148.65   |
|  |75%   | 184.75   | 167.3    |
|  |max   | 188.3    | 185.3    |

4.**(1 pt)** Descripción de variables numéricas agrupadas por **"Age"**:

- **Código base:**
```Python
data.groupby("column_name").describe()
```

  - Interprete las medidas de centralidad y dispersión para cada rango de edad.


|         |          |   twenty |   thirty |     forty |
|:----------|:--------|---------:|---------:|----------:|
| **SUS** | count  |  17      |   7      |   6       |
|  | mean   |  78.0882 |  74.6429 |  72.0833  |
|  | std    |  15.8983 |  12.5357 |  14.3542  |
|  | min    |  40      |  57.5    |  52.5     |
|  | 25%    |  75      |  66.25   |  63.125   |
|  | 50%    |  80      |  75      |  71.25    |
|  | 75%    |  87.5    |  83.75   |  85       |
|  | max    |  95      |  90      |  87.5     |
| **Time** | count |  17      |   7      |   6       |
|  | mean  | 146.835  | 166.214  | 177.55    |
|  | std   |  20.2663 |  22.1184 |   5.76637 |
|  | min   | 112.7    | 128.3    | 171       |
|  | 25%   | 135.7    | 154.65   | 173.65    |
|  | 50%   | 148      | 176.3    | 176       |
|  | 75%   | 157.7    | 181.8    | 182.325   |
|  | max   | 188.3    | 186      | 185       |

A partir del análsis descriptivo agrupado que ha realizado, construya los siguientes gráficos:

5.**(1 pt)** Diagrama de cajas **Gender vs SUS**:

- Vea la [siguiente sección](https://nbviewer.org/github/marsgr6/EN-online/blob/main/exploratory_data_analysis.ipynb#txdxs)

- **Código base items 5, 6, 7 y 8:**
```Python
sns.boxplot(data=data, x="columna_categorica", y="columna_numerica", hue="columna_categorica")
```

  - Escriba el código Python para construir un diagrama de cajas que muestre el género (**Gender**) en $x$ y la evaluación de usabilidad (**SUS**) en $y$.
  - **Discuta:** Observa diferencia en la evaluación de usabilidad del sistema (SUS) realizada por los usuarios de acuerdo al género (Gender). Realice el análisis con respecto a la información mostrada en el diagrama de cajas (resumen de 5 puntos, posición (de los cuartiles), dispersión (IQR, bigotes), etc.).
  
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Gender_vs_SUS.png)

6.**(1 pt)** Diagrama de cajas **Gender vs Time**:
  - Escriba el código Python para construir un diagrama de cajas que muestre el género (**Gender**) en $x$ y el tiempo tomado en realizar el ejercicio (**Time**) en $y$.
  - **Discuta:** Observa diferencia en el tiempo en que realizaron la tarea en el sistema los usuarios de acuerdo al género. Realice el análisis con respecto a la información mostrada en el diagrama de cajas (resumen de 5 puntos, posición (de los cuartiles), dispersión (IQR, bigotes), etc.).

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Gender_vs_Time.png)

7.**(1 pt)** Diagrama de cajas **Age vs SUS**:
  - Escriba el código Python para construir un diagrama de cajas que muestre el rango de edad (**Age**) en $x$ y la evaluación de usabilidad (**SUS**) en $y$.
  - **Discuta:** Observa diferencia en la evaluación de usabilidad del sistema (SUS) de acuerdo al rando de edad (Age). Realice el análisis con respecto a la información mostrada en el diagrama de cajas (resumen de 5 puntos, posición (de los cuartiles), dispersión (IQR, bigotes), etc.).

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Age_vs_SUS.png)

8.**(1 pt)** Diagrama de cajas **Age vs Time**:
  - Escriba el código Python para construir un diagrama de cajas que muestre el rango de edad (**Age**) en $x$ y el tiempo tomado en realizar el ejercicio (**Time**) en $y$.
  - **Discuta:** Observa diferencia en el tiempo en que realizaron la tarea en el sistema (Time) los usuarios de acuerdo a la edad (Age). Realice el análisis con respecto a la información mostrada en el diagrama de cajas (resumen de 5 puntos, posición (de los cuartiles), dispersión (IQR, bigotes), etc.).

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/Age_vs_Time.png)

9.**(2 pts)** Diagrama de dispersión **SUS vs Time** agrupados por **Gender**:

- Vea la [siguiente sección](https://nbviewer.org/github/marsgr6/EN-online/blob/main/exploratory_data_analysis.ipynb#bivar)

- **Código base:**
```Python
sns.lmplot(data=data, x="columna_numerica", y="columna_numerica", hue="columna_categorica", fit_reg=True)
```

  - **Discuta:**
    - Escriba el código Python para construir un diagrama de dispersión que compare las variables evaluación de usabilidad (**SUS**) en $x$ y el tiempo tomado en realizar el ejercicio (**Time**) en $y$, agrupados por género (**Gender**).
    - Qúe relación observa entre las varibles SUS y Time.
      - Discuta la relación de estas variables de acuerdo al género.
    - Se corresponde este análisis con el observado en los diagramas de caja. 
      - Justifique su respuesta. 

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/SUS_vs_Time_by_Gender.png)

### OPCIÓN 2: REPORTE EJECUTIVO PARA GERENCIA

- **Elabore un informe ejecutivo** discutiendo las figuras y tablas anteriores, puntos 1 a 9 de la Opción Low Code, así como las figuras al final del notebook. 
  - Si se siente cómodo usando Python, entregue también el código.

El reporte ejecutivo debe tener una extensión máxima de 3 páginas. Crea un documento en word que incluya lo siguiente:
  1. Descripción general del problema empresarial: explica el contexto o problema empresarial y el enfoque analítico. 
  2. Diccionario de variables o base de datos: describe los datos utilizados para el análisis. 
  3. Análisis de estadísticos descriptivos de variables continuas, discretas y agrupadas, utiliza las tablas del notebook para interpretar los datos. 
  4. Análisis exploratorio de datos: utiliza los gráficos del notebook para interpretar los datos utilizados acorde al contexto empresarial.
  5. Conclusión y Recomendaciones: ofrece recomendaciones gerenciales y sugerencias estratégicas que permita a la empresa tomar decisiones.

La explicación en todas las secciones del reporte ejecutivo debe ser detallado, justificado y relacionado al contexto o problema empresarial. Está información será utilizada por el director de desarrollo de software de la empresa Stats Health y un reporte ambiguo podría causar toma de decisiones incorrectas y pérdida de dinero.
  
![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/sus_hist_gender.png)


![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/2d_kde_sus.png)


![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/swarm_sus.png)


![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/pair_sus_id.png)


![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/pair_sus_gender.png)

![](https://raw.githubusercontent.com/marsgr6/r-scripts/master/imgs/pair_sus_age.png)