# Guía 1 - Análisis Exploratorio de Datos

## 1. Introducción

El objetivo de este notebook es que hagamos un repaso de las herramientas del ecosistema de datos de Python y, de paso, que comiencen a familiarizarse con el dataset que utilizaremos en las primeras clases. Si alguno/a siente que necesita un repaso más fuerte de Python, dejamos dos notebooks y algunas referencias que pueden utilizar en la Guia 0.

Durante las primeras clases vamos a trabajar con el dataset de EverythingALS. [Aquí](https://drive.google.com/file/d/1xzZcm4kRHUikSuuI8DRxS6-1OJ41gZn6/view?usp=sharing)
Vamos a dar los primeros pasos dentro de la larga lista de pasos que hacen a un proyecto exitoso de Aprendizaje Automático. El nombre de esta etapa es conocido como Análisis Exploratorio de Datos, y puede ser una de las etapas más entretenidas e instructivas del proceso. Lo que vamos a hacer hoy, entonces, es:


1. Conseguir y abrir los datos.
1. Explorar y visualizar los datos para comenzar a conocer el dataset. Para ello, es importante tener en la cabeza estas preguntas para guiar el trabajo:
    * ¿Qué preguntas podríamos responder con este dataset?¿En qué problemas podemos trabajar?
    * ¿Qué atributos pueden ser útiles?
    * ¿Necesitamos datos adicionales?


#### Resolución

En algunos casos, vamos a dejar una resolución mínima de las consignas para que les sirva de puntapié inicial. ¡Ésta no será la norma! 

### Consigna

Les dejamos una guía preliminar para que comiencen a trabajar. Muchos de esos pasos son generales a cualquier proyecto de Ciencia de Datos. Por ese motivo, es importante ser criteriosos/as para saber cuáles son pertinentes y cuáles no en cada proyecto.

**Ejercicio**: importa las liberías que utilizaremos. Asegurate de tenerlas todas instaladas en el ambiente que creaste.

In [None]:
import numpy as np
import pandas as pd

### LIBRERIAS PARA GRAFICAR
import matplotlib.pyplot as plt
import seaborn as sns

**Ejercicio**. Descargar el archivo "EALS_data.csv". Abrirlo con Pandas y responder:

* ¿Qué tipo de archivo es? 
* Imprima sus primeros cinco elementos. 

_Pista: Considere el uso de metodos `pd.read_csv()`, `.head()`. Puede ver su documentacion colocando el signo `?` luego del metodo y ejecutando la celda, e.g. `pd.read_csv?`._


Cargamos los datos e imprimos las cinco primeras filas del DataFrame.

In [None]:
data = pd.read_csv('EALS_data_con_features_1C_2024.csv', parse_dates=['UTC_date', 'onset_date'])
data.head()

**Ejercicio:** ¿Cuántas columnas tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)? Pistas: `.shape`, `.columns`.

In [None]:
print(data.shape)

El dataset tiene 3364 filas, 13 columnas. Sus nombres son:

In [None]:
data.columns

## 2. Descripción del conjunto de datos

Los usuarios (`user_id`) pueden ser controles o pacientes (`pac`). Cada cierta cantidad de días, los usuarios se graban haciendo una serie de tareas. Cada grabación es una sesión (`session_id`), que tiene una fecha (`UTC_date`). Respecto a los pacientes, tenemos cuándo arrancan con la enfermedad (`onset_date`), y si sus síntomas arrancan en el centro bulbar (`site_of_onset_bulbar`).

Luego hay unos valores de una escala típica del ALS, la [ALSFRS-R](https://www.encals.eu/wp-content/uploads/2017/12/ALSFRS-R-Spanish-version.pdf). Es una escala autoreportada sobre distintas actividades cotidianas (hablar, comer, tragar, etc.). Son 12 preguntas que van de 0 a 4 (0 peor valor, 4 mejor valor), pero no están todas las preguntas. Sólo está la primera (`alsfrsr_1`), que está relacionada con el habla; la suma de las tres primeras relacionadas con el habla y el tracto vocal (`bulbar`, de 0 a 12, pero nadie puede tener 0) y la suma de las 12 preguntas (`alsfrsr`, de 0 a 48, pero nadie puede tener 0 ni valores muy bajos).

Finalmente, pueden encontrar dos atributos, `speaking_rate` y `intelligibility`. El primero está asociado a la velocidad del habla (palabras por segundo), y el segundo - como su nombre indica - a la inteligibilidad.


**Ejercicio:** ¿Cuántos usuarios hay?¿Cuántos controles y cuántos pacientes?¿Cuál es el promedio de sesiones por usuarios?¿Cuáles son los usuarios con mayor y menor número de sesiones?

Pista: las funciones `.nunique()` y `.groupby()` pueden ser útiles.

In [None]:
data.user_id.nunique()

In [None]:
data.groupby('pac').user_id.nunique()

In [None]:
### COMPLETAR

**Ejercicio:** realizar un histograma de la cantidad de sesiones por usuario. Luego, repetir el gráfico, pero haciendo un histograma por cada grupo.

In [None]:
data.groupby('user_id').session_id.nunique().hist(bins = 20)
plt.xlabel('Número de sesiones por usuario')

In [None]:
data.query('not pac').groupby('user_id').session_id.nunique().hist(bins = np.linspace(0,80, 21), alpha = 0.5, label = 'Controles')
data.query('pac').groupby('user_id').session_id.nunique().hist(bins = np.linspace(0,80, 21), alpha = 0.5, label = 'Pacientes')
plt.legend()
plt.title('Histograma del número de sesiones por usuario')
plt.xlabel('Número de sesiones')
plt.ylabel('Cuentas')

**Ejercicio:** estudiar las distribuciones de las columnas asociadas al ALSFRS-R. Pistas: para variables continuas, puedes usar histogramas. Para variables categóricas, puede ser útil la función `value_counts()` de Pandas o usar gráficos de barras. ¿Cómo varían las distribuciones al separar por grupo?

In [None]:
data.groupby('pac').bulbar.hist(alpha = 0.5, rwidth=0.9)
### Completar

In [None]:
tira_de_numeros = np.random.choice([0,67], size = 1000, replace=True, p=[0.75,0.25])
tira_de_numeros

In [None]:
plt.hist(tira_de_numeros, density=False, weights=100*np.ones_like(tira_de_numeros)/len(tira_de_numeros))

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(15, 5))
(data.alsfrsr).hist(density=False, ax = axs[0])
(data.alsfrsr).hist(density=True, ax = axs[1])

### ADD histogram of frequencies in each bin
(data.alsfrsr).hist(density=False, ax = axs[2], weights=np.ones_like(data.alsfrsr)/len(data.alsfrsr))

In [None]:
(data.alsfrsr/10).hist(density=True)

In [None]:
### COMPLETAR

## 3. Atributos

**Para pensar.** Ahora que tienes una idea de lo que hay en el dataset, vuelve sobre estas preguntas: 

* ¿Qué preguntas podríamos responder con este dataset?¿En qué problemas podemos trabajar?
* ¿Qué atributos pueden ser útiles? Explora `speaking_rate` y `intelligibility`.
* ¿Necesitamos datos adicionales?

Recomendamos discutirlas en grupo y con los y las docentes. No te preocupes si te parece difícil, ya que esas preguntas requieren conocimiento experto del tema. Sin embargo, siempre vale la pena hacer ese ejercicio.

Una vez que lo hayas pensado y debatido, sigue con el notebook más abajo. 


**Ejercicio** Interpreta el siguiente gráfico. Si es necesario, modifica algunos de sus límites y parámetros para que sea más claro.

In [None]:
sns.scatterplot(x='speaking_rate', y = 'intelligibility', data=data, hue='pac', alpha=0.05)

**Ejercicio - Calidad de los datos**. 

Estudiar si hay:    
1. Valores Faltantes
1. Entradas duplicadas
1. Valores atípicos
1. Consistencia interna. Esto refiere a estudiar si no hay información contradictoria en el DataFrame. Qué estudiar dependerá del objetivo del análisis, por lo que puede ser difícil hacerlo sin un objetivo claro.
   

**Valores faltantes**

In [None]:
data.isna().sum()

Sin embargo, estos datos faltantes no nos molestan. ¿Por qué?

In [None]:
### Completar