# Guía 1 - Análisis Exploratorio de Datos

## Introducción

El objetivo de este notebook es que hagamos un repaso de las herramientas del ecosistema de datos de Python y, de paso, que comiencen a familiarizarse con el dataset que utilizaremos en las primeras clases. Si alguno/a siente que necesita un repaso más fuerte de Python, dejamos dos notebooks y algunas referencias que pueden utilizar en la [Guía 0](COMPLETAR).

Durante las primeras clases vamos a trabajar con el dataset de Bicicletas Públicas de la Ciudad de Buenos Aires (EcoBici). [Aquí](https://data.buenosaires.gob.ar/dataset/bicicletas-publicas) pueden encontrar los datos para varios años. Nosotros vamos a utilizar - al menos, por ahora - solamente los datos para el **año 2018**. 

Vamos a dar los primeros pasos dentro de la larga lista de pasos que hacen a un proyecto exitoso de Aprendizaje Automático. El nombre de esta etapa es conocido como Análisis Exploratorio de Datos, y puede ser una de las etapas más entretenidas e instructivas del proceso. Lo que vamos a hacer hoy, entonces, es:


1. Conseguir y abrir los datos.
1. Explorar y visualizar los datos para comenzar a conocer el dataset. Para ello, es importante tener en la cabeza estas preguntas para guiar el trabajo:
    * ¿Qué preguntas podríamos responder con este dataset?
    * ¿Necesitamos datos adicionales?


#### Resolución

Vamos a dejar una resolución mínima de las consignas para que les sirva de puntapié inicial. ¡Ésta no será la norma! De hecho, si te animás, podés copiar el notebook y descartar las resoluciones, y solamente dejar esta notebook como referencia.

## Consigna

Les dejamos una guía preliminar para que comiencen a trabajar. Muchos de esos pasos son generales a cualquier proyecto de Ciencia de Datos. Por ese motivo, es importante ser criteriosos/as para saber cuáles son pertinentes y cuáles no en cada proyecto.

**Ejercicio**: importa las liberías que utilizaremos. Asegurate de tenerlas todas instaladas en el ambiente que creaste.




In [None]:
import numpy as np
import pandas as pd

### LIBRERIAS PARA GRAFICAR
import matplotlib.pyplot as plt
import seaborn as sns

**Ejercicio**. Descargar el archivo "recorridos-realizados-2018.zip" (dejamos un snippet para descargar localmente el archivo o pueden descargarlo de la página). Abrirlo con Pandas y responder:

* ¿Qué tipo de archivo es? 
* Imprima sus primeros cinco elementos. 

_Pista: Considere el uso de metodos `pd.read_csv()`, `.head()`. Puede ver su documentacion colocando el signo `?` luego del metodo y ejecutando la celda, e.g. `pd.read_csv?`._


In [None]:
1#descargamos el archivo
!wget https://github.com/LCD-UNSAM/iaa2023c1/raw/main/datasets/recorridos-realizados-2018.zip

Cargamos los datos e imprimos las cinco primeras filas del DataFrame.

In [None]:
data = pd.read_csv('recorridos-realizados-2018.zip')
# data = pd.read_csv('datasets/ecobicis/recorridos-realizados-2018.zip', 
#             parse_dates=['fecha_origen_recorrido', 'fecha_destino_recorrido'])
data.head()

**Ejercicio:** ¿Cuántas columnas tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)? Pistas: `.shape`, `.columns`.

In [None]:
print(data.shape)

El dataset tiene 26199968 filas, 16 columnas. Sus nombres son:

In [None]:
data.columns

**Ejercicio:**. ¿Qué tipo de datos hay en cada columna? (numéricos, categóricos, etc.). ¿Qué valores toman y cuál es su rango de validez? Familiarizarse con la información presente en cada columna. Pista: `.info()`

In [None]:
data.info()

Notar que este comando resume bastante de la información que estuvimos viendo hasta ahora, además de devolver el tipo de dato de cada columna. **Si no lo recuerdas, estudia a qué refiere cada `Dtype`**.

**Ejercicio:**. ¿Hay columnas que correspondan a fechas?¿Qué tipo de dato - float, int, string - está utilizando para representar esas fechas? ¿Se puede hacer algún tratamiento particular con esas columnas? Pistas: `parse_dates` en `pd.read_csv()`, o `pd.to_datetime`.

Vamos a realizar un sencillo procedimiento que es común al trabajar con fechas. En primer lugar, notemos qué hay dos columnas con fechas, 'fecha_origen_recorrido' y 'fecha_destino_recorrido', pero cuyo Dtype es "object". Veamos qué significa.

In [None]:
data[['fecha_origen_recorrido', 'fecha_destino_recorrido']].head()

A simple vista, parecen fechas, pero el tipo de dato es...

In [None]:
print(data['fecha_origen_recorrido'].iloc[0])
print(type(data['fecha_origen_recorrido'].iloc[0]))

¡Un string! No es la forma más cómoda de trabajar con fechas. Hay dos opciones, convertir estas columnas a un tipo de dato más cómodo, o hacerlo al momento de abrir los datos. A continuación lo vamos a convertir a un formato particular, pero en la celda donde cargamos los datos dejamos una línea comentada que hace exactamente lo mismo al momento de cargar los datos. 

In [None]:
data['fecha_origen_recorrido'] = pd.to_datetime(data['fecha_origen_recorrido'])
data['fecha_destino_recorrido'] = pd.to_datetime(data['fecha_destino_recorrido'])

Si volvemos a ver la información del DataFrame, nos da que es un `datetime64[ns]` que es un tipo de dato estándar para trabajar con fechas.

In [None]:
data.info()

Hay muchas cosas que podemos hacer al tener las fechas en este formato. Por ejemplo, ver día/mes/año/hora/etc. asociado a cada una. 

In [None]:
# data.fecha_destino_recorrido.dt.year
# data.fecha_destino_recorrido.dt.month
# data.fecha_destino_recorrido.dt.day
data.fecha_destino_recorrido.dt.hour


Y muchas más cosas que suelen ser muy cómodas al trabajar con fechas.

**Ejercicio:** notar que la columna 'duracion_recorrido' también posee datos temporales en un formato poco práctico. ¿Qué podemos hacer para convertirlo a algo más fácil de utilizar? **Pista**: explorar el uso de la función `pd.to_timedelta` y/o, ahora que ya podemos operar con la fecha inicial y final del recorrido, reconstruir la columna con esa información.

In [None]:
data['duracion_recorrido'] = pd.to_timedelta(data['duracion_recorrido'])

In [None]:
data.info()

**Ejercicio - Calidad de los datos**. 

Estudiar si hay:    
1. Valores Faltantes
1. Entradas duplicadas
1. Valores atípicos
1. Consistencia interna. Esto refiere a estudiar si no hay información contradictoria en el DataFrame. Qué estudiar dependerá del objetivo del análisis, por lo que puede ser difícil hacerlo sin un objetivo claro.
   

**Valores faltantes**

In [None]:
data.isna().sum()

Hay algunos valores faltantes. Por ahora no vamos a hacer nada con ellos, pero en algún momento tendremos que ocuparnos.

**Filas duplicadas**

In [None]:
data.duplicated().sum()

**Valores atípicos**

Veamos los 10 recorridos más cortos y más largos.

In [None]:
data.duracion_recorrido.nsmallest(10)

In [None]:
data.duracion_recorrido.nlargest(10)

Parece ser que los recorridos más cortos son de cinco minutos y más largos de 3 horas. Con esta información, no podemos afirmar si hay valores atípicos en este atributo.

**Probablemente valga la pena estudiar características del sistema de Ecobicis para ver si estos valores no están de alguna forma asociadas a ellas.**

Aprovechemos y hagamos un histograma de la duración de los recorridos y veamos qué valores toman:

In [None]:
(data.duracion_recorrido.astype('timedelta64[s]') / 60).hist() ### PARA PASAR A MINUTOS
plt.xlabel('Duración recorrido (minutos)')

**Consistencia interna**

Dejamos un ejemplo. Las estaciones tienen un nombre y un id. El mapeo entre nombre e id debería ser único. Si no lo es, es una incosistencia del dataset. Además, este mapeo debería ser, en principio, el mismo tanto para las estaciones de origen como de destino.

Podemos empezar mirando cuántos 'id_estacion_origen' únicos hay y cuántos 'nombre_estacion_origen'. Si este número ya no coincide, es un indicador de una incostencia,

In [None]:
print(data['id_estacion_origen'].nunique(), data['nombre_estacion_origen'].nunique())

No lo haremos aquí, pero hay que estudiar por qué estos números no coinciden. Tal vez es simplemente que el nombre de una o más estaciones figuran escritos de formas diferentes. No profundizaremos aquí en este análisis, pero deben tener siempre en cuenta que los conjuntos de datos pueden tener inconsitencias. El impacto que éstas tengan dependerá de la gravedad, la cantidad de filas alcanzadas y la tarea a desarrollar.

**Ejercicio:** estudiar las distribuciones de los datos. Pistas: para variables continuas, puedes usar histogramas. Para variables categóricas, puede ser útil la función `value_counts()` de Pandas o usar gráficos de barras.


**Algunas distribuciones**

Ya hemos estudiado la distribución de la duración de los recorridos. Dejamos, como ejemplo, el ranking de las 30 estaciones de origen más utilizadas. **Para pensar: al hacer este gráfico, ¿habría que tener en cuenta algo de lo visto anteriormente?**

In [None]:
data['nombre_estacion_origen'].value_counts().iloc[:30].plot(kind='bar', figsize = (12,4))

**Cantidad de viajes por día**

Lo último que haremos - luego les tocará explorar a ustedes - es hacer un gráfico de la cantidad de viajes por día. Hay muchas formas de hacer esto. Vamos a dejar una forma en particular que sirve, de paso, para ver algunas operaciones que podemos hacer con las fechas.

En primer lugar, notar que a partir de la columna 'fecha_origen_recorrido' en formato `datetime64[ns]` podemos obtener la fecha **sin el horario**.

In [None]:
data.fecha_origen_recorrido.dt.date

Entonces, una forma de obtener cuántos viajes por día hay es simplemente contar la cantidad de veces que aparece cada fecha. 

In [None]:
data.fecha_origen_recorrido.dt.date.value_counts()

Notar que aparecen ordenadas por cantidad, no por fecha. Guardamos en un variable

In [None]:
viajes_por_dia = data.fecha_origen_recorrido.dt.date.value_counts().sort_index()
viajes_por_dia

Y graficamos.

In [None]:
viajes_por_dia.plot(figsize = (12,4))

Esto es todo lo que vamos a hacer por nuestro lado. Ahora es el turno de ustedes de continuar con la exploración. Elije preguntas que te interese responder. Cuando quieras combinar información de diferentes columnas, puede ser útil la función `groupby()`de Pandas. A continuación, dejamos algunas consignas.

**Ejercicios:**

1. Explora relaciones entre varibles. ¿Cómo lo harías para variables numéricas?¿Y con categóricas? Pista: recuerda que un gráfico vale más que mil palabras. La función `groupby` de Pandas puede ser útil.

1. Estudia correlaciones entre variables.¿Hay variables correlacionadas?¿Tiene sentido buscar correlaciones entre todas las variables?

Si bien se van a topar con datasets con muchísimas más variables que éste, las que hay en este dataset son suficientes como para que haya que abordarlo de manera metódica. Para guiar la exploración, vale la pena generar algunas pocas preguntas para hacerle al dataset. No hace falta que éstas estén formuladas de una manera muy precisa. Dejamos algunas que pueden servirles de disparador:

1. ¿Cuáles estaciones son las más utilizadas?¿Cuáles son las menos utilizadas?¿Varían las estaciones más y menos utilizadas según si es día de la semana o fin de semana?
2. ¿Cuáles son los recorridos más utilizados? (Recorrido en el sentido estación origen - estación destino.

Recuerda ir comentando las observaciones y conclusiones a las que vas llegando.

### Formulario de asistencia

Por favor, no olviden completar el siguiente formulario antes del miércoles 22/03 a la 23:59.

https://forms.gle/jaNnyVkzsFVjPpPV9
