<img src="mioti.png" style="height: 100px">
<center style="color:#888">Data Science in IoT<br/>Asignatura: Predictive Analytics</center>

# Worksheet S1: Introducción a las series Temporales

## Caso práctico: Análisis de los Alquileres de Bicicletas en Chicago


## 0. Objetivo

<img src="bicicletas_chicago.jpg" style="float:right; height: 250px"></img>
Para comenzar a trabajar con las series temporales vamos a utilizar el siguiente caso práctico:

La ciudad de Chicago cuenta con una red de alquileres de bicicletas y tiene un problema con su servicio, ya que más de un ** 20% ** de las estaciones se encuentra sin bicicletas cuando un usuario se acerca a alquilar una de ellas.

Nuestro objetivo es explorar y entender la demanda de bicicletas, para conocer mejor el problema e intentar solucionarlo.

## 1. Preparar el contexto

Como paso previo, cargamos las librerías que serán necesarias en nuestro estudio.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## Definimos las variables para determinar el tamaño de las gráficas
fig_size = (18,6)
fig_size_subplot = (14,7)

## 2. Obtener los datos

Esta vez va a ser fácil, vamos a importar los datos de un fichero csv, a través de la función **read_csv** que nos proporciona la librería de Pandas.

In [None]:
data_path = 'hour_chicago.csv'
df_datos = pd.read_csv(data_path)

A continuación, comprobamos **qué hemos cargado**. Utilizando las funciones *info(), describe()* y *head()* podemos hacer un primer análisis de los datos cargados. Veamos que contiene nuestro dataset de partida:

In [None]:
df_datos.info()

In [None]:
df_datos.describe()

In [None]:
df_datos.head()

Este dataset tiene información a nivel día y hora desde el 1 de Enero del 2011 y el 31 de Diciembre 2012, de varias variables:
- número de bicicletas alquiladas ('cnt'), que a su vez está compuesto por la suma de los campos 'registered' y 'causal' (usuarios registrados y esporádicos).
- temperatura, humedad y velocidad del viento.

**P: ¿Qué tipo de datos tenemos en nuestro dataset: cross-sectional, time series o panel data?**

**P: ¿Qué necesitaríamos para que fuese cross-sectional, time series o panel data?**

## 3. Pretratado de los datos

Al trabajar con series temporales, no debemos olvidar que una de nuestras variables va a ser el **tiempo**. Por este motivo, es muy interesante tener un campo que sea de tipo **datetime**, ya que Pandas interpreta y ofrece múltiples herramientas que facilitan el trabajo con este tipo de datos.

**P: ¿Tenemos alguna variable en nuestro dataset que podamos utilizar como fecha?**

Vemos que tenemos dos campos que nos pueden resultar de interés, por un lado, la *fecha* (que Pandas ha reconocido como tipo object) y la *hora* (como tipo integer). Para tener nuestra serie temporal por horas, vamos a concatenar ambos campos y a convertirlos a tipo datetime.

In [None]:
df_datos['date_hr'] = (df_datos['date_str'].map(str) + ' ' + df_datos['hr'].map(str) + ':00:00')
df_datos['date_hr'].tail()

In [None]:
df_datos['date'] = pd.to_datetime(df_datos['date_hr'], format='%Y-%m-%d %H:%M:%S')
df_datos.head()

In [None]:
df_datos.info()

Otra recomendación a tener en cuenta cuando trabajamos con series temporales, es **indexar** nuestro dataframe por nuestra variable **tiempo**.

In [None]:
df_datos.index = df_datos['date']
df_datos.head()

**Selección de la serie temporal para el análisis**

Vamos a quedarnos con una única serie temporal de las que disponemos en el dataset. Centraremos nuestro análisis en la variable *cnt*, que nos indicaba el número de alquileres de bicicletas (suma de usuarios registrados y esporádicos).

Creamos un nuevo dataframe que sólo contenga las variables *tiempo* y *cnt*.

In [None]:
df_TimeSeriesData = pd.DataFrame(df_datos['cnt'])
df_TimeSeriesData.head()

In [None]:
## Visualizamos nuestra serie temporal
df_TimeSeriesData.plot(figsize = fig_size,\
                       title = '¿Cómo evoluciona el alquiler de bicicletas (por horas)? \n')

## Hacemos un zoom sobre unos cuantos días para apreciar mejor el comportamiento
df_TimeSeriesData[:(24*7)].plot(figsize = fig_size,\
                       title = '¿Cómo evoluciona el alquiler de bicicletas (por horas)? \n')

In [None]:
## Agregamos la serie por días y volvemos a representarla
df_TimeSeriesData_daily = df_TimeSeriesData.resample('d').sum()
df_TimeSeriesData_daily.plot(figsize = fig_size,\
                             title = '¿Cómo evoluciona el alquiler de bicicletas (por días)? \n')

## Hacemos un zoom sobre los primeros 30 días del año para apreciar mejor el comportamiento
df_TimeSeriesData_daily[:30].plot(figsize = fig_size,\
                       title = '¿Cómo evoluciona el alquiler de bicicletas (por días)? \n')

In [None]:
## Agregamos la serie por meses y volvemos a representarla
df_TimeSeriesData_monthly = df_TimeSeriesData.resample('m').sum()
df_TimeSeriesData_monthly.plot(figsize = fig_size,\
                             title = '¿Cómo evoluciona el alquiler de bicicletas (por meses)? \n')

## 4. Componentes de una serie temporal

**P: ¿Cuál es la componente principal de nuestra serie temporal?**

**P: ¿Se puede analizar la estacionalidad de una serie? ¿y la tendencia? ¿Cómo?**

Si podemos analizar las distintas componentes de una serie, podremos tratarlas por separado y medir los efectos que tienen sobre la serie completa. Por eso, es muy importante poder detectar y calcular cada una de estas componentes en el análisis de series temporales, pues nos ayudará a la hora de hacer nuestras previsiones.

### ¿Cómo eliminar las componentes de estacionalidad de una serie?

Para responder a esta pregunta vamos a partir de nuestra serie agregada por meses. En este caso, lo que tenemos es **estacionalidad mensual**.

In [None]:
df_TimeSeriesData_monthly.head()

Eliminar la estacionalidad se consigue fácilmente con el uso de **medias móviles**. Nuestra media móvil será a mes y con un periodo de 12 meses. En Pandas, es muy fácil si combinamos las funciones *rolling()* y *mean()*.

In [None]:
df_monthly_moving_average = df_TimeSeriesData_monthly.rolling(12).mean()
df_monthly_moving_average

**P: ¿Es normal que aparezcan los primeros meses sin valor de media móvil?**

Para responder a esta pregunta, vamos a representar nuestra serie temporal y el cálculo que acabamos de hacer de media móvil.

In [None]:
plt.figure(figsize=fig_size)
plt.plot(df_TimeSeriesData_monthly,color='b')
plt.plot(df_monthly_moving_average,color='r')
plt.title('¿Existe tendencia en el alquiler de bicicletas? \n',fontsize= 20)
plt.xlabel('Meses')
plt.ylabel('N. bicicletas alquiladas')
plt.legend(['Alquileres mes','Media móvil mensual'], loc=2)

Si somos capaces de extraer la estacionalidad, podemos ver el efecto que tiene en la serie.

### Nuestro primer cálculo intuitivo de estacionalidad: utilización de medias móviles

Vamos a profundizar un poco más en el cálculo de la estacionalidad a través del uso de las media móviles. Para ello vamos a calcular e incluir en nuestro dataframe los denominados **coeficientes de estacionalidad**, que nos aportan información sobre cómo afecta esta componente a la serie.

In [None]:
## Incluimos el cálculo anterior en nuestro dataframe
df_TimeSeriesData_monthly['cnt_media_movil_12']=df_TimeSeriesData_monthly.rolling(12).mean()

In [None]:
## Cálculo de los coeficientes de estacionalidad
df_TimeSeriesData_monthly['coef_estacionalidad']=df_TimeSeriesData_monthly['cnt'] \
                                                /df_TimeSeriesData_monthly['cnt_media_movil_12']
df_TimeSeriesData_monthly[-12:]

**P: ¿Qué significa ese coeficiente de estacionalidad?**

En este caso, nos indica el porcentaje que se alquila más o menos con respecto a un mes estándar.

Para entender mejor cómo afecta la estacionalidad al número de alquileres de bicicletas, podemos convertir ese índice y representarlo.

In [None]:
(df_TimeSeriesData_monthly['coef_estacionalidad'][-12:]-1).plot(kind='bar',color='green')
plt.title('¿Cuál es el efecto de la estacionalidad en el alquiler de biciletas? \n',fontsize= 20)
plt.legend()

### ¿Cómo eliminar la componente de tendencia de una serie?

Como ya hemos visto, además de componente estacionario, nuestra serie tiene también tendencia. 

In [None]:
## Representamos la serie con y sin estacionalidad
df_TimeSeriesData_monthly.iloc[:,:2].plot(subplots = True,
                                          title = ['¿Cómo evoluciona el alquiler de bicicletas?',\
                                                   'Alquiler de bicicletas sin estacionalidad'],
                                          figsize = fig_size_subplot)

### Nuestro primer cálculo de tendencia

Al igual que la estacionalidad, eliminar la **tendencia** es muy sencillo, simplemente debemos calcular la **diferencia con el dato anterior**.

In [None]:
## Eliminamos la tendencia de la serie
df_TimeSeriesData_monthly['cnt_mm12_shift'] = df_TimeSeriesData_monthly['cnt_media_movil_12'].shift(1)
df_TimeSeriesData_monthly['cnt_mm12_sin_tendencia'] = df_TimeSeriesData_monthly['cnt_media_movil_12'] - \
                                                      df_TimeSeriesData_monthly['cnt_media_movil_12'].shift(1)
df_TimeSeriesData_monthly.tail(13)

In [None]:
## Representamos la serie temporal, la serie sin estacionalidad y la serie sin tendencia 
df_TimeSeriesData_monthly.loc[:,['cnt','cnt_media_movil_12','cnt_mm12_sin_tendencia']].plot(subplots = True,
                                          title = ['¿Cómo evoluciona el alquiler de bicicletas?',\
                                                   'Alquiler de bicicletas sin estacionalidad', \
                                                   'Alquiler de bicicletas sin estacionalidad y sin tendencia'],
                                          figsize = fig_size_subplot)