#### <img src="mioti.png" style="height: 100px">
<center style="color:#888">Módulo Data Science in IoT<br/>Asignatura Data Visualization</center>

# Worksheet S4: Prophet

## Caso práctico: Predicción sobre el número de visitas que recibe la entrada de Wikipedia de Peyton Manning

## 0. Objetivo

El objetivo de este worksheet es conocer y utilizar **Prophet**, una librería de Data Science que fue liberada por Facebook el 23 de Febrero de 2017 para **el análisis y la predicción de series temporales**. Para ello, vamos a utilizar el siguiente caso práctico:



<img src="peyton.jpg" style="float:right; height: 250px"></img>
Queremos **prever el número de personas** que visitan la página de Wikipedia de Peyton Manning (una de las grandes figuras del fútbol americano): 

https://en.wikipedia.org/wiki/Peyton_Manning

Vamos a realizar una **predicción para un año** completo.

Como veremos durante el desarrollo del Worksheet, este ejemplo ilustra algunas de las principales características de Prophet, como la estacionalidad múltiple, las tasas de crecimiento cambiantes y la capacidad de modelar días especiales.

### Instalación de Prophet 

Para poder utilizar Prophet deberemos instalar primero la librería y sus dependencias. La forma más fácil es teniendo instalado Anaconda y ejecutando el siguiente comando desde el terminal:

** conda install -c conda-forge fbprophet** 

## 1. Preparar el contexto

Lo primero de todo es importar las librerías que vamos a utilizar en nuestro Worksheet.

In [None]:
import pandas as pd
import numpy as np
from fbprophet import Prophet
import matplotlib.pyplot as plt
%matplotlib inline

## 2.Obtención de los datos

Como en otros casos, utilizamos la función *read_csv* que nos proporciona la librería de Pandas y que nos facilita la lectura de ficheros.

In [None]:
df_datos = pd.read_csv('example_wp_peyton_manning.csv')

Comprobamos **qué hemos cargado**. Utilizando las funciones *info(), describe()* y *head()* podemos hacer un primer análisis de los datos cargados. Veamos que contiene nuestro dataset de partida:

In [None]:
df_datos.tail()

In [None]:
df_datos.describe()

In [None]:
df_datos.info()

** P: ¿Qué hemos cargado?**

Hemos cargado una **serie temporal**, que incluye el **número de visitas** que se realizan a la página de la Wikipedia de Peyton Manning **por día**, desde diciembre de 2007 a enero de 2016.

### 2.1.- Interpretación de nuestros datos

Antes de comenzar a utilizar la librería de Prophet para realizar nuestra predicción, vamos a analizar un poco más los datos que tenemos de partida.

** P: ¿Qué componentes de una serie temporal tiene? ** 

In [None]:
## Representamos nuestra serie temporal
df_datos['fecha']=pd.to_datetime(df_datos['fecha'])
ax = df_datos.set_index('fecha').plot(figsize = (12, 8),
                                      title = '¿Cuántas visitas recibe la página de Wikipedia de Peyton Manning? \n')
ax.set_ylabel('Visitas a la Wikipedia')
ax.set_xlabel('Fecha')

plt.show()

Para comprender mejor los datos que estamos viendo, puede ser interesante buscar información extra que nos ayude a entender la evolución de la serie. Utilizando las fuentes que consideres, intenta responder a las siguientes preguntas:
- ¿Cuáles han sido los hitos más importantes en la carrera de Peyton?
- ¿Se ha lesionado alguna vez?
- ¿Cómo es la liga de fútbol americano? ¿Cuál es su duración? ¿Cuándo comienza? ¿Cuándo termina?
- ¿Hay eventos o partidos especiales?
- ¿Peyton ha jugado alguno de ellos?

**P: ¿Puedes ubicar toda esta información en nuestra serie temporal?**

In [None]:
## Representamos nuestra serie temporal
ax = df_datos[200:400].set_index('fecha').plot(figsize = (12, 8),
                                      title = '¿Cuántas visitas recibe la página de Wikipedia de Peyton Manning? \n')
ax.set_ylabel('Visitas a la Wikipedia')
ax.set_xlabel('Fecha')

plt.show()

## 3. Preparación de los datos

En esta parte tenemos que tener mucho cuidado, ya que Prophet necesita que el DataFrame de los datos a modelizar tenga una estructura muy concreta, siguiendo unas reglas muy estrictas. Nuestro DataFrame tiene que tener dos columnas:

* **Primera Columna:** Tiene que ser una columna de **tipo fecha** y el nombre debe de ser **ds**.

* **Segunda Columna:** Tiene que ser una columna de **tipo numérica** (integer o float) y el nombre de la columna debe de ser **y**.

Si construimos un DataFrame siguiendo estas reglas Prophet será capaz de interpretar correctamente nuestros datos y generar el modelo, pero debemos ser **muy cuidadosos y seguir estas reglas al pie de la letra para evitar errores**.

Si nuestra columna fecha no ha sido interpretada y cargada por Pandas como una columna de tipo DateTime (bastante común cuando nuestro fichero tiene las fechas en formato, por ejemplo, dd/mm/yyyy, que lo suele interpretar como tipo de dato object), deberemos convertir el campo en un formato fecha.

** df['fecha']=pd.to_datetime(df['fecha'],dayfirst=True)**

In [None]:
df_datos['fecha']=pd.to_datetime(df_datos['fecha'])
df_datos.head()

In [None]:
df_datos.info()

Lo siguiente que tenemos que hacer es cambiar el nombre a nuestras columnas para nombrarlas como espera Prophet, porque...

**¿qué pasa si intentamos crear un modelo sin cambiar el nombre de las columnas a las que espera Prophet?**

In [None]:
modelo = Prophet()
modelo.fit(df_datos)

Tenemos que **cambiar el nombre de las columnas** a **'ds'** (fechas) y a **'y'** (datos).

In [None]:
df_datos= df_datos.rename(columns={'fecha': 'ds', 'visitas': 'y'})

In [None]:
df_datos.tail()

Por último, vamos a realizar una ** transformación logarítmica** de los datos ya que creemos que nuestra variable de visitas sigue un modelo multiplicativo y como Prophet hace los cálculos estimando un modelo aditivo, es conveniente convertir nuestro modelo multiplicativo en uno aditivo aplicando simplemente logaritmos.

In [None]:
df_datos['y']=np.log(df_datos['y'])

In [None]:
df_datos.head()

Si representamos de nuestro nuestro dataframe:

In [None]:
## Representamos nuestra serie
ax = df_datos[:365].set_index('ds').plot(figsize=(12, 8))
ax.set_ylabel('Log Visitas a la Wikipedia')
ax.set_xlabel('Fecha')
plt.show()

## 4. Ajuste del modelo

Vamos a ajustar el modelo creando una instancia de un nuevo objeto Prophet. Toda la configuración del procedimiento la pasaremos en el constructor de nuestra instancia. 

Por ahora, crearemos nuestra instancia con los parámetros por defecto de Prophet.

In [None]:
modelo = Prophet()

Para ajustar nuestro modelo llamaremos al método **fit** pasándole nuestro DataFrame con los datos históricos. El cálculo del modelo es muy rápido y suele tardar entre 1 y 5 segundos.

In [None]:
modelo.fit(df_datos)

## 5. Realizar Previsiones

Para realizar nuestras previsiones, lo primero que vamos a hacer es crear un nuevo DataFrame ampliando los datos a nuevas fechas, pues queremos hacer una previsión de las visitas del año siguiente en la página web. 

Para ello, utilizamos el método **make_future_dataframe**, indicando el número de periodos de nuestra previsión (en este caso 365 días). Por defecto, nuestro DataFrame incluirá también las fechas del histórico + fechas de previsión (lo que nos permitirá luego revisar el ajuste de nuestro modelo).

In [None]:
futuro = modelo.make_future_dataframe(periods=365)

In [None]:
futuro.tail()

Para realizar las previsiones utilizaremos el método **predict** pasando las fechas en la que queremos hacer las previsiones. 

Como resultado vamos a obtener un DataFrame que incluirá las previsiones del modelo (columna **yhat**) así como todas los componentes de la serie (tendencia, estacionalidad, días especiales, etc.) y sus correspondientes intervalos de confianza.

In [None]:
prevision = modelo.predict(futuro)

In [None]:
prevision.tail()

## 6. Revisar ajuste del modelo y previsiones

La forma más sencilla de revisar el ajuste de nuestro modelo y nuestras previsiones es dibujando un gráfico. 

Prophet nos proporciona el método **plot** que automáticamente nos dibuja un gráfico configurado para que la revisión del ajuste del modelo y la previsión se pueda realizar de una forma rápida e intuitiva.

In [None]:
modelo.plot(prevision);

Además, si queremos revisar los componentes calculados por nuestro modelo disponemos de otro método **plot_components** que por defecto nos permite obtener la tendencia, estacionalidad en el año, estacionalidad en la semana, ....

In [None]:
modelo.plot_components(prevision, weekly_start = 1);

**P: ¿Qué os parecen las previsiones?**

Vamos a mejorar las previsiones introduciendo un efecto que no estaba incluido en nuestro modelo inicial, los momentos en los que Peyton jugaba un partido de playoff o jugaba en la Superbowl, ya que seguro que afecta a las visitas de su página en Wikipedia.

In [None]:
#http://www.nfl.com/schedules/2016/POST
#  '2017-02-05'
# '2017-01-22','2017-01-14'

playoffs = pd.DataFrame({
  'holiday': 'playoff',
  'ds': pd.to_datetime(['2008-01-13', '2009-01-03', '2010-01-16',
                        '2010-01-24', '2010-02-07', '2011-01-08',
                        '2013-01-12', '2014-01-12', '2014-01-19',
                        '2014-02-02', '2015-01-11', '2016-01-17',
                        '2016-01-24', '2016-02-07']),
  'lower_window': 0,
  'upper_window': 1,
})
superbowls = pd.DataFrame({
  'holiday': 'superbowl',
  'ds': pd.to_datetime(['2010-02-07', '2014-02-02', '2016-02-07']),
  'lower_window': 0,
  'upper_window': 1,
})


In [None]:
playoffs

In [None]:
superbowls

Vamos a unir estos dos DataFrames en uno solo, porque Prophet sólo nos deja incluir un único DataFrame con los días especiales.

In [None]:
dias_especiales = pd.concat((playoffs, superbowls))

Para que podamos introducir el efecto de estos días en nuestro modelo, Prophet vuelve a ser muy especial, tenemos que incluir la información de esos días especiales en un DataFrame que tiene una columna **ds** con las fechas, una columna **holiday** con el tipo de evento especial y dos columnas (opcionales) **lower_window** y **upper_window** que nos permite estirar el efecto de nuestros días especiales a los días anteriores (lower_window) o posteriores (upper_window). 

En este caso, decidimos que el efecto de que Peyton juegue los playoffs o la superbowl en las visitas de su página de Wikipedia se extiende al día siguiente (upper_window =1).

In [None]:
dias_especiales

Para incluir este DataFrame **dias_especiales** en el cálculo de nuestro modelo, simplemente le pasamos como valor del parámetro **holidays** el nombre de nuestro DataFrame al crear la instancia del modelo Prophet.

In [None]:
## https://github.com/facebook/prophet/issues/821
dias_especiales = dias_especiales.reset_index()  # THE FIX
modelo2 = Prophet(holidays=dias_especiales)
prevision2 = modelo2.fit(df_datos).predict(futuro)

Si graficamos el resultado de nuestro modelo podemos ver, como hemos explicado, varios datos atípicos en nuestras previsiones que en el anterior modelo no se explicaban.

In [None]:
modelo2.plot(prevision2);

In [None]:
# Modelo anterior
modelo.plot(prevision);

El efecto en el modelo, lo podemos ver en el dataFrame de previsión, seleccionando aquellas filas en las que en las columnas superbowl y playoff tengan un valor mayor que 0.

In [None]:
prevision2[prevision2['superbowl']>0]

In [None]:
prevision2[(prevision2['playoff'] + prevision2['superbowl']) > 0][
        ['ds', 'playoff', 'superbowl']]

También podemos ver el efecto de nuestros días especiales graficando los componentes de nuestro modelos.

In [None]:
modelo2.plot_components(prevision2, weekly_start=1);

**P: ¿Se os ocurre cómo podríamos mejorar nuestro modelo?**

## Otro caso práctico: Ventas en retail

In [None]:
pd.plotting.register_matplotlib_converters()

In [None]:
ventas_df = pd.read_csv('retail_sales.csv')

In [None]:
ventas_df.head()

In [None]:
ventas_df.info()

In [None]:
## Representamos nuestra serie temporal
ventas_df['date']=pd.to_datetime(ventas_df['date'])
ax = ventas_df.set_index('date').plot(figsize = (12, 8),
                                      title = 'Ventas \n')
ax.set_ylabel('Ventas en $')
ax.set_xlabel('Fecha')

plt.show()

In [None]:
ventas_df=ventas_df.rename(columns={'date': 'ds', 'sales': 'y'})

In [None]:
ventas_df.head()

In [None]:
#ventas_df.set_index('ds').y.plot()
modelo3 = Prophet()
modelo3.fit(ventas_df)

In [None]:
futuro3 = modelo3.make_future_dataframe(periods=24, freq='m')

In [None]:
futuro3.tail()

In [None]:
prevision3 = modelo3.predict(futuro3)

In [None]:
prevision3.tail()

In [None]:
modelo3.plot(prevision3)

In [None]:
modelo3.plot_components(prevision3);