<div class="alert alert-block alert-info">
<span style="color: rgb(0,53,91);">
<center><img src="./Imagenes/ITESO_Logo.png" style="width:500px;height:142px;" title="Logo ITESO"></center>
<font face = "Times New Roman" size = "6"><b><center>Maestría en Sistemas Computacionales</center></b></font>
<font face = "Times New Roman" size = "5"><b><center>Programación para Análisis de Datos</center></b></font>

<b><br><font face = "Times New Roman" size = "4"><center>Unidad 4: Conceptos Generales</center></font>
<font face = "Times New Roman" size = "4"><center>Tema 4.1: Exploración, Integración y Limpieza de Datos</center></font>
<font face = "Times New Roman" size = "4"><center>Subtema h: Series de Tiempo y Estacionariedad</center></font></b>
<div align="right"><font face = "Times New Roman" size = "2">Dr. Iván Esteban Villalón Turrubiates (villalon@iteso.mx)</font></div>
</span></div>

<p><b><h2>SERIES DE TIEMPO Y ESTACIONARIEDAD</h2></b>

Las **Series de Tiempo** son una importante fuente de información que se emplea para definir estrategias para la toma de decisiones en los negocios. Desde una industria financiera pasando por empresas de ingeniería y educación, las **Series de Tiempo** juegan un rol de suma importancia para comprender muchos detalles de factores específicos que se ven afectados respecto del tiempo. 

Para ejemplificar el uso de las **Series de Tiempo**, se empleará una base de datos que contiene la información de la cantidad de pasajeros que volaron cada mes en cierta línea aérea, en un rango de tiempo que va desde enero de 2010 hasta diciembre de 2020. Los encabezados de las columnas de información son:

1. **Mes**: Es el mes en formato aaaa-mm.
2. **Pasajeros**: Es la cantidad de pasajeros que volaron.

Para la lectura del archivo y la preparación de los datos, se realizarán las siguientes operaciones:

1. Importación de las librerías necesarias (**Pandas**, **NumPy** y **Matplotlib**).
2. Definición de los parámetros a emplear en los gráficos de **Matplotlib**.
3. Lectura de los datos empleando el método `.read_csv()`.
4. Mostrar el tipo de datos contenidos en el **DataFrame** empleando el método `.dtypes`.
5. Mostrar el **DataFrame** resultante empleando la función `display()`.

In [None]:
#Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#Definición de los parámetros de los gráficos
plt.rcParams.update({'font.size': 10, 'figure.figsize': (8, 6)}) 

#Lectura de los datos desde el archivo CSV
datos_df = pd.read_csv('./Datos/Pasajeros.csv')

#Impresión de los Resultados
print('Tipos de Datos en el DataFrame:\n', datos_df.dtypes)
print("\nEl DataFrame es:")
display(datos_df)

<p><b><h3>Descripción de los Datos</h3></b>

Los datos contenidos en el **DataFrame** especifican un año y un mes, así como el número de pasajeros que viajaron en ese mes. Como se puede ver, el tipo de datos para los meses está definido como `object`, por lo mismo se requiere pasarlo a un formato de **Series de Tiempo** y emplear la columna `Mes` como el índice del **DataFrame**. 

Las marcas de tiempo o *Timestamps* son muy útiles en la comparación de objetos. Es posible crear un *Timestamp* con el método `pd.to_datetime()` de **Pandas**. Para ello, será necesario emplear la librería **Datetime** de **Pandas**, la cual se importa por medio de la siguiente instrucción:
```python
from datetime import datetime
```
La documentación del método `pd.to_datetime()` de **Pandas** se puede consultar [en esta liga](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html).

Los *Timestamp* son de gran utilidad cuando se requiere hacer filtrado lógico de datos basados en fechas. Para realizarlo, el método `pd.to_datetime()` llevará como argumento la columna del **DataFrame** que se convertirá al formato de **Series de Tiempo**. Finalmente, la columna `Mes` se definirá como el **Indice**.

In [None]:
#Uso de la librería Datetime de Python
from datetime import datetime

#Conversión de la Columna "Month" al formato de Serie de Tiempo
datos_df['Mes'] = pd.to_datetime(datos_df['Mes'])

#Definir la Columna "Month" como el Indice del DataFrame
datos_df = datos_df.set_index('Mes')

#Revisando el formato de los datos contenidos en el Indice del DataFrame
print('Tipos de Datos en la Columna Mes:\n', datos_df.index)
print("\nEl DataFrame es:")
display(datos_df)

Ahora se extraerá la columna `Pasajeros` como una **Serie**, recordando que a pesar de ser un **DataFrame** de una sola columna (*vector*), el **Indice** se mantiene como parte del mismo.

In [None]:
#Extracción de la columna 'Pasajeros' como una Serie
ts = datos_df['Pasajeros']

#Impresión de los Resultados
print("La Serie es:")
display(ts)

<p><b><h3>Estacionariedad (Stationarity)</h3></b>

El concepto de **Estacionariedad** (*Stationarity*) es de mucha utilidad en el análisis de **Series de Tiempo**. 

Para poder emplear un modelo de **Series de Tiempo**, es importante que esa **Serie** sea *Estacionaria*, es decir, que sus propiedades estadísticas (**media** y **varianza**) permanezcan constantes en el tiempo. Esto es debido a que el comportamiento de la serie a lo largo del tiempo es constante, y por ello se mantendrá de esa manera en el futuro, lo cual permite hacer pronósticos más certeros.

En la práctica, es posible asumir que una serie es *Estacionaria* si tiene sus propiedades estadísticas constantes en el tiempo, las cuales pueden ser:
* Su valor de **Media** es constante. 
* Su valor de **Varianza** es constante. 
* Tiene un valor de auto-covarianza que no depende del tiempo.

Estos valores pueden ser revisados de manera sencilla en **Python**. Sin embargo, una manera rápida es comprobarlo a través de un gráfico de la **Serie** de datos, para ello se empleará el método `.plot()` de **Matplotlib** aplicado a la **Serie** de tiempo `ts`, esto es:

In [None]:
#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts, label = 'Serie de Tiempo')
plt.legend(loc='best')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros')
plt.title('Serie de Tiempo')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts.index.min()), np.datetime64(ts.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

Es posible observar en el gráfico que existe un incremento en la tendencia, pero mantiene cierto nivel de **Estacionariedad**.

<p><b><h3>Prueba de Estacionariedad</h3></b>

Para realizar la prueba de **Estacionariedad**, se puede emplear la prueba ***Dickey-Fuller*** que está definida a través de la función de **Python** descrita a continuación como `prueba_estacionariedad`.

Para más detalles de la prueba Dickey-Fuller, se puede consultar [este enlace](http://www.real-statistics.com/time-series-analysis/stochastic-processes/dickey-fuller-test/).

In [None]:
#Función para la prueba Dicker-fuller de Estacionariedad
import pandas as pd
from statsmodels.tsa.stattools import adfuller

def prueba_estacionariedad(serie_tiempo):
    
    #Determinación de Estadísticos
    rolmean = serie_tiempo.rolling(12).mean()
    rolstd = serie_tiempo.rolling(12).std()

    #Gráfica de los Estadísticos
    fig, ax = plt.subplots()
    orig = ax.plot(serie_tiempo, color='blue',label='Serie')
    mean = ax.plot(rolmean, color='red', label='Media')
    std = ax.plot(rolstd, color='black', label = 'Desviación Estándar')
    plt.legend(loc='best')
    plt.title('Media y Desviación Estándar de la Serie de Tiempo')
    plt.xlabel('Años')
    plt.ylabel('Número de Pasajeros')
    fig.autofmt_xdate(rotation=45)
    ax.set_xlim(np.datetime64(ts.index.min()), np.datetime64(ts.index.max()))
   
    #Guardar el Gráfico Resultante
    #plt.savefig('./Guardados/PruebaEstac.png', dpi=300, transparent=False, bbox_inches='tight')
    plt.show();
    
    #Prueba Dickey-Fuller
    print('Resultados de la Prueba Dickey-Fuller de Estacionariedad:\n')
    dftest = adfuller(serie_tiempo, autolag='AIC')
    dfoutput = pd.Series(dftest[0:4], index=['Prueba Estadística','Valor-p','Número de Retardos','Número de Observaciones'])
    for key,value in dftest[4].items():
        dfoutput['Valor Crítico (%s)'%key] = value
    print(dfoutput)

Una vez definida la función `prueba_estacionariedad`, se aplica a la **Serie de Tiempo**:

In [None]:
#Prueba de Estacionariedad para la Serie
prueba_estacionariedad(ts)

De los resultados, es posible observar que no son *Estacionarios* debido a:
* La **media** se incrementa a pesar de que la **desviación estándar** se mantiene baja.
* El valor *Prueba Estadística* es mayor a los *Valores Críticos*.

***Nota:*** El valor *Prueba Estadística* se compara con los *Valores Críticos* para definir la **Estacionariedad** de la **Serie**:
* Si el valor *Prueba Estadística* es mayor a los *Valores Críticos*, la **Serie** *No es Estacionaria*.
* Si el valor *Prueba Estadística* es menor a alguno de los *Valores Críticos*, la **Serie** *Es Estacionaria* y el porcentaje del *Valor Crítico* define la certeza de ello.

<p><b><h2>Conviertiendo la Serie en Estacionaria</h2></b>

Existen dos factores importantes que hacen que una **Serie** sea *No Estacionaria*:
* Tendencia (Trend): La tendencia no tiene valor constante en su **media**.
* Temporalidad (Seasonality): Hay variación en rangos de tiempo específicos.

La idea es modelar la Tendencia y/o la Temporalidad en esta **Serie**, para con ello remover esas constantes y obtener una **Serie** *Estacionaria*. De esa manera es posible realizar pronósticos con un mayor nivel de confianza, para finalmente volver a aplicar las constantes de Tendencia y/o Temporalidad que previamente se había eliminado.

<p><b><h3>Tendencia (Trend)</h3></b>

Para reducir la Tendencia se aplica una transformación que puede ser de diversas índoles como logarítmica, raíz cuadrada, raíz cúbica, entre otras. En este caso se empleará una transformación logarítmica empleando el método `.log()` de **NumPy**:

In [None]:
#Transformación logarítmica de la Serie
ts_log = np.log(ts)

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts_log, label = 'Serie de Tiempo')
plt.legend(loc='best')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros [log]')
plt.title('Serie de Tiempo en Escala Logarítmica')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts_log.index.min()), np.datetime64(ts_log.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

Existen algunos métodos para modelar estas tendencias y luego eliminarlas de la serie. Los más comúnes son:
* Suavizado (Smoothing): Emplea **promedio móvil**.
* Agresión (Aggression): Tomando el valor de la **media** para un periodo de tiempo (***no se revisará***).

Se empleará el modelo Suavizado (smoothing) para este caso. 

<p><b><h4>Suavizado (Smoothing)</h4></b>

Para el Suavizado se pueden emplear dos métodos:
1. **Promedio Móvil** (*Moving Average*).
2. **Promedio Móvil Exponencialmente Ponderado** (*Exponentially Weighted Moving Average*).

<p><b><h5>Promedio Móvil (Moving Average)</h5></b>

Se toman una cierta cantidad de valores *x* consecutivos, **Pandas** cuenta con el método `.rolling(x).mean()` para realizarlo, donde se especifica la cantidad de valores *x* a ser empleados en el argumento. Por ejemplo, para `x = 12` valores consecutivos:

In [None]:
#Definición de los valores consecutivos
x = 12

#Determinación del Promedio Móvil
moving_avg = ts_log.rolling(x).mean()

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts_log, label = 'Serie de Tiempo')
ax.plot(moving_avg, color='red', label='Promedio Móvil')
plt.legend(loc='best')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros [log]')
plt.title('Serie de Tiempo en Escala Logarítmica')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts_log.index.min()), np.datetime64(ts_log.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

Como siguiente paso, se extraerá el valor de la **media** de cada uno de los valores originales de la **Serie**, ambos en escala logarítmica:

In [None]:
#Extrayendo la media del valor original de la Serie
ts_log_moving_avg_diff = ts_log - moving_avg

#Impresión de los Resultados
ts_log_moving_avg_diff.head(20)

Entre mayor haya sido la cantidad de valores consecutivos que se haya seleccionado (`x = 12` para este ejemplo), más constante será el resultado, pero se genera una mayor candidad de ***valores nulos*** (`NaN`) al inicio de la **Serie**.

El siguiente paso será eliminar estos ***valores nulos***, para ello se emplea el método `.dropna()` de **Pandas**, esto es:

In [None]:
#Eliminando los valores nulos
ts_log_moving_avg_diff.dropna(inplace = True)

#Impresión de los Resultados
ts_log_moving_avg_diff.head(20)

Con esta **Serie** ya modificada con el método de **Promedio Móvil**, se vuelve a hacer la prueba de **Estacionariedad**:

In [None]:
#Prueba de Estacionariedad para la Serie
prueba_estacionariedad(ts_log_moving_avg_diff)

Al realizar la prueba de estacionariedad, es posible observar:
* El valor *Prueba Estadística* es menor que el valor del 5% de *Valor Crítico*, lo cual indica que hay un 95% de certeza de que esta **Serie** sea *Estacionaria*.


<p><b><h5>Promedio Móvil Exponencialmente Ponderado (Exponentially Weighted Moving Average)</h5></b>

En el ejemplo previo, se emplearon 12 meses como frecuencia. Sin embargo, hay situaciones en las que este periodo de tiempo puede ser más complejo de definir. 

Para ello se puede emplear el método de **Promedio Móvil Exponencialmente Ponderado**, para el cual **Pandas** cuenta con el método `.ewm(halflife = x).mean()` para realizarlo, donde se especifica la cantidad de valores *x* a ser empleados en el argumento. Por ejemplo, para `x = 12` valores consecutivos:

In [None]:
#Definición de los valores consecutivos
x = 12

#Determinación del Promedio Móvil Exponencialmente Ponderado
expweighted_avg = ts_log.ewm(halflife = x).mean()

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts_log, label = 'Serie de Tiempo')
ax.plot(expweighted_avg, color='red', label='PMEP')
plt.legend(loc='best')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros [log]')
plt.title('Serie de Tiempo en Escala Logarítmica')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts_log.index.min()), np.datetime64(ts_log.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

De manera similar, el siguiente paso es extraer el valor del **Promedio Móvil Exponencialmente Ponderado** de cada uno de los valores originales de la **Serie**, ambos en escala logarítmica:

In [None]:
#Extrayendo el PMEP del valor original de la Serie
ts_log_ewm_diff = ts_log - expweighted_avg

#Impresión de los Resultados
ts_log_ewm_diff.head(20)

Como puede notarse, este método no genera ***valores nulos*** ya que su aproximación matemática es más certera. 

Con esta **Serie** ya modificada con el método de **Promedio Móvil Exponencialmente Ponderado**, se vuelve a hacer la prueba de **Estacionariedad**:

In [None]:
#Prueba de Estacionariedad para la Serie
prueba_estacionariedad(ts_log_ewm_diff)

Al realizar la prueba de estacionariedad, es posible observar:
* El valor *Prueba Estadística* es menor que el valor del 1% de *Valor Crítico*, lo cual indica que hay un 99% de certeza de que esta **Serie** sea *Estacionaria*.


<p><b><h4>Temporalidad (Seasonality)</h4></b>

Ahora se removerá la Temporalidad de la **Serie** por medio de dos métodos:
* Diferencia: A través de diferencias de tiempo.
* Decomposición: Modelado de ambos elementos (Tendencia y Temporalidad) y su eliminación.

<p><b><h5>Modelo de Diferencias</h5></b>

El **Modelo de Diferencias** se aplica empleando el método `.shift()` de **Pandas**, el cual toma la primera diferencia desde la **Serie** original. Para ello, se extrae el valor obtenido con este método de cada uno de los valores originales de la **Serie**, ambos en escala logarítmica:

In [None]:
#Se toma la primera diferencia desde la Serie original
ts_log_diff = ts_log - ts_log.shift()

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts_log_diff, label = 'Serie de Tiempo')
plt.legend(loc='best')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros [log]')
plt.title('Serie de Tiempo en Escala Logarítmica')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts_log.index.min()), np.datetime64(ts_log.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

Ahora se hace una eliminación de los ***valores nulos*** que hayan resultado en este proceso, y se realiza la prueba de **Estacionariedad**:

In [None]:
#Eliminación de los valores nulos
ts_log_diff.dropna(inplace = True)

#Prueba de Estacionariedad para la Serie
prueba_estacionariedad(ts_log_diff)

Al realizar la prueba de estacionariedad, es posible observar:
* La **media** y **desviación estándar** tienen una pequeña variación respecto al tiempo.
* El valor *Prueba Estadística* es menor que el valor del 5% de *Valor Crítico*, lo cual indica que hay un 95% de certeza de que esta **Serie** sea *Estacionaria*.

<p><b><h4>Modelo de Decomposición</h4></b>

El **Modelo de Decomposición** puede ser implementado a través de una función de **Pandas** llamada `seasonal_decompose` de la siguiente manera:

In [None]:
#Importación de librería
from statsmodels.tsa.seasonal import seasonal_decompose

#Aplicación de la Función a la Serie
decomposition = seasonal_decompose(ts_log)
trend = decomposition.trend
seasonal = decomposition.seasonal
residual = decomposition.resid

#Gráfico del Resultado
plt.subplot(4,1,1)
plt.plot(ts_log, label='Original')
plt.legend(loc='best')
plt.subplot(4,1,2)
plt.plot(trend, label='Tendencia')
plt.legend(loc='best')
plt.subplot(4,1,3)
plt.plot(seasonal,label='Temporalidad')
plt.legend(loc='best')
plt.subplot(4,1,4)
plt.plot(residual, label='Residual')
plt.legend(loc='best')
plt.tight_layout()

Se emplean los valores ***Residuales*** a través de los cuales se realiza la prueba de **Estacionariedad**:

In [None]:
#Usando los valores residuales
ts_log_decompose = residual

#Eliminación de los valores nulos
ts_log_decompose.dropna(inplace=True)

#Prueba de Estacionariedad para la Serie
prueba_estacionariedad(ts_log_decompose)

Al realizar la prueba de estacionariedad, es posible observar:
* La **media** y **desviación estándar** tienen una pequeña variación respecto al tiempo.
* El valor *Prueba Estadística* es menor que el valor del 1% de *Valor Crítico*, lo cual indica que hay un 99% de certeza de que esta **Serie** sea *Estacionaria*.

<p><b><h3>En Resumen</h3></b>

A manera de resumen, los métodos para realizar la **Estacionariedad** de una **Serie de Tiempo** se muestran en el siguiente diagrama:

<center><img src="./Imagenes/Estacional.png" style="width:796px;height:350px;" class="center"></center>

<div class="alert alert-block alert-success">
<b>.: Fin del Subtema :.</b>
</div>

***Liga de aceso al siguiente Subtema:*** 
<br>[i. Series de Tiempo y Pronóstico](i.%20Series%20de%20Tiempo%20y%20Pronostico.ipynb)