<div class="alert alert-block alert-info">
<span style="color: rgb(0,53,91);">
<center><img src="./Imagenes/ITESO_Logo.png" style="width:500px;height:142px;" title="Logo ITESO"></center>
<font face = "Times New Roman" size = "6"><b><center>Maestría en Sistemas Computacionales</center></b></font>
<font face = "Times New Roman" size = "5"><b><center>Programación para Análisis de Datos</center></b></font>

<b><br><font face = "Times New Roman" size = "4"><center>Unidad 4: Conceptos Generales</center></font>
<font face = "Times New Roman" size = "4"><center>Tema 4.1: Exploración, Integración y Limpieza de Datos</center></font>
<font face = "Times New Roman" size = "4"><center>Subtema i: Series de Tiempo y Pronóstico</center></font></b>
<div align="right"><font face = "Times New Roman" size = "2">Dr. Iván Esteban Villalón Turrubiates (villalon@iteso.mx)</font></div>
</span></div>

<p><b><h2>SERIES DE TIEMPO Y PRONÓSTICO</h2></b>

Las **Series de Tiempo** son una importante fuente de información que se emplea para definir estrategias para la toma de decisiones en los negocios. Desde una industria financiera pasando por empresas de ingeniería y educación, las **Series de Tiempo** juegan un rol de suma importancia para comprender muchos detalles de factores específicos que se ven afectados respecto del tiempo. 

Para ejemplificar el uso de las **Series de Tiempo**, se empleará una base de datos que contiene la información de la cantidad de pasajeros que volaron cada mes en cierta línea aérea, en un rango de tiempo que va desde enero de 2010 hasta diciembre de 2020. Los encabezados de las columnas de información son:

1. **Mes**: Es el mes en formato aaaa-mm.
2. **Pasajeros**: Es la cantidad de pasajeros que volaron.

Para la lectura del archivo y la preparación de los datos, se realizarán las siguientes operaciones:

1. Importación de las librerías necesarias (**Pandas**, **NumPy** y **Matplotlib**).
2. Definición de los parámetros a emplear en los gráficos de **Matplotlib**.
3. Lectura de los datos empleando el método `.read_csv()`.
4. Conversión de la columna `Mes` al formato de serie de tiempo.
5. Definición de la columna `Mes` como el índice del **DataFrame**.
7. Mostrar el **DataFrame** resultante empleando la función `display()`.

In [None]:
#Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime

#Definición de los parámetros de los gráficos
plt.rcParams.update({'font.size': 10, 'figure.figsize': (8, 6)}) 

#Lectura de los datos desde el archivo CSV
datos_df = pd.read_csv('./Datos/Pasajeros.csv')

#Conversión de la Columna "Mes" al formato de Serie de Tiempo
datos_df['Mes'] = pd.to_datetime(datos_df['Mes'])

#Definir la Columna "Mes" como el Indice del DataFrame
datos_df = datos_df.set_index('Mes')

#Impresión de los Resultados
print("\nEl DataFrame es:")
display(datos_df)

Ahora se extraerá la columna `Pasajeros` como una **Serie**, recordando que a pesar de ser un **DataFrame** de una sola columna (*vector*), el **Indice** se mantiene como parte del mismo.

In [None]:
#Extracción de la columna 'Pasajeros' como una Serie
ts = datos_df['Pasajeros']

#Impresión de los Resultados
print("\nLa Serie es:")
display(ts)

<p><b><h3>Estacionariedad (Stationarity)</h3></b>

El concepto de **Estacionariedad** (*Stationarity*) es de mucha utilidad en el análisis de **Series de Tiempo**. 

Para poder emplear un modelo de **Series de Tiempo**, es importante que esa **Serie** sea *Estacionaria*, es decir, que sus propiedades estadísticas (**media** y **varianza**) permanezcan constantes en el tiempo. Esto es debido a que el comportamiento de la serie a lo largo del tiempo es constante, y por ello se mantendrá de esa manera en el futuro, lo cual permite hacer pronósticos más certeros.

En la práctica, es posible asumir que una serie es *Estacionaria* si tiene sus propiedades estadísticas constantes en el tiempo, las cuales pueden ser:
* Su valor de **Media** es constante. 
* Su valor de **Varianza** es constante. 
* Tiene un valor de auto-covarianza que no depende del tiempo.

Estos valores pueden ser revisados de manera sencilla en **Python**. Sin embargo, una manera rápida es comprobarlo a través de un gráfico de la **Serie** de datos, para ello se empleará el método `.plot()` de **Matplotlib** aplicado a la **Serie** de tiempo `ts`, esto es:

In [None]:
#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts, label = 'Serie de Tiempo')
plt.legend(loc='best')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros')
plt.title('Serie de Tiempo')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts.index.min()), np.datetime64(ts.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

Es posible observar en el gráfico que existe un incremento en la tendencia, pero mantiene cierto nivel de **Estacionariedad**.

<p><b><h3>Prueba de Estacionariedad</h3></b>

Para realizar la prueba de **Estacionariedad**, se puede emplear la prueba ***Dickey-Fuller*** que está definida a través de la función de **Python** descrita a continuación como `prueba_estacionariedad`.

In [None]:
#Función para la prueba Dicker-fuller de Estacionariedad
import pandas as pd
from statsmodels.tsa.stattools import adfuller

def prueba_estacionariedad(serie_tiempo):
    
    #Determinación de Estadísticos
    rolmean = serie_tiempo.rolling(12).mean()
    rolstd = serie_tiempo.rolling(12).std()

    #Gráfica de los Estadísticos
    fig, ax = plt.subplots()
    orig = ax.plot(serie_tiempo, color='blue',label='Serie')
    mean = ax.plot(rolmean, color='red', label='Media')
    std = ax.plot(rolstd, color='black', label = 'Desviación Estándar')
    plt.legend(loc='best')
    plt.title('Media y Desviación Estándar de la Serie de Tiempo')
    plt.xlabel('Años')
    plt.ylabel('Número de Pasajeros')
    fig.autofmt_xdate(rotation=45)
    ax.set_xlim(np.datetime64(ts.index.min()), np.datetime64(ts.index.max()))
   
    #Guardar el Gráfico Resultante
    #plt.savefig('./Guardados/PruebaEstac.png', dpi=300, transparent=False, bbox_inches='tight')
    plt.show();
    
    #Prueba Dickey-Fuller
    print('Resultados de la Prueba Dickey-Fuller de Estacionariedad:\n')
    dftest = adfuller(serie_tiempo, autolag='AIC')
    dfoutput = pd.Series(dftest[0:4], index=['Prueba Estadística','Valor-p','Número de Retardos','Número de Observaciones'])
    for key,value in dftest[4].items():
        dfoutput['Valor Crítico (%s)'%key] = value
    print(dfoutput)

Una vez definida la función `prueba_estacionariedad`, se aplica a la **Serie de Tiempo**:

In [None]:
#Prueba de Estacionariedad para la Serie
prueba_estacionariedad(ts)

De los resultados, es posible observar que no son *Estacionarios* debido a:
* La **media** se incrementa a pesar de que la **desviación estándar** se mantiene baja.
* El valor *Prueba Estadística* es mayor a los *Valores Críticos*.

***Nota:*** El valor *Prueba Estadística* se compara con los *Valores Críticos* para definir la **Estacionariedad** de la **Serie**:
* Si el valor *Prueba Estadística* es mayor a los *Valores Críticos*, la **Serie** *No es Estacionaria*.
* Si el valor *Prueba Estadística* es menor a alguno de los *Valores Críticos*, la **Serie** *Es Estacionaria* y el porcentaje del *Valor Crítico* define la certeza de ello.

<p><b><h2>Conviertiendo la Serie en Estacionaria</h2></b>

Existen dos factores importantes que hacen que una **Serie** sea *No Estacionaria*:
* Tendencia (Trend): La tendencia no tiene valor constante en su **media**.
* Temporalidad (Seasonality): Hay variación en rangos de tiempo específicos.

La idea es modelar la Tendencia y/o la Temporalidad en esta **Serie**, para con ello remover esas constantes y obtener una **Serie** *Estacionaria*. De esa manera es posible realizar pronósticos con un mayor nivel de confianza, para finalmente volver a aplicar las constantes de Tendencia y/o Temporalidad que previamente se había eliminado.

Para reducir la Tendencia se aplica una transformación que puede ser de diversas índoles como logarítmica, raíz cuadrada, raíz cúbica, entre otras. En este caso se empleará una transformación logarítmica empleando el método `.log()` de **NumPy**:

In [None]:
#Transformación logarítmica de la Serie
ts_log = np.log(ts)

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts_log, label = 'Serie de Tiempo')
plt.legend(loc='best')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros [log]')
plt.title('Serie de Tiempo en Escala Logarítmica')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts_log.index.min()), np.datetime64(ts_log.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

<p><b><h3>Métodos para Series de Tiempo Estacionarias</h3></b>

Los métodos para realizar la **Estacionariedad** de una **Serie de Tiempo** se muestran en el siguiente diagrama:

<center><img src="./Imagenes/Estacional.png" style="width:796px;height:350px;" class="center"></center>

<p><b><h4>Modelo de Diferencias</h4></b>

Se empleará el **Modelo de Diferencias** debido a la simplicidad del mismo. Para ello cuenta con el método `.shift()` de **Pandas**, el cual toma la primera diferencia desde la **Serie** original.

Se extrae el valor obtenido con este método de cada uno de los valores originales de la **Serie**, ambos en escala logarítmica:

In [None]:
#Se toma la primera diferencia desde la Serie original
ts_log_diff = ts_log - ts_log.shift()

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts_log_diff, label = 'Serie de Tiempo')
plt.legend(loc='best')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros [log]')
plt.title('Serie de Tiempo en Escala Logarítmica')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts_log.index.min()), np.datetime64(ts_log.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

Ahora se hace una eliminación de los ***valores nulos*** que hayan resultado en este proceso, y se realiza la prueba de **Estacionariedad**:

In [None]:
#Eliminación de los valores nulos
ts_log_diff.dropna(inplace = True)

#Prueba de Estacionariedad para la Serie
prueba_estacionariedad(ts_log_diff)

Al realizar la prueba de estacionariedad, es posible observar:
* La **media** y **desviación estándar** tienen una pequeña variación respecto al tiempo.
* El valor *Prueba Estadística* es menor que el valor del 5% de *Valor Crítico*, lo cual indica que hay un 95% de certeza de que esta **Serie** sea *Estacionaria*.

<p><b><h3>Pronóstico de Series de Tiempo</h3></b>

Ahora que la serie ya es **Estacionaria**, se emplea un modelo estadístico conocido como **Modelo de Promedios Móviles Integrados Auto Regresivos** o **ARIMA** (***Auto Regressive Integrated Moving Average***) para realizar el pronóstico de valores.

El modelo **ARIMA** es similar a una *Regresión Lineal*, su predictor depende de tres parámetros (*p*, *d*, *q*), donde:

* *p*: Es el número de términos auto regresivos (AR). Por ejemplo, si *p = 3*, entonces el predictor de *x(t)* considera los elementos *x(t-1)*, *x(t-2)* y *x(t-3)*.
* *d*: Este es el número de diferencias a considerar.
* *q*: Es el número de términos para el promedio móvil (MA). Por ejemplo, si *q = 3*, entonces el predictor de *x(t)* considera los elementos *x(t-1)*, *x(t-2)* y *x(t-3)*.

Para determinar los valores *p* y *q*, se emplean dos funciones:

* **Función de Autocorrelación (ACF)**, la cual mide la correlación entre dos versiones consecutivas de la **Serie**. Por ejemplo, si el intérvalo a considerar es igual a 4, la **ACF** comparará la **Serie** en los tiempos *t1...t2* con las instancias *t1-4...t2-5*.
* **Función de Autocorrelación Parcial (PACF)**, la cual se emplea para medir el grado de asociación entre la **Serie** *x(t)* y *x(t-p)*.

<p><b><h4>Modelos ACF y PACF</h4></b>

El modelo **ARIMA**, así como los modelos **ACF** y **PACF** para determinar los valores *p* y *q* pueden ser determinados empleando la librería **StatsModels** de **Python**.

<p><b><h4>La Librería StatsModels</h4></b>

<center><img src="./Imagenes/Statsmodels_logo.png" style="width:549px;height:100px;" class="center"></center>

**StatsModels** es una librería para **Python** cuyo principal propósito es brindar clases y funciones para la estimación de distintos modelos estadísticos, así como pruebas estadísticas y exploración de datos. Cada estimación que se obtiene incluye una lista de diversos resultados del análisis estadístico. Esta biblioteca se vincula directamente con la librería **NumPy** así como con **Matplotlib**. 

La documentación de **StatsModels** se puede encontrar a través [de esta liga](https://www.statsmodels.org/stable/index.html).

Se emplearán dos elementos al importar la librería, uno para el modelo **ARIMA** y otro para los modelos **ACF** y **PACF**:
```python
from statsmodels.tsa.arima_model import ARIMA
from statsmodels.tsa.stattools import acf, pacf 
```
> Para determinar la **Función de Autocorrelación (ACF)** se emplea la función `acf(a,b)`, cuyos parámetros son:

* Parámetro a: Arreglo que contiene a la **Serie de Tiempo**.
* Parámetro b: Indica el número de retardos (`nlags = 12`) a ser empleados.

La documentación de la función `acf()` puede ser consultada [en esta liga](https://www.statsmodels.org/devel/generated/statsmodels.tsa.stattools.acf.html).

> Para determinar la **Función de Autocorrelación Parcial (PACF)** se emplea la función `pacf(a,b,c)`, cuyos parámetros son:

* Parámetro a: Arreglo que contiene a la **Serie de Tiempo**.
* Parámetro b: Indica el número de retardos (`nlags = 12`) a ser empleados.
* Parámetro c: Indica el método a ser empleado (`method = 'ols'`), en este caso indica regresión de **Series de Tiempo**.

La documentación de la función `pacf()` puede ser consultada [en esta liga](https://www.statsmodels.org/stable/generated/statsmodels.tsa.stattools.pacf.html).

In [None]:
#Importación de librerías
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.stattools import acf, pacf  

#Determinación de los Modelos ACF y PACF
lag_acf  =  acf(ts_log_diff, nlags = 12)
lag_pacf = pacf(ts_log_diff, nlags = 12, method = 'ols')

#Gráfico para ACF:    
plt.plot(lag_acf)
plt.axhline(y = 0, linestyle='--', color='gray')
plt.axhline(y = -1.96/np.sqrt(len(ts_log_diff)), linestyle='--', color='gray')
plt.axhline(y = 1.96/np.sqrt(len(ts_log_diff)), linestyle='--', color='gray')
plt.title('Autocorrelación (ACF)')
plt.show();

#Gráfico para PACF:
plt.plot(lag_pacf)
plt.axhline(y = 0, linestyle='--', color='gray')
plt.axhline(y = -1.96/np.sqrt(len(ts_log_diff)), linestyle='--', color='gray')
plt.axhline(y = 1.96/np.sqrt(len(ts_log_diff)), linestyle='--', color='gray')
plt.title('Autocorrelación Parcial (PACF)')
plt.show();

Las líneas punteadas que aparecen en los gráficos arriba y abajo del valor *0.0* son los intérvalos de confianza, que se usan para determinar los valores *p* y *q*: 

* *p*: Es el valor donde la curva toca por vez primera el intérvalo superior de confianza en la **Función de Autocorrelación Parcial (PACF)**. En este caso es aproximadamente *p = 2*.
* *q*: Es el valor donde la curva toca por vez primera el intérvalo superior de confianza en la **Función de Autocorrelación (ACF)**. En este caso es aproximadamente *q = 2*.

En base a estos valores, se pueden generar tres modelos considerando los valores individuales o combinados, los cuales son:

1. El **Modelo Auto Regresivo** (**AR**, ***Auto Regressive***).
2. El **Modelo de Promedios Móviles** (**MA**, ***Moving Average***). 
3. El **Modelo de Promedios Móviles Integrados Auto Regresivos** (**ARIMA**, ***Auto Regressive Integrated Moving Average***).

Para cada uno de ellos se calcula un error conocido como **RSS** (***Residual Sum of Squares***, o **Suma Residual de Cuadrados**).

Adicionalmente, los tres modelos previamente descritos se pueden determinar a través del método `ARIMA(a,b)` de la librería **StatsModels** empleando dos argumentos:

1. El argumento a: Corresponde a la **Serie** que contiene a los datos en escala logarítmica.
2. El argumento b: Corresponde al orden del modelo, es decir, los valores *p*, *d* y *q* que se especifican por medio del parámetro `order = (p,d,q)`.

La documentación detallada del método `ARIMA()` puede ser consultada a través [de esta liga](https://www.statsmodels.org/stable/generated/statsmodels.tsa.arima.model.ARIMA.html).

Para llevar a cabo la aplicación del Modelo **ARIMA** se realizan los siguientes pasos:

1. Creación del Modelo **ARIMA** aplicando el método `ARIMA()` y especificando los parámetros correspondientes.
2. Acoplamiento del Modelo a los valores con *máxima verosimilitud* (*maximum likelihood*) empleando el método `.fit()`. 
3. Determinación del **Error RSS** entre la predicción y el valor de la **Serie** que fue transformada a un modelo **Estacionario**.

<p><b><h4>Modelo Auto Regresivo (AR)</h4></b>
    
Para el modelo **Modelo Auto Regresivo (AR)**, se emplearán los valores:
* *p = 2* 
* *d = 1* 
* *q = 0*

Esto es:

In [None]:
#Modelo Auto Regresivo (AR)
modelo_AR = ARIMA(ts_log_diff, order = (2, 1, 0), freq = None)
resulta_AR = modelo_AR.fit()
RSS_AR = sum((resulta_AR.fittedvalues - ts_log_diff)**2)

#Gráfico de la Serie de Tiempo
plt.plot(ts_log_diff)
plt.plot(resulta_AR.fittedvalues, color='red')
plt.title("Modelo Auto Regresivo (AR), RSS: %.3f"% RSS_AR)
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros en Escala Logarítmica')
plt.plot();

<p><b><h4>Modelo de Promedios Móviles (MA)</h4></b>
    
Para el modelo **Modelo de Promedios Móviles (MA)**, se emplearán los valores:
* *p = 0* 
* *d = 1* 
* *q = 2*

Esto es:

In [None]:
#Modelo de Promedios Móviles (MA)
modelo_MA = ARIMA(ts_log_diff, order = (0, 1, 2), freq = None)
resulta_MA = modelo_MA.fit()
RSS_MA = sum((resulta_MA.fittedvalues - ts_log_diff)**2)

#Gráfico de la Serie de Tiempo
plt.plot(ts_log_diff)
plt.plot(resulta_MA.fittedvalues, color='red')
plt.title("Modelo de Promedios Móviles (MA), RSS: %.3f"% RSS_MA)
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros en Escala Logarítmica')
plt.plot();

<p><b><h4>Modelo de Promedios Móviles Integrados Auto Regresivos (ARIMA)</h4></b>
    
Para el modelo **Modelo de Promedios Móviles Integrados Auto Regresivos (ARIMA)**, se emplearán los valores:
* *p = 2* 
* *d = 1* 
* *q = 2*

Esto es:

In [None]:
#Modelo de Promedios Móviles Integrados Auto Regresivos (ARIMA)
modelo_ARIMA = ARIMA(ts_log_diff, order = (2, 1, 2), freq = None)
resulta_ARIMA = modelo_ARIMA.fit()
RSS_ARIMA = sum((resulta_ARIMA.fittedvalues - ts_log_diff)**2)

#Gráfico de la Serie de Tiempo
plt.plot(ts_log_diff)
plt.plot(resulta_ARIMA.fittedvalues, color='red')
plt.title("Promedios Móviles Integrados Auto Regresivos (ARIMA), RSS: %.3f"% RSS_ARIMA)
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros en Escala Logarítmica')
plt.plot();

Los valores del **Error RSS** generados por cada uno de los modelos son:

In [None]:
print("Valor RSS para AR = %.3f"% RSS_AR)
print("Valor RSS para MA = %.3f"% RSS_MA)
print("Valor RSS para ARIMA = %.3f"% RSS_ARIMA)

Es posible observar que el modelo **ARIMA** general el valor más bajo de **RSS**, por lo mismo es el más adecuado. 

<p><b><h4>Paso Final: Regresando a la Escala Original</h4></b>
    
Para regresar los valores a la escala original: 

1. Primero se deben obtener las predicciones y guardarlas en una **Serie**. Se notará que el primer mes hace falta *2010-01-01* debido a que se están empleando diferencias de 1 mes (*d = 1*). 
2. Posteriormente se determina la suma acumulada (método `.cumsum()`) y se agrega en una nueva **Serie**.
3. Se añaden esos valores a la **Serie** original. 
4. Se convierte a escala en tiempo la **Serie** obtenida.

In [None]:
#Paso 1: Asignación de las Predicciones a una Serie
predic_ARIMA_diff = pd.Series(resulta_ARIMA.fittedvalues)

#Impresión de los Resultados
predic_ARIMA_diff

In [None]:
#Paso 2: Asignación de la Suma Acumulada a una Serie
predic_ARIMA_diff_cumsum = predic_ARIMA_diff.cumsum()

#Impresión de los Resultados
predic_ARIMA_diff_cumsum

In [None]:
#Paso 3: Adición de la Suma Acumulada a la Serie Original
predic_ARIMA_log = pd.Series(ts_log.loc[ts_log.index[0]], index = ts_log.index)
predic_ARIMA_log = predic_ARIMA_log.add(predic_ARIMA_diff_cumsum, fill_value = 0)

#Impresión de los Resultados
predic_ARIMA_log

In [None]:
#Paso 4: Conversión al Dominio del Tiempo
predic_ARIMA = np.exp(predic_ARIMA_log).astype('int')

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts, label='Serie')
ax.plot(predic_ARIMA, label='ARIMA')
plt.legend(loc='best')
plt.title("Predicciones de Valores, Método ARIMA")
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(ts.index.min()), np.datetime64(ts.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

<p><b><h4>Pronóstico de Valores</h4></b>
    
Debido a que la **Serie** cuenta con la información de cada mes por 11 años (enero de 2010 hasta diciembre de 2020), y suponiendo que se requiere hacer el pronóstico por los próximos 6 meses, se emplea la fórmula siguiente:

$ (11 x 12) + (6) = 138 $

Esto es, *(11 meses x 12 años) + (6 meses)*. Este valor será de utilidad para emplear el método `.predict()` de **StatsModels** para hacer la predicción de un rango de valores.

La documentación del método `.predict()` puede ser consultada [en esta liga](https://www.statsmodels.org/0.9.0/generated/statsmodels.tsa.arima_model.ARIMA.predict.html).

In [None]:
#Pronóstico de Valores para 10 Años
pronos_ARIMA = resulta_ARIMA.predict(1,138)

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts_log - ts_log.shift(), label = 'A')
ax.plot(pronos_ARIMA, label = 'Pronostico')
plt.legend(loc='best')
plt.title('Predicción de Valores')
plt.xlabel('Años')
plt.ylabel('Número de Pasajeros en Escala Logarítmica')
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(pronos_ARIMA.index.min()), np.datetime64(pronos_ARIMA.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

En este caso, la variable `pronos_ARIMA` contiene el pronóstico de 6 valores adicionales a los 132 valores con los que ya se contaba (*12 meses por 11 años*) para un total de 138 valores, los cuales pueden ser verificados aplicando el método `.shape` a la **Serie**:

In [None]:
#Impresión de los Resultados
print("El tamaño de la Serie de Tiempo es:", ts.shape)
print("El tamaño de la Serie con Pronóstico es:", pronos_ARIMA.shape)

El método `.predict()` proporciona el resultado en escala logarítmica. Para hacer la aproximación de los valores en su ***Escala Original***, es necesario realizar los 4 pasos descritos previamente pero considerando que cada valor pronosticado se deberá agregar a cada valor real previo.

El primer paso se puede omitir ya que el método `.predict()` proporciona una **Serie**. 

In [None]:
#Paso 2: Asignación de la Suma Acumulada a una Serie
predic_ARIMA_diff_cumsum = pronos_ARIMA.cumsum()

#Paso 3: Adición de la Suma Acumulada a la Serie Original
predic_ARIMA_log = pd.Series(ts_log.loc[ts_log.index[0]], index = ts_log.index)
predic_ARIMA_log = predic_ARIMA_log.add(predic_ARIMA_diff_cumsum, fill_value = 0)

#Paso 4: Conversión al Dominio del Tiempo
predic_ARIMA = np.exp(predic_ARIMA_log).astype('int')

#Gráfico de la Serie de Tiempo
fig, ax = plt.subplots()
ax.plot(ts, label = 'Serie de Tiempo')
ax.plot(predic_ARIMA, label = 'Pronostico')
plt.legend(loc='best')
plt.title("Predicciones de Valores, Método ARIMA");
plt.xlabel('Años');
plt.ylabel('Número de Pasajeros');
fig.autofmt_xdate(rotation=45)
ax.set_xlim(np.datetime64(predic_ARIMA.index.min()), np.datetime64(predic_ARIMA.index.max()))

#Guardar el Gráfico Resultante
#plt.savefig('./Guardados/SerieTiempo.png', dpi=300, transparent=False, bbox_inches='tight')
plt.show();

Sin embargo, se notará que a partir del *2021-01-01* hay una "*caída*" en lo valores, en realidad esto se debe a que no se cuenta con la información real de ese periodo de tiempo, y como se comentó previamente, cada uno de esos valores pronosticados se deben agregar al valor real previo para tener una estimación adecuada.

In [None]:
predic_ARIMA.tail(10)

Los resultados pueden ser refinados para obtener un modelo más adecuado, pero por el momento se muestra a manera de introducción a un pronóstico de **Series de Tiempo**.

<div class="alert alert-block alert-success">
<b>.: Fin del Subtema :.</b>
</div>

***Liga de aceso al siguiente Subtema:*** 
<br>[j. Recapitulación del Análisis de DataFrames](j.%20Recapitulacion%20del%20Analisis%20de%20DataFrames.ipynb)