Implementacion de un Modelo autoregresivo para la prediccion de valores trimestrales de exportaciones por industria Mexicana
---
### Objetivo. En esta demostracion realizamos un  análisis de series de tiempo utilizando técnicas estadisticas en R. 

#### Métodos para el análisis de series de tiempo.

##### El análisis de series de tiempo significa analizar los datos disponibles para descubrir el patrón o la tendencia en los datos para predecir algunos valores futuros que, a su vez, ayudarán a que sean más efectivas y optimicen las decisiones de negocios.
> Conceptos Clave: 
* Tendencia: un aumento o disminución a largo plazo de los datos se denomina tendencia. No es necesariamente lineal. Es el patrón subyacente en los datos a lo largo del tiempo.
* Estacionalidad: cuando una serie está influenciada por factores estacionales, es decir, un trimestre del año, mes o días de una semana, la estacionalidad existe en la serie. Siempre es de un período fijo y conocido. Por ejemplo, un aumento repentino en las ventas durante la Navidad, etc.
* Cíclicidad: cuando los datos muestran subidas y caídas que no son del período fijo, lo llamamos patrón cíclico. Por ejemplo, la duración de estas fluctuaciones suele ser de al menos 2 años.

![image.png](attachment:image.png)

#### Técnicas utilizadas para el análisis de series de tiempo:

 1. Modelos ARMA, ARIMA
 2. Modelos multivariados caja-Jenkins.
 3. Holt inviernos suavización exponencial (simple, doble y triple)



## Suposiciones del modelo 
 1. Los datos deben ser estacionarios: por estacionarios significa que las propiedades de la serie no dependen del momento en que se capturan. Una serie de ruido blanco y series con comportamiento cíclico también pueden considerarse series estacionarias.
 2. Los datos deben ser univariados. ARIMA trabaja en una sola variable (La regresión automática tiene que ver con la regresión con los valores pasados).

## Pasos a seguir para el modelado ARIMA:

 1. Análisis exploratorio
 2. Encajar el modelo
 3. Medidas de diagnóstico.



## Importamos librerias necesarias importar data set, graficar y realizar la regresion

> En caso de no contar con la libreria "ggfortify" ejecutamos -> install.packages("ggfortify"). En el caso de la libreria "fUnitRoots" ejecutamos -> install.packages("fUnitRoots")

In [None]:
install.packages("fUnitRoots")
install.packages("ggfortify")
library(ggfortify)
library(fUnitRoots)
#Librerias para trabajar con predicciones con timesieres

library(tseries)
library(forecast)
library(lmtest)
library(MTS)


Importamos dataset directo del Storage del proyecto
--

Parseamos nuestos datos a series  de tiempo 
----
### El primer paso en el modelado de series de tiempo  es convertir los datos disponibles al formato de datos de series de tiempo. Graficamos la serie de tiempo para determinar visualmente si el conjunto de datos posiblemente tenga una media y una variación constantes.


In [None]:
serie_1 <- ts(ETC['Minería'],frequency=4,start=c(2007,1))
plot(serie_1, xlab = "Tiempo", ylab = "Exportaciones",main="Exportaciones trimestrales de mercancías por subsector de actividad SCIAN")


In [None]:
serie_2 <- ts(ETC['Industria.alimentaria'],frequency=4,start=c(2007,1))
plot(serie_2, xlab = "Tiempo", ylab = "Exportaciones",main="Exportaciones trimestrales de mercancías por subsector de actividad SCIAN")

## Análisis exploratorio
 1. Análisis de autocorrelación para examinar la dependencia en serie: se utiliza para estimar qué valor en el pasado tiene una correlación con el valor actual. Proporciona la estimación p, d, q para los modelos ARIMA.
 2. Análisis espectral para examinar el comportamiento cíclico: realizado para describir cómo la variación en una serie de tiempo puede ser explicada por componentes cíclicos. También se conoce como un análisis de dominio de frecuencia. Usando esto, los componentes periódicos en un ambiente ruidoso se pueden separar.
 3. Estimación y descomposición de la tendencia: se utiliza para el ajuste estacional. Busca construir, a partir de una serie temporal observada, una serie de componentes (que podrían usarse para reconstruir la serie original) donde cada una de ellas tiene una característica determinada.

In [None]:
components_mineria.ts <- decompose(serie_1)
plot(components_mineria.ts)


In [None]:
components_alimentaria.ts <- decompose(serie_2)
plot(components_alimentaria.ts)

In [None]:
deseasonal_mineria <- seasadj(components_mineria.ts)


In [None]:
deseasonal_alimentaria <- seasadj(components_alimentaria.ts)


>Aquí obtenemos 4 componentes:
* Observado - la trama de datos reales
* Tendencia: el movimiento general hacia arriba o hacia abajo de los puntos de datos
* Estacional: cualquier patrón mensual / anual de los puntos de datos
* Aleatorio - parte inexplicable de los datos.

# Usamos las pruebas de root test, KPSS y Dickey Fuller aumentada, para ver si la prueba sugiere si hay una media constante o no.

#### KPSS es la prueba determina si una serie de tiempo es estacionaria alrededor de una tendencia media o lineal, o no es estacionaria debido a una raíz unitaria. Una serie temporal estacionaria es aquella en la que las propiedades estadísticas, como la media y la varianza, son constantes a lo largo del tiempo.
* La hipótesis nula para la prueba es que los datos son estacionarios. 
* La hipótesis alternativa para la prueba es que los datos no son estacionarios.

##### La prueba de Dickey Fuller aumentada (ADF) es una prueba de raíz unitaria para determinar la estacionariedad. Las raíces unitarias pueden causar resultados impredecibles en el análisis de series de tiempo. La prueba se puede utilizar con la correlación en serie.  Las hipótesis para la prueba:
* La hipótesis nula para esta prueba es que hay una raíz unitaria.
* La hipótesis alternativa varía ligeramente según la ecuación que estés usando. La alternativa básica es que la serie de tiempo es estacionaria (o de tendencia estacionaria).

Si los pasos de KPSS y Dickey Fuller aumentadosindican que hay una media no constante, entonces use la diferenciación para crear una nueva variable

In [None]:
kpss.test(serie_1) 

In [None]:
adf.test(serie_1)

In [None]:
adf.test(serie_2)

# Graficamos el ACF para la serie de tiempo para observar la correlación de sus valores presentes con los pasados y encontrar los parámetros p y/o q para el modelo
ACF es la estimación de la función de correlación y correlación automática y cruzada
La función acf calcula (y, por defecto, los gráficos) estimaciones de la función de autocovarianza o autocorrelación. La función pacf es la función utilizada para las autocorrelaciones parciales. La función ccf calcula la correlación cruzada o la covarianza cruzada de dos series univariadas.

In [None]:
acf(serie_1) 
pacf(serie_1)

In [None]:
acf(serie_2) 
pacf(serie_2)

# Ajuste

ndiffs()
* Número de diferencias requeridas para una serie estacionaria -> "Stationary Series"
* Funcion para estimar el número de diferencias requeridas para hacer que una determinada serie de tiempo sea estacionaria. ndiffs estima el número de primeras diferencias necesarias.

nsdiffs()
* Número de diferencias requeridas para una serie estacionaria estacional -> "Seasonally Stationary Series"
* Funcion para estimar el número de diferencias requeridas para hacer que una determinada serie de tiempo sea estacionaria. nsdiffs estima el número de diferencias estacionales necesarias.

In [None]:
diferencias_mineria <- ndiffs(serie_1)
diferencias_mineria
diferencias_alimentaria <- ndiffs(serie_2)
diferencias_alimentaria




In [None]:
nueva_mineria = diff(deseasonal_mineria, differences = diferencias_mineria)
plot(nueva_mineria)
adf.test(nueva_mineria, alternative = "stationary")

In [None]:
nueva_alimentaria = diff(deseasonal_alimentaria, differences = diferencias_alimentaria)
plot(nueva_alimentaria)
adf.test(nueva_alimentaria, alternative = "stationary")

# Parámetros p y q

In [None]:
acf(nueva_mineria)
pacf(nueva_mineria)

In [None]:
acf(nueva_alimentaria)
pacf(nueva_alimentaria)


### Modelado de arima
ARIMA es la abreviatura de Media Móvil Integrada AutoRegressive. Los términos de regresión automática (AR) se refieren a los retrasos de las series diferenciadas, los términos de media móvil (MA) se refieren a los retrasos de los errores y I es la cantidad de diferencia utilizada para hacer que las series de tiempo sean estacionarias.


In [None]:
auto.arima(deseasonal_mineria, seasonal=FALSE)

In [None]:
auto.arima(deseasonal_alimentaria, seasonal=FALSE)

# Evaluar e iterar

In [None]:
fit_mineria<- auto.arima(deseasonal_mineria, seasonal=FALSE)
tsdisplay(residuals(fit_mineria), lag.max=45, main='(0,1,1)Model Residuals')

In [None]:
fit_alimentaria<- auto.arima(deseasonal_alimentaria, seasonal=FALSE)
tsdisplay(residuals(fit_alimentaria), lag.max=45, main='Model Residuals')

# Predicción

In [None]:
fcast_mineria <- forecast(fit_mineria, h=1)
plot(fcast_mineria)

In [None]:
fcast_alimentaria <- forecast(fit_alimentaria, h=4)
plot(fcast_alimentaria)

In [None]:
fit_mineria_seasonality = auto.arima(deseasonal_mineria, seasonal=TRUE)
fit_mineria_seasonality


In [None]:
fit_alimentaria_seasonality = auto.arima(deseasonal_alimentaria, seasonal=TRUE)
fit_alimentaria_seasonality

In [None]:
seas_fcast_mineria <- forecast(fit_mineria_seasonality, h=2)
plot(seas_fcast_mineria)

In [None]:
seas_fcast_alimentaria<- forecast(fit_alimentaria_seasonality, h=4)
plot(seas_fcast_alimentaria)