# P1 - TSA - Acceso a Internet en Colombia

Elaborado por GRUPO 1:
- Juanita Piraban Barbosa - 201216313
- Lorena Morales Rodríguez - 202027957
- Alejandro Barinas Guio - 201628859
- Jaime Humberto Trujillo Perea - 201920366
- Alexander Zapata Galindo - 201425426

In [2]:
#Paquetes necesarios
!pip install pystan==2.19.1.1
#conda install -c conda-forge prophet



In [None]:
conda install -c conda-forge prophet

In [None]:
# Importar Librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import csv
import sys
import plotly as pt
import plotly.express as px
import warnings

from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf
from statsmodels.tsa.arima_model import ARIMA
from sklearn.metrics import mean_squared_error

from matplotlib import pyplot
from pandas import DatetimeIndex
from pandas import Series
from tabulate import tabulate
from pandas import DataFrame

from prophet import Prophet
from prophet.plot import add_changepoints_to_plot
from prophet.diagnostics import performance_metrics
from prophet.plot import plot_cross_validation_metric
from prophet.diagnostics import cross_validation

%matplotlib inline
sns.set()  

In [None]:
# Leer el archivo 'datos.csv'
df = pd.read_excel("DataSet/P1_Serie_Acceso_Internet_Trim.xlsx",index_col=0)

# Parte A. Contexto y relevancia del problema

Para el desarrollo del proyecto, se utilizó la serie de tiempo del porcentaje de penetración de Internet dedicado en Colombia (% de la población).

Número de suscriptores con acceso a Internet, fijo y móvil, según los datos reportados por los proveedores al último día de cada trimestre como porcentaje de la población basados en las proyecciones de población del DANE, entre diciembre de 2008 y diciembre de 2020.

Fuente: Ministerio de las TIC https://colombiatic.mintic.gov.co/

El análisis se centra en estos datos, dada la importancia de conocer cómo ha cambiado a través de los años la forma de conectarse a la red de internet, teniendo en cuenta que hace unos años, se dimensionaban las redes de conectividad 2G y 3G para comunicación por voz, la cual podía ser limitada por usuario: una persona solo puede hablar 60 minutos al día, 365 días al año. 

Sin embargo, con la revolución del internet un usuario puede contar con gran cantidad dispositivos conectados a las redes de internet, cifra que tiende a 10 o 20 aparatos por persona en los próximos años. Crecimiento que obliga al estado a pensar en soluciones de conectividad que sirvan para dar respeusta a esta demanda. Un claro ejemplo de esto es que al teléfono fijo le costó 75 años alcanzar los 100 millones de usuarios, y a Pokemon Go le costó tan solo 23 días alcanzar 50 millones de usuarios.

A pesar de que Colombia ha avanzado en la infraestructura de las redes, el 38% de las personas en Colombia no usa internet y el 50% de los hogares no lo tienen, lo que deja al país en un escenario poco competitivo frente a otras regiones. Pues los profesionales colombianos, al no contar con una infraestuctura robusta de datos, no pueden acceder a las tecnologías más desarrolladas en otras partes del mundo.

El análisis presentado en este documento permite dar un insight del crecimiento de tráfico de internet en los últimos años para tomar decisiones acerca de la legislación y los incentivos para continuar con el crecimiento de las autopistas digitales que el país necesita para ir al corriente con la cuarta revolución industrial.

In [None]:
df.plot(figsize=(12, 6),linewidth=3, fontsize=15, title='Acceso a Internet en Colombia 4T-2008 / 4T-2020');

# Análisis descriptivo 

In [None]:
df.Internet.describe()

In [None]:
df.head()

### Suscripciones a banda ancha fija (por cada 100 personas) en Latam

In [None]:
table_Latam = [['Colombia','13.8%'],['Argentina','19.6%'],['Brasil','15.6%'],['Ecuador','12.0%'],['Latam','14.1%'],['México','15.2%']]
headers = ['País', 'año 2018']
print(tabulate(table_Latam,headers))

### Suscripciones a banda ancha fija (por cada 100 personas) en Países Desarrollados

In [None]:
table_GP = [['Alemania','42.0%'],['China','31.3%'],['Estados Unidos','34.7%'],['Japón','33.5%'],['OECD','31.8%'],['Reino Unido','39.7%']]
headers = ['País', 'año 2018']
print(tabulate(table_GP,headers))

# Parte B. Análisis de los principales componentes de la serie

## Serie Original

In [None]:
original=df['Internet']
original.plot(figsize=(17,5), linewidth=3, fontsize=15)

In [None]:
#DF Test
result = adfuller(df['Internet'])
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
    print('\t%s: %.3f' % (key, value))

En este caso, el test no rechaza la Ho de que la serie no es estacionaria.

## Tendencia

In [None]:
tendencia=df['Internet'].rolling(window = 4).mean()
tendencia.plot(figsize=(17,5), linewidth=3, fontsize=15)

## Serie sin Tendencia

In [None]:
sin_tendencia=df['Internet']-tendencia
sin_tendencia.plot(figsize=(17,5), linewidth=3, fontsize=15)
plt.xlabel('Periodo', fontsize=20);

In [None]:
result = adfuller(sin_tendencia.dropna()) 
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
    print('\t%s: %.3f' % (key, value))

Al eliminar la tendencia, la serie es estacionaria al 5% de significancia pero no al 1% de significancia.

## Serie sin Componente Estacional 

Para eliminar el componente estacional se calcula la diferencia entre la tendencia y su rezago:

In [None]:
residuo = sin_tendencia-sin_tendencia.shift()
residuo.plot(figsize=(17,5), linewidth=3, fontsize=15)

In [None]:
result = adfuller(residuo.dropna()) 
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
    print('\t%s: %.3f' % (key, value))

En este caso, el test rechaza la Ho de que la serie no es estacionaria; luego la serie sin tendencia ni componente estacional (es decir, el componente residual) es estacionaria.

## Estacionalidad

In [None]:
estacional = sin_tendencia-residuo
estacional.plot(figsize=(17,5), linewidth=3, fontsize=15)
plt.xlabel('Periodo', fontsize=20);

No es claro un componente estacional.

Esto se confirma al no observar cambios repetitivos en la funcion de autocorrelación siguiente:

In [None]:
plt.figure(figsize=(14,5))
pd.plotting.autocorrelation_plot(df['Internet']);

# Descomposición Automática de la Serie

In [None]:
from statsmodels.tsa.seasonal import seasonal_decompose
decomposition = seasonal_decompose(df.Internet,model='additive')
decomposition.plot();

# Parte C. Modelos y Proyecciones

In [None]:
warnings.filterwarnings('ignore')

## C.1. Modelos ARIMA

## 1. Modelos

Se transforma la serie en logaritmo y se diferencia una vez:

In [None]:
df['log_Internet'] = np.log(df['Internet'])
df_log=df.iloc[:,1:3]
df_log= df.log_Internet.diff()
df_log=df_log.dropna()
df_log.plot(figsize=(12, 6),linewidth=3, fontsize=15);

In [None]:
result = adfuller(df_log)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
    print('\t%s: %.3f' % (key, value))

La serie diferenciada es estacionaria, dado que se rechaza la Ho de que la serie es no estacionaria.

In [None]:
# Función de Autocorrelación
serie = np.log(df['Internet']).diff().dropna()
plot_acf(serie,lags=20);

La ACF sugiere un proceso MA de orden 3.

In [None]:
#Función de Autocorrelación Parcial
plot_pacf(serie,lags=20);

La PACF sugiere un autorregresivo de orden 2.

A continuación se definen las bases de entrenamiento (80%) y de pruebas (20%):

In [None]:
#Bases de train y test
X = df['Internet'].values
size = int(len(X) * 0.80) # 80% train, 20% test
train, test = X[0:size], X[size:len(X)]
history = [x for x in train]
future = [x for x in test]

Se proceden a estimar ahora los siguientes modelos:

### a. Modelo ARIMA(2,1,3)

In [None]:
# fit modelo 1 - ARIMA(2,1,3)
model1 = ARIMA(np.log(history), order=(2,1,3))
model1_fit = model1.fit(disp=0)
print(model1_fit.summary())

In [None]:
# plot residual errors
residuals = pd.DataFrame(model1_fit.resid)
fig, ax = plt.subplots(1,2)
residuals.plot(title="Residuals", ax=ax[0])
residuals.plot(kind='kde', title='Density', ax=ax[1])
plt.show()

In [None]:
# Real vs Proyectado
output = model1_fit.forecast(steps=len(test))[0]
yhat = output
predictions = np.exp(yhat)
real_values = future
print(pd.DataFrame({'predict':predictions, 'real':real_values}))
plt.plot(test)
plt.plot(predictions, color='red')
plt.show()

# MSE
mse1 = mean_squared_error(test, predictions)
print('Test MSE: %.3f' % mse1)

### b. Modelo ARIMA(2,1,1)

In [None]:
# fit modelo 2 - ARIMA(2,1,1)
model2 = ARIMA(np.log(history), order=(2,1,1))
model2_fit = model2.fit(disp=0)
print(model2_fit.summary())

In [None]:
# plot residual errors
residuals = pd.DataFrame(model2_fit.resid)
fig, ax = plt.subplots(1,2)
residuals.plot(title="Residuals", ax=ax[0])
residuals.plot(kind='kde', title='Density', ax=ax[1])
plt.show()

In [None]:
#Real vs Proyectado
output = model2_fit.forecast(steps=len(test))[0]
yhat = output
predictions = np.exp(yhat)
real_values = future
print(pd.DataFrame({'predict':predictions, 'real':real_values}))
plt.plot(test)
plt.plot(predictions, color='red')
plt.show()

# MSE
mse2 = mean_squared_error(test, predictions)
print('Test MSE: %.3f' % mse2)

### c. Modelo ARIMA(2,1,0)

In [None]:
# fit modelo 3 - ARIMA(2,1,0)
model3 = ARIMA(np.log(history), order=(2,1,0))
model3_fit = model3.fit(disp=0)
print(model3_fit.summary())

In [None]:
#Real vs Proyectado
output = model3_fit.forecast(steps=len(test))[0]
yhat = output
predictions = np.exp(yhat)
real_values = future
#print(pd.DataFrame({'predict':predictions, 'real':real_values}))
plt.plot(test)
plt.plot(predictions, color='red')
plt.show()

# MSE
mse3 = mean_squared_error(test, predictions)
print('Test MSE: %.3f' % mse3)

### d. Modelo ARIMA(1,1,1)

In [None]:
# fit modelo 4 - ARIMA(1,1,1)
model4 = ARIMA(np.log(history), order=(1,1,1))
model4_fit = model4.fit(disp=0)
print(model4_fit.summary())

In [None]:
#Real vs Proyectado
output = model4_fit.forecast(steps=len(test))[0]
yhat = output
predictions = np.exp(yhat)
real_values = future
print(pd.DataFrame({'predict':predictions, 'real':real_values}))
plt.plot(test)
plt.plot(predictions, color='red')
plt.show()

# MSE
mse4 = mean_squared_error(test, predictions)
print('Test MSE: %.3f' % mse4)

### e. Modelo ARIMA(1,2,1)

In [None]:
# fit modelo 5 - ARIMA(1,2,1)
model5 = ARIMA(np.log(history), order=(1,2,1))
model5_fit = model5.fit(disp=0)
print(model5_fit.summary())

In [None]:
#Real vs Proyectado
output = model5_fit.forecast(steps=len(test))[0]
yhat = output
predictions = np.exp(yhat)
real_values = future
print(pd.DataFrame({'predict':predictions, 'real':real_values}))
plt.plot(test)
plt.plot(predictions, color='red')
plt.show()

# MSE
mse5 = mean_squared_error(test, predictions)
print('Test MSE: %.3f' % mse5)

### f. Modelo ARIMA(1,2,0)

In [None]:
# fit modelo 6 - ARIMA(1,2,0)
model6 = ARIMA(np.log(history), order=(1,2,0))
model6_fit = model6.fit(disp=0)
print(model6_fit.summary())

In [None]:
#Real vs Proyectado
output = model6_fit.forecast(steps=len(test))[0]
yhat = output
predictions = np.exp(yhat)
real_values = future
print(pd.DataFrame({'predict':predictions, 'real':real_values}))
plt.plot(test)
plt.plot(predictions, color='red')
plt.show()

# MSE
mse6 = mean_squared_error(test, predictions)
print('Test MSE: %.3f' % mse6)

### Comparación de modelos ARIMA

In [None]:
# Comparación de MSE
table_MSE = [['ARIMA (2,1,3)', round(mse1,3)],['ARIMA (2,1,1)', round(mse2,3)],['ARIMA (2,1,0)', round(mse3,3)],
            ['ARIMA (1,1,1)', round(mse4,3)],['ARIMA (1,2,1)', round(mse5,3)],['ARIMA (1,2,0)', round(mse6,3)]]
headers = ['Modelo', 'MSE ']
print(tabulate(table_MSE,headers,stralign="decimal"))

Se selecciona el modelo ARIMA(1,2,0) por tener menor MSE.

## 2. Proyección a 2 años (fuera de la muestra)

In [None]:
#Modelo final con todos los datos
model_def = ARIMA(np.log(X), order=(1,2,0))
model_def_fit = model_def.fit(disp=0)
print(model_def_fit.summary())

In [None]:
# plot residual errors
residuals = pd.DataFrame(model_def_fit.resid)
fig, ax = plt.subplots(1,2)
residuals.plot(title="Residuals", ax=ax[0])
residuals.plot(kind='kde', title='Density', ax=ax[1])
plt.show()

In [None]:
#Proyección por fuera de la muestra
n_periods = 8
fc, se, conf = model_def_fit.forecast(steps=n_periods)

#Extraer series
index_of_fc = np.arange(len(X), len(X)+n_periods)
fc_serie = np.exp(pd.Series(fc, index=index_of_fc))
lower_serie = np.exp(pd.Series(conf[:, 0], index=index_of_fc))
upper_serie = np.exp(pd.Series(conf[:, 1], index=index_of_fc))

# Gráfico
plt.plot(X)
plt.plot(fc_serie, color='red')
plt.fill_between(lower_serie.index,lower_serie, upper_serie, 
                 color='k', alpha=.15)
plt.title("Final Forecast Original Serie")
plt.show()

In [None]:
trimestres=['1T-21','2T-21','3T-21','4T-21','1T-22','2T-22','3T-22','4T-22']
trimestres=pd.DataFrame(trimestres)
table_proy = [[trimestres[-0],round(fc_serie[:],1), round(lower_serie,1), round(upper_serie,1)]]
headers = ['Periodo','Proyección', 'Límite inferior','Límite superior']
print(tabulate(table_proy,headers))

## C.2. Modelo Prophet

## 1. Modelo ###

In [None]:
df2 = pd.read_csv("DataSet/P1_Serie_Acceso_Internet_Trim.csv",sep=';',decimal=',')
df2.columns = ['ds', 'y']
df2['ds'] = pd.DatetimeIndex(df2['ds'])
df2.head()

In [None]:
m = Prophet(yearly_seasonality=4)
m.fit(df2)

## 2. Proyección a 2 años (fuera de la muestra) ###

In [None]:
future = m.make_future_dataframe(periods=8, freq='Q')
forecast = m.predict(future)
forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail(8)

### Plotting the Forecast

In [None]:
m.plot(forecast);

In [None]:
y_true = df2['y'][-4:].values
y_pred = forecast['yhat'][-12:].values
y_pred_lower = forecast['yhat_lower'][-12:].values
y_pred_upper = forecast['yhat_upper'][-12:].values

pyplot.plot(y_true, label='Actual')
pyplot.plot(y_pred, label='Predicted')
pyplot.plot(y_pred_lower, label='Lower Predicted')
pyplot.plot(y_pred_upper, label='Upper Predicted')
pyplot.legend()
pyplot.show()

### Decomposing the Forecast

In [None]:
m.plot_components(forecast);

### Cross-validation

In [None]:
cutoffs = pd.date_range(start='2016-06-30', end='2018-06-30', freq='3MS')
print(cutoffs)

df_cv = cross_validation(model=m, horizon='730 days', cutoffs=cutoffs)

In [None]:
performance_metrics(df_cv)

In [None]:
performance_metrics(df_cv).describe()

In [None]:
# Cálculo del RMSE de Prophet
y_pred = forecast['yhat']


# Conclusiones

### $\color{red}{\text{TODOS}}$ 

## Bibliografía