___
<img style="float: right; margin: 0px 0px 15px 15px;" src="https://images.squarespace-cdn.com/content/v1/558412b1e4b02581df4f2488/1517577616338-V13OHMPDLN33Y19EQ5R6/Beginner%27s+Guide+to+Time+Series+Forecasting+v3.png?format=1000w" width="500px" height="100px" />


# <font color= #8A0829> Preparación de datos para modelos de series de tiempo.</font>

<Strong> Objetivos </Strong>
- Entender lo pasos principales que se deben de seguir para una adecuada construcción de modelos de series de tiempo.
> Referencias: 
    > - https://www.musgraveanalytics.com/blog/2018/2/2/the-beginners-guide-to-time-series-forecasting
___

# Introducción

Los pasos recomendados para realizar un buen pronosticamiento de series de tiempo se puede resumir en la siguiente figura:

![imagen-5.png](attachment:imagen-5.png)

## 1. Definir el problema y el resultado.

Como en cualquier proyecto exitoso, el primer paso es definir claramente el problema. Esto incluye la **motivación** detrás de la creación de un pronóstico y los **objetivos y resultados previstos**. Después de esto, puede decidir cómo abordar la tarea en cuestión, incluido qué software usar en cada etapa. Por ejemplo, podríamos usar Excel para la preparación de datos, R para el análisis y modelado y Power BI para la implementación.

![imagen.png](attachment:imagen.png)

## 2. Preparación y recolección de información

**Fuentes de información**

En un estudio o investigación de series de tiempo son básicos los datos. Las fuentes de información se clasifican en:
- **Fuentes de Información Primaria**

Información que reúne o genera el investigador para alcanzar los objetivos del proyecto, análisis o estudio de un fenómeno
- **Fuentes de Información Secundaria**

Recabada por empresas o agentes ajenos a la propia investigación
Suele ser información elaborada en otras investigaciones o recopilada y 	difundida por organismos oficiales

![imagen-3.png](attachment:imagen-3.png)

## 3. Análisis exploratorio de datos (EDA)

Una vez preparados los datos, el siguiente paso es analizarlos. Para una serie temporal, esto implica descomponer la serie en sus partes constituyentes. Estos incluyen efectos de **tendencia y estacionales**. La tendencia es el patrón general a largo plazo de los datos y no es necesariamente lineal. La estacionalidad es un patrón recurrente de una duración fija causado por factores estacionales (por ejemplo, las precipitaciones son más altas durante los meses de invierno).

![imagen.png](attachment:imagen.png)

![imagen-2.png](attachment:imagen-2.png)

## 4. Construcción de modelos para pronóstico

Hay dos grupos importantes de métodos de pronosticamiento: cualitativos y **cuantitativos**.

![imagen-2.png](attachment:imagen-2.png)
![imagen-3.png](attachment:imagen-3.png)
![imagen-4.png](attachment:imagen-4.png)

## 5. Despliegue del modelo

Una vez que esté satisfecho con su modelo, es hora de implementarlo y hacer que el modelo genere pronósticos. Esto significa que los responsables de la toma de decisiones dentro de la empresa u organización pueden utilizar y beneficiarse de su previsión. La implementación puede adoptar la forma de una visualización, un panel de rendimiento, un gráfico o una tabla en un informe o una aplicación web.

Es posible que desee incluir con su pronóstico los **intervalos de predicción** calculados en el paso anterior. Estos le muestran al usuario los límites dentro de los cuales se puede esperar que caiga cada valor futuro si su modelo es correcto.

## 6.  Monitoreo del modelo

Una vez que el pronóstico se activa, es importante **monitorear su desempeño**. Una forma común de hacer esto es calcular la precisión utilizando una estadística de medición de errores. Las medidas populares incluyen el error porcentual absoluto medio (MAPE) 
$$
MAPE = \frac{1}{n}\sum_{t=1}^n \bigg|\frac{\text{Actual - Forecast}}{\text{Actual}}\bigg|
$$
y la desviación absoluta media (MAD)
$$
MAD = \frac{1}{n}\sum_{t=1}^n \big|\text{Actual - Forecast} \big|.
$$

- **MAD** es útil cuando se miden errores de predicción en la misma unidad que la serie original.
- **MAPE** es útil cuando el tamaño de una variable de predicción es importante para evaluar la precisión de una predicción. MAPE indica cuánto error en la predicción en comparación con el valor real.

Dependiendo de lo que se pronostique, es posible que **actualice** su modelo a medida que haya nuevos datos disponibles. Esto también debería conducir a un pronóstico más preciso de los valores futuros.

## Ejercicio:

Supongamos que queremos implementar uno de los modelos lineales que hemos estudiado hasta el momento. En base a lo visto en clase construya un pipeline donde se contruyan las siguientes funciones:

In [2]:
import pandas as pd
pd.DataFrame([[1, 2, 3, 4], [4, 5, 6, 7]]).dr

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,4,5,6,7


In [31]:
# El horizonte de predicción que se desea con el modelo
HORIZONTE = n

def split_dataset(data: list | pd.DataFrame, train_perc: float, target_column: str, seed: int) -> tuple(list, list):
    """
    Función que se encarga de dividir la data ingresada en datos de entrenamiento y prueba.
    :param data: Data con la información de la serie de tiempo a analizar.
    """
    n_train = int(train_perc * len(data))
    if isintance(data, list):
        data_train = data[:n_train]  
        data_test = data[n_train:]
        x_train = pd.DataFrame([x[:-1] for x in data_train])
        y_train = pd.Series([x[-1] for x in data_train])
        x_test = pd.DataFrame([x[:-1] for x in data_test])
        y_test = pd.Series([x[-1] for x in data_test])
    else 
        data_train = data.iloc[:n_train, :]
        data_test = data.iloc[n_train:, :]
        x_train = data_train.drop(columns=target_column)
        y_train = data_train[target_column]
        x_test = data_test.drop(columns=target_column)
        y_test = data_test[target_column]

    return x_train, y_train, x_test, y_test
    

def evaluate_forecasts(actual, predicted):
    """
    Función que se encargará de calcular las métricas de error. (MSE, RMSE, MAD, MAPE)
    :param actual: Valor actual de la serie de tiempo que se desea predecir.
    :param predicted: Valor predecido por el modelo ajustado.
    """

def model_forecast(history):
    """
    Función que entrena y predice con el modelo entrenado un horizonte de tiempo HORIZONTE.
    :param history: Serie de tiempo con el cuál se entrenará el modelo. El tipo de dato tiene que estar
                    acorde con el tipo de datos que reciba el modelo.
    """


def evaluate_model(model_func, train, test):
    """
    Función que se encargará de evaluar el modelo y calcular las métricas de error.
    :param model_func: Función del modelo que se encarga de entrenar y predecir un horizonte 
                       de tiempo HORIZONTE.
    :param train: Datos de entrenamiento.
    :param test: Datos de prueba.
    """

In [32]:
# Ejecutar un pipeline usando las funciones anteriormente implementadas para la variable 
# 'Global_active_power'
import pandas as pd

link = 'https://raw.githubusercontent.com/Talish-wiz/Improved-Home-Electrcity-Forecasting-Streamlit/master/household_power_consumption_days.csv'
dataset = pd.read_csv(link, header=0, 
                   infer_datetime_format=True, parse_dates=['datetime'], index_col=['datetime'])
dataset.head()

Unnamed: 0_level_0,Global_active_power,Global_reactive_power,Voltage,Global_intensity,Sub_metering_1,Sub_metering_2,Sub_metering_3,sub_metering_4
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2006-12-16,1209.176,34.922,93552.53,5180.8,0.0,546.0,4926.0,14680.933319
2006-12-17,3390.46,226.006,345725.32,14398.6,2033.0,4187.0,13341.0,36946.666732
2006-12-18,2203.826,161.792,347373.64,9247.2,1063.0,2621.0,14018.0,19028.433281
2006-12-19,1666.194,150.942,348479.01,7094.0,839.0,7602.0,6197.0,13131.900043
2006-12-20,2225.748,160.998,348923.61,9313.0,0.0,2648.0,14063.0,20384.800011
