In [30]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression


In [29]:
dataset = pd.read_csv("mackeyglass.csv")
df_train = dataset[:-1500]
df_validation = dataset[-1500:-750]
df_test = dataset[-750:]

print(f"Dimensoes Treino: {df_train.shape}")
print(f"Dimensoes Validacao: {df_validation.shape}")
print(f"Dimensoes Teste: {df_test.shape}")

Dimensoes Treino: (3500, 2)
Dimensoes Validacao: (750, 2)
Dimensoes Teste: (750, 2)


In [47]:
class TimeSeriesDataLoader():
    """
    Classe responsável por transformar o dataset de uma série temporal em 
    matrizes que podem ser utilizadas numa regressão linear.
    """
    def __init__(self, k_attributes:int, df_dataset:pd.DataFrame):
        """
        Entradas:
            k_attributes (int): Número de entradas da janela da série temporal
            df_dataset (pd.DataFrame): DataFrame contendo a série temporal lida
            de um arquivo .csv
        """
        self.k_attributes = k_attributes
        self.df_dataset = df_dataset

    def get_data(self):
        """
        Saídas:
            x (np.array): Matrix com K colunas compostas de K atributos de janela de predição
            y (np.array): Matrix contendo os valores de target
        """
        
        p_values = self.df_dataset["p"]
        # n_indices é o número máximo de linhas (exemplos de treinamento) que o dataset nos fornece
        n_indices = len(p_values) - self.k_attributes 
        x, y = [], []
        # Percorre todas as janelas de K elementos dentro da série temporal
        for index in range(0,n_indices):
            x.append(p_values[index:(index + self.k_attributes)])
            y.append(p_values.iloc[index + self.k_attributes])
        x = np.array(x)
        y = np.array(y)
        return x, y


train_loader = TimeSeriesDataLoader(7, df_train)
x_train, y_train = train_loader.get_data()