"Out of time" refere-se a uma abordagem de validação em que os dados são divididos com base em uma sequência temporal, ou seja, os dados de treinamento são usados antes de um determinado ponto no tempo, e os dados de teste são usados após esse ponto. Essa abordagem é comum em séries temporais.

# Exemplo

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

In [3]:
# Gerar um conjunto de dados fictício com uma tendência temporal
np.random.seed(42)
dates = pd.date_range(start='2020-01-01', periods=100)
data = pd.DataFrame({'date': dates, 'value': np.random.randn(100).cumsum()})

In [4]:
# Definir o ponto de corte no tempo
cutoff_date = '2020-04-01'

In [5]:
# Dividir os dados em treino e teste com base na data
train_data = data[data['date'] < cutoff_date]
test_data = data[data['date'] >= cutoff_date]

In [6]:
# Separar características e rótulos
X_train = np.arange(len(train_data)).reshape(-1, 1)  # Usando o índice como característica
y_train = train_data['value'].values

X_test = np.arange(len(train_data), len(train_data) + len(test_data)).reshape(-1, 1)
y_test = test_data['value'].values

In [7]:
# Treinar um modelo de regressão (Random Forest)
model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste (out of time)
y_pred = model.predict(X_test)

In [8]:
# Calcular o erro quadrático médio
mse = mean_squared_error(y_test, y_pred)

print(f'Erro Quadrático Médio (Out of Time): {mse:.2f}')

Erro Quadrático Médio (Out of Time): 1.43
