In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import catboost as cat
from sklearn import linear_model as lm
from sklearn.preprocessing import SplineTransformer, OneHotEncoder, StandardScaler
from sklearn.metrics import mean_squared_error


# Séries Temporais
No contexto de análise e ciência de dados, séries temporais são dados observados de forma sequencial, em intervalos regulares ou irregulares. Muitas vezes esses dados são resultado de agregações feitas por um campo de data: podemos construir a série temporal do número de itens vendidos pelo Olist por dia, ou então o número de ataques de tubarão for mês.

# Dataset

Vamos continuar a análise do conjunto de dados de cancelamentos de reservas em 2 hotéis europeus. No entanto, enquanto no case de sábado passado fizemos uma análise baseada no dado transacional (cada individuo de nossa tabela era uma reserva) hoje agregaremos este dado e analisaremos o resultado agregado diário para um dos hotéis.

Primeiro vamos carregar o conjunto de dados de hotéis e transformar a informação de data em campos datetime. Isso nos permitirá calcular a data na qual a reserva foi feita.

In [None]:
tb_hotel = pd.read_csv("data/tb_hotel_bookings_full.csv")
tb_hotel["arrival_dt"] = pd.to_datetime(tb_hotel["arrival_date"])
tb_hotel["update_dt"] = pd.to_datetime(tb_hotel["reservation_status_date"])
tb_hotel["reserva_dt"] = tb_hotel["arrival_dt"] - pd.to_timedelta(
    tb_hotel["lead_time"], unit="d"
)


Para construir a série temporal de cancelamentos e reservas precisamos decidir por qual campo de data agregaremos nossos dados:

1. **Data de Chegada**
1. **Data da Reserva**
1. **Data da Última Atualização da Reserva**

Essa opção é algo comum quando construímos séries temporais (no âmbito de produtos por exemplo podemos ver as datas de compra, de faturamento e de entrega por exemplo). Por enquanto limitaremos a análise à **data de chegada**.

In [None]:
tb_resort = tb_hotel[tb_hotel["hotel"] == "Resort Hotel"]
tb_resort_ts = (
    tb_resort.groupby("arrival_dt")
    .agg(
        num_reservas=pd.NamedAgg("id_booking", "count"),
        num_canceladas=pd.NamedAgg("is_canceled", "sum"),
    )
    .reset_index()
)
tb_resort_ts["per_canceladas"] = (
    tb_resort_ts["num_canceladas"] / tb_resort_ts["num_reservas"]
)


A forma mais comum de visualizar dados de série temporal é através de **lineplots** onde o tempo é colocado no eixo X e as variáveis a serem analisadas no eixo Y.

In [None]:
fig, ax = plt.subplots(3, 1, figsize=(15, 8))
sns.lineplot(data=tb_resort_ts, x="arrival_dt", y="num_reservas", ax=ax[0])
sns.lineplot(data=tb_resort_ts, x="arrival_dt", y="num_canceladas", ax=ax[1])
sns.lineplot(data=tb_resort_ts, x="arrival_dt", y="per_canceladas", ax=ax[2])
ax[0].set_xlabel("")
ax[1].set_xlabel("")
fig.suptitle("Evolução de Reservas por Data de Chegada", y=0.95);


## Train & Test para séries temporais
A nossa estratégia tradicional para divisão de um dataset em train e test não funciona em séries temporais: como elas são definidas pela sequencialidade das observações, remover pontos aleatórios de dentro da série seria estranho... A forma mais simples e tradicional de se fazer essa divisão é selecionando pontos no fim da série como nosso conjunto teste. No exemplo acima optei por formar o conjunto de train a partir dos dois primeiros anos continuos que temos na série (veremos porque quando olharmos componentes sazonais).

In [None]:
tb_resort_ts["arrival_dt"].describe()


Ao invés de realizar a transformação agora, vamos definir uma função que realiza essa divisão para nós. Dessa forma não precisamos replicar nosso feature engineering em 2 datasets o tempo todo.

In [None]:
def split_hotel_ts(hotel_data, break_date):
    train_data = hotel_data[hotel_data["arrival_dt"] < break_date].copy()
    test_data = hotel_data[hotel_data["arrival_dt"] >= break_date].copy()
    return train_data, test_data


# Decomposição TCSI

A forma mais tradicional de se analisar um série temporal é através da decomposição TCSI:

1. **T - Componente de Tendência (Trend):** representação da evolução a longo prazo da série (*a taxa de cancelamento está crescendo ou caindo?*)
1. **C - Componente Ciclico (Cyclic)** representação da evolução ciclica não periódicas (*tivemos momentos com mais (ou menos) cancelamentos de forma estrutural?*)
1. **S - Componente Sazonal (Seasonal)** representação da peridiocidade sazonal (ciclo regular) (*temos mais cancelamento para reservas em junho? ou para reservas de segunda-feira? ou da última semana do mês?*)
1. **I - Componente de Ruído (Irregular/Noise)** o que não é representado pelos três componentes acima.

## Componente de Tendência (Trend)

In [None]:
tb_resort_ts["t_dias"] = (
    tb_resort_ts["arrival_dt"] - min(tb_resort_ts["arrival_dt"])
).dt.total_seconds() / (24 * 60 * 60)
tb_resort_ts.head()

### Estimativa de tendência linear

In [None]:
train_data, test_data = split_hotel_ts(tb_resort_ts, "2017-08-01")
trend_fit = lm.LinearRegression()
trend_fit.fit(train_data[["t_dias"]], train_data["per_canceladas"])


In [None]:
trend_fit.coef_

In [None]:
tb_resort_ts["pred_trend_linear"] = trend_fit.predict(tb_resort_ts[["t_dias"]])


In [None]:
fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts, x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts, x="arrival_dt", y="pred_trend_linear", color="red")
fig.suptitle("Evolução de Reservas por Data de Chegada", y=0.95)


## Componente Cíclico (Cycle)

Como os ciclos representam variações não-periódicas é dificil separa-los da avaliação de tendência (principalmente em séries curtas). Vamos utilizar três técnicas para estimar variações em relação a tendência.

### Tendência Polinomial

In [None]:
from sklearn.preprocessing import PolynomialFeatures


In [None]:
poly_trans = PolynomialFeatures(degree=2)
poly_trans.fit(train_data[["t_dias"]])


In [None]:
poly_trans.n_output_features_


In [None]:
tb_resort_ts

In [None]:
poly_names = ["P" + str(i) for i in range(poly_trans.n_output_features_)]
pd.DataFrame(
            poly_trans.transform(tb_resort_ts[["t_dias"]]),
            columns=poly_names,
        )

In [None]:
poly_trans.transform(tb_resort_ts[["t_dias"]])

In [None]:
poly_names = ["P" + str(i) for i in range(poly_trans.n_output_features_)]
tb_resort_ts_p = pd.concat(
    [
        tb_resort_ts,
        pd.DataFrame(
            poly_trans.transform(tb_resort_ts[["t_dias"]]),
            columns=poly_names,
        ),
    ],
    axis=1,
)
tb_resort_ts_p.head()


In [None]:
train_data, test_data = split_hotel_ts(tb_resort_ts_p, "2017-08-01")

poly_trend_fit = lm.LinearRegression()
poly_trend_fit.fit(train_data[poly_names], train_data["per_canceladas"])



tb_resort_ts_p["pred_trend_poly"] = poly_trend_fit.predict(tb_resort_ts_p[poly_names])

fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_p, x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts_p, x="arrival_dt", y="pred_trend_linear", color="red")
sns.lineplot(data=tb_resort_ts_p, x="arrival_dt", y="pred_trend_poly", color="black")
fig.suptitle(
    f"Evolução da Taxa de Cancelamentos\ncom Tendências Linear e Polinomial de grau {poly_trans.degree}",
    y=1.05,
)


In [None]:
test_data["pred_trend_linear"] = trend_fit.predict(test_data[["t_dias"]])
test_data["pred_trend_poly"] = poly_trend_fit.predict(test_data[poly_names])
rmse_lin = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_linear"])
)
rmse_poly = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_poly"])
)
print(f"Trend Lin.: {round(rmse_lin, 2)}")
print(f"Trend Poly.: {round(rmse_poly, 2)}")


### B-Splines

In [None]:
spl_trans = SplineTransformer(n_knots=24, extrapolation="constant")
spl_trans.fit(train_data[["t_dias"]])
spl_names = ["S" + str(i) for i in range(spl_trans.n_features_out_)]
tb_resort_ts_b = pd.concat(
    [
        tb_resort_ts,
        pd.DataFrame(
            spl_trans.transform(tb_resort_ts[["t_dias"]]),
            columns=spl_names,
        ),
    ],
    axis=1,
)
tb_resort_ts_b.head()
sns.scatterplot(data = tb_resort_ts_b, x = 't_dias', y = 'S22');
sns.scatterplot(data = tb_resort_ts_b, x = 't_dias', y = 'S23');
sns.scatterplot(data = tb_resort_ts_b, x = 't_dias', y = 'S24');


In [None]:
train_data, test_data = split_hotel_ts(tb_resort_ts_b, "2017-08-01")
spline_fit = lm.LinearRegression()
spline_fit.fit(train_data[spl_names], train_data["per_canceladas"])
tb_resort_ts_b["pred_spline"] = spline_fit.predict(tb_resort_ts_b[spl_names])

fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="pred_trend_linear", color="red")
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="pred_spline", color="black")
fig.suptitle(
    f"Evolução da Taxa de Cancelamentos\ncom Tendências Linear e de Splines",
    y=1.05,
)


In [None]:
test_data["pred_trend_linear"] = trend_fit.predict(test_data[["t_dias"]])
test_data["pred_trend_spline"] = spline_fit.predict(test_data[spl_names])
rmse_lin = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_linear"])
)
rmse_spl = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_spline"])
)
print(f"Trend Lin.: {round(rmse_lin, 2)}")
print(f"Trend Spline: {round(rmse_spl, 2)}")


O que podemos melhorar aqui?

In [None]:
train_data, test_data = split_hotel_ts(tb_resort_ts_b, "2017-08-01")
spline_fit = lm.RidgeCV(cv = 5)
spline_fit.fit(train_data[spl_names], train_data["per_canceladas"])
tb_resort_ts_b["pred_spline"] = spline_fit.predict(tb_resort_ts_b[spl_names])

fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="pred_trend_linear", color="red")
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="pred_spline", color="black")
fig.suptitle(
    f"Evolução da Taxa de Cancelamentos\ncom Tendências Linear e de Splines",
    y=1.05,
);


In [None]:
test_data["pred_trend_linear"] = trend_fit.predict(test_data[["t_dias"]])
test_data["pred_trend_spline"] = spline_fit.predict(test_data[spl_names])
rmse_lin = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_linear"])
)
rmse_spl = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_spline"])
)
print(f"Trend Lin.: {round(rmse_lin, 2)}")
print(f"Trend Spline.: {round(rmse_spl, 2)}")


## Componente Sazonal

### Variáveis Sazonais Dummy

In [None]:
tb_resort_ts_b["mes"] = tb_resort_ts_b["arrival_dt"].dt.month.astype(str)
tb_resort_ts_b["dia_semana"] = tb_resort_ts_b["arrival_dt"].dt.weekday.astype(str)


In [None]:
tb_resort_ts_b[["mes", "dia_semana"]]


In [None]:
ohe_fit = OneHotEncoder(drop="first", sparse=False)
ohe_fit.fit(tb_resort_ts_b[["mes", "dia_semana"]])
tb_resort_ts_d = pd.concat(
    [
        tb_resort_ts_b,
        pd.DataFrame(
            ohe_fit.transform(tb_resort_ts_b[["mes", "dia_semana"]]),
            columns=ohe_fit.get_feature_names_out(),
        ),
    ],
    axis=1,
)


In [None]:
tb_resort_ts_d.head()


In [None]:
train_data, test_data = split_hotel_ts(tb_resort_ts_d, "2017-08-01")
dummy_names = list(ohe_fit.get_feature_names_out())
var_names = ["t_dias"] + dummy_names
season_trend_fit = lm.LinearRegression()
season_trend_fit.fit(train_data[var_names], train_data["per_canceladas"])

tb_resort_ts_d["pred_trend_season"] = season_trend_fit.predict(
    tb_resort_ts_d[var_names]
)

fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_d, x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts_d, x="arrival_dt", y="pred_trend_linear", color="red")
sns.lineplot(data=tb_resort_ts_d, x="arrival_dt", y="pred_trend_season", color="black")
fig.suptitle(
    f"Evolução da Taxa de Cancelamentos\ncom Tendências Linear e Índices Sazonais",
    y=1.05,
)


In [None]:
fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_d[tb_resort_ts_d['arrival_dt'] >= "2017-08-01"], x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts_d[tb_resort_ts_d['arrival_dt'] >= "2017-08-01"], x="arrival_dt", y="pred_trend_linear", color="red")
sns.lineplot(data=tb_resort_ts_d[tb_resort_ts_d['arrival_dt'] >= "2017-08-01"], x="arrival_dt", y="pred_trend_season", color="black")
fig.suptitle(
    f"Evolução da Taxa de Cancelamentos\ncom Tendências Linear e Índices Sazonais",
    y=1.05,
)

In [None]:
test_data["pred_trend_linear"] = trend_fit.predict(test_data[["t_dias"]])
test_data["pred_trend_season"] = season_trend_fit.predict(test_data[var_names])
rmse_lin = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_linear"])
)
rmse_cycle = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_season"])
)
print(f"Trend Lin.: {round(rmse_lin, 2)}")
print(f"Trend + Season: {round(rmse_cycle, 2)}")


# Criando nosso modelo final

In [None]:
final_list = spl_names + dummy_names + ["t_dias"]
X_train = train_data[final_list]
X_test = test_data[final_list]
y_train = train_data["per_canceladas"]
y_test = test_data["per_canceladas"]
scaler = StandardScaler()
scaler.fit(X_train)

cat_fit = cat.CatBoostRegressor(iterations=20000, depth=9, od_type="Iter", od_wait=1500, verbose = False)
cat_fit.fit(
    scaler.transform(X_train), y_train, eval_set=(scaler.transform(X_test), y_test)
)

In [None]:
tb_resort_ts_d["pred_boosting"] = cat_fit.predict(
    scaler.transform(tb_resort_ts_d[final_list])
)

fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_d, x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts_d, x="arrival_dt", y="pred_boosting", color="red")
fig.suptitle(
    f"Evolução da Taxa de Cancelamentos\ncom Tendências Linear e Índices Sazonais utilizando Boosting",
    y=1.05,
);

pred_boosting = cat_fit.predict(
    scaler.transform(X_test[final_list])
)
rmse_cat = np.sqrt(
    mean_squared_error(y_test, pred_boosting)
)
print(f"Trend Lin.: {round(rmse_lin, 2)}")
print(f"Trend Spline.: {round(rmse_spl, 2)}")
print(f'Trend+Sazonal: {round(rmse_cycle, 2)}')
print(f"Trend+Spline+Seazonal: {round(rmse_cat, 2)}")


In [None]:
fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_d[tb_resort_ts_d['arrival_dt'] >= "2017-08-01"], x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts_d[tb_resort_ts_d['arrival_dt'] >= "2017-08-01"], x="arrival_dt", y="pred_boosting", color="red")
fig.suptitle(
    f"Evolução da Taxa de Cancelamentos\ncom Tendências Linear e Índices Sazonais utilizando Boosting",
    y=1.05,
);

In [None]:
len(pred_boosting)

# Processos Auto-regressivos

## Autocorrelação e Autocorrelação Parcial

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_d, x="arrival_dt", y="per_canceladas")
fig.suptitle(
    f"Evolução do Número de Reservas",
    y=1.05,
)


O método `.shift()` retorna uma série *atrasada* (ou *adiantada*) em relação a série original:

In [None]:
tb_resort_ts_d["per_canceladas_lag"] = tb_resort_ts_d["per_canceladas"].shift(1)
tb_resort_ts_d[["per_canceladas", "per_canceladas_lag"]].head()


Com esta nova coluna (`per_canceladas_lag`) podemos **visualizar** a auto-correlação (no horizonte de 1 dia) da série `per_canceladas`: a auto-correlação é a correlação de uma série temporal com seu **passado**!

In [None]:
fig, ax = plt.subplots(1,1, figsize = (7, 7))
sns.kdeplot(
    data=tb_resort_ts_d,
    x="per_canceladas_lag",
    y="per_canceladas",
)
ax.set_title(f"Diagrama de Fase dos Resíduos\n L=1", y=1.05);


O diagrama de fase nos permite visualizar de forma simples a correlação para alguns (no caso acima um) período de lag - mas podemos ter autocorrelação em diversos atrasos (especialmente se nossa série tem sazonalidade).

Temos duas ferramentas disponíveis para entender a estrutura de auto-correlação de uma série temporal: a ACF e a PACF.

In [None]:
from statsmodels.graphics.tsaplots import plot_acf
from statsmodels.graphics.tsaplots import plot_pacf

In [None]:
plot_acf(tb_resort_ts_d["per_canceladas"], lags = range(1, 15));

In [None]:
plot_pacf(tb_resort_ts_d["per_canceladas"], lags = range(1, 15), method = 'ywm');

## Os métodos Shift e Diff

Uma forma de tratar a auto-correlação é utilizar o histórico da propria variável modelada como variável de entrada. Podemos fazer isso neutralizando essa autocorrelação através da diferenças (Hoje - Ontem), ou então adicionar a variável *Ontem* ao modelo. **Devemos tomar cuidado pois isso muda o horizonte preditivo de nosso modelo!!**

In [None]:
from statsmodels.tsa.seasonal import STL

In [None]:
stl_fit = STL(tb_resort_ts_d['per_canceladas'], period = 7).fit()
stl_fit.plot()
plt.show()

## Modelos **S**(easonal)**A**(uto)**R**(egressive)**I**(ntegrated)**M**(oving)**A**(average)

Os modelos ARIMA são modelos lineares que incorporam as idéias apresentadas acima em um framework único de modelagem.

In [None]:
from statsmodels.tsa.statespace.sarimax import SARIMAX

In [None]:
arima_model = SARIMAX(train_data['per_canceladas'], order = (1,0,1), seasonal_order = (1, 0, 0, 7))
arima_fit = arima_model.fit()
arima_fit.summary()

In [None]:
print(
    f'Erro RMSE Modelo SARIMA: {round(np.sqrt(mean_squared_error(y_test, arima_fit.forecast(31))), 2)}'
    )

# Apêndice

### Variáveis Sazonais Contínuas

In [None]:
tb_resort_ts_b["s_semana"] = np.sin(tb_resort_ts_b["t_dias"] / (7 / np.pi))
tb_resort_ts_b["c_semana"] = np.cos(tb_resort_ts_b["t_dias"] / (7 / np.pi))

tb_resort_ts_b["s_mes"] = np.sin(tb_resort_ts_b["t_dias"] / (30.4 / np.pi))
tb_resort_ts_b["c_mes"] = np.cos(tb_resort_ts_b["t_dias"] / (30.4 / np.pi))

tb_resort_ts_b["s_ano"] = np.sin(tb_resort_ts_b["t_dias"] / (365 / np.pi))
tb_resort_ts_b["c_ano"] = np.cos(tb_resort_ts_b["t_dias"] / (365 / np.pi))


In [None]:
fig, ax = plt.subplots(3, 1, figsize=(15, 8))
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="s_semana", ax=ax[0])
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="c_semana", ax=ax[0])

sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="s_mes", ax=ax[1])
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="c_mes", ax=ax[1])

sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="s_ano", ax=ax[2])
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="c_ano", ax=ax[2])

ax[0].set_xlabel("")
ax[1].set_xlabel("")
fig.suptitle("Variáveis Contínuas Ciclicas", y=0.95)


In [None]:
c_names = ["c_semana", "s_semana", "c_mes", "s_mes", "c_ano", "s_ano"]
spl_cycle = spl_names + c_names
train_data, test_data = split_hotel_ts(tb_resort_ts_b)
spl_cycle_fit = lm.Ridge()
spl_cycle_fit.fit(train_data[spl_cycle], train_data["per_canceladas"])
tb_resort_ts_b["pred_cycle_poly"] = spl_cycle_fit.predict(tb_resort_ts_b[spl_cycle])

fig, ax = plt.subplots(1, 1, figsize=(15, 3))
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="per_canceladas")
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="pred_cycle_poly", color="red")
sns.lineplot(data=tb_resort_ts_b, x="arrival_dt", y="pred_spline", color="black")
fig.suptitle(
    f"Evolução da Taxa de Cancelamentos\ncom Tendências Linear e Polinomial de grau {poly_trans.degree}",
    y=1.05,
)


In [None]:
test_data["pred_trend_linear"] = trend_fit.predict(test_data[["t_dias"]])
test_data["pred_trend_spline"] = spline_fit.predict(test_data[spl_names])
test_data["pred_trend_cycle"] = spl_cycle_fit.predict(test_data[spl_cycle])
rmse_lin = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_linear"])
)
rmse_spline = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_spline"])
)
rmse_cycle = np.sqrt(
    mean_squared_error(test_data["per_canceladas"], test_data["pred_trend_cycle"])
)
print(f"Trend Lin.: {round(rmse_lin, 2)}")
print(f"Trend Poly.: {round(rmse_spline, 2)}")
print(f"Trend + Cycle: {round(rmse_cycle, 2)}")


## Fazendo previsões

In [None]:
tb_resort_ts_b = tb_resort_ts.copy()
tb_resort_ts_b["mes"] = tb_resort_ts_b["arrival_dt"].dt.month.astype(str)
tb_resort_ts_b["dia_semana"] = tb_resort_ts_b["arrival_dt"].dt.weekday.astype(str)

ohe_fit = OneHotEncoder(drop="first", sparse=False)
ohe_fit.fit(tb_resort_ts_b[["mes", "dia_semana"]])
dummy_names = list(ohe_fit.get_feature_names_out())
tb_resort_ts_b = pd.concat(
    [
        tb_resort_ts_b,
        pd.DataFrame(
            ohe_fit.transform(tb_resort_ts_b[["mes", "dia_semana"]]),
            columns=dummy_names,
        ),
    ],
    axis=1,
)

spl_trans = SplineTransformer(n_knots=24, extrapolation="constant")
spl_trans.fit(tb_resort_ts_b[["t_dias"]])
spl_names = ["S" + str(i) for i in range(spl_trans.n_features_out_)]
tb_resort_ts_b = pd.concat(
    [
        tb_resort_ts_b,
        pd.DataFrame(
            spl_trans.transform(tb_resort_ts_b[["t_dias"]]),
            columns=spl_names,
        ),
    ],
    axis=1,
)

final_list = spl_names + dummy_names + ["t_dias"]
X = tb_resort_ts_b[final_list]
y = tb_resort_ts_b['num_reservas']
scaler = StandardScaler()
scaler.fit(X)
cat_fit = cat.CatBoostRegressor(iterations=1708, depth=9)
cat_fit.fit(scaler.transform(X), y)


In [None]:
X_pred = range(int(max(X['t_dias'])), int(max(X['t_dias'])) + 31)
min_date = min(tb_resort_ts_b['arrival_dt'])
tb_pred = pd.DataFrame({'t_dias' : X_pred})
tb_pred['arrival_dt'] = pd.to_timedelta(tb_pred['t_dias'], 'd') + min_date

In [None]:
tb_pred

In [None]:
X_pred = range(int(max(X['t_dias'])), int(max(X['t_dias'])) + 31)
min_date = min(tb_resort_ts_b['arrival_dt'])
tb_pred = pd.DataFrame({'t_dias' : X_pred})
tb_pred['arrival_dt'] = pd.to_timedelta(tb_pred['t_dias'], 'd') + min_date
tb_pred["mes"] = tb_pred["arrival_dt"].dt.month.astype(str)
tb_pred["dia_semana"] = tb_pred["arrival_dt"].dt.weekday.astype(str)

tb_pred = pd.concat(
    [
        tb_pred,
        pd.DataFrame(
            ohe_fit.transform(tb_pred[["mes", "dia_semana"]]),
            columns=dummy_names,
        ),
    ],
    axis=1,
)

tb_pred = pd.concat(
    [
        tb_pred,
        pd.DataFrame(
            spl_trans.transform(tb_pred[["t_dias"]]),
            columns=spl_names,
        ),
    ],
    axis=1,
)

In [None]:
tb_pred

In [None]:
tb_pred['pred'] = cat_fit.predict(scaler.transform(tb_pred[final_list]))

In [None]:
tb_pred['lim_inf_cancelamento'] = tb_pred['pred'] - 0.076
tb_pred['lim_sup_cancelamento'] = tb_pred['pred'] + 0.076

In [None]:
tb_pred[['arrival_dt', 'pred', 'lim_inf_cancelamento', 'lim_sup_cancelamento']]