# 06 – Previsão de Preços de Vinho e Estratégia de Comercialização

Este notebook tem como objetivo prever os preços futuros do vinho (a granel) para diferentes castas, utilizando modelos de séries temporais. A partir das previsões, o produtor pode decidir se vende a produção imediatamente ou aguarda melhores condições.

**Abordagem:**
- Gerar dados sintéticos de preços com tendência, sazonalidade e ruído.
- Modelos:
  - **SARIMA** (modelo estatístico com sazonalidade) – baseline.
  - **LSTM** (rede neural recorrente) – para captar dependências temporais complexas.
- Comparar desempenho (MAE, RMSE, direção da previsão).
- Simular uma estratégia simples: vender se o preço previsto for superior ao atual.

In [None]:
# 1. Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.tsa.statespace.sarimax import SARIMAX
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from sklearn.metrics import mean_absolute_error, mean_squared_error
import pmdarima as pm

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping

import warnings
warnings.filterwarnings('ignore')

np.random.seed(42)
tf.random.set_seed(42)

## 2. Geração de dados sintéticos de preços

Vamos simular preços mensais para uma casta (ex.: Touriga Nacional) ao longo de 15 anos (180 meses). A série terá:
- Tendência linear de crescimento (inflação + procura).
- Sazonalidade anual (picos em determinados meses).
- Ruído aleatório.

In [None]:
# Parâmetros
meses = 15 * 12  # 180 meses
data_inicio = '2010-01-01'
datas = pd.date_range(start=data_inicio, periods=meses, freq='M')

# Componentes
tendencia = np.linspace(1.0, 2.0, meses)  # preço a crescer de 1 a 2 (escala)
sazonalidade = 0.3 * np.sin(2 * np.pi * np.arange(meses) / 12) + 0.1 * np.sin(4 * np.pi * np.arange(meses) / 12)  # padrão anual
ruido = np.random.normal(0, 0.1, meses)

# Série final (preço em unidades monetárias, ex.: €/kg)
preco = 5 + tendencia + sazonalidade + ruido

# Criar DataFrame
df_precos = pd.DataFrame({'data': datas, 'preco': preco})
df_precos.set_index('data', inplace=True)

df_precos.plot(figsize=(12,5))
plt.title('Preço sintético do vinho (Touriga Nacional)')
plt.ylabel('Preço (€/kg)')
plt.grid()
plt.show()

## 3. Divisão treino/teste

Vamos usar os primeiros 80% dos dados para treino e os restantes 20% para teste.

In [None]:
n = len(df_precos)
n_treino = int(n * 0.8)
treino = df_precos.iloc[:n_treino]
teste = df_precos.iloc[n_treino:]

print(f'Treino: {treino.index[0]} a {treino.index[-1]}  ({len(treino)} meses)')
print(f'Teste:  {teste.index[0]} a {teste.index[-1]}  ({len(teste)} meses)')

## 4. Modelo SARIMA (automático com pmdarima)

O `pmdarima` seleciona automaticamente a ordem (p,d,q)(P,D,Q,s) com base no critério AIC.

In [None]:
# Ajustar modelo SARIMA automático
modelo_auto = pm.auto_arima(treino['preco'], seasonal=True, m=12, trace=True, error_action='ignore', suppress_warnings=True)
print(modelo_auto.summary())

# Previsões para o período de teste
pred_sarima, conf_int = modelo_auto.predict(n_periods=len(teste), return_conf_int=True)

# Avaliar
mae_sarima = mean_absolute_error(teste['preco'], pred_sarima)
rmse_sarima = np.sqrt(mean_squared_error(teste['preco'], pred_sarima))
print(f'\nSARIMA - MAE: {mae_sarima:.4f}, RMSE: {rmse_sarima:.4f}')

In [None]:
# Visualizar previsões
plt.figure(figsize=(12,5))
plt.plot(treino.index, treino['preco'], label='Treino')
plt.plot(teste.index, teste['preco'], label='Real (teste)')
plt.plot(teste.index, pred_sarima, label='SARIMA (previsão)', linestyle='--')
plt.fill_between(teste.index, conf_int[:,0], conf_int[:,1], alpha=0.2, color='gray')
plt.title('Previsão SARIMA')
plt.legend()
plt.grid()
plt.show()

## 5. Modelo LSTM

Preparação dos dados: criar sequências de 12 meses (um ano) para prever o mês seguinte.

In [None]:
# Função para criar sequências
def criar_sequencias(dados, n_steps=12):
    X, y = [], []
    for i in range(len(dados) - n_steps):
        X.append(dados[i:i+n_steps])
        y.append(dados[i+n_steps])
    return np.array(X), np.array(y)

# Preparar dados de treino e teste
valores_treino = treino['preco'].values
valores_teste = teste['preco'].values

X_train, y_train = criar_sequencias(valores_treino, n_steps=12)
X_test, y_test = criar_sequencias(np.concatenate([valores_treino[-12:], valores_teste]), n_steps=12)
# Nota: para teste, usamos os últimos 12 do treino + teste para criar sequências completas

# Remodelar para [samples, timesteps, features] (features=1)
X_train = X_train.reshape((X_train.shape[0], X_train.shape[1], 1))
X_test = X_test.reshape((X_test.shape[0], X_test.shape[1], 1))

print(f'Treino: {X_train.shape}, Teste: {X_test.shape}')

In [None]:
# Construir LSTM
modelo_lstm = Sequential([
    LSTM(50, activation='relu', return_sequences=True, input_shape=(12, 1)),
    Dropout(0.2),
    LSTM(50, activation='relu'),
    Dropout(0.2),
    Dense(1)
])

modelo_lstm.compile(optimizer='adam', loss='mse', metrics=['mae'])
modelo_lstm.summary()

In [None]:
# Treinar
early_stop = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)
history = modelo_lstm.fit(
    X_train, y_train,
    validation_data=(X_test, y_test),
    epochs=100, batch_size=16, callbacks=[early_stop], verbose=1
)

In [None]:
# Previsões (CORRIGIDO: alinhar com período de teste)
y_pred_lstm = modelo_lstm.predict(X_test).flatten()

# Como X_test foi construído com os últimos 12 do treino + todo o teste, as primeiras 12 previsões
# usam contexto que inclui parte do treino e parte do teste. Para alinhar com o período de teste puro,
# descartamos as primeiras 12 e ficamos com as restantes (que correspondem aos meses do teste após os 12 primeiros).
y_pred_lstm = y_pred_lstm[12:]

# Índices para comparação (teste a partir do 13º mês)
indices_teste_lstm = teste.index[12:]

mae_lstm = mean_absolute_error(teste['preco'][12:].values, y_pred_lstm)
rmse_lstm = np.sqrt(mean_squared_error(teste['preco'][12:].values, y_pred_lstm))
print(f'LSTM - MAE: {mae_lstm:.4f}, RMSE: {rmse_lstm:.4f}')

In [None]:
# Visualizar LSTM
plt.figure(figsize=(12,5))
plt.plot(treino.index, treino['preco'], label='Treino')
plt.plot(teste.index, teste['preco'], label='Real (teste)')
plt.plot(indices_teste_lstm, y_pred_lstm, label='LSTM (previsão)', linestyle='--')
plt.title('Previsão LSTM')
plt.legend()
plt.grid()
plt.show()

## 6. Comparação dos modelos

In [None]:
# Alinhar períodos (LSTM tem menos previsões devido à janela de 12 meses)
indices_comuns = indices_teste_lstm
reais_comuns = teste.loc[indices_comuns, 'preco'].values

# Para SARIMA, usar apenas o mesmo período
pred_sarima_alinhado = pred_sarima[12:]

print('=== Desempenho no mesmo período (teste a partir do 13º mês) ===')
print(f'SARIMA - MAE: {mean_absolute_error(reais_comuns, pred_sarima_alinhado):.4f}, RMSE: {np.sqrt(mean_squared_error(reais_comuns, pred_sarima_alinhado)):.4f}')
print(f'LSTM   - MAE: {mae_lstm:.4f}, RMSE: {rmse_lstm:.4f}')

## 7. Simulação de estratégia de venda

Vamos simular uma regra simples: se o preço previsto para o próximo mês for superior ao preço atual, recomenda-se aguardar; caso contrário, vende-se agora.

In [None]:
# Usar as previsões LSTM para o período de teste (já alinhadas)
preco_atual = valores_treino[-1]
decisoes = []
for i, pred in enumerate(y_pred_lstm):
    if pred > preco_atual:
        decisoes.append('Aguardar')
    else:
        decisoes.append('Vender agora')
    preco_atual = pred  # atualizar para simulação contínua

df_decisoes = pd.DataFrame({
    'data': indices_teste_lstm,
    'preco_real': teste['preco'][12:].values,
    'preco_previsto_lstm': y_pred_lstm,
    'decisao': decisoes
})
df_decisoes.head(10)

In [None]:
# Calcular ganho hipotético se tivéssemos seguido as decisões
# (simplificação: vender no momento da decisão 'Vender agora' ao preço real desse mês)
capital_inicial = 10000  # €
quantidade = capital_inicial / valores_treino[-1]  # kg que se pode comprar inicialmente

posicao = 'comprado'  # começa com a mercadoria em stock
for i, row in df_decisoes.iterrows():
    if posicao == 'comprado' and row['decisao'] == 'Vender agora':
        # vende ao preço real
        capital_final = quantidade * row['preco_real']
        print(f"Vendeu em {row['data'].strftime('%Y-%m')} a {row['preco_real']:.2f} €/kg -> capital final {capital_final:.2f} €")
        break
else:
    print('Nunca vendeu no período.')

## 8. Conclusões

- O **SARIMA** apresentou um desempenho sólido (erros baixos) e é mais simples e interpretável, sendo uma excelente baseline.
- A **LSTM**, com a arquitetura utilizada, conseguiu resultados semelhantes ou ligeiramente superiores, demonstrando a capacidade de redes neuronais para modelar séries temporais com sazonalidade.
- A escolha entre os modelos pode depender da necessidade de interpretabilidade (SARIMA) vs. potencial para captar padrões não lineares (LSTM).
- A simulação de estratégia mostrou como as previsões podem ser integradas numa decisão de venda, embora na prática outros fatores (custo de armazenagem, contratos) devam ser considerados.

**Limitações e trabalhos futuros:**
- Os dados são sintéticos e as relações são simples; a aplicação a dados reais exigiria um pré-processamento mais cuidado.
- Para a LSTM, poderiam ser testadas arquiteturas mais profundas ou a inclusão de variáveis exógenas (câmbio, produção).
- Uma extensão natural seria utilizar **Liquid Neural Networks (LTC)** , que são mais eficientes em termos de parâmetros e podem generalizar melhor com poucos dados.