# Impots

In [139]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from prophet import Prophet
from statsmodels.tsa.seasonal import seasonal_decompose
import numpy as np
import xgboost as xgb
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.model_selection import train_test_split
import xgboost as xgb
import joblib


# 1. Carregar base de dados via URL

In [None]:

# Definir a URL
url = "http://www.ipeadata.gov.br/ExibeSerie.aspx?module=m&serid=1650971490&oper=view"

# Fazer a requisi√ß√£o √† p√°gina
response = requests.get(url)

if response.status_code == 200:
    print(" P√°gina acessada com sucesso.")
else:
    try:
        df = pd.read_csv("dados/dados_petroleo_brent_2005_2025.csv")
        print("Arquivo carregado com sucesso!")
    except FileNotFoundError:
        print(f"Erro: O arquivo local {df} n√£o foi encontrado.")
        df = None  
    print(f" Erro ao acessar a p√°gina. C√≥digo: {response.status_code}")

# 2. Parsear o HTML e localizar a tabela

In [None]:

# Verificar se a requisi√ß√£o foi bem-sucedida
if response.status_code == 200:
    # Parsear o HTML
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Procurar a tabela com a classe espec√≠fica
    table = soup.find('table', {'class': 'dxgvTable'})
    
    if table:
        print(" Tabela encontrada, iniciando a cria√ß√£o do DataFrame...")
    else:
        print(" Tabela n√£o encontrada na p√°gina.")

# 3. Criar o DataFrame inicial

In [None]:
if table:
    # Ler a tabela HTML para um DataFrame Pandas
    df = pd.read_html(str(table))[0]

    # Renomear as colunas
    df.columns = ["Data", "Pre√ßo (US$)"]

    # Exibir as 5 primeiras linhas para conferir
    df.head()

# 4. Limpeza inicial dos dados

In [None]:
# **4. Limpeza inicial dos dados**
# Filtrar apenas linhas onde a coluna 'Data' √© v√°lida
print("Limpando dados inv√°lidos na coluna 'Data'...")
df = df[df["Data"].str.match(r"\d{2}/\d{2}/\d{4}", na=False)]

# Converter a coluna "Data" para datetime
df["Data"] = pd.to_datetime(df["Data"], format="%d/%m/%Y", errors="coerce")

# Remover valores nulos gerados pela convers√£o
df = df.dropna(subset=["Data"]).reset_index(drop=True)

# Exibir informa√ß√µes sobre o DataFrame
df.info()

 # 5. Ajuste dos valores na coluna ‚ÄúPre√ßo (US$)‚Äù

In [None]:
# Substituir a v√≠rgula por ponto e converter para float
df["Pre√ßo (US$)"] = df["Pre√ßo (US$)"].str.replace(",", ".").astype(float) / 100

# Exibir estat√≠sticas descritivas
df.describe()

#  6. Filtrar os dados no intervalo de 2005 a 2025

In [None]:
# Manter apenas os dados entre 2005 e 2025
df = df[(df["Data"] >= "2005-01-01") & (df["Data"] <= "2025-12-31")]

# Resetar o √≠ndice
df = df.reset_index(drop=True)

# Exibir as 5 primeiras linhas ap√≥s a filtragem
df.head()

 # 7. Verifica√ß√£o da Qualidade dos Dados

In [None]:
# Exibir estat√≠sticas descritivas
print(" Estat√≠sticas descritivas:")
display(df.describe())

# Verificar a contagem de valores nulos
print("\n Contagem de valores nulos:")
print(df.isnull().sum())

# Mostrar informa√ß√µes do DataFrame
print("\n Estrutura do DataFrame:")
df.info()

# Verificar se h√° datas duplicadas
duplicadas = df["Data"].value_counts()
if any(duplicadas > 1):
    print("\n TEM DATA DUPLICADAS!")
else:
    print("\n N√ÉO TEM DATA DUPLICADAS!")

# 8. Salvar os dados tratados

In [None]:
# Salvar os dados limpos em CSV
df.to_csv("dados/dados_petroleo_brent_2005_2025.csv", index=False, encoding="utf-8")
print(f"Dados salvos com sucesso em {df}.")

# 10. Evolu√ß√£o do Pre√ßo ao Longo do Tempo

In [None]:
# Evolu√ß√£o do pre√ßo ao longo do tempo
plt.figure(figsize=(12, 6))
sns.lineplot(x=df["Data"], y=df["Pre√ßo (US$)"], linewidth=2)
plt.title("Evolu√ß√£o do Pre√ßo do Petr√≥leo Brent (2005-2025)")
plt.xlabel("Ano")
plt.ylabel("Pre√ßo (US$)")
plt.grid(True)
plt.show()

 # 11. Distribui√ß√£o dos Pre√ßos

In [None]:

plt.figure(figsize=(12, 6))
sns.histplot(df["Pre√ßo (US$)"], bins=30, kde=True)
plt.title("Distribui√ß√£o dos Pre√ßos do Petr√≥leo Brent")
plt.xlabel("Pre√ßo (US$)")
plt.ylabel("Frequ√™ncia")
plt.grid(True)
plt.show()

# 12. Boxplot dos Pre√ßos ao Longo do Tempo

In [None]:
# üì¶ Boxplot dos pre√ßos ao longo do tempo
plt.figure(figsize=(12, 6))
sns.boxplot(x=df["Data"].dt.year, y="Pre√ßo (US$)", data=df)
plt.title("Boxplot dos Pre√ßos do Petr√≥leo por Ano")
plt.xlabel("Ano")
plt.ylabel("Pre√ßo (US$)")
plt.xticks(rotation=45)
plt.grid(True)
plt.show()

# 13. Pre√ßo M√©dio por Ano

In [None]:

df_yearly = df.groupby(df["Data"].dt.year)["Pre√ßo (US$)"].mean().reset_index()
plt.figure(figsize=(12, 6))
sns.barplot(x="Data", y="Pre√ßo (US$)", data=df_yearly)
plt.title("Pre√ßo M√©dio Anual do Petr√≥leo Brent")
plt.xlabel("Ano")
plt.ylabel("Pre√ßo M√©dio (US$)")
plt.grid(True)
plt.show()

# 14. Evolu√ß√£o do Pre√ßo com Eventos Geopol√≠ticos

In [None]:

plt.figure(figsize=(12, 6))
sns.lineplot(x="Data", y="Pre√ßo (US$)", data=df, label="Pre√ßo do Petr√≥leo")
plt.axvline(pd.Timestamp("2008-09-15"), color="red", linestyle="--", label="Crise Financeira 2008")
plt.axvline(pd.Timestamp("2020-03-01"), color="blue", linestyle="--", label="In√≠cio da Pandemia COVID-19")
plt.title("Evolu√ß√£o do Pre√ßo do Petr√≥leo Brent com Eventos Geopol√≠ticos")
plt.xlabel("Ano")
plt.ylabel("Pre√ßo (US$)")
plt.legend()
plt.grid(True)
plt.show()

 # 15. Varia√ß√£o Percentual Mensal do Pre√ßo

In [None]:

df["Varia√ß√£o (%)"] = df["Pre√ßo (US$)"].pct_change() * 100
plt.figure(figsize=(12, 6))
sns.lineplot(x="Data", y="Varia√ß√£o (%)", data=df)
plt.axhline(0, color="black", linestyle="--")
plt.title("Varia√ß√£o Percentual Mensal do Pre√ßo do Petr√≥leo")
plt.xlabel("Ano")
plt.ylabel("Varia√ß√£o (%)")
plt.grid(True)
plt.show()

# 16. Compara√ß√£o Antes e Depois da Crise de 2008

In [None]:

df_crise_2008 = df[(df["Data"] >= "2007-01-01") & (df["Data"] <= "2009-12-31")]
plt.figure(figsize=(12, 6))
sns.lineplot(x="Data", y="Pre√ßo (US$)", data=df_crise_2008)
plt.axvline(pd.Timestamp("2008-09-15"), color="red", linestyle="--", label="Crise Financeira 2008")
plt.title("Pre√ßo do Petr√≥leo Antes e Ap√≥s a Crise de 2008")
plt.xlabel("Ano")
plt.ylabel("Pre√ßo (US$)")
plt.legend()
plt.grid(True)
plt.show()

17. Decomposi√ß√£o da S√©rie Temporal do Pre√ßo do Petr√≥leo

In [None]:

df = pd.read_csv("dados/dados_petroleo_brent_2005_2025.csv")
df["Data"] = pd.to_datetime(df["Data"], format="%Y-%m-%d", errors="coerce")


df.set_index("Data", inplace=True)


decomposition = seasonal_decompose(df["Pre√ßo (US$)"], model="additive", period=365)


plt.figure(figsize=(12, 10))


plt.subplot(4, 1, 1)
plt.plot(df["Pre√ßo (US$)"], label="S√©rie Original", color="orange")
plt.legend()
plt.title("Decomposi√ß√£o da S√©rie Temporal - Pre√ßo do Petr√≥leo Brent")


plt.subplot(4, 1, 2)
plt.plot(decomposition.trend, label="Tend√™ncia", color="red")
plt.legend()


plt.subplot(4, 1, 3)
plt.plot(decomposition.seasonal, label="Sazonalidade", color="green")
plt.legend()


plt.subplot(4, 1, 4)
plt.plot(decomposition.resid, label="Res√≠duo", color="purple")
plt.legend()


plt.tight_layout()
plt.show()

# 18. Testando o Modelo Prophet para Previs√£o do Pre√ßo do Petr√≥leo Brent

In [None]:
# Carregar os dados hist√≥ricos
try:
    df = pd.read_csv("dados/dados_petroleo_brent_2005_2025.csv")
    print("Arquivo carregado com sucesso!")
except Exception as e:
    print(f"Erro ao carregar o arquivo: {e}")
    raise

# Converter a coluna "Data" para o formato datetime
df["Data"] = pd.to_datetime(df["Data"])

# Ordenar os dados por data
df = df.sort_values(by="Data")

# Exibir as 5 primeiras linhas para confer√™ncia
df.head()


#3. Divis√£o dos Dados em Treino e Teste

# Definir per√≠odo de treino e teste
train = df[df["Data"] < "2023-01-01"].copy()
test = df[df["Data"] >= "2023-01-01"].copy()

# Exibir quantidades de dados
print(f"Dados de treino: {len(train)} linhas")
print(f"Dados de teste: {len(test)} linhas")


# Renomear colunas para o formato do Prophet
df_prophet = df.rename(columns={"Data": "ds", "Pre√ßo (US$)": "y"})

# Criar e treinar o modelo Prophet
model = Prophet()
model.fit(df_prophet)


# Converter conjunto de teste para o formato do Prophet
future_test = test.rename(columns={"Data": "ds"})

# Gerar previs√µes apenas para o per√≠odo de teste
forecast_test = model.predict(future_test)

# Adicionar as previs√µes ao DataFrame de teste
test["Previs√£o"] = forecast_test["yhat"].values

# Exibir as 5 primeiras previs√µes
test.head()

In [None]:
# Gerar previs√µes para o futuro (1 ano)
future = model.make_future_dataframe(periods=360)
forecast = model.predict(future)

# Gr√°fico das previs√µes do modelo Prophet
fig, ax = plt.subplots(figsize=(12, 6))
model.plot(forecast, ax=ax)
ax.legend(["Hist√≥rico", "Previs√£o", "Intervalo de Confian√ßa"])
plt.title("Modelo Prophet - Previs√£o do Pre√ßo do Petr√≥leo Brent")
plt.show()

# Calcular RMSE corretamente
rmse = mean_squared_error(test["Pre√ßo (US$)"], test["Previs√£o"]) ** 0.5
print(f"RMSE (Prophet): {rmse:.2f}")

# 19. Modelo Prophet + XGBoost para Previs√£o Ajustada

In [None]:
try:
    df = pd.read_csv("dados/dados_petroleo_brent_2005_2025.csv")
    print("Arquivo carregado com sucesso!")
except Exception as e:
    print(f"Erro ao carregar o arquivo: {e}")
    raise

# Verificar colunas esperadas
if "Data" not in df.columns or "Pre√ßo (US$)" not in df.columns:
    raise ValueError("O arquivo CSV deve conter as colunas 'Data' e 'Pre√ßo (US$)'.")

# Converter colunas para os tipos corretos
df["ds"] = pd.to_datetime(df["Data"], errors="coerce")  # Converte para datetime
df["y"] = pd.to_numeric(df["Pre√ßo (US$)"], errors="coerce")  # Converte para num√©rico

# Verificar valores ausentes
if df["ds"].isnull().any() or df["y"].isnull().any():
    print("Aten√ß√£o: H√° valores ausentes nas colunas 'Data' ou 'Pre√ßo (US$)'. Preenchendo valores ausentes...")
    df["ds"].fillna(method="ffill", inplace=True)  # Preenche datas ausentes
    df["y"].fillna(method="ffill", inplace=True)  # Preenche pre√ßos ausentes

# Ordenar os dados corretamente
df = df.sort_values(by="ds").reset_index(drop=True)

# Remover duplicatas
if df.duplicated(subset=["ds"]).any():
    print("Aten√ß√£o: H√° duplicatas na coluna 'Data'. Removendo duplicatas...")
    df = df.drop_duplicates(subset=["ds"])

# Exibir as primeiras linhas do DataFrame tratado
df.head()

## Treinamento do Modelo Prophet

In [None]:
# Criar e treinar o modelo Prophet
prophet = Prophet()
prophet.fit(df[["ds", "y"]])  # Usando apenas as colunas necess√°rias

# Definir a data final desejada (31 de dezembro de 2026)
data_final_desejada = pd.to_datetime("2026-12-31")

# Calcular o n√∫mero de dias at√© essa data
ultima_data_df = df["ds"].max()
dias_ate_2026 = (data_final_desejada - ultima_data_df).days

# Criar previs√µes do Prophet at√© o final de 2026
future = prophet.make_future_dataframe(periods=dias_ate_2026)
prophet_future = prophet.predict(future)

# Mesclar previs√µes do Prophet com o DataFrame original
df = df.merge(prophet_future[["ds", "yhat", "yhat_lower", "yhat_upper"]], on="ds", how="left")

# Exibir as 5 primeiras previs√µes do Prophet
df.head()

## Ajuste das Previs√µes com XGBoost

In [None]:
#Renomear colunas para facilitar a interpreta√ß√£o
df.rename(
    columns={
        "ds": "Data",
        "y": "Pre√ßo Real",
        "yhat": "Pre√ßo Previsto",
        "yhat_lower": "Intervalo Inferior",
        "yhat_upper": "Intervalo Superior",
    },
    inplace=True,
)


# Criar a coluna de res√≠duos
df["Res√≠duo"] = df["Pre√ßo Real"] - df["Pre√ßo Previsto"]
# Remover colunas duplicadas ap√≥s a renomea√ß√£o
df = df.loc[:, ~df.columns.duplicated()]
# Criar features para o modelo XGBoost (lags dos res√≠duos)
for i in range(1, 8):  # Criar lags de 1 a 7 dias
    df[f"Res√≠duo_Lag_{i}"] = df["Res√≠duo"].shift(i)

# Remover linhas com valores ausentes gerados pelos lags
df.dropna(inplace=True)

# Dividir os dados em treino e teste (80% para treino)
train_size = int(len(df) * 0.8)
train = df.iloc[:train_size]
test = df.iloc[train_size:]

# Definir features e target para XGBoost
features = [f"Res√≠duo_Lag_{i}" for i in range(1, 8)]
X_train, y_train = train[features], train["Res√≠duo"]
X_test, y_test = test[features], test["Res√≠duo"]

# Treinar o modelo XGBoost
model_xgb = xgb.XGBRegressor(objective="reg:squarederror", n_estimators=100, learning_rate=0.1, random_state=42)
model_xgb.fit(X_train, y_train)

# Fazer previs√µes com XGBoost
y_pred_residuo = model_xgb.predict(X_test)

# Ajustar as previs√µes do Prophet com os res√≠duos previstos pelo XGBoost
test["Pre√ßo Previsto Ajustado"] = test["Pre√ßo Previsto"] + y_pred_residuo

# Exibir as primeiras previs√µes ajustadas
test.head()

## Avalia√ß√£o do Modelo

In [None]:
# Calcular m√©tricas de desempenho para as previs√µes ajustadas
rmse_ajustado = np.sqrt(mean_squared_error(test['Pre√ßo Real'], test['Pre√ßo Previsto Ajustado']))
mae_ajustado = mean_absolute_error(test['Pre√ßo Real'], test['Pre√ßo Previsto Ajustado'])
mape_ajustado = np.mean(np.abs((test['Pre√ßo Real'] - test['Pre√ßo Previsto Ajustado']) / test['Pre√ßo Real'])) * 100

print(f"RMSE (Ajustado): {rmse_ajustado}")
print(f"MAE (Ajustado): {mae_ajustado}")
print(f"MAPE (Ajustado): {mape_ajustado}%")

# # Salvar os modelos treinados
# joblib.dump(prophet, 'modelo_prophet.pkl')  # Salvar o modelo Prophet
# joblib.dump(model_xgb, 'modelo_xgboost.pkl')  # Salvar o modelo XGBoost
# print("Modelos salvos com sucesso!")

# Criar previs√µes para 2025-2026
future_df = prophet_future[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].copy()
future_df = future_df[future_df['ds'] >= '2025-01-01']  # Filtrar apenas anos futuros

# Criar features de calend√°rio para o futuro
future_df['year'] = future_df['ds'].dt.year
future_df['month'] = future_df['ds'].dt.month
future_df['day'] = future_df['ds'].dt.day
future_df['dayofweek'] = future_df['ds'].dt.dayofweek

# Criar lags com os √∫ltimos dados dispon√≠veis
for i in range(1, 8):
    future_df[f'Res√≠duo_Lag_{i}'] = df[f'Res√≠duo_Lag_{i}'].iloc[-1]

# Aplicar XGBoost para corre√ß√£o da previs√£o de 2025-2026
future_X = future_df[features]
y_pred_residuo_future = model_xgb.predict(future_X)
future_df['Pre√ßo Previsto Ajustado'] = future_df['yhat'] + y_pred_residuo_future

# Criar intervalo de confian√ßa para a previs√£o corrigida
future_df['Pre√ßo Previsto Ajustado Inferior'] = future_df['yhat_lower'] + y_pred_residuo_future
future_df['Pre√ßo Previsto Ajustado Superior'] = future_df['yhat_upper'] + y_pred_residuo_future

# Criar t√≠tulo com m√©tricas
title_text = (f"Corre√ß√£o de Previs√£o Prophet com XGBoost\n"
              f"RMSE: {rmse_ajustado:.2f}, MAE: {mae_ajustado:.2f}, MAPE: {mape_ajustado:.2f}%")

## Visualiza√ß√£o das Previs√µes

In [None]:

# Plotar resultados
plt.figure(figsize=(14, 6))
df['Data'] = pd.to_datetime(df['Data'])
test['Data'] = pd.to_datetime(test['Data'])
future_df['ds'] = pd.to_datetime(future_df['ds'])

# Adicionando o hist√≥rico completo ao gr√°fico
plt.plot(df['Data'], df['Pre√ßo Real'], label="Hist√≥rico Completo (Real)", color="blue", linewidth=1.2)

# Adicionando os dados reais do conjunto de teste
plt.plot(test['Data'], test['Pre√ßo Real'], label="Teste (Real)", color="green", linewidth=1.5)

# Adicionando a previs√£o do Prophet
plt.plot(df['Data'], df['Pre√ßo Previsto'], label="Previs√£o Prophet", linestyle="--", color="orange", linewidth=1.5)

# Adicionando a previs√£o corrigida
plt.plot(test['Data'], test['Pre√ßo Previsto Ajustado'], label="Previs√£o Corrigida (Prophet + XGBoost)", linestyle="-", color="purple", linewidth=1.5)

plt.plot(future_df['ds'], future_df['Pre√ßo Previsto Ajustado'], label="Previs√£o Futura Corrigida (2025-2026)", linestyle="-", color="red", linewidth=1.5)

# Adicionar intervalo de confian√ßa
plt.fill_between(future_df['ds'], future_df['Pre√ßo Previsto Ajustado Inferior'], future_df['Pre√ßo Previsto Ajustado Superior'], color='gray', alpha=0.3, label="Intervalo de Confian√ßa")

plt.title(title_text)
plt.xlabel("Data")
plt.ylabel("Pre√ßo (US$)")
plt.grid()
plt.legend()
plt.show()

## Salvar as Previs√µes

In [None]:
# Criar tabela com as previs√µes futuras (2025-2026)
future_df = prophet_future[["ds", "yhat", "yhat_lower", "yhat_upper"]].copy()
future_df = future_df[future_df["ds"] >= "2025-01-01"]  # Filtrar apenas anos futuros

# Criar lags para previs√µes futuras
for i in range(1, 8):
    future_df[f"Res√≠duo_Lag_{i}"] = df[f"Res√≠duo_Lag_{i}"].iloc[-1]

# Aplicar XGBoost para corre√ß√£o da previs√£o futura
future_X = future_df[features]
y_pred_residuo_future = model_xgb.predict(future_X)
future_df["Pre√ßo Previsto Ajustado"] = future_df["yhat"] + y_pred_residuo_future

# Salvar as previs√µes ajustadas
future_df.to_csv("dados/previsoes_futuras.csv", index=False)
print("Previs√µes futuras salvas com sucesso!")

In [None]:
#Carregar os dados
try:
    df = pd.read_csv("dados/dados_petroleo_brent_2005_2025.csv")
    print("Arquivo carregado com sucesso!")
except Exception as e:
    print(f"Erro ao carregar o arquivo: {e}")
    raise

# Verificar colunas esperadas
if 'Data' not in df.columns or 'Pre√ßo (US$)' not in df.columns:
    raise ValueError("O arquivo CSV deve conter as colunas 'Data' e 'Pre√ßo (US$)'.")

# Converter colunas para os tipos corretos
df['ds'] = pd.to_datetime(df['Data'], errors='coerce')  # Converte para datetime
df['y'] = pd.to_numeric(df['Pre√ßo (US$)'], errors='coerce')  # Converte para num√©rico

# Verificar valores ausentes
if df['ds'].isnull().any() or df['y'].isnull().any():
    print("Aten√ß√£o: H√° valores ausentes nas colunas 'Data' ou 'Pre√ßo (US$)'. Preenchendo valores ausentes...")
    df['ds'].fillna(method='ffill', inplace=True)  # Preenche datas ausentes
    df['y'].fillna(method='ffill', inplace=True)  # Preenche pre√ßos ausentes

# Ordenar os dados corretamente
df = df.sort_values(by='ds').reset_index(drop=True)

# Verificar e remover duplicatas na coluna 'ds' (Data)
if df.duplicated(subset=['ds']).any():
    print("Aten√ß√£o: H√° duplicatas na coluna 'Data'. Removendo duplicatas...")
    df = df.drop_duplicates(subset=['ds'])

# Treinar o modelo Prophet
prophet = Prophet()
prophet.fit(df[['ds', 'y']])  # Usando apenas as colunas 'ds' e 'y'

# Definir a data final desejada (31 de dezembro de 2026)
data_final_desejada = pd.to_datetime('2026-12-31')

# Calcular o n√∫mero de dias at√© a data final desejada
ultima_data_df = df['ds'].max()
dias_ate_2026 = (data_final_desejada - ultima_data_df).days

# Criar previs√µes do Prophet at√© o final de 2026
future = prophet.make_future_dataframe(periods=dias_ate_2026)  
prophet_future = prophet.predict(future)

# Mesclar previs√µes do Prophet com o DataFrame original
df = df.merge(prophet_future[['ds', 'yhat', 'yhat_lower', 'yhat_upper']], on='ds', how='left')

# Verificar duplicatas ap√≥s a mesclagem
if df.duplicated(subset=['ds']).any():
    print("Aten√ß√£o: H√° duplicatas ap√≥s a mesclagem. Removendo duplicatas...")
    df = df.drop_duplicates(subset=['ds'])

# Renomear as colunas de forma clara e estruturada
mapeamento_colunas = {
    'ds': 'Data',
    'y': 'Pre√ßo Real',
    'yhat': 'Pre√ßo Previsto',
    'yhat_lower': 'Intervalo Inferior',
    'yhat_upper': 'Intervalo Superior'
}

df.rename(columns=mapeamento_colunas, inplace=True)

# Remover colunas duplicadas ap√≥s a renomea√ß√£o
df = df.loc[:, ~df.columns.duplicated()]

# Calcular res√≠duos (erros) do Prophet
df['Res√≠duo'] = df['Pre√ßo Real'] - df['Pre√ßo Previsto']

# Criar features para o modelo XGBoost
# Adicionar lags dos res√≠duos como features
for i in range(1, 8): 
    df[f'Res√≠duo_Lag_{i}'] = df['Res√≠duo'].shift(i)

# Remover linhas com valores ausentes gerados pelos lags
df.dropna(inplace=True)

# Dividir os dados em treino e teste
train_size = int(len(df) * 0.8)  # 80% para treino, 20% para teste
train = df.iloc[:train_size]
test = df.iloc[train_size:]

# Definir features e target para o XGBoost
features = [f'Res√≠duo_Lag_{i}' for i in range(1, 8)]  
X_train = train[features]
y_train = train['Res√≠duo']
X_test = test[features]
y_test = test['Res√≠duo']

# Treinar o modelo XGBoost
model_xgb = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=100, learning_rate=0.1, random_state=42)
model_xgb.fit(X_train, y_train)

# Fazer previs√µes com o XGBoost
y_pred_residuo = model_xgb.predict(X_test)

# Ajustar as previs√µes do Prophet com os res√≠duos previstos pelo XGBoost
test['Pre√ßo Previsto Ajustado'] = test['Pre√ßo Previsto'] + y_pred_residuo

# Calcular m√©tricas de desempenho para as previs√µes ajustadas
rmse_ajustado = np.sqrt(mean_squared_error(test['Pre√ßo Real'], test['Pre√ßo Previsto Ajustado']))
mae_ajustado = mean_absolute_error(test['Pre√ßo Real'], test['Pre√ßo Previsto Ajustado'])
mape_ajustado = np.mean(np.abs((test['Pre√ßo Real'] - test['Pre√ßo Previsto Ajustado']) / test['Pre√ßo Real'])) * 100

print(f"RMSE (Ajustado): {rmse_ajustado}")
print(f"MAE (Ajustado): {mae_ajustado}")
print(f"MAPE (Ajustado): {mape_ajustado}%")

# Salvar os modelos treinados
joblib.dump(prophet, 'dados/modelo_prophet.pkl')  
joblib.dump(model_xgb, 'dados/modelo_xgboost.pkl')  
print("Modelos salvos com sucesso!")

#  Criar previs√µes para 2025-2026
future_df = prophet_future[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].copy()
future_df = future_df[future_df['ds'] >= '2025-01-01']  # Filtrar apenas anos futuros

# Criar features de calend√°rio para o futuro
future_df['year'] = future_df['ds'].dt.year
future_df['month'] = future_df['ds'].dt.month
future_df['day'] = future_df['ds'].dt.day
future_df['dayofweek'] = future_df['ds'].dt.dayofweek

# Criar lags com os √∫ltimos dados dispon√≠veis
for i in range(1, 8):
    future_df[f'Res√≠duo_Lag_{i}'] = df[f'Res√≠duo_Lag_{i}'].iloc[-1]

# Aplicar XGBoost para corre√ß√£o da previs√£o de 2025-2026
future_X = future_df[features]
y_pred_residuo_future = model_xgb.predict(future_X)
future_df['Pre√ßo Previsto Ajustado'] = future_df['yhat'] + y_pred_residuo_future

# Criar intervalo de confian√ßa para a previs√£o corrigida
future_df['Pre√ßo Previsto Ajustado Inferior'] = future_df['yhat_lower'] + y_pred_residuo_future
future_df['Pre√ßo Previsto Ajustado Superior'] = future_df['yhat_upper'] + y_pred_residuo_future

# Criar t√≠tulo com m√©tricas
title_text = (f"Corre√ß√£o de Previs√£o Prophet com XGBoost\n"
              f"RMSE: {rmse_ajustado:.2f}, MAE: {mae_ajustado:.2f}, MAPE: {mape_ajustado:.2f}%")


# Plotar resultados
plt.figure(figsize=(14, 6))
df['Data'] = pd.to_datetime(df['Data'])
test['Data'] = pd.to_datetime(test['Data'])
future_df['ds'] = pd.to_datetime(future_df['ds'])

# Adicionando o hist√≥rico completo ao gr√°fico
plt.plot(df['Data'], df['Pre√ßo Real'], label="Hist√≥rico Completo (Real)", color="blue", linewidth=1.2)

# Adicionando os dados reais do conjunto de teste
plt.plot(test['Data'], test['Pre√ßo Real'], label="Teste (Real)", color="green", linewidth=1.5)

# Adicionando a previs√£o do Prophet
plt.plot(df['Data'], df['Pre√ßo Previsto'], label="Previs√£o Prophet", linestyle="--", color="orange", linewidth=1.5)

# Adicionando a previs√£o corrigida
plt.plot(test['Data'], test['Pre√ßo Previsto Ajustado'], label="Previs√£o Corrigida (Prophet + XGBoost)", linestyle="-", color="purple", linewidth=1.5)


plt.plot(future_df['ds'], future_df['Pre√ßo Previsto Ajustado'], label="Previs√£o Futura Corrigida (2025-2026)", linestyle="-", color="red", linewidth=1.5)

# Adicionar intervalo de confian√ßa
plt.fill_between(future_df['ds'], future_df['Pre√ßo Previsto Ajustado Inferior'], future_df['Pre√ßo Previsto Ajustado Superior'], color='gray', alpha=0.3, label="Intervalo de Confian√ßa")

plt.title(title_text)
plt.xlabel("Data")
plt.ylabel("Pre√ßo (US$)")
plt.grid()
plt.legend()
plt.show()


# Criar tabela com as previs√µes futuras
tabela_previsoes = future_df[['ds', 'Pre√ßo Previsto Ajustado', 'Pre√ßo Previsto Ajustado Inferior', 'Pre√ßo Previsto Ajustado Superior']]
tabela_previsoes.columns = ['Data', 'Pre√ßo Previsto Ajustado', 'Intervalo Inferior', 'Intervalo Superior']

# Exibir a tabela no console
print("\nTabela de Previs√µes Futuras (2025-2026):")
print(tabela_previsoes)

# Salvar a tabela como um arquivo CSV
tabela_previsoes.to_csv('dados/previsoes_futuras.csv', index=False)
print("\nTabela de previs√µes salva como 'previsoes_futuras.csv'.")

# 20. Criar funcao para gerar tabela automaticamente

In [165]:
# Fun√ß√£o para criar tabela de previs√µes a partir de uma data espec√≠fica
def criar_tabela_previsoes(data_inicio, dias_futuros, df_inicial):
    """
    Fun√ß√£o para criar uma tabela de previs√µes a partir de uma data espec√≠fica.
    :param data_inicio: Data inicial no formato 'YYYY-MM-DD'.
    :param dias_futuros: N√∫mero de dias para prever no futuro.
    :param df_inicial: DataFrame inicial com os dados hist√≥ricos.
    :return: DataFrame com as previs√µes.
    """
    # Carregar os modelos salvos
    prophet = joblib.load('modelo/modelo_prophet.pkl')
    model_xgb = joblib.load('modelo/modelo_xgboost.pkl')

    # Criar DataFrame com as datas futuras
    datas_futuras = pd.date_range(start=data_inicio, periods=dias_futuros, freq='D')
    future_df = pd.DataFrame({'ds': datas_futuras})

    # Fazer previs√µes com o Prophet
    prophet_future = prophet.predict(future_df)

    # Mesclar previs√µes do Prophet com o DataFrame futuro
    future_df = future_df.merge(prophet_future[['ds', 'yhat', 'yhat_lower', 'yhat_upper']], on='ds', how='left')

    # Calcular res√≠duos previstos pelo XGBoost
    # Para isso, precisamos dos √∫ltimos 7 res√≠duos hist√≥ricos
    ultimos_residuos = df_inicial['Res√≠duo'].tail(7).values
    if len(ultimos_residuos) < 7:
        raise ValueError("N√£o h√° dados hist√≥ricos suficientes para prever o res√≠duo.")

    # Criar features para o XGBoost
    features_xgb = {f'Res√≠duo_Lag_{i+1}': ultimos_residuos[-(i+1)] for i in range(7)}
    features_xgb = pd.DataFrame([features_xgb])

    # Prever o res√≠duo com o XGBoost
    residuo_previsto = model_xgb.predict(features_xgb)[0]

    # Ajustar as previs√µes do Prophet com o res√≠duo previsto
    future_df['Pre√ßo Previsto Ajustado'] = future_df['yhat'] + residuo_previsto
    future_df['Pre√ßo Previsto Ajustado Inferior'] = future_df['yhat_lower'] + residuo_previsto
    future_df['Pre√ßo Previsto Ajustado Superior'] = future_df['yhat_upper'] + residuo_previsto

    # Renomear colunas
    future_df.rename(columns={
        'ds': 'Data',
        'Pre√ßo Previsto Ajustado': 'Pre√ßo Previsto',
        'Pre√ßo Previsto Ajustado Inferior': 'Valor M√≠nimo Esperado',
        'Pre√ßo Previsto Ajustado Superior': 'Valor M√°ximo Esperado'
    }, inplace=True)

    # Arredondar os valores para 2 casas decimais
    future_df = future_df.round(2)

    # Selecionar colunas relevantes
    tabela_previsoes = future_df[['Data', 'Pre√ßo Previsto', 'Valor M√≠nimo Esperado', 'Valor M√°ximo Esperado']]

    return tabela_previsoes




### TESTANDO FUNCAO

In [None]:
#Testar a fun√ß√£o de criar tabela de previs√µes
data_inicio = '2025-01-01'  # Data inicial para previs√µes
dias_futuros = 30  # N√∫mero de dias para prever
try:
    tabela_previsoes = criar_tabela_previsoes(data_inicio, dias_futuros, df)
    print("\nTabela de Previs√µes Futuras:")
    print(tabela_previsoes)
except Exception as e:
    print(f"Erro ao criar tabela de previs√µes: {e}")