### Extração e pré-processamento dos dados

#### 
- Analisamos os últimos 10 anos para capturar as tendências mais recentes e manter o modelo relevante. Os dados são lidos diretamente do HTML para garantir atualizações automáticas. Realizamos o tratamento dos dados, removendo a primeira linha, renomeando colunas, ajustando o índice, convertendo os tipos de dados para datetime e numeric. Tratamos também os valores ausentes e agregamos os dados para frequência mensal, reduzindo a volatilidade e capturando tendências de médio prazo, facilitando a análise.


In [1]:
from datetime import datetime
import pandas as pd
import warnings
warnings.filterwarnings("ignore")


url = 'http://www.ipeadata.gov.br/ExibeSerie.aspx?module=m&serid=1650971490&oper=view'
tables = pd.read_html(url, decimal=',', thousands='.')
df = tables[2]

df = df.drop(index=0).reset_index(drop=True)
df.columns = ['data', 'preco']

df['data'] = pd.to_datetime(df['data'], dayfirst=True, errors='coerce')
df['preco'] = pd.to_numeric(df['preco'], errors='coerce')

df.sort_values(by='data', inplace=True)
df.set_index('data', inplace=True)

startDate = f"{datetime.today().year - 10}-{datetime.today().month }-{datetime.today().day}"
df = df[df.index > startDate].dropna(subset=['preco'])

missing_values = df.isnull().sum()

df = df.dropna()

df_monthly = df.resample('M').mean()

df_monthly

Unnamed: 0_level_0,preco
data,Unnamed: 1_level_1
2015-02-28,58.675000
2015-03-31,56.588065
2015-04-30,58.470000
2015-05-31,64.155806
2015-06-30,61.733333
...,...
2024-10-31,75.632609
2024-11-30,74.345238
2024-12-31,73.840000
2025-01-31,79.270455
