# Parte 1 - Coleta de Dados

## a) Bibliotecas utilizadas:

In [12]:
#%pip install pandas_datareader  basedosdados

In [13]:
# Importa as bibliotecas
#%pip install python-bcb
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


**Variáveis explicativas principais**
   A) **Mercado físico e de futuros**

   | Coluna               | Descrição                                                                           |
   | -------------------- | ----------------------------------------------------------------------------------- |
   | `soy_global_usd`     | Preço médio da soja no CBOT (Chicago Board of Trade) em USD/bushel no mesmo período |
   | `soy_domestic_brl`   | Preço doméstico em BRL/ton (ex. CEPEA)                                              |
   | `exchange_usd_brl`   | Cotação média USD/BRL no período                                                    |
   | `export_volume_t`    | Volume exportado de soja do Brasil (toneladas)                                      |
   | `stock_to_use_ratio` | Índice estoque/uso global de soja (USDA)                                            |

   B) **Fatores macroeconômicos e logísticos**

   | Coluna              | Descrição                                       |
   | ------------------- | ----------------------------------------------- |
   | `brent_usd_bbl`     | Preço médio do petróleo Brent (USD/barril)      |
   | `freight_index`     | Índice de frete marítimo (ex. Baltic Dry Index) |
   | `interest_rate_brl` | Taxa Selic (% ao ano) ou CDI (%)                |
   | `inflation_brl_yoy` | IPCA acumulado ano a ano (%)                    |

   C) **Condições climáticas (impacto na oferta)**

   | Coluna            | Descrição                                                        |
   | ----------------- | ---------------------------------------------------------------- |
   | `precip_mm`       | Precipitação média mensal nas principais regiões produtoras (mm) |
   | `temp_anomaly_c`  | Anomalia de temperatura média mensal (°C)                        |
   | `area_planted_ha` | Área plantada de soja no Brasil (hectares, CONAB)                |

## b) Coleta de dados por setor:

In [14]:
# a) soy_global_usd | Preço médio da soja no CBOT (Chicago Board of Trade) em USD/bushel no mesmo período
soy_global_usd_data  = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\soy_global_usd_data.xls"
# b) exchange_usd_brl | Taxa de câmbio USD/BRL no mesmo período
exchange_usd_brl  = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\exchange_usd_brl_data.csv"
# c) export_volume_t | Volume de exportação de soja em toneladas no mesmo período
export_volume_t = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\export_volume_t.xls"
# d) brent_usd_bbl | Preço do petróleo Brent em USD/barril no mesmo período
brent_usd_bbl = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\brent_usd_bbl_data.csv"
#  e) freight_index_data | Índice de frete marítimo (Baltic Dry Index) no mesmo período
freight_index_data  = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\freight_index_data.csv"



interest_rate_brl  = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\interest_rate_brl.csv"
inflation_brl_yoy  = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\inflation_brl_yoy_data.xls"
area_planted_ha = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\area_planted_ha_data.xls"
soy_future_usd =  r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\soy_global_usd_data.csv"
area_harvested_ha_data = r"D:\Documentos e Arquivos\Apresentação_TMQUANT\Datasets\Dataset\area_harvested_ha_data.xls"


In [15]:
# soy_global_usd | Preço médio da soja no CBOT (Chicago Board of Trade) em USD/bushel no mesmo período

soy_global_usd = pd.read_excel(soy_global_usd_data, sheet_name='Plan 1', skiprows=0)
# Converte a coluna 'Data' para datetime
soy_global_usd['Data'] = pd.to_datetime(soy_global_usd['Data'], dayfirst=True, errors='coerce')
soy_global_usd.head()


Unnamed: 0,Data,À vista US$
0,2006-03-13,12.96
1,2006-03-14,12.91
2,2006-03-15,13.0
3,2006-03-16,12.78
4,2006-03-17,12.68


In [17]:
# `soy_future_usd` | Preço Futuro em Dólar
#soy_future_usd_df = pd.read_csv(soy_future_usd, sep=',', encoding='latin1')
## Remove a coluna 'Vol.' se existir
#if 'Vol.' in soy_future_usd_df.columns:
    #soy_future_usd_df = soy_future_usd_df.drop(columns=['Vol.'])
#
## Converte a coluna 'Data' para datetime
#soy_future_usd_df['Data'] = pd.to_datetime(soy_future_usd_df['Data'], format='%d.%m.%Y')
#
## Converte as colunas numéricas de string para float (substituindo ',' por '.')
#cols_numericas = ['Último', 'Abertura', 'Máxima', 'Mínima']
#for col in cols_numericas:
    #soy_future_usd_df[col] = soy_future_usd_df[col].str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
    #soy_future_usd_df[col] = pd.to_numeric(soy_future_usd_df[col], errors='coerce')
#
## Remove o símbolo '%' e converte 'Var%' para float
#soy_future_usd_df['Var%'] = soy_future_usd_df['Var%'].str.replace('%', '', regex=False).str.replace(',', '.', regex=False)
#soy_future_usd_df['Var%'] = pd.to_numeric(soy_future_usd_df['Var%'], errors='coerce')
#soy_future_usd_df.head()


In [18]:
# exchange_usd_brl` | Cotação média USD/BRL no período 
exchange_usd_brl = pd.read_csv(exchange_usd_brl, sep=',')
# A coluna correta do DataFrame é 'DateTime', não 'data'
exchange_usd_brl['DateTime'] = pd.to_datetime(exchange_usd_brl['DateTime'], format='%Y-%m-%d', errors='coerce')
exchange_usd_brl.head()

Unnamed: 0,DateTime,Taxa de câmbio nominal
0,2015-06-08,3.119
1,2015-06-09,3.0991
2,2015-06-10,3.0843
3,2015-06-11,3.1514
4,2015-06-12,3.1107


In [19]:
# Carrega o volume de exportação de soja em toneladas
export_volume_t_df = pd.read_excel(export_volume_t, sheet_name='Produção', skiprows=5)
# Exibe as primeiras linhas para conferência
export_volume_t_df.head()

Unnamed: 0,REGIÃO/UF,1977,1978,1979,1980,1981,1982,1983,1984,1985,...,2016,2017,2018,2019,2020,2021,2022,2023,2024,2025
0,NORTE,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,3818.90014,5536.4972,6012.6,6147.0,6902.1,7672.3,9044.1,10558.5,11409.1,13304.2
1,NORDESTE,0.0,0.0,0.0,2.2,3.8,0.4,4.5,36.4,84.6,...,5107.0827,9644.7472,11903.1145,11034.9,11819.6,12852.2,13876.9,15494.3,15769.3,17534.2
2,CENTRO-OESTE,540.0,578.0,1100.0,1850.4,2097.0,2437.4,3137.0,3828.8,5572.7,...,43999.412,50642.6397,55398.4141,55058.1,61736.9,65302.2,68391.6,78125.9,68125.4,83997.5
3,SUDESTE,875.0,882.0,1020.0,1305.0,1317.0,1380.6,1430.2,1360.0,1816.7,...,7591.1099,8151.5365,9157.2186,8613.9,10131.1,11321.1,11767.0,13257.9,11443.7,14633.0
4,SUL,10730.0,8266.0,8080.0,11729.8,12067.0,9072.5,9961.2,10115.3,10737.5,...,35181.1001,41051.2512,40787.5261,38864.2,35294.5,43031.5,23400.0,38276.8,40973.8,38872.9


In [20]:
# Carrega o preço do petróleo Brent em USD/barril
brent_usd_bbl_df = pd.read_csv(brent_usd_bbl, sep=',')
# Exibe as primeiras linhas para conferência
brent_usd_bbl_df.head()

Unnamed: 0,Data,Último,Abertura,Máxima,Mínima,Vol.,Var%
0,01.06.2025,2963,3158,3163,2921,"188,37M","-4,11%"
1,01.05.2025,3090,3020,3241,2966,"777,09M","3,03%"
2,01.04.2025,2999,3645,3710,2996,"1,15B","-17,40%"
3,01.03.2025,3631,3422,3710,3313,"594,63M","3,42%"
4,01.02.2025,3511,3690,3778,3467,"673,99M","-4,67%"


In [23]:
freight_index_data = pd.read_csv(freight_index_data, sep=',')

freight_index_data .head()

TypeError: argument of type 'method' is not iterable

In [None]:
# soy_global_usd | Preço médio da soja no CBOT (Chicago Board of Trade) em USD/bushel no mesmo período

soy_global_usd = pd.read_excel(soy_global_usd_data, sheet_name='Plan 1', skiprows=0)
# Converte a coluna 'Data' para datetime
soy_global_usd['Data'] = pd.to_datetime(soy_global_usd['Data'], dayfirst=True, errors='coerce')
soy_global_usd.head()


Unnamed: 0,Data,À vista US$
0,2006-03-13,12.96
1,2006-03-14,12.91
2,2006-03-15,13.0
3,2006-03-16,12.78
4,2006-03-17,12.68


## C) Limpeza e Pré - Processamento de Dados:

### c.1) Tratamento de Valores Ausentes:

### c.2) Alinhamento de Frequência:

### c.3) Detecção e Tratamento de Outliers:

### c.4) Transformação de Dados:

## d) Garantia da Estacionariedade dos Dados

### d.1) Testes de Estacionariedade:


### d.2) Teste de Kwiatkowski-Phillips-Schmidt-Shin (KPSS): 

### d.3) Alcançando a Estacionariedade: