## Script de preparação de dados do Trabalho de Conclusão
#### Curso de Especialização Lato Sensu em Ciência de Dados e Big Data
#### Instituição Pontifícia Universidade Católica de Minas Gerais
##### Título do trabalho: 'ANÁLISE DE SÉRIES TEMPORAIS PARA PREDIÇÃO DO PREÇO DE AÇÚCAR E ETANOL'
Autor: Rafael Vasconcelos Valadares <br>
Data: 04/05/2024 <br>
Email: rafaelvvaladares@hotmail.com <br>
Etapa: 1- Preparação dos dados

In [1]:
# Definindo o diretório de trabalho

import os

# Obtendo o diretório de trabalho atual
diretorio_atual=os.getcwd()

# Mudando o diretório de trabalho
novo_diretorio= 'C:/Users/rafae/OneDrive/Área de Trabalho/Github_projetos/TCC/TCC_CANA/Dados_brutos'
os.chdir(novo_diretorio)

In [2]:
#Listando arquivos presentes no diretório atual

arquivos=os.listdir(novo_diretorio)

# Imprimindo os nomes dos arquivos

for arquivo in arquivos:
    print(arquivo)

bcb_dados.xlsx
CanaSerieHistZ-ZAgricola_conab.xls
CanaSerieHistZ-ZIndustria.xls
cepea-acucar-2010_2013.xls
cepea-acucar-2012_2014.xls
cepea-acucar-2013_2015.xls
cepea-acucar-2015_2017.xls
cepea-acucar-2023_2020.xls
cepea-etanol-2012_2014.xls
cepea_acucar-2020_2017.xls
cepea_etanol_2010_2012.xls
cepea_etanol_2014_2017.xls
cepea_etanol_2017_2020.xls
cepea_etanol_2020_2023.xls
combustiveis_brasil.csv
dataset_atualizada.xlsx
df_info.xlsx
exportacao_importacao_acucar_e_etanol.xlsx
frota_veiculos_brasil.xlsx
perc_etanol_gasolina.csv
precos_produtos_agricolas.xlsx


In [3]:
# Web Scrapping dados Conab com Beautifulsoup
#!pip3 install beautifulsoup

In [4]:
# Importação ativação de pacotes
from bs4 import BeautifulSoup
import pandas as pd
import requests

In [5]:
# Importação dos dados históricos de Área, Produção e Produtividade de cana-de-açúcar do site da Conab
# Método: Web Scraping com beuatifulsoup

# URL base da página
base_url = "https://www.conab.gov.br/info-agro/safras/serie-historica-das-safras/itemlist/category/891-cana-de-acucar-agricola"

# Nome do arquivo XLS
file_name = "CanaSerieHistZ-ZAgricola.xls"

# Nomes das abas nos arquivos XLS
abas = ['Área', 'Produtividade', 'Produção']

# Fazer o request para obter o conteúdo da página
response = requests.get(base_url)

# Verificar se o request foi bem-sucedido
if response.status_code == 200:
    # Analisar o conteúdo HTML da página
    soup = BeautifulSoup(response.content, "html.parser")
    
    # Encontrar o link para o arquivo XLS
    link = soup.find("a", title=file_name)
    
    # Verificar se o link foi encontrado
    if link:
        # Extrair o URL completo
        file_url = "https://www.conab.gov.br" + link.get("href")
        
        # Baixar o arquivo XLS
        xls_content = requests.get(file_url).content
        
        # Carregar o arquivo XLS em um DataFrame
        dt_prod_conab = pd.read_excel(xls_content, sheet_name=None)
        
        # Extrair abas específicas em DataFrames separados
        df_area = dt_prod_conab['Área']
        df_produt = dt_prod_conab['Produtividade']
        df_produc = dt_prod_conab['Produção']
        
        # Exibir as primeiras linhas de cada DataFrame
        print("\nPrimeiras linhas de df_area:")
        print(df_area.head())
        
        print("\nPrimeiras linhas de df_produt:")
        print(df_produt.head())
        
        print("\nPrimeiras linhas de df_produc:")
        print(df_produc.head())
        
    else:
        print(f"Link para o arquivo '{file_name}' não encontrado")
else:
    print("Falha ao carregar a página")



Primeiras linhas de df_area:
                        Unnamed: 0 Unnamed: 1 Unnamed: 2 Unnamed: 3  \
0          CANA-DE-AÇÚCAR - BRASIL        NaN        NaN        NaN   
1  Série Histórica de Área Colhida        NaN        NaN        NaN   
2         Safras 2005/06 a 2023/24        NaN        NaN        NaN   
3                  Em mil hectares        NaN        NaN        NaN   
4                        REGIÃO/UF    2005/06    2006/07    2007/08   

  Unnamed: 4 Unnamed: 5   Unnamed: 6 Unnamed: 7 Unnamed: 8 Unnamed: 9  ...  \
0        NaN        NaN          NaN        NaN        NaN        NaN  ...   
1        NaN        NaN          NaN        NaN        NaN        NaN  ...   
2        NaN        NaN          NaN        NaN        NaN        NaN  ...   
3        NaN        NaN          NaN        NaN        NaN        NaN  ...   
4    2008/09    2009/10  2010/11        2011/12    2012/13    2013/14  ...   

  Unnamed: 11 Unnamed: 12 Unnamed: 13 Unnamed: 14 Unnamed: 15 Unnamed: 16 

In [6]:
# Removendo informações desnecessárias data.frame importada
dfs = [df_area, df_produt, df_produc]
names = ['df_area', 'df_produt', 'df_produc']

for df, name in zip(dfs, names):
    # Remover linhas desnecessárias e renomear o cabeçalho
    df = df.iloc[4:-2]  # Remover linhas inúteis
    df.columns = df.iloc[0]  # Definir primeira linha como cabeçalho
    df = df[1:]  # Remover a primeira linha original após definir como cabeçalho
    
    # Atualizar o dataframe original com as modificações
    exec(f"{name} = df")

In [7]:
print(df_produc)

4        REGIÃO/UF   2005/06   2006/07   2007/08   2008/09   2009/10  \
5            NORTE    1073.7    1261.9    1348.6    1093.6     991.6   
6               RR         0         0         0         0         0   
7               RO         0         0         0     106.3     111.3   
8               AC         0         0         0         0         0   
9               AM     194.4     273.1       314     303.5     211.8   
10              AP         0         0         0         0         0   
11              PA     606.3     736.7     749.6     628.4     623.4   
12              TO       273     252.1       285      55.4      45.1   
13        NORDESTE   56599.6   62860.3     67868   64416.1   60677.2   
14              MA    1969.9    2341.4      2385      2385    2209.4   
15              PI       614     821.3     900.9     900.9      1014   
16              CE    1773.3    1619.1     111.5       124     154.4   
17              RN    2637.8    2888.1      3075    3296.7    34

In [8]:
print(df_area)

4        REGIÃO/UF  2005/06 2006/07 2007/08 2008/09 2009/10 2010/11      \
5            NORTE     18.6    19.8    20.6    16.1    17.2        19.6   
6               RR        0       0       0       0       0           0   
7               RO        0       0       0     1.7     1.8         2.6   
8               AC        0       0       0       0     NaN         0.4   
9               AM      3.8     4.8     3.9     3.8     3.8         3.8   
10              AP        0       0       0       0       0           0   
11              PA     10.4    10.5      11     9.5    10.9          10   
12              TO      4.4     4.5     5.7     1.1     0.7         2.8   
13        NORDESTE   1077.4  1123.5  1037.3  1052.6  1082.5      1113.3   
14              MA     31.8    40.3    38.9    38.9    39.4        42.1   
15              PI       10    12.5    13.1    13.1    13.6        13.3   
16              CE     35.1    28.9     1.6     1.8     2.3         2.8   
17              RN     50

In [9]:
# Realizando a remodelagem das dataframes para dar importância às informações por REGIÃO/UF
# Método: melt para concentrar os dados (produz matriz densa com os dados de safra concentrados em uma única coluna)
dfs = [df_area, df_produt, df_produc]
names = ['df_area', 'df_produt', 'df_produc']
value_names = ['area', 'produtividade', 'producao']

for df, name, value_name in zip(dfs, names, value_names):
    # Convertendo a matriz esparssa em densa
    df = df.melt(id_vars='REGIÃO/UF', var_name='safra', value_name=value_name)
    
    # Atualizar o dataframe original com as modificações
    exec(f"{name} = df")


In [10]:
print(df_produt)

          REGIÃO/UF        safra produtividade
0             NORTE      2005/06         57633
1                RR      2005/06             0
2                RO      2005/06             0
3                AC      2005/06             0
4                AM      2005/06         50750
..              ...          ...           ...
695              SC  2024/25 (¹)            - 
696              RS  2024/25 (¹)            - 
697  NORTE/NORDESTE  2024/25 (¹)         64532
698      CENTRO-SUL  2024/25 (¹)         80840
699          BRASIL  2024/25 (¹)         79079

[700 rows x 3 columns]


In [11]:
# Realizando o merge das data.frames df_area, df_produt e df_ produc
dfs = [df_area, df_produt, df_produc]
how = 'left'

# Initialize df_final_prod as the first dataframe
df_final_prod = dfs[0]

# Loop through the remaining dataframes and merge them with df_final_prod
for df in dfs[1:]:
    df_final_prod = pd.merge(df_final_prod, df, on=['REGIÃO/UF', 'safra'], how=how)


In [12]:
print(df_final_prod)

          REGIÃO/UF        safra    area produtividade  producao
0             NORTE      2005/06    18.6         57633    1073.7
1                RR      2005/06       0             0         0
2                RO      2005/06       0             0         0
3                AC      2005/06       0             0         0
4                AM      2005/06     3.8         50750     194.4
..              ...          ...     ...           ...       ...
695              SC  2024/25 (¹)      -             -         - 
696              RS  2024/25 (¹)     NaN            -         - 
697  NORTE/NORDESTE  2024/25 (¹)   936.5         64532   60431.9
698      CENTRO-SUL  2024/25 (¹)  7736.6         80840    625425
699          BRASIL  2024/25 (¹)  8673.1         79079  685856.8

[700 rows x 5 columns]


In [13]:
# Remoção de valores NAN, caracteres desconhecidos (ex.: -) e as linhas da safra 2024/25, que não são do nosso interesse
import numpy as np

# Columns to process
columns_to_process = ['area', 'produtividade', 'producao']

# Replace problematic values with NaN and convert columns to float
for column in columns_to_process:
    df_final_prod[column] = df_final_prod[column].replace('- ', np.nan).astype(float)

# Filter out rows with 'safra' equal to '2024/25 (¹)'
df_final_prod = df_final_prod[df_final_prod['safra'] != '2024/25 (¹)']

display(df_final_prod)

Unnamed: 0,REGIÃO/UF,safra,area,produtividade,producao
0,NORTE,2005/06,18.600000,57633.000000,1073.700000
1,RR,2005/06,0.000000,0.000000,0.000000
2,RO,2005/06,0.000000,0.000000,0.000000
3,AC,2005/06,0.000000,0.000000,0.000000
4,AM,2005/06,3.800000,50750.000000,194.400000
...,...,...,...,...,...
660,SC,2023/24,0.000000,0.000000,0.000000
661,RS,2023/24,,0.000000,0.000000
662,NORTE/NORDESTE,2023/24,931.944570,64833.036368,60420.796200
663,CENTRO-SUL,2023/24,7401.983943,88191.670679,652793.330289


In [14]:
# Verifciação dos tipos de dados e transformação, quando necessário

df_final_prod.dtypes

REGIÃO/UF         object
safra             object
area             float64
produtividade    float64
producao         float64
dtype: object

In [15]:
# Verificação se os dados estão ok para seguir para agregação de novas informações
# Métodos: medias de tendência central e de dispersão
summary_table = df_final_prod.groupby('safra').agg({'area': ['mean', 'max', 'min'],
                                                     'produtividade': ['mean', 'max', 'min'],
                                                     'producao': ['mean', 'max', 'min']})

# Renomeando as colunas para faciliar a compreensão
summary_table.columns = ['area_mean', 'area_max', 'area_min',
                         'produtividade_mean', 'produtividade_max', 'produtividade_min',
                         'producao_mean', 'producao_max', 'producao_min']

# Dispondo a data.frame para observação
print(summary_table)

               area_mean     area_max  area_min  produtividade_mean  \
safra                                                                 
2005/06       667.464000  5840.310000       0.0        52382.857143   
2006/07       704.377143  6163.300000       0.0        54303.457143   
2007/08       801.165714  7010.200000       0.0        58588.485714   
2008/09       806.617143  7057.900000       0.0        59891.000000   
2009/10       871.705882  7409.500000       0.0        58929.428571   
2010/11       920.697143  8056.100000       0.0        58719.171429   
2011/12       955.725714  8362.600000       0.0        56911.742857   
2012/13       969.714286  8485.000000       0.0        53443.628571   
2013/14      1007.020571  8811.430000       0.0        57643.525714   
2014/15      1029.083429  9004.480000       0.0        57786.764706   
2015/16       989.123200  8654.828000       0.0        58162.768949   
2016/17      1034.194286  9049.200000       0.0        50822.885714   
2017/1

In [16]:
 # Importando dados da Conab de:'Açúcar', 'Etanol Total (cana e milho)', 'Etanol Anidro', 'Etanol Hidratado',
#   'ATR Médio', 'Etanol Anidro (Milho)', 'Etanol Hidratado (Milho)'
# Método web scraping com BeautifulSoup e resquests
import pandas as pd
import requests
from bs4 import BeautifulSoup

# URL base da página
base_url = "https://www.conab.gov.br/info-agro/safras/serie-historica-das-safras/itemlist/category/893-cana-de-acucar-industria"

# Nome do arquivo XLS
file_name = "CanaSerieHistZ-ZIndustria.xls"

# Nomes das abas nos arquivos XLS
abas = ['Açúcar', 'Etanol Total (cana e milho)', 'Etanol Anidro', 'Etanol Hidratado',
        'ATR Médio', 'Etanol Anidro (Milho)', 'Etanol Hidratado (Milho)']

# Fazer o request para obter o conteúdo da página
response = requests.get(base_url)

# Verificar se o request foi bem-sucedido
if response.status_code == 200:
    # Analisar o conteúdo HTML da página
    soup = BeautifulSoup(response.content, "html.parser")
    
    # Encontrar o link para o arquivo XLS
    link = soup.find("a", title=file_name)
    
    # Verificar se o link foi encontrado
    if link:
        # Extrair o URL completo
        file_url = "https://www.conab.gov.br" + link.get("href")
        
        # Baixar o arquivo XLS
        xls_content = requests.get(file_url).content
        
        # Carregar o arquivo XLS em um DataFrame
        dt_ind_conab = pd.read_excel(xls_content, sheet_name=None)
        
        # Extrair abas específicas em DataFrames separados
        df_acucar = dt_ind_conab['Açúcar']
        df_etanol_total = dt_ind_conab['Etanol Total (cana e milho)']
        df_etanol_anidro = dt_ind_conab['Etanol Anidro']
        df_etanol_hidratado = dt_ind_conab['Etanol Hidratado']
        df_atr_medio = dt_ind_conab['ATR Médio']
        df_etanol_anidro_milho = dt_ind_conab['Etanol Anidro (Milho)']
        df_etanol_hidratado_milho = dt_ind_conab['Etanol Hidratado (Milho)']
        
        # Exibir as primeiras linhas de cada DataFrame
        print("\nPrimeiras linhas de df_acucar:")
        print(df_acucar.head())
        
        print("\nPrimeiras linhas de df_etanol_total:")
        print(df_etanol_total.head())
        
        print("\nPrimeiras linhas de df_etanol_anidro:")
        print(df_etanol_anidro.head())
        
        print("\nPrimeiras linhas de df_etanol_hidratado:")
        print(df_etanol_hidratado.head())
        
        print("\nPrimeiras linhas de df_atr_medio:")
        print(df_atr_medio.head())
        
        print("\nPrimeiras linhas de df_etanol_anidro_milho:")
        print(df_etanol_anidro_milho.head())
        
        print("\nPrimeiras linhas de df_etanol_hidratado_milho:")
        print(df_etanol_hidratado_milho.head())
        
    else:
        print(f"Link para o arquivo '{file_name}' não encontrado")
else:
    print("Falha ao carregar a página")



Primeiras linhas de df_acucar:
                              Unnamed: 0 Unnamed: 1 Unnamed: 2 Unnamed: 3  \
0                CANA-DE-AÇÚCAR - BRASIL        NaN        NaN        NaN   
1  Série Histórica de Produção de Açúcar        NaN        NaN        NaN   
2               Safras 2005/06 a 2023/24        NaN        NaN        NaN   
3                       Em mil toneladas        NaN        NaN        NaN   
4                              REGIÃO/UF    2005/06    2006/07    2007/08   

  Unnamed: 4 Unnamed: 5   Unnamed: 6 Unnamed: 7 Unnamed: 8 Unnamed: 9  ...  \
0        NaN        NaN          NaN        NaN        NaN        NaN  ...   
1        NaN        NaN          NaN        NaN        NaN        NaN  ...   
2        NaN        NaN          NaN        NaN        NaN        NaN  ...   
3        NaN        NaN          NaN        NaN        NaN        NaN  ...   
4    2008/09    2009/10  2010/11        2011/12    2012/13    2013/14  ...   

  Unnamed: 11 Unnamed: 12 Unnamed: 1

In [17]:
# Removendo variáveis desnecessárias (linhas) com método .iloc e loop for
dfs_names = {
    'Açúcar': 'df_acucar',
    'Etanol Total (cana e milho)': 'df_etanol_total',
    'Etanol Anidro': 'df_etanol_anidro',
    'Etanol Hidratado': 'df_etanol_hidratado',
    'ATR Médio': 'df_atr_medio',
    'Etanol Anidro (Milho)': 'df_etanol_anidro_milho',
    'Etanol Hidratado (Milho)': 'df_etanol_hidratado_milho'
}

# Loop para realizar a operação em cada data.frame
for df_name, var_name in dfs_names.items():
    # Perform the operations
    globals()[var_name] = globals()[var_name].iloc[4:-2]
    globals()[var_name].columns = globals()[var_name].iloc[0]
    globals()[var_name] = globals()[var_name][1:]

In [18]:
# Remodelando as data.frames com valores esparsos por safra para formato denso (safra em uma única coluna)
# Método melt acompanhado de loop
dfs = {
    'df_acucar': 'acucar',
    'df_etanol_total': 'etanol_total',
    'df_etanol_anidro': 'etanol_anidro',
    'df_etanol_hidratado': 'etanol_hidratado',
    'df_etanol_anidro_milho': 'etanol_anidro_milho',
    'df_etanol_hidratado_milho': '_etanol_hidratado_milho',
    'df_atr_medio': 'atr_medio'
}

# Apply melt operation in a loop
for df_var, col_name in dfs.items():
    globals()[df_var] = globals()[df_var].melt(id_vars='REGIÃO/UF', var_name='safra', value_name=col_name)


In [19]:
# Realizando o merge dos dados utilizando left_join
dfs_to_merge = [df_acucar, df_etanol_total, df_etanol_anidro, df_atr_medio, df_etanol_hidratado, df_etanol_anidro_milho, df_etanol_hidratado_milho]

# Estabelece data.frame inicial para merge
df_final_ind = df_acucar

# Loop para realizar o merge de múltiplas data.frames
for df_to_merge in dfs_to_merge[1:]:
    df_final_ind = pd.merge(df_final_ind, df_to_merge, on=['REGIÃO/UF', 'safra'], how='left')


In [20]:
# Remoção de dados da safra 24/25 e caracteres não numéricos
import numpy as np

df_final_ind = df_final_ind.loc[df_final_ind['safra'] != '2024/25 (¹)']

columns_to_convert = ['acucar', 'etanol_total', 'etanol_anidro', 'atr_medio', 'etanol_hidratado', 'etanol_anidro_milho', '_etanol_hidratado_milho']

# Replace non-numeric values with NaN
df_final_ind[columns_to_convert] = df_final_ind[columns_to_convert].replace('-', np.nan)

# Convert columns to float
df_final_ind[columns_to_convert] = df_final_ind[columns_to_convert].astype(float)
#display(df_final_ind)
display(df_final_ind)

Unnamed: 0,REGIÃO/UF,safra,acucar,etanol_total,etanol_anidro,atr_medio,etanol_hidratado,etanol_anidro_milho,_etanol_hidratado_milho
0,NORTE,2005/06,22.70400,6.099200e+04,5.486220e+04,122.038230,6.129800e+03,,
1,RR,2005/06,0.00000,0.000000e+00,0.000000e+00,,0.000000e+00,,
2,RO,2005/06,0.00000,0.000000e+00,0.000000e+00,,0.000000e+00,,
3,AC,2005/06,0.00000,0.000000e+00,0.000000e+00,,0.000000e+00,,
4,AM,2005/06,22.70400,8.535000e+02,4.863000e+02,130.181386,3.672000e+02,,
...,...,...,...,...,...,...,...,...,...
660,SC,2023/24,0.00000,0.000000e+00,0.000000e+00,0.000000,0.000000e+00,,
661,RS,2023/24,0.00000,0.000000e+00,0.000000e+00,0.000000,0.000000e+00,,
662,NORTE/NORDESTE,2023/24,3392.38370,2.272452e+06,1.168054e+06,126.989005,1.104384e+06,0.0,14.82
663,CENTRO-SUL,2023/24,42286.31825,3.333727e+07,1.088125e+07,135.257089,1.653586e+07,2242195.2,3677965.70


In [21]:
# Verificação dos tipos de dados baixados
df_final_ind.dtypes

REGIÃO/UF                   object
safra                       object
acucar                     float64
etanol_total               float64
etanol_anidro              float64
atr_medio                  float64
etanol_hidratado           float64
etanol_anidro_milho        float64
_etanol_hidratado_milho    float64
dtype: object

In [22]:
# Verificação de valores NAN
# Soma de NA por colunas
nan_sum = df_final_ind.isna().sum()

# Vendo resultado
print(nan_sum)

REGIÃO/UF                    0
safra                        0
acucar                       9
etanol_total                14
etanol_anidro               11
atr_medio                   56
etanol_hidratado             8
etanol_anidro_milho        595
_etanol_hidratado_milho    592
dtype: int64


In [23]:
# Removendo colunas com múltiplos NA: etanol_anidro_milho e _etanol_hidratado_milho 
df_final_ind = df_final_ind.drop(['etanol_anidro_milho', '_etanol_hidratado_milho'], axis=1)

# Removendo as linhas com valores NA nas colunas especificadas
df_final_ind = df_final_ind.dropna(subset=['acucar', 'etanol_total', 'etanol_anidro', 'atr_medio', 'etanol_hidratado'])

In [24]:
# Verificação de valores NAN
# Soma de NA por colunas
nan_sum = df_final_ind.isna().sum()

# Vendo resultado
print(nan_sum)

REGIÃO/UF           0
safra               0
acucar              0
etanol_total        0
etanol_anidro       0
atr_medio           0
etanol_hidratado    0
dtype: int64


In [25]:
# verificação simplificada da sanidade dos dados


# Agrupando por 'safra' e calculando média, mínimo e máximo para as colunas especificadas
summary_table = df_final_ind.groupby('safra').agg({
    'acucar': ['mean', 'min', 'max'],
    'etanol_total': ['mean', 'min', 'max'],
    'etanol_anidro': ['mean', 'min', 'max'],
    'atr_medio': ['mean', 'min', 'max'],
    'etanol_hidratado': ['mean', 'min', 'max']
})

# Renomeando as colunas para melhor entendimento
summary_table.columns = ['acucar_mean', 'acucar_min', 'acucar_max',
                         'etanol_total_mean', 'etanol_total_min', 'etanol_total_max',
                         'etanol_anidro_mean', 'etanol_anidro_min', 'etanol_anidro_max',
                         'atr_medio_mean', 'atr_medio_min', 'atr_medio_max',
                         'etanol_hidratado_mean', 'etanol_hidratado_min', 'etanol_hidratado_max']

# Exibindo a tabela de resumo
print(summary_table)

             acucar_mean  acucar_min    acucar_max  etanol_total_mean  \
safra                                                                   
2005/06      3532.459573         0.0  26420.082700       2.246865e+06   
2006/07      4029.813333         0.0  30223.600000       2.324290e+06   
2007/08      4314.441379         0.0  31279.700000       3.173402e+06   
2008/09      4216.026667         0.0  31620.200000       3.557790e+06   
2009/10      4409.960000         0.0  33074.700000       3.435016e+06   
2010/11      5089.120000         0.0  38168.400000       3.678973e+06   
2011/12      4938.296774         0.0  38271.800000       3.022861e+06   
2012/13      4946.693690         0.0  38336.876099       3.050383e+06   
2013/14      4887.517848         0.0  37878.263324       3.607318e+06   
2014/15      4741.357293         0.0  35560.179697       3.821323e+06   
2015/16      3827.330592         0.0  33489.142682       3.481317e+06   
2016/17      4421.840000         0.0  38691.100000 

In [26]:
# Unindo dados da indústria e de produtividade/area/produção
df_final_conab=pd.merge(df_final_prod, df_final_ind, on=['REGIÃO/UF', 'safra'], how='left')

In [27]:
# Verificando valores NA na nova tabela
# Verificação de valores NAN
# Soma de NA por colunas
nan_sum = df_final_conab.isna().sum()

# Vendo resultado
print(nan_sum)

REGIÃO/UF            0
safra                0
area                 7
produtividade        3
producao             1
acucar              67
etanol_total        67
etanol_anidro       67
atr_medio           67
etanol_hidratado    67
dtype: int64


In [28]:
# Removendo as linhas com valores NA nas colunas especificadas
# Método: dropna
df_final_conab = df_final_conab.dropna(subset=[
    'area', 
    'produtividade', 
    'producao', 
    'acucar', 
    'etanol_total',
    'etanol_anidro',
    'atr_medio',
    'etanol_hidratado'])

In [29]:
# Verificando valores NA na nova tabela
# Verificação de valores NAN
# Soma de NA por colunas
nan_sum = df_final_conab.isna().sum()

# Vendo resultado
print(nan_sum)

REGIÃO/UF           0
safra               0
area                0
produtividade       0
producao            0
acucar              0
etanol_total        0
etanol_anidro       0
atr_medio           0
etanol_hidratado    0
dtype: int64


In [30]:
# Removendo dados da safra 2023/24 (pois não nos interessa -> com estimativa)
df_final_conab=df_final_conab[df_final_conab['safra']!='2023/24']
print(df_final_conab['safra'].unique())

# Criando uma nova coluna chamada ano_colheita que servirá de referência para o join com os dados de cotação
df_final_conab['ano_colheita']=df_final_conab['safra'].str[:4].astype(int)

print(df_final_conab['ano_colheita'].unique())

print(df_final_conab)

['2005/06' '2006/07' '2007/08' '2008/09' '2009/10' '2010/11    ' '2011/12'
 '2012/13' '2013/14' '2014/15' '2015/16' '2016/17' '2017/18' '2018/19'
 '2019/20' '2020/21' '2021/22' '2022/23']
[2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
 2019 2020 2021 2022]
          REGIÃO/UF    safra         area  produtividade       producao  \
0             NORTE  2005/06    18.600000   57633.000000    1073.700000   
4                AM  2005/06     3.800000   50750.000000     194.400000   
6                PA  2005/06    10.400000   58300.000000     606.300000   
7                TO  2005/06     4.400000   62043.000000     273.000000   
8          NORDESTE  2005/06  1077.400000   52534.000000   56599.600000   
..              ...      ...          ...            ...            ...   
624              PR  2022/23   475.359120   65115.277477   30953.141000   
625              SC  2022/23     0.000000       0.000000       0.000000   
627  NORTE/NORDESTE  2022/23   922.817275   

In [31]:
# Mantendo informações apenas de regiões (acumulados)
import pandas as pd
df_final_conab= df_final_conab[df_final_conab['REGIÃO/UF'].isin(['NORTE', 'NORDESTE', 'CENTRO-OESTE', 
                                                                 'SUDESTE', 'NORTE/NORDESTE', 'CENTRO-SUL', 
                                                                 'BRASIL'])]
print(df_final_conab['REGIÃO/UF'].unique())

['NORTE' 'NORDESTE' 'CENTRO-OESTE' 'SUDESTE' 'NORTE/NORDESTE' 'CENTRO-SUL'
 'BRASIL']


In [32]:
#print(df_final_conab)
df_final_conab.columns

Index(['REGIÃO/UF', 'safra', 'area', 'produtividade', 'producao', 'acucar',
       'etanol_total', 'etanol_anidro', 'atr_medio', 'etanol_hidratado',
       'ano_colheita'],
      dtype='object')

In [33]:
import pandas as pd

# Produzindo uma matriz esparsa por REGIÃO/UF (pode ser útil no machine learning)

# Método spread com pivot
df_final_conab_spread = df_final_conab.pivot(index=['safra', 'ano_colheita'], columns='REGIÃO/UF')

# Renomeando as colunas
df_final_conab_spread.columns = [f"{col[0]}_{col[1]}" for col in df_final_conab_spread.columns]

# Refazendo o índice na data.frame
df_final_conab_spread = df_final_conab_spread.reset_index()

# Apresentação
print(df_final_conab_spread)

          safra  ano_colheita  area_BRASIL  area_CENTRO-OESTE  \
0       2005/06          2005  5840.310000          547.00000   
1       2006/07          2006  6163.300000          604.60000   
2       2007/08          2007  7010.200000          900.80000   
3       2008/09          2008  7057.900000          900.80000   
4       2009/10          2009  7409.500000          940.30000   
5   2010/11              2010  8056.100000         1202.60000   
6       2011/12          2011  8362.600000         1379.40000   
7       2012/13          2012  8485.000000         1504.11000   
8       2013/14          2013  8811.430000         1710.75000   
9       2014/15          2014  9004.480000         1748.45000   
10      2015/16          2015  8654.828000         1715.34000   
11      2016/17          2016  9049.200000         1811.45000   
12      2017/18          2017  8729.490000         1804.48000   
13      2018/19          2018  8589.230000         1793.34000   
14      2019/20          

In [34]:
# Visualizando colunas específicas
df_final_conab_spread[['safra','etanol_hidratado_BRASIL',
       'etanol_hidratado_CENTRO-OESTE', 'etanol_hidratado_CENTRO-SUL',
       'etanol_hidratado_NORDESTE', 'etanol_hidratado_NORTE',
       'etanol_hidratado_NORTE/NORDESTE', 'etanol_hidratado_SUDESTE']]

Unnamed: 0,safra,etanol_hidratado_BRASIL,etanol_hidratado_CENTRO-OESTE,etanol_hidratado_CENTRO-SUL,etanol_hidratado_NORDESTE,etanol_hidratado_NORTE,etanol_hidratado_NORTE/NORDESTE,etanol_hidratado_SUDESTE
0,2005/06,7746040.0,1145937.0,7102186.0,637724.2,6129.8,643854.0,5050565.0
1,2006/07,9211462.0,1311150.0,8454341.0,738786.7,18334.8,757121.5,6247031.0
2,2007/08,14367120.0,1864994.0,13261000.0,1081345.0,24770.6,1106116.0,9997152.0
3,2008/09,16619710.0,2491270.0,15384580.0,1209806.0,25328.6,1235135.0,11380010.0
4,2009/10,18812780.0,3293868.0,17658140.0,1105402.0,49243.0,1154646.0,12847810.0
5,2010/11,19578500.0,4310797.0,18495040.0,1035336.0,48126.0,1083462.0,12830610.0
6,2011/12,13749290.0,4247930.0,13024640.0,648823.0,75822.0,724645.0,7864846.0
7,2012/13,13788090.0,4247880.0,13053680.0,658596.2,75811.802017,734408.0,7894339.0
8,2013/14,16132280.0,5096843.0,15389610.0,627271.8,115404.953465,742676.8,9270037.0
9,2014/15,16931880.0,5524214.0,16116120.0,725615.0,90141.875323,815756.9,9500420.0


2. Serie histórica cotação açúcar cristal de 50 kg Cepea

cepea-consulta-2010_2013.xls <br>
cepea-consulta-2013_2015.xls <br>
cepea-consulta-2015_2017.xls <br>
cepea_consulta_2020_2017.xls <br>
cepea-consulta-20230715223403.xls <br>

In [35]:
# Importação dos dados com pandas
import pandas as pd

# Load each Excel file into a DataFrame
df_acu_pr_2010_2013 = pd.read_excel("cepea-acucar-2010_2013.xls", sheet_name='Plan 1')
df_acu_pr_2013_2015 = pd.read_excel("cepea-acucar-2013_2015.xls", sheet_name='Plan 1')
df_acu_pr_2015_2017 = pd.read_excel("cepea-acucar-2015_2017.xls", sheet_name='Plan 1')
df_acu_pr_2017_2020 = pd.read_excel("cepea_acucar-2020_2017.xls", sheet_name='Plan 1')
df_acu_pr_2020_2023 = pd.read_excel("cepea-acucar-2023_2020.xls", sheet_name='Plan 1')

In [36]:
# Removendo informações desnecessáiras das data.frames

dfs_periods = {
    'df_acu_pr_2010_2013': (2, 0),
    'df_acu_pr_2013_2015': (2, 0),
    'df_acu_pr_2015_2017': (2, 0),
    'df_acu_pr_2017_2020': (2, 0),
    'df_acu_pr_2020_2023': (2, 0)
}


for df_name, (row_start, header_row) in dfs_periods.items():
    df = globals()[df_name]  
    df = df.iloc[row_start:]  
    df.columns = df.iloc[header_row] 
    df = df[1:]  
    globals()[df_name] = df 


In [37]:
print(df_acu_pr_2010_2013)

2          Data À vista R$ À vista US$
3    15/07/2010      40,49       22,85
4    16/07/2010      40,65       22,81
5    19/07/2010      40,90       22,89
6    20/07/2010      41,05       23,14
7    21/07/2010      41,11       23,03
..          ...        ...         ...
737  08/07/2013      45,25       20,04
738  10/07/2013      45,29       19,95
739  11/07/2013      44,86       19,87
740  12/07/2013      44,89       19,80
741  15/07/2013      44,47       19,96

[739 rows x 3 columns]


In [38]:
# Concatenando as data.frames (empinhando por linha) e renomeando as colunas

import pandas as pd

df_cepea_acucar = pd.concat([df_acu_pr_2010_2013, df_acu_pr_2013_2015, df_acu_pr_2015_2017, df_acu_pr_2017_2020, df_acu_pr_2020_2023], axis=0)

# Resetting index
df_cepea_acucar .reset_index(drop=True, inplace=True)

df_cepea_acucar.replace(',', '.', regex=True, inplace=True)
df_cepea_acucar.columns=['data', 'preco_acucar_real','preco_acucar_dolar']
print(df_cepea_acucar)

            data preco_acucar_real preco_acucar_dolar
0     15/07/2010             40.49              22.85
1     16/07/2010             40.65              22.81
2     19/07/2010             40.90              22.89
3     20/07/2010             41.05              23.14
4     21/07/2010             41.11              23.03
...          ...               ...                ...
3220  10/07/2023            139.04              28.46
3221  11/07/2023            140.01              28.82
3222  12/07/2023            140.09              29.08
3223  13/07/2023            138.08              28.83
3224  14/07/2023            136.31              28.43

[3225 rows x 3 columns]


In [39]:
# Criando uma coluna de 'ano' para a data.frame de preços de açúcar
df_cepea_acucar['ano']=df_cepea_acucar['data'].str[6:].astype(int)
display(df_cepea_acucar)

Unnamed: 0,data,preco_acucar_real,preco_acucar_dolar,ano
0,15/07/2010,40.49,22.85,2010
1,16/07/2010,40.65,22.81,2010
2,19/07/2010,40.90,22.89,2010
3,20/07/2010,41.05,23.14,2010
4,21/07/2010,41.11,23.03,2010
...,...,...,...,...
3220,10/07/2023,139.04,28.46,2023
3221,11/07/2023,140.01,28.82,2023
3222,12/07/2023,140.09,29.08,2023
3223,13/07/2023,138.08,28.83,2023


In [40]:
# Verificando os tipos de dados da data.frame df_cepea_acucar
df_cepea_acucar.dtypes

data                  object
preco_acucar_real     object
preco_acucar_dolar    object
ano                    int32
dtype: object

In [41]:
# Transformando os dados do tipo objeto para float

# Colunas
columns_to_convert = ['preco_acucar_real', 'preco_acucar_dolar']

# Conversão utilizando loop
for column in columns_to_convert:
    df_cepea_acucar[column] = df_cepea_acucar[column].astype(float)

# Visualização do resultado
print(df_cepea_acucar.head())

         data  preco_acucar_real  preco_acucar_dolar   ano
0  15/07/2010              40.49               22.85  2010
1  16/07/2010              40.65               22.81  2010
2  19/07/2010              40.90               22.89  2010
3  20/07/2010              41.05               23.14  2010
4  21/07/2010              41.11               23.03  2010


In [42]:
# Verificação de valores NA em df_cepea_acucar

na_counts = df_cepea_acucar.isna().sum()

print(na_counts)

data                  0
preco_acucar_real     0
preco_acucar_dolar    0
ano                   0
dtype: int64


In [43]:
# Verificação da sanidade dos dados com estatísticas descritivas

summary_stats = df_cepea_acucar.groupby('ano').agg({
    'preco_acucar_real': ['mean', 'max', 'min'],
    'preco_acucar_dolar': ['mean', 'max', 'min']
})


summary_stats.columns = ['preco_acucar_real_mean', 'preco_acucar_real_max', 'preco_acucar_real_min',
                         'preco_acucar_dolar_mean', 'preco_acucar_dolar_max', 'preco_acucar_dolar_min']


print(summary_stats)

      preco_acucar_real_mean  preco_acucar_real_max  preco_acucar_real_min  \
ano                                                                          
2010               62.707768                  76.40                  40.49   
2011               65.747195                  76.98                  53.71   
2012               54.900081                  63.38                  46.99   
2013               46.754720                  52.84                  42.52   
2014               49.348427                  52.45                  44.11   
2015               55.737692                  82.27                  46.26   
2016               85.485320                 100.92                  74.86   
2017               68.922510                  89.90                  51.96   
2018               58.185081                  69.35                  49.80   
2019               65.519759                  74.28                  57.59   
2020               84.273200                 111.96             

2. Serie histórica cotação do etanol hidratado

cepea_etanol_2010_2012.xls <br>
cepea-etanol-2012_2014.xls <br>
cepea_etanol_2014_2017.xls <br>
cepea_etanol_2017_2020.xls <br>
cepea_etanol_2020_2023.xls <br>

In [44]:
# Importação dos dados dos preços históricos de etanol

import pandas as pd

df_etanol_pr_2010_2012 = pd.read_excel("cepea_etanol_2010_2012.xls", sheet_name='Plan 1')
df_etanol_pr_2012_2014 = pd.read_excel("cepea-etanol-2012_2014.xls", sheet_name='Plan 1')
df_etanol_pr_2014_2017 = pd.read_excel("cepea_etanol_2014_2017.xls", sheet_name='Plan 1')
df_etanol_pr_2017_2020 = pd.read_excel("cepea_etanol_2017_2020.xls", sheet_name='Plan 1')
df_etanol_pr_2020_2023 = pd.read_excel("cepea_etanol_2020_2023.xls", sheet_name='Plan 1')

In [45]:
# Removendo dados desnecessários com iloc e loop

dfs_periods = {
    'df_etanol_pr_2010_2012': (2, 0),
    'df_etanol_pr_2012_2014': (2, 0),
    'df_etanol_pr_2014_2017': (2, 0),
    'df_etanol_pr_2017_2020': (2, 0),
    'df_etanol_pr_2020_2023': (2, 0)
}


for df_name, (row_start, header_row) in dfs_periods.items():
    df = globals()[df_name]  
    df = df.iloc[row_start:]  
    df.columns = df.iloc[header_row] 
    df = df[1:]  
    globals()[df_name] = df  


In [46]:
# Empilhando os dadod com concat do pandas
import pandas as pd

df_cepea_etanol = pd.concat([df_etanol_pr_2010_2012,
                             df_etanol_pr_2012_2014,
                             df_etanol_pr_2014_2017,
                             df_etanol_pr_2017_2020,
                             df_etanol_pr_2020_2023
                            ], axis=0)

# E renomeando as colunas, assim como mudança do símbolo de decimal de ',' para o '.'
df_cepea_etanol.reset_index(drop=True, inplace=True)

df_cepea_etanol.replace(',', '.', regex=True, inplace=True)
df_cepea_etanol.columns=['data', 'preco_etanol_real','preco_etanol_dolar']
print(df_cepea_etanol)

            data preco_etanol_real preco_etanol_dolar
0     15/07/2010             882.5           498.0200
1     16/07/2010             873.5           490.1800
2     19/07/2010             875.5           489.9300
3     20/07/2010             875.5           493.5200
4     21/07/2010               870           487.3900
...          ...               ...                ...
3218  10/07/2023              2294           469.6000
3219  11/07/2023            2305.5           474.5800
3220  12/07/2023              2285           474.2600
3221  13/07/2023              2257           471.1900
3222  14/07/2023              2232           465.5800

[3223 rows x 3 columns]


In [47]:
# Verificando os tipos de dados da data.frame df_cepea_etanol
df_cepea_etanol.dtypes

data                  object
preco_etanol_real     object
preco_etanol_dolar    object
dtype: object

In [48]:
# Transformando os dados do tipo objeto para float

# Colunas
columns_to_convert = ['preco_etanol_real', 'preco_etanol_dolar']

# Conversão utilizando loop
for column in columns_to_convert:
    df_cepea_etanol[column] = df_cepea_etanol[column].astype(float)

# Visualização do resultado
print(df_cepea_etanol.head())

         data  preco_etanol_real  preco_etanol_dolar
0  15/07/2010              882.5              498.02
1  16/07/2010              873.5              490.18
2  19/07/2010              875.5              489.93
3  20/07/2010              875.5              493.52
4  21/07/2010              870.0              487.39


In [49]:
# Verificação de valores NA em df_cepea_acucar

na_counts = df_cepea_etanol.isna().sum()

print(na_counts)

data                  0
preco_etanol_real     0
preco_etanol_dolar    0
dtype: int64


In [50]:
# Verificação da sanidade dos dados com estatísticas descritivas
df_cepea_etanol['ano']=df_cepea_etanol['data'].str[6:].astype(int)
summary_stats = df_cepea_etanol.groupby('ano').agg({
    'preco_etanol_real': ['mean', 'max', 'min'],
    'preco_etanol_dolar': ['mean', 'max', 'min']
})


summary_stats.columns = ['preco_etanol_real_mean', 'preco_etanol_real_max', 'preco_etanol_real_min',
                         'preco_etanol_dolar_mean', 'preco_etanol_dolar_max', 'preco_etanol_dolar_min']

df_cepea_etanol = df_cepea_etanol.drop(['ano'], axis=1)
print(summary_stats)

      preco_etanol_real_mean  preco_etanol_real_max  preco_etanol_real_min  \
ano                                                                          
2010              990.362069                 1173.0                  850.0   
2011             1258.602410                 1694.0                 1013.5   
2012             1156.534553                 1271.5                 1048.0   
2013             1149.764113                 1365.5                 1013.0   
2014             1191.044177                 1384.5                 1063.0   
2015             1289.636179                 1684.5                 1094.0   
2016             1622.610442                 1904.0                 1258.0   
2017             1583.735772                 1924.5                 1320.5   
2018             1728.397959                 1975.0                 1446.5   
2019             1815.677419                 2105.5                 1581.5   
2020             1862.490000                 2211.0             

In [51]:
#Juntando dados de etanol e açúcar
dados_cepea= pd.merge(df_cepea_etanol, df_cepea_acucar, on= 'data', how='inner')
display(dados_cepea)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano
0,15/07/2010,882.5,498.02,40.49,22.85,2010
1,16/07/2010,873.5,490.18,40.65,22.81,2010
2,19/07/2010,875.5,489.93,40.90,22.89,2010
3,20/07/2010,875.5,493.52,41.05,23.14,2010
4,21/07/2010,870.0,487.39,41.11,23.03,2010
...,...,...,...,...,...,...
3214,10/07/2023,2294.0,469.60,139.04,28.46,2023
3215,11/07/2023,2305.5,474.58,140.01,28.82,2023
3216,12/07/2023,2285.0,474.26,140.09,29.08,2023
3217,13/07/2023,2257.0,471.19,138.08,28.83,2023


In [52]:
# Verificação de valores NA em df_cepea_acucar

na_counts = dados_cepea.isna().sum()

print(na_counts)

data                  0
preco_etanol_real     0
preco_etanol_dolar    0
preco_acucar_real     0
preco_acucar_dolar    0
ano                   0
dtype: int64


In [53]:
#3. Juntando dados Cepea e Conab

#print(df_final_conab_spread)

df_cepea_conab=pd.merge(dados_cepea, df_final_conab_spread, left_on='ano', right_on='ano_colheita', how='inner')

display(df_cepea_conab)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,atr_medio_NORTE,atr_medio_NORTE/NORDESTE,atr_medio_SUDESTE,etanol_hidratado_BRASIL,etanol_hidratado_CENTRO-OESTE,etanol_hidratado_CENTRO-SUL,etanol_hidratado_NORDESTE,etanol_hidratado_NORTE,etanol_hidratado_NORTE/NORDESTE,etanol_hidratado_SUDESTE
0,15/07/2010,882.5,498.02,40.49,22.85,2010,2010/11,2010,8056.100000,1202.60000,...,111.791865,130.255397,141.110591,1.957850e+07,4.310797e+06,1.849504e+07,1035336.3,48126.0,1083462.3,12830614.0
1,16/07/2010,873.5,490.18,40.65,22.81,2010,2010/11,2010,8056.100000,1202.60000,...,111.791865,130.255397,141.110591,1.957850e+07,4.310797e+06,1.849504e+07,1035336.3,48126.0,1083462.3,12830614.0
2,19/07/2010,875.5,489.93,40.90,22.89,2010,2010/11,2010,8056.100000,1202.60000,...,111.791865,130.255397,141.110591,1.957850e+07,4.310797e+06,1.849504e+07,1035336.3,48126.0,1083462.3,12830614.0
3,20/07/2010,875.5,493.52,41.05,23.14,2010,2010/11,2010,8056.100000,1202.60000,...,111.791865,130.255397,141.110591,1.957850e+07,4.310797e+06,1.849504e+07,1035336.3,48126.0,1083462.3,12830614.0
4,21/07/2010,870.0,487.39,41.11,23.03,2010,2010/11,2010,8056.100000,1202.60000,...,111.791865,130.255397,141.110591,1.957850e+07,4.310797e+06,1.849504e+07,1035336.3,48126.0,1083462.3,12830614.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3080,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,129.309919,127.495635,134.436630,1.521244e+07,5.639862e+06,1.412086e+07,961709.2,129873.0,1091582.2,7985700.9
3081,26/12/2022,2975.0,571.24,140.59,27.00,2022,2022/23,2022,8292.725995,1767.47359,...,129.309919,127.495635,134.436630,1.521244e+07,5.639862e+06,1.412086e+07,961709.2,129873.0,1091582.2,7985700.9
3082,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,129.309919,127.495635,134.436630,1.521244e+07,5.639862e+06,1.412086e+07,961709.2,129873.0,1091582.2,7985700.9
3083,28/12/2022,2968.0,565.01,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,129.309919,127.495635,134.436630,1.521244e+07,5.639862e+06,1.412086e+07,961709.2,129873.0,1091582.2,7985700.9


In [54]:
# Verificação de valores NA em df_cepea_acucar

na_counts =df_cepea_conab.isna().sum()

for item, count in na_counts.items():
    print(item, count)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [55]:
#Obtendo dados do banco central do brasil
#Rodado no prompt de comando (cmd)
#!pip install python-bcb
import bcb
from bcb import sgs
from bcb import currency

selic = sgs.get({'ipca': 433, 'igp-m': 189}, start='2010-10-15')
cy = currency.get(['USD', 'EUR', 'GBP'], start='2010-10-01', end='2024-03-01')

import pandas as pd

# Merge dataframes
df_bcb = pd.merge(cy, selic, on='Date', how='left')

# Reset the index to make 'Date' a regular column
df_bcb.reset_index(inplace=True)

print(df_bcb)

           Date     EUR     GBP     USD  ipca  igp-m
0    2010-10-01  2.3167  2.6618  1.6812  0.75   1.01
1    2010-10-04  2.3091  2.6721  1.6882   NaN    NaN
2    2010-10-05  2.3282  2.6740  1.6808   NaN    NaN
3    2010-10-06  2.3357  2.6633  1.6758   NaN    NaN
4    2010-10-07  2.3342  2.6625  1.6777   NaN    NaN
...         ...     ...     ...     ...   ...    ...
3363 2024-02-26  5.4064  6.3205  4.9819   NaN    NaN
3364 2024-02-27  5.3779  6.2886  4.9575   NaN    NaN
3365 2024-02-28  5.3690  6.2719  4.9557   NaN    NaN
3366 2024-02-29  5.3939  6.3049  4.9833   NaN    NaN
3367 2024-03-01  5.3747  6.2764  4.9596  0.16  -0.47

[3368 rows x 6 columns]


In [56]:
# Convertendo coluna data para o formato date (formato '%d-%m-%Y')
df_bcb['Date'] = pd.to_datetime(df_bcb['Date'])

df_bcb['Date'] = df_bcb['Date'].dt.strftime('%d/%m/%Y')

print(df_bcb)

            Date     EUR     GBP     USD  ipca  igp-m
0     01/10/2010  2.3167  2.6618  1.6812  0.75   1.01
1     04/10/2010  2.3091  2.6721  1.6882   NaN    NaN
2     05/10/2010  2.3282  2.6740  1.6808   NaN    NaN
3     06/10/2010  2.3357  2.6633  1.6758   NaN    NaN
4     07/10/2010  2.3342  2.6625  1.6777   NaN    NaN
...          ...     ...     ...     ...   ...    ...
3363  26/02/2024  5.4064  6.3205  4.9819   NaN    NaN
3364  27/02/2024  5.3779  6.2886  4.9575   NaN    NaN
3365  28/02/2024  5.3690  6.2719  4.9557   NaN    NaN
3366  29/02/2024  5.3939  6.3049  4.9833   NaN    NaN
3367  01/03/2024  5.3747  6.2764  4.9596  0.16  -0.47

[3368 rows x 6 columns]


In [57]:
df_bcb.dtypes

Date      object
EUR      float64
GBP      float64
USD      float64
ipca     float64
igp-m    float64
dtype: object

In [58]:
#Juntando com dados anteriores

# Convert 'data' column to datetime dtype
#df_atualizada['data'] = pd.to_datetime(df_atualizada['data'], infer_datetime_format=True, format='%d/%m/%y')
df_atualizada=pd.merge(df_cepea_conab, df_bcb, left_on='data', right_on='Date', how='inner')
display(df_atualizada)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,etanol_hidratado_NORDESTE,etanol_hidratado_NORTE,etanol_hidratado_NORTE/NORDESTE,etanol_hidratado_SUDESTE,Date,EUR,GBP,USD,ipca,igp-m
0,01/10/2010,1018.0,606.31,67.29,40.08,2010,2010/11,2010,8056.100000,1202.60000,...,1035336.3,48126.0,1083462.3,12830614.0,01/10/2010,2.3167,2.6618,1.6812,0.75,1.01
1,04/10/2010,1025.0,606.15,67.72,40.05,2010,2010/11,2010,8056.100000,1202.60000,...,1035336.3,48126.0,1083462.3,12830614.0,04/10/2010,2.3091,2.6721,1.6882,,
2,05/10/2010,1023.0,612.57,68.43,40.97,2010,2010/11,2010,8056.100000,1202.60000,...,1035336.3,48126.0,1083462.3,12830614.0,05/10/2010,2.3282,2.6740,1.6808,,
3,06/10/2010,1023.5,609.23,69.30,41.25,2010,2010/11,2010,8056.100000,1202.60000,...,1035336.3,48126.0,1083462.3,12830614.0,06/10/2010,2.3357,2.6633,1.6758,,
4,07/10/2010,1025.0,607.95,70.22,41.65,2010,2010/11,2010,8056.100000,1202.60000,...,1035336.3,48126.0,1083462.3,12830614.0,07/10/2010,2.3342,2.6625,1.6777,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3028,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,961709.2,129873.0,1091582.2,7985700.9,23/12/2022,5.4609,6.2043,5.1445,,
3029,26/12/2022,2975.0,571.24,140.59,27.00,2022,2022/23,2022,8292.725995,1767.47359,...,961709.2,129873.0,1091582.2,7985700.9,26/12/2022,5.5145,6.2599,5.1872,,
3030,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,961709.2,129873.0,1091582.2,7985700.9,27/12/2022,5.6271,6.3515,5.2832,,
3031,28/12/2022,2968.0,565.01,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,961709.2,129873.0,1091582.2,7985700.9,28/12/2022,5.6006,6.3484,5.2736,,


In [59]:
# Extraindo mes e dia em novas colunas
df_atualizada['mes'] = df_atualizada['data'].apply(lambda x: x.split('/')[1] if '/' in x else x.split('-')[1])
df_atualizada['dia'] = df_atualizada['data'].apply(lambda x: x.split('/')[0] if '/' in x else x.split('-')[0])
df_atualizada['ano'] = df_atualizada['data'].apply(lambda x: x.split('/')[2] if '/' in x else x.split('-')[2])
display(df_atualizada)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,etanol_hidratado_NORTE/NORDESTE,etanol_hidratado_SUDESTE,Date,EUR,GBP,USD,ipca,igp-m,mes,dia
0,01/10/2010,1018.0,606.31,67.29,40.08,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,01/10/2010,2.3167,2.6618,1.6812,0.75,1.01,10,01
1,04/10/2010,1025.0,606.15,67.72,40.05,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,04/10/2010,2.3091,2.6721,1.6882,,,10,04
2,05/10/2010,1023.0,612.57,68.43,40.97,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,05/10/2010,2.3282,2.6740,1.6808,,,10,05
3,06/10/2010,1023.5,609.23,69.30,41.25,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,06/10/2010,2.3357,2.6633,1.6758,,,10,06
4,07/10/2010,1025.0,607.95,70.22,41.65,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,07/10/2010,2.3342,2.6625,1.6777,,,10,07
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3028,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,1091582.2,7985700.9,23/12/2022,5.4609,6.2043,5.1445,,,12,23
3029,26/12/2022,2975.0,571.24,140.59,27.00,2022,2022/23,2022,8292.725995,1767.47359,...,1091582.2,7985700.9,26/12/2022,5.5145,6.2599,5.1872,,,12,26
3030,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,1091582.2,7985700.9,27/12/2022,5.6271,6.3515,5.2832,,,12,27
3031,28/12/2022,2968.0,565.01,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,1091582.2,7985700.9,28/12/2022,5.6006,6.3484,5.2736,,,12,28


In [60]:
# Imputando dados faltantes de IPCA e IGP-M com moda mensal ou anual
def calculate_mode(group):
    if group.notna().any():  
        return group.mode().iloc[0]  
    else:
        return pd.NA 

grouping_columns = [['ano', 'mes'], ['ano']]  

for col in ['ipca', 'igp-m']:  
    for group_cols in grouping_columns:  
        df_atualizada[col] = df_atualizada[col].fillna(df_atualizada.groupby(group_cols)[col].transform(calculate_mode))

display(df_atualizada)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,etanol_hidratado_NORTE/NORDESTE,etanol_hidratado_SUDESTE,Date,EUR,GBP,USD,ipca,igp-m,mes,dia
0,01/10/2010,1018.0,606.31,67.29,40.08,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,01/10/2010,2.3167,2.6618,1.6812,0.75,1.01,10,01
1,04/10/2010,1025.0,606.15,67.72,40.05,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,04/10/2010,2.3091,2.6721,1.6882,0.75,1.01,10,04
2,05/10/2010,1023.0,612.57,68.43,40.97,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,05/10/2010,2.3282,2.6740,1.6808,0.75,1.01,10,05
3,06/10/2010,1023.5,609.23,69.30,41.25,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,06/10/2010,2.3357,2.6633,1.6758,0.75,1.01,10,06
4,07/10/2010,1025.0,607.95,70.22,41.65,2010,2010/11,2010,8056.100000,1202.60000,...,1083462.3,12830614.0,07/10/2010,2.3342,2.6625,1.6777,0.75,1.01,10,07
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3028,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,1091582.2,7985700.9,23/12/2022,5.4609,6.2043,5.1445,0.62,0.45,12,23
3029,26/12/2022,2975.0,571.24,140.59,27.00,2022,2022/23,2022,8292.725995,1767.47359,...,1091582.2,7985700.9,26/12/2022,5.5145,6.2599,5.1872,0.62,0.45,12,26
3030,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,1091582.2,7985700.9,27/12/2022,5.6271,6.3515,5.2832,0.62,0.45,12,27
3031,28/12/2022,2968.0,565.01,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,1091582.2,7985700.9,28/12/2022,5.6006,6.3484,5.2736,0.62,0.45,12,28


In [61]:
# Valores NAs
import pandas as pd

missing_values = df_atualizada.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [62]:
# Tipos de dados inseridos em df_atualizada
df_atualizada[['ano','EUR', 'GBP', 'USD', 'ipca', 'igp-m']].dtypes

ano       object
EUR      float64
GBP      float64
USD      float64
ipca     float64
igp-m    float64
dtype: object

In [63]:
# Sanidade geral desses dados

# Assuming df_atualizada is your DataFrame

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada[['ano','EUR', 'GBP', 'USD', 'ipca', 'igp-m']].groupby('ano').agg({
    'EUR': ['mean', 'min', 'max'],
    'GBP': ['mean', 'min', 'max'],
    'USD': ['mean', 'min', 'max'],
    'ipca': ['mean', 'min', 'max'],
    'igp-m': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['EUR_mean', 'EUR_min', 'EUR_max',
                         'GBP_mean', 'GBP_min', 'GBP_max',
                         'USD_mean', 'USD_min', 'USD_max',
                         'ipca_mean', 'ipca_min', 'ipca_max',
                         'igp-m_mean', 'igp-m_min', 'igp-m_max']

# Displaying the summary statistics
print(summary_stats)


      EUR_mean  EUR_min  EUR_max  GBP_mean  GBP_min  GBP_max  USD_mean  \
ano                                                                      
2010  2.304410   2.2111   2.3905  2.680990   2.5671   2.7768  1.697103   
2011  2.328904   2.1894   2.5565  2.683086   2.4875   2.9343  1.673787   
2012  2.508932   2.2465   2.7633  3.096979   2.6724   3.4019  1.954082   
2013  2.869132   2.5347   3.2682  3.379171   2.9132   3.8962  2.159000   
2014  3.119588   2.8900   3.4320  3.870766   3.6309   4.3168  2.351943   
2015  3.693786   2.9080   4.7209  5.095801   3.8797   6.3989  3.332197   
2016  3.853636   3.3879   4.5032  4.733267   3.7846   5.9462  3.481750   
2017  3.607338   3.2455   3.9531  4.112827   3.8033   4.4698  3.191888   
2018  4.309107   3.8617   4.8814  4.870560   4.3748   5.4812  3.654769   
2019  4.415293   4.1874   4.6874  5.032894   4.6007   5.5443  3.945580   
2020  5.897810   4.5051   6.7393  6.615942   5.2983   7.4652  5.159808   
2021  6.377947   5.8757   6.9422  7.41

In [64]:
# 4. Dados preços de petróleo
#!pip install yfinance
import yfinance as yf


ticker_symbol = 'BZ=F'  


start_date = '2010-10-01'
end_date = '2022-12-29'


brent_crude_data = yf.download(ticker_symbol, start=start_date, end=end_date)


brent_crude_data = brent_crude_data[['Close']].reset_index().rename(columns={'Close': 'Preco_petroleo'})
brent_crude_data['Date'] = brent_crude_data['Date'].dt.strftime('%d/%m/%Y')

print(brent_crude_data)

[*********************100%%**********************]  1 of 1 completed

            Date  Preco_petroleo
0     01/10/2010       83.750000
1     04/10/2010       83.279999
2     05/10/2010       84.839996
3     06/10/2010       85.059998
4     07/10/2010       83.430000
...          ...             ...
3040  21/12/2022       82.199997
3041  22/12/2022       80.980003
3042  23/12/2022       83.919998
3043  27/12/2022       84.330002
3044  28/12/2022       83.260002

[3045 rows x 2 columns]





In [65]:
# Tipos dos dados como foram importados
brent_crude_data.dtypes

Date               object
Preco_petroleo    float64
dtype: object

In [66]:
# Valores NAs
import pandas as pd

missing_values = brent_crude_data.isna().sum()

for item, i in missing_values.items():
    print(item, i)

Date 0
Preco_petroleo 0


In [67]:
#Juntando com dados anteriores
# Convert 'data' column to datetime dtype

# Convert 'data' column to datetime dtype
#df_atualizada['data'] = pd.to_datetime(df_atualizada['data'], infer_datetime_format=True, format='%d/%m/%y')
df_atualizada1=pd.merge(df_atualizada, brent_crude_data, left_on='data', right_on='Date', how='left')
display(df_atualizada1)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,Date_x,EUR,GBP,USD,ipca,igp-m,mes,dia,Date_y,Preco_petroleo
0,01/10/2010,1018.0,606.31,67.29,40.08,2010,2010/11,2010,8056.100000,1202.60000,...,01/10/2010,2.3167,2.6618,1.6812,0.75,1.01,10,01,01/10/2010,83.750000
1,04/10/2010,1025.0,606.15,67.72,40.05,2010,2010/11,2010,8056.100000,1202.60000,...,04/10/2010,2.3091,2.6721,1.6882,0.75,1.01,10,04,04/10/2010,83.279999
2,05/10/2010,1023.0,612.57,68.43,40.97,2010,2010/11,2010,8056.100000,1202.60000,...,05/10/2010,2.3282,2.6740,1.6808,0.75,1.01,10,05,05/10/2010,84.839996
3,06/10/2010,1023.5,609.23,69.30,41.25,2010,2010/11,2010,8056.100000,1202.60000,...,06/10/2010,2.3357,2.6633,1.6758,0.75,1.01,10,06,06/10/2010,85.059998
4,07/10/2010,1025.0,607.95,70.22,41.65,2010,2010/11,2010,8056.100000,1202.60000,...,07/10/2010,2.3342,2.6625,1.6777,0.75,1.01,10,07,07/10/2010,83.430000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3028,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,23/12/2022,5.4609,6.2043,5.1445,0.62,0.45,12,23,23/12/2022,83.919998
3029,26/12/2022,2975.0,571.24,140.59,27.00,2022,2022/23,2022,8292.725995,1767.47359,...,26/12/2022,5.5145,6.2599,5.1872,0.62,0.45,12,26,,
3030,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,27/12/2022,5.6271,6.3515,5.2832,0.62,0.45,12,27,27/12/2022,84.330002
3031,28/12/2022,2968.0,565.01,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,28/12/2022,5.6006,6.3484,5.2736,0.62,0.45,12,28,28/12/2022,83.260002


In [68]:
# Sanidade geral desses dados

# Assuming df_atualizada is your DataFrame

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada1[['ano','Preco_petroleo']].groupby('ano').agg({
    'Preco_petroleo': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['Preco_petroleo_mean', 'Preco_petroleo_min', 'Preco_petroleo_max']

# Displaying the summary statistics
print(summary_stats)

      Preco_petroleo_mean  Preco_petroleo_min  Preco_petroleo_max
ano                                                              
2010            87.295084           81.099998           94.379997
2011           111.116740           93.529999          126.650002
2012           111.776018           89.230003          126.220001
2013           108.667180           99.129997          118.900002
2014            99.400954           57.880001          114.809998
2015            53.536749           36.110001           67.769997
2016            45.218625           27.879999           56.220001
2017            54.646471           44.820000           67.019997
2018            71.960633           52.160000           86.290001
2019            64.161405           54.910000           74.570000
2020            43.101585           19.990000           68.910004
2021            70.871577           51.090000           86.400002
2022            99.066390           76.099998          127.980003


In [69]:
# Verificando valores NA após o join
# Valores NAs
import pandas as pd

missing_values = df_atualizada1.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [70]:
# Remoção de linhas com NAs
# Removendo as linhas com valores NA nas colunas especificadas
df_atualizada1 = df_atualizada1.dropna(subset=['Date_y', 'Preco_petroleo'])

In [71]:
# 5. Importando dados de desemprego e PIB
import numpy as np
import pandas as pd
import statsmodels.formula.api as sm
import os
import requests

In [72]:
# Criando função da API
def get_bcb(cod_bcb):
    url = 'http://api.bcb.gov.br/dados/serie/bcdata.sgs.{}/dados?formato=json'.format(cod_bcb)
    df = pd.read_json(url)
    df['data'] = pd.to_datetime(df['data'], dayfirst=True)
    df.set_index('data', inplace=True)
    return df 

In [73]:
# Aplicando a função para obter dados de desemprego
des = get_bcb(24369).reset_index().rename(columns={'valor': 'Desemprego'})  # 24369 is the code of PNADC

des['data'] = des['data'].dt.strftime('%d/%m/%Y')

print(des)  # head of data

           data  Desemprego
0    01/03/2012         8.0
1    01/04/2012         7.8
2    01/05/2012         7.7
3    01/06/2012         7.6
4    01/07/2012         7.5
..          ...         ...
140  01/11/2023         7.5
141  01/12/2023         7.4
142  01/01/2024         7.6
143  01/02/2024         7.8
144  01/03/2024         7.9

[145 rows x 2 columns]


In [74]:
# obtendo dados do PIB
pib = get_bcb(4380).reset_index().rename(columns={'valor': 'PIB'})  # 24369 is the code of PNADC

pib['data'] = pib['data'].dt.strftime('%d/%m/%Y')

pib.tail(30) # head of data

Unnamed: 0,data,PIB
381,01/10/2021,773422.5
382,01/11/2021,788309.7
383,01/12/2021,794249.8
384,01/01/2022,724730.0
385,01/02/2022,753035.5
386,01/03/2022,841762.6
387,01/04/2022,832453.5
388,01/05/2022,842011.1
389,01/06/2022,843016.8
390,01/07/2022,869553.2


In [75]:
#Juntando com dados anteriores

df_atualizada2=pd.merge(df_atualizada1, des, left_on='data', right_on='data', how='left')
df_atualizada2=pd.merge(df_atualizada2, pib, left_on='data', right_on='data', how='left')
print(df_atualizada2)

            data  preco_etanol_real  preco_etanol_dolar  preco_acucar_real  \
0     01/10/2010             1018.0              606.31              67.29   
1     04/10/2010             1025.0              606.15              67.72   
2     05/10/2010             1023.0              612.57              68.43   
3     06/10/2010             1023.5              609.23              69.30   
4     07/10/2010             1025.0              607.95              70.22   
...          ...                ...                 ...                ...   
2915  21/12/2022             2968.0              571.10             140.08   
2916  22/12/2022             2969.5              573.59             141.65   
2917  23/12/2022             2971.5              575.43             141.65   
2918  27/12/2022             2973.0              562.64             136.69   
2919  28/12/2022             2968.0              565.01             136.69   

      preco_acucar_dolar   ano        safra  ano_colheita  area

In [76]:
# Imputando valores faltantes de desemprego e pib com a moda por ano+mes ou por ano
def calculate_mode(group):
    if group.notna().any(): 
        return group.mode().iloc[0] 
    else:
        return pd.NA 

grouping_columns = [['ano', 'mes'], ['ano']]  

columns_to_fill = ['Preco_petroleo', 'Desemprego', 'PIB']  

for col in columns_to_fill: 
    for group_cols in grouping_columns:  
        df_atualizada2[col] = df_atualizada2[col].fillna(df_atualizada2.groupby(group_cols)[col].transform(calculate_mode))

display(df_atualizada2)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,GBP,USD,ipca,igp-m,mes,dia,Date_y,Preco_petroleo,Desemprego,PIB
0,01/10/2010,1018.0,606.31,67.29,40.08,2010,2010/11,2010,8056.100000,1202.60000,...,2.6618,1.6812,0.75,1.01,10,01,01/10/2010,83.750000,,350937.7
1,04/10/2010,1025.0,606.15,67.72,40.05,2010,2010/11,2010,8056.100000,1202.60000,...,2.6721,1.6882,0.75,1.01,10,04,04/10/2010,83.279999,,350937.7
2,05/10/2010,1023.0,612.57,68.43,40.97,2010,2010/11,2010,8056.100000,1202.60000,...,2.6740,1.6808,0.75,1.01,10,05,05/10/2010,84.839996,,350937.7
3,06/10/2010,1023.5,609.23,69.30,41.25,2010,2010/11,2010,8056.100000,1202.60000,...,2.6633,1.6758,0.75,1.01,10,06,06/10/2010,85.059998,,350937.7
4,07/10/2010,1025.0,607.95,70.22,41.65,2010,2010/11,2010,8056.100000,1202.60000,...,2.6625,1.6777,0.75,1.01,10,07,07/10/2010,83.430000,,350937.7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2915,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,6.3015,5.2031,0.62,0.45,12,21,21/12/2022,82.199997,7.9,880285.4
2916,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,6.2401,5.1871,0.62,0.45,12,22,22/12/2022,80.980003,7.9,880285.4
2917,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,6.2043,5.1445,0.62,0.45,12,23,23/12/2022,83.919998,7.9,880285.4
2918,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,6.3515,5.2832,0.62,0.45,12,27,27/12/2022,84.330002,7.9,880285.4


In [77]:
# Removendo coluna desnecessária e NAs da coluna desemprego
df_atualizada2.drop(columns=['Date_y'], inplace=True)
df_atualizada2.dropna(subset=['Desemprego'], inplace=True)
display(df_atualizada2)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,EUR,GBP,USD,ipca,igp-m,mes,dia,Preco_petroleo,Desemprego,PIB
286,03/01/2012,1231.5,672.95,63.21,34.54,2012,2012/13,2012,8485.000000,1504.11000,...,2.4057,2.8787,1.8457,0.41,1.43,01,03,112.129997,7.4,418752.0
287,04/01/2012,1239.5,677.69,63.38,34.65,2012,2012/13,2012,8485.000000,1504.11000,...,2.3677,2.8563,1.8272,0.41,1.43,01,04,113.699997,7.4,418752.0
288,05/01/2012,1248.5,679.27,62.96,34.25,2012,2012/13,2012,8485.000000,1504.11000,...,2.3511,2.8447,1.8371,0.41,1.43,01,05,112.739998,7.4,418752.0
289,06/01/2012,1259.0,679.07,62.90,33.93,2012,2012/13,2012,8485.000000,1504.11000,...,2.3458,2.8434,1.8449,0.41,1.43,01,06,113.059998,7.4,418752.0
290,09/01/2012,1265.0,688.25,62.28,33.89,2012,2012/13,2012,8485.000000,1504.11000,...,2.3493,2.8473,1.8442,0.41,1.43,01,09,112.449997,7.4,418752.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2915,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,5.5236,6.3015,5.2031,0.62,0.45,12,21,82.199997,7.9,880285.4
2916,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,5.5004,6.2401,5.1871,0.62,0.45,12,22,80.980003,7.9,880285.4
2917,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,5.4609,6.2043,5.1445,0.62,0.45,12,23,83.919998,7.9,880285.4
2918,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,5.6271,6.3515,5.2832,0.62,0.45,12,27,84.330002,7.9,880285.4


In [78]:
# Verificando valores NA após o join
# Valores NAs
import pandas as pd

missing_values = df_atualizada2.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [79]:
# Verificando tipos d dados de desemprego e PIB
df_atualizada2['Desemprego'] = df_atualizada2['Desemprego'].astype(float)
df_atualizada2[['Desemprego', 'PIB']].dtypes

Desemprego    float64
PIB           float64
dtype: object

In [80]:
# Verificando sanidade geral dos dados de desemprego e PIB

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada2[['ano','Desemprego', 'PIB']].groupby('ano').agg({
    'Desemprego': ['mean', 'min', 'max'],
    'PIB': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['Desemprego_mean', 'Desemprego_min', 'Desemprego_max',
                        'PIB_mean', 'PIB_min', 'PIB_max']

# Displaying the summary statistics
print(summary_stats)

      Desemprego_mean  Desemprego_min  Desemprego_max       PIB_mean  \
ano                                                                    
2012         7.399134             6.8             8.0  412079.467532   
2013         7.156838             6.6             8.1  447700.152564   
2014         6.954772             6.6             7.2  501674.412033   
2015         8.912346             8.1             9.1  506214.658436   
2016        11.634167            10.4            12.2  527086.942500   
2017        12.768908            11.9            13.9  554169.476891   
2018        12.352321            11.7            13.2  594552.635443   
2019        12.327273            11.3            12.8  632858.166942   
2020        13.994309            12.7            14.6  642181.334959   
2021        13.694191            11.1            14.9  762684.532780   
2022         9.089212             7.9            11.2  858338.028631   

       PIB_min   PIB_max  
ano                       
2012  367

In [81]:
# 6. Dados ENOS
import pandas as pd
import numpy as np
col_names = ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August', 'September', 'October', 'November', 'December']
df_oni = pd.read_csv('https://psl.noaa.gov/data/correlation/oni.data', sep='\s+', skiprows=1, names=col_names) 
df_oni = df_oni.apply(pd.to_numeric, errors='coerce')
df_oni.dropna(inplace=True)
df_oni.replace({-99.90 : np.NaN}, inplace=True)
stacked_series = df_oni.stack()
df_oni_stacked = stacked_series.to_frame()
df_oni_stacked.reset_index(inplace=True)
df_oni_stacked.columns = ['Year', 'Month', 'ONI']
df_oni_stacked['Date'] = pd.to_datetime(df_oni_stacked['Year'] + '-' + df_oni_stacked['Month'])
df_oni_stacked['Date'] = df_oni_stacked['Date'].dt.strftime('01/%m/%Y')

#df_oni_stacked.set_index('Date', inplace=True)
df_oni_stacked.drop(['Year', 'Month'], axis=1, inplace=True)

print(df_oni_stacked)

      ONI        Date
0   -1.53  01/01/1950
1   -0.68  01/02/1950
2   -0.43  01/03/1950
3   -0.15  01/04/1950
4    0.16  01/05/1950
..    ...         ...
886  1.92  01/11/2023
887  1.95  01/12/2023
888  1.79  01/01/2024
889  1.49  01/02/2024
890  1.15  01/03/2024

[891 rows x 2 columns]


In [82]:
# Observando tipo de dados
df_oni_stacked.dtypes

ONI     float64
Date     object
dtype: object

In [83]:
#Juntando com dados anteriores

df_atualizada3=pd.merge(df_atualizada2, df_oni_stacked, left_on='data', right_on='Date', how='left')
# Ano-mes
df_atualizada3['ONI'] = df_atualizada3['ONI'].fillna(df_atualizada3.groupby(['ano', 'mes'])['ONI'].transform(calculate_mode))

# Ano
df_atualizada3['ONI'] = df_atualizada3['ONI'].fillna(df_atualizada3.groupby(['ano'])['ONI'].transform(calculate_mode))

df_atualizada3.drop(['Date'], axis=1, inplace=True)

df_atualizada3.rename(columns={'ONI': 'ENOS'}, inplace=True)

display(df_atualizada3)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,GBP,USD,ipca,igp-m,mes,dia,Preco_petroleo,Desemprego,PIB,ENOS
0,03/01/2012,1231.5,672.95,63.21,34.54,2012,2012/13,2012,8485.000000,1504.11000,...,2.8787,1.8457,0.41,1.43,01,03,112.129997,7.4,418752.0,0.37
1,04/01/2012,1239.5,677.69,63.38,34.65,2012,2012/13,2012,8485.000000,1504.11000,...,2.8563,1.8272,0.41,1.43,01,04,113.699997,7.4,418752.0,0.37
2,05/01/2012,1248.5,679.27,62.96,34.25,2012,2012/13,2012,8485.000000,1504.11000,...,2.8447,1.8371,0.41,1.43,01,05,112.739998,7.4,418752.0,0.37
3,06/01/2012,1259.0,679.07,62.90,33.93,2012,2012/13,2012,8485.000000,1504.11000,...,2.8434,1.8449,0.41,1.43,01,06,113.059998,7.4,418752.0,0.37
4,09/01/2012,1265.0,688.25,62.28,33.89,2012,2012/13,2012,8485.000000,1504.11000,...,2.8473,1.8442,0.41,1.43,01,09,112.449997,7.4,418752.0,0.37
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,6.3015,5.2031,0.62,0.45,12,21,82.199997,7.9,880285.4,-0.83
2630,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,6.2401,5.1871,0.62,0.45,12,22,80.980003,7.9,880285.4,-0.83
2631,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,6.2043,5.1445,0.62,0.45,12,23,83.919998,7.9,880285.4,-0.83
2632,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,6.3515,5.2832,0.62,0.45,12,27,84.330002,7.9,880285.4,-0.83


In [84]:
# Verificando valores NA após o join
# Valores NAs
import pandas as pd

missing_values = df_atualizada3.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [85]:
# Verificando sanidade geral dos dados do índice do ENOS

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada3[['ano','ENOS']].groupby('ano').agg({
    'ENOS': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['ENOS_mean', 'ENOS_min', 'ENOS_max']

# Displaying the summary statistics
print(summary_stats)

      ENOS_mean  ENOS_min  ENOS_max
ano                                
2012   0.124675     -0.72      0.37
2013  -0.302735     -0.43     -0.17
2014   0.390000      0.04      0.66
2015   1.648395      0.70      2.64
2016   0.017833     -0.67      2.14
2017  -0.206471     -0.97      0.31
2018   0.148945     -0.85      0.90
2019   0.420950      0.14      0.72
2020  -0.480122     -1.19      0.19
2021  -0.796100     -0.98     -0.38
2022  -0.912822     -1.06     -0.81


In [86]:
# 7. Preço internacional do açúcar
import yfinance as yf

inicio = '2012-01-02'
fim = '2022-12-29'

preco_acucar_internacional=yf.download('SB=F', start=inicio, end=fim)


preco_acucar_internacional = preco_acucar_internacional[['Close']].reset_index().rename(columns={'Close': 'Preco_acucar_int'})
preco_acucar_internacional['Date'] = preco_acucar_internacional['Date'].dt.strftime('%d/%m/%Y')

print(preco_acucar_internacional)

[*********************100%%**********************]  1 of 1 completed

            Date  Preco_acucar_int
0     03/01/2012         24.510000
1     04/01/2012         24.420000
2     05/01/2012         23.129999
3     06/01/2012         23.290001
4     09/01/2012         23.340000
...          ...               ...
2759  21/12/2022         20.750000
2760  22/12/2022         20.889999
2761  23/12/2022         20.980000
2762  27/12/2022         20.320000
2763  28/12/2022         20.160000

[2764 rows x 2 columns]





In [87]:
# Observando o tipo do dado de preco_acucar_internacional

preco_acucar_internacional.dtypes

Date                 object
Preco_acucar_int    float64
dtype: object

In [88]:
#Juntando com dados anteriores
# Convert 'data' column to datetime dtype

# Convert 'data' column to datetime dtype
#df_atualizada['data'] = pd.to_datetime(df_atualizada['data'], infer_datetime_format=True, format='%d/%m/%y')
df_atualizada4=pd.merge(df_atualizada3, preco_acucar_internacional, left_on='data', right_on='Date', how='left')
df_atualizada4= df_atualizada4.dropna(subset=['Preco_acucar_int'])
df_atualizada4['ano'] = df_atualizada4['ano'].astype('int64')
df_atualizada4['mes'] = df_atualizada4['mes'].astype('int64')

df_atualizada4[['ano','mes']].dtypes

ano    int64
mes    int64
dtype: object

In [89]:
# Verificando valores NA após o join
# Valores NAs
import pandas as pd

missing_values = df_atualizada4.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [90]:
# Verificando sanidade geral dos dados dos dados dos preços internacionais do açúcar

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada4[['ano','Preco_acucar_int']].groupby('ano').agg({
    'Preco_acucar_int': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['Preco_acucar_int_mean', 'Preco_acucar_int_min', 'Preco_acucar_int_max']

# Displaying the summary statistics
print(summary_stats)

      Preco_acucar_int_mean  Preco_acucar_int_min  Preco_acucar_int_max
ano                                                                    
2012              21.685368             18.540001             26.500000
2013              17.494145             15.960000             19.690001
2014              16.330747             13.500000             18.320000
2015              13.080617             10.390000             15.920000
2016              18.170208             12.520000             23.809999
2017              15.767143             12.550000             21.180000
2018              12.221941              9.900000             15.330000
2019              12.330992             10.760000             13.550000
2020              12.829959              9.210000             15.780000
2021              17.862905             14.710000             20.420000
2022              18.811660             17.400000             20.980000


In [91]:
# 8. Inclusão do preço da tonelada de cana

preco_cana=pd.read_excel('precos_produtos_agricolas.xlsx')


print(preco_cana)

      ano  mes  cana_de_acucar_preco_tonelada
0    1990    1                       0.000055
1    1990    2                       0.000092
2    1990    3                       0.000173
3    1990    4                       0.000210
4    1990    5                       0.000208
..    ...  ...                            ...
394  2022   11                     115.608000
395  2022   12                     116.407000
396  2023    1                     115.770000
397  2023    2                     118.632000
398  2023    3                     119.006000

[399 rows x 3 columns]


In [92]:
# Verificando o tipo dos dados

preco_cana.dtypes

ano                                int64
mes                                int64
cana_de_acucar_preco_tonelada    float64
dtype: object

In [93]:
# Fazendo o merge com dados anteriores
df_atualizada5=pd.merge(df_atualizada4, preco_cana, on=['ano', 'mes'], how='left')

# Imputando dados faltantes pela a moda do ano x mes ou por ano
# Ano-mes
df_atualizada5['cana_de_acucar_preco_tonelada'] = df_atualizada5['cana_de_acucar_preco_tonelada'].fillna(df_atualizada5.groupby(['ano', 'mes'])['cana_de_acucar_preco_tonelada'].transform(calculate_mode))

# Ano
df_atualizada5['cana_de_acucar_preco_tonelada'] = df_atualizada5['cana_de_acucar_preco_tonelada'].fillna(df_atualizada5.groupby(['ano'])['cana_de_acucar_preco_tonelada'].transform(calculate_mode))
display(df_atualizada5)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,igp-m,mes,dia,Preco_petroleo,Desemprego,PIB,ENOS,Date,Preco_acucar_int,cana_de_acucar_preco_tonelada
0,03/01/2012,1231.5,672.95,63.21,34.54,2012,2012/13,2012,8485.000000,1504.11000,...,1.43,1,03,112.129997,7.4,418752.0,0.37,03/01/2012,24.510000,55.180
1,04/01/2012,1239.5,677.69,63.38,34.65,2012,2012/13,2012,8485.000000,1504.11000,...,1.43,1,04,113.699997,7.4,418752.0,0.37,04/01/2012,24.420000,55.180
2,05/01/2012,1248.5,679.27,62.96,34.25,2012,2012/13,2012,8485.000000,1504.11000,...,1.43,1,05,112.739998,7.4,418752.0,0.37,05/01/2012,23.129999,55.180
3,06/01/2012,1259.0,679.07,62.90,33.93,2012,2012/13,2012,8485.000000,1504.11000,...,1.43,1,06,113.059998,7.4,418752.0,0.37,06/01/2012,23.290001,55.180
4,09/01/2012,1265.0,688.25,62.28,33.89,2012,2012/13,2012,8485.000000,1504.11000,...,1.43,1,09,112.449997,7.4,418752.0,0.37,09/01/2012,23.340000,55.180
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,0.45,12,21,82.199997,7.9,880285.4,-0.83,21/12/2022,20.750000,116.407
2630,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,0.45,12,22,80.980003,7.9,880285.4,-0.83,22/12/2022,20.889999,116.407
2631,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,0.45,12,23,83.919998,7.9,880285.4,-0.83,23/12/2022,20.980000,116.407
2632,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,0.45,12,27,84.330002,7.9,880285.4,-0.83,27/12/2022,20.320000,116.407


In [94]:
# Verificando valores NA após o join
# Valores NAs
import pandas as pd

missing_values = df_atualizada5.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [95]:
# Verificando sanidade geral dos dados da tonelada de cana

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada5[['ano','cana_de_acucar_preco_tonelada']].groupby('ano').agg({
    'cana_de_acucar_preco_tonelada': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['cana_de_acucar_preco_toneladat_mean', 'cana_de_acucar_preco_tonelada_min', 'cana_de_acucar_preco_tonelada_max']

# Displaying the summary statistics
print(summary_stats)

      cana_de_acucar_preco_toneladat_mean  cana_de_acucar_preco_tonelada_min  \
ano                                                                            
2012                            53.489632                             51.970   
2013                            51.594641                             49.807   
2014                            52.421054                             51.834   
2015                            54.691029                             51.955   
2016                            65.589012                             60.481   
2017                            68.342651                             64.472   
2018                            66.600156                             63.287   
2019                            66.386963                             64.970   
2020                            73.635972                             67.628   
2021                            95.253212                             76.894   
2022                           116.05709

In [96]:
# 9. Inclusão de valores de exportação e importação de açucar e etanol


exp_imp=pd.read_excel('exportacao_importacao_acucar_e_etanol.xlsx')


print(exp_imp)

      ano  mes  acucar_exportado_dolares  etanol_exportado_dolares  \
0    2002    1                 148309753                  25644080   
1    2002    2                 127931406                   8734998   
2    2002    3                  63761274                   9394337   
3    2002    4                  52996253                   9536207   
4    2002    5                  90121572                   9691858   
..    ...  ...                       ...                       ...   
253  2023    2                 522813695                  89713329   
254  2023    3                 832705711                 136883974   
255  2023    4                 465280270                 132979623   
256  2023    5                1166254019                  59312265   
257  2023    6                1397790956                  48688525   

     acucar_importado_dolares  etanol_importado_dolares  
0                        2002                     75965  
1                        8433              

In [97]:
# Verificando o tipo de dados
exp_imp.dtypes

ano                         int64
mes                         int64
acucar_exportado_dolares    int64
etanol_exportado_dolares    int64
acucar_importado_dolares    int64
etanol_importado_dolares    int64
dtype: object

In [98]:
# Juntando com data.frame matriz e imputando NAs por ano x mes ou ano

df_atualizada6=pd.merge(df_atualizada5, exp_imp, on=['ano', 'mes'], how='left')
def calculate_mode(group):
    if group.notna().any():  # Verifica se o grupo possui valores não NaN
        return group.mode().iloc[0]  # Calcula a moda se houver valores não NaN
    else:
        return pd.NA  # Retorna pd.NA se todos os valores forem NaN

# Define colunas para preencher e suas colunas de agrupamento correspondentes
columns_to_fill = {
    'acucar_exportado_dolares': [['ano', 'mes'], ['ano']],
    'cana_de_acucar_preco_tonelada': [['ano']],
    'etanol_exportado_dolares': [['ano', 'mes'], ['ano']],
    'acucar_importado_dolares': [['ano', 'mes'], ['ano']],
    'etanol_importado_dolares': [['ano', 'mes'], ['ano']]
}

for col, grouping_columns in columns_to_fill.items():  # Itera sobre as colunas e suas colunas de agrupamento correspondentes
    for group_cols in grouping_columns:  # Itera sobre as colunas de agrupamento
        df_atualizada6[col] = df_atualizada6[col].fillna(df_atualizada6.groupby(group_cols)[col].transform(calculate_mode))

display(df_atualizada6)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,Desemprego,PIB,ENOS,Date,Preco_acucar_int,cana_de_acucar_preco_tonelada,acucar_exportado_dolares,etanol_exportado_dolares,acucar_importado_dolares,etanol_importado_dolares
0,03/01/2012,1231.5,672.95,63.21,34.54,2012,2012/13,2012,8485.000000,1504.11000,...,7.4,418752.0,0.37,03/01/2012,24.510000,55.180,745050324,72814482,45758,99676942
1,04/01/2012,1239.5,677.69,63.38,34.65,2012,2012/13,2012,8485.000000,1504.11000,...,7.4,418752.0,0.37,04/01/2012,24.420000,55.180,745050324,72814482,45758,99676942
2,05/01/2012,1248.5,679.27,62.96,34.25,2012,2012/13,2012,8485.000000,1504.11000,...,7.4,418752.0,0.37,05/01/2012,23.129999,55.180,745050324,72814482,45758,99676942
3,06/01/2012,1259.0,679.07,62.90,33.93,2012,2012/13,2012,8485.000000,1504.11000,...,7.4,418752.0,0.37,06/01/2012,23.290001,55.180,745050324,72814482,45758,99676942
4,09/01/2012,1265.0,688.25,62.28,33.89,2012,2012/13,2012,8485.000000,1504.11000,...,7.4,418752.0,0.37,09/01/2012,23.340000,55.180,745050324,72814482,45758,99676942
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,7.9,880285.4,-0.83,21/12/2022,20.750000,116.407,952490043,220959253,64131,9524284
2630,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,7.9,880285.4,-0.83,22/12/2022,20.889999,116.407,952490043,220959253,64131,9524284
2631,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,7.9,880285.4,-0.83,23/12/2022,20.980000,116.407,952490043,220959253,64131,9524284
2632,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,7.9,880285.4,-0.83,27/12/2022,20.320000,116.407,952490043,220959253,64131,9524284


In [99]:
# Verificando valores NA após o join
# Valores NAs
import pandas as pd

missing_values = df_atualizada6.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [100]:
df_atualizada6.columns

Index(['data', 'preco_etanol_real', 'preco_etanol_dolar', 'preco_acucar_real',
       'preco_acucar_dolar', 'ano', 'safra', 'ano_colheita', 'area_BRASIL',
       'area_CENTRO-OESTE', 'area_CENTRO-SUL', 'area_NORDESTE', 'area_NORTE',
       'area_NORTE/NORDESTE', 'area_SUDESTE', 'produtividade_BRASIL',
       'produtividade_CENTRO-OESTE', 'produtividade_CENTRO-SUL',
       'produtividade_NORDESTE', 'produtividade_NORTE',
       'produtividade_NORTE/NORDESTE', 'produtividade_SUDESTE',
       'producao_BRASIL', 'producao_CENTRO-OESTE', 'producao_CENTRO-SUL',
       'producao_NORDESTE', 'producao_NORTE', 'producao_NORTE/NORDESTE',
       'producao_SUDESTE', 'acucar_BRASIL', 'acucar_CENTRO-OESTE',
       'acucar_CENTRO-SUL', 'acucar_NORDESTE', 'acucar_NORTE',
       'acucar_NORTE/NORDESTE', 'acucar_SUDESTE', 'etanol_total_BRASIL',
       'etanol_total_CENTRO-OESTE', 'etanol_total_CENTRO-SUL',
       'etanol_total_NORDESTE', 'etanol_total_NORTE',
       'etanol_total_NORTE/NORDESTE', 'etanol

In [101]:
# Verificando sanidade geral dos dados da tonelada de cana

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada6[[
    'ano',
    'acucar_exportado_dolares',
    'etanol_exportado_dolares',
    'acucar_importado_dolares', 
    'etanol_importado_dolares']].groupby('ano').agg({
    'acucar_exportado_dolares': ['mean', 'min', 'max'],
    'etanol_exportado_dolares': ['mean', 'min', 'max'],
    'acucar_importado_dolares': ['mean', 'min', 'max'],
    'etanol_importado_dolares': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['acucar_exportado_dolares_mean', 'acucar_exportado_dolares_min', 'acucar_exportado_dolares_max',
                        'etanol_exportado_dolares_mean', 'etanol_exportado_dolares_min', 'etanol_exportado_dolares_max',
                        'acucar_importado_dolares_mean', 'acucar_importado_dolares_min', 'acucar_importado_dolares_max',
                        'etanol_importado_dolares_mean', 'etanol_importado_dolares_min', 'etanol_importado_dolares_max']

# Displaying the summary statistics
print(summary_stats)

      acucar_exportado_dolares_mean  acucar_exportado_dolares_min  \
ano                                                                 
2012                   1.051323e+09                     319722374   
2013                   9.908381e+08                     774789925   
2014                   7.963888e+08                     483269243   
2015                   6.399760e+08                     308367014   
2016                   8.735350e+08                     432945631   
2017                   9.560702e+08                     701806372   
2018                   5.440416e+08                     341911115   
2019                   4.332507e+08                     296806678   
2020                   7.347730e+08                     383995196   
2021                   7.672134e+08                     587511683   
2022                   9.183397e+08                     507582656   

      acucar_exportado_dolares_max  etanol_exportado_dolares_mean  \
ano                              

In [102]:
# 10. Frota de automoveis
frota=pd.read_excel('frota_veiculos_brasil.xlsx').rename(columns={'Ano':'ano', 'Frota_automovel':'frota_automovel'})
display(frota)


Unnamed: 0,ano,frota_automovel
0,2006,27700608
1,2007,29851610
2,2009,34536667
3,2010,37188341
4,2011,39832919
5,2012,42682111
6,2013,45444387
7,2014,47946665
8,2015,49822709
9,2016,51296982


In [103]:
# Verificando o tipo dos dados
frota.dtypes

ano                int64
frota_automovel    int64
dtype: object

In [104]:
# Juntando com dados anteriores e imputando faltantes com moda do ano

df_atualizada7=pd.merge(df_atualizada6, frota, on=['ano'], how='left')

In [105]:
#Imputação de dados para adequação da granularidade

# Ano
df_atualizada7['frota_automovel'] = df_atualizada7['frota_automovel'].fillna(df_atualizada7.groupby(['ano'])['frota_automovel'].transform(calculate_mode))

display(df_atualizada7)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,PIB,ENOS,Date,Preco_acucar_int,cana_de_acucar_preco_tonelada,acucar_exportado_dolares,etanol_exportado_dolares,acucar_importado_dolares,etanol_importado_dolares,frota_automovel
0,03/01/2012,1231.5,672.95,63.21,34.54,2012,2012/13,2012,8485.000000,1504.11000,...,418752.0,0.37,03/01/2012,24.510000,55.180,745050324,72814482,45758,99676942,42682111
1,04/01/2012,1239.5,677.69,63.38,34.65,2012,2012/13,2012,8485.000000,1504.11000,...,418752.0,0.37,04/01/2012,24.420000,55.180,745050324,72814482,45758,99676942,42682111
2,05/01/2012,1248.5,679.27,62.96,34.25,2012,2012/13,2012,8485.000000,1504.11000,...,418752.0,0.37,05/01/2012,23.129999,55.180,745050324,72814482,45758,99676942,42682111
3,06/01/2012,1259.0,679.07,62.90,33.93,2012,2012/13,2012,8485.000000,1504.11000,...,418752.0,0.37,06/01/2012,23.290001,55.180,745050324,72814482,45758,99676942,42682111
4,09/01/2012,1265.0,688.25,62.28,33.89,2012,2012/13,2012,8485.000000,1504.11000,...,418752.0,0.37,09/01/2012,23.340000,55.180,745050324,72814482,45758,99676942,42682111
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,880285.4,-0.83,21/12/2022,20.750000,116.407,952490043,220959253,64131,9524284,60459290
2630,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,880285.4,-0.83,22/12/2022,20.889999,116.407,952490043,220959253,64131,9524284,60459290
2631,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,880285.4,-0.83,23/12/2022,20.980000,116.407,952490043,220959253,64131,9524284,60459290
2632,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,880285.4,-0.83,27/12/2022,20.320000,116.407,952490043,220959253,64131,9524284,60459290


In [106]:
# Verificando valores NA após o join
# Valores NAs
import pandas as pd

missing_values = df_atualizada7.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [107]:
# Verificando sanidade geral dos dados de frota de automoveis

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada7[[
    'ano',
    'frota_automovel']].groupby('ano').agg({
    'frota_automovel': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['frota_automovel_mean', 'frota_automovel_min', 'frota_automovel_max']

# Displaying the summary statistics
print(summary_stats)

      frota_automovel_mean  frota_automovel_min  frota_automovel_max
ano                                                                 
2012            42682111.0             42682111             42682111
2013            45444387.0             45444387             45444387
2014            47946665.0             47946665             47946665
2015            49822709.0             49822709             49822709
2016            51296982.0             51296982             51296982
2017            52916160.0             52916160             52916160
2018            54715488.0             54715488             54715488
2019            56652190.0             56652190             56652190
2020            58016405.0             58016405             58016405
2021            59242869.0             59242869             59242869
2022            60459290.0             60459290             60459290


In [108]:
# 10. Combustiveis_brasil
preco_combustiveis=pd.read_csv('combustiveis_brasil.csv', sep=';')#.rename(columns={'Ano':'ano', 'Frota_automovel':'frota_automovel'})
preco_combustiveis=preco_combustiveis.drop(columns=['ano-mes'])
display(preco_combustiveis)
#preco_combustiveis.dtypes

Unnamed: 0,ano,mes,gasolina_preco_medio,etanol_preco_medio,gnv_preco_medio
0,2004,5,2086,1289,113
1,2004,6,2157,1359,1135
2,2004,7,2203,1381,1152
3,2004,8,2226,1462,115
4,2004,9,2232,1487,1151
...,...,...,...,...,...
219,2022,9,5,348,499
220,2022,10,489,356,49
221,2022,11,504,383,48
222,2022,12,497,384,477


In [109]:
# Tipos dos dados
preco_combustiveis.dtypes

ano                      int64
mes                      int64
gasolina_preco_medio    object
etanol_preco_medio      object
gnv_preco_medio         object
dtype: object

In [110]:
# Convertendo dados object para float e mudando decimal de vírgula para ponto
columns_to_convert = ['gasolina_preco_medio', 'etanol_preco_medio', 'gnv_preco_medio']

for column in columns_to_convert:
    preco_combustiveis[column] = preco_combustiveis[column].str.replace(',', '.').astype(float)

print(preco_combustiveis.head())

    ano  mes  gasolina_preco_medio  etanol_preco_medio  gnv_preco_medio
0  2004    5                 2.086               1.289            1.130
1  2004    6                 2.157               1.359            1.135
2  2004    7                 2.203               1.381            1.152
3  2004    8                 2.226               1.462            1.150
4  2004    9                 2.232               1.487            1.151


In [111]:
# Juntando com dados anteriores e imputando dados faltantes com a moda
df_atualizada_final=pd.merge(df_atualizada7, preco_combustiveis, on=['ano','mes'], how='left')
def calculate_mode(group):
    if group.notna().any():  # Check if group has any non-NaN values
        return group.mode().iloc[0]  # Calculate mode if there are non-NaN values
    else:
        return pd.NA  # Return pd.NA if all values are NaN

# Define columns to fill and their corresponding grouping columns
columns_to_fill = {
    'gasolina_preco_medio': [['ano', 'mes']],
    'etanol_preco_medio': [['ano', 'mes']],
    'gnv_preco_medio': [['ano', 'mes']]
}

for col, grouping_columns in columns_to_fill.items():  # Iterate over columns and their corresponding grouping columns
    for group_cols in grouping_columns:  # Iterate over grouping columns
        df_atualizada_final[col] = df_atualizada_final[col].fillna(df_atualizada_final.groupby(group_cols)[col].transform(calculate_mode))

df_atualizada_final = df_atualizada_final.dropna(subset=['gasolina_preco_medio','etanol_preco_medio','gnv_preco_medio'])

display(df_atualizada_final)


Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,Preco_acucar_int,cana_de_acucar_preco_tonelada,acucar_exportado_dolares,etanol_exportado_dolares,acucar_importado_dolares,etanol_importado_dolares,frota_automovel,gasolina_preco_medio,etanol_preco_medio,gnv_preco_medio
0,03/01/2012,1231.5,672.95,63.21,34.54,2012,2012/13,2012,8485.000000,1504.11000,...,24.510000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
1,04/01/2012,1239.5,677.69,63.38,34.65,2012,2012/13,2012,8485.000000,1504.11000,...,24.420000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
2,05/01/2012,1248.5,679.27,62.96,34.25,2012,2012/13,2012,8485.000000,1504.11000,...,23.129999,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
3,06/01/2012,1259.0,679.07,62.90,33.93,2012,2012/13,2012,8485.000000,1504.11000,...,23.290001,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
4,09/01/2012,1265.0,688.25,62.28,33.89,2012,2012/13,2012,8485.000000,1504.11000,...,23.340000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,20.750000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2630,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,20.889999,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2631,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,20.980000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2632,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,20.320000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77


In [112]:
# Verificando valores NA após o join
# Valores NAs
import pandas as pd

missing_values = df_atualizada_final.isna().sum()

for item, i in missing_values.items():
    print(item, i)

data 0
preco_etanol_real 0
preco_etanol_dolar 0
preco_acucar_real 0
preco_acucar_dolar 0
ano 0
safra 0
ano_colheita 0
area_BRASIL 0
area_CENTRO-OESTE 0
area_CENTRO-SUL 0
area_NORDESTE 0
area_NORTE 0
area_NORTE/NORDESTE 0
area_SUDESTE 0
produtividade_BRASIL 0
produtividade_CENTRO-OESTE 0
produtividade_CENTRO-SUL 0
produtividade_NORDESTE 0
produtividade_NORTE 0
produtividade_NORTE/NORDESTE 0
produtividade_SUDESTE 0
producao_BRASIL 0
producao_CENTRO-OESTE 0
producao_CENTRO-SUL 0
producao_NORDESTE 0
producao_NORTE 0
producao_NORTE/NORDESTE 0
producao_SUDESTE 0
acucar_BRASIL 0
acucar_CENTRO-OESTE 0
acucar_CENTRO-SUL 0
acucar_NORDESTE 0
acucar_NORTE 0
acucar_NORTE/NORDESTE 0
acucar_SUDESTE 0
etanol_total_BRASIL 0
etanol_total_CENTRO-OESTE 0
etanol_total_CENTRO-SUL 0
etanol_total_NORDESTE 0
etanol_total_NORTE 0
etanol_total_NORTE/NORDESTE 0
etanol_total_SUDESTE 0
etanol_anidro_BRASIL 0
etanol_anidro_CENTRO-OESTE 0
etanol_anidro_CENTRO-SUL 0
etanol_anidro_NORDESTE 0
etanol_anidro_NORTE 0
etano

In [113]:
# Verificando sanidade geral dos dados de preco de combustíveis

# Grouping by 'ano' and calculating mean, min, and max for the specified columns
summary_stats = df_atualizada_final[[
    'ano',
    'gasolina_preco_medio', 
    'etanol_preco_medio', 
    'gnv_preco_medio']].groupby('ano').agg({
    'gasolina_preco_medio': ['mean', 'min', 'max'],
    'etanol_preco_medio': ['mean', 'min', 'max'],
    'gnv_preco_medio': ['mean', 'min', 'max']
})

# Renaming the columns for better understanding
summary_stats.columns = ['gasolina_preco_medio_mean', 'gasolina_preco_medio_min', 'gasolina_preco_medio_max',
                        'etanol_preco_medio_mean', 'etanol_preco_medio_min', 'etanol_preco_medio_max',
                        'gnv_preco_medio_mean', 'gnv_preco_medio_min', 'gnv_preco_medio_max']

# Displaying the summary statistics
print(summary_stats)

      gasolina_preco_medio_mean  gasolina_preco_medio_min  \
ano                                                         
2012                   2.736035                     2.723   
2013                   2.852722                     2.763   
2014                   2.974701                     2.955   
2015                   3.341391                     3.032   
2016                   3.679454                     3.638   
2017                   3.763655                     3.548   
2018                   4.411970                     4.189   
2019                   4.378231                     4.190   
2020                   4.275434                     3.818   
2021                   5.794859                     4.622   
2022                   6.117257                     4.890   

      gasolina_preco_medio_max  etanol_preco_medio_mean  \
ano                                                       
2012                     2.754                 1.944048   
2013                     2.94

In [114]:
df_atualizada_final.columns

Index(['data', 'preco_etanol_real', 'preco_etanol_dolar', 'preco_acucar_real',
       'preco_acucar_dolar', 'ano', 'safra', 'ano_colheita', 'area_BRASIL',
       'area_CENTRO-OESTE', 'area_CENTRO-SUL', 'area_NORDESTE', 'area_NORTE',
       'area_NORTE/NORDESTE', 'area_SUDESTE', 'produtividade_BRASIL',
       'produtividade_CENTRO-OESTE', 'produtividade_CENTRO-SUL',
       'produtividade_NORDESTE', 'produtividade_NORTE',
       'produtividade_NORTE/NORDESTE', 'produtividade_SUDESTE',
       'producao_BRASIL', 'producao_CENTRO-OESTE', 'producao_CENTRO-SUL',
       'producao_NORDESTE', 'producao_NORTE', 'producao_NORTE/NORDESTE',
       'producao_SUDESTE', 'acucar_BRASIL', 'acucar_CENTRO-OESTE',
       'acucar_CENTRO-SUL', 'acucar_NORDESTE', 'acucar_NORTE',
       'acucar_NORTE/NORDESTE', 'acucar_SUDESTE', 'etanol_total_BRASIL',
       'etanol_total_CENTRO-OESTE', 'etanol_total_CENTRO-SUL',
       'etanol_total_NORDESTE', 'etanol_total_NORTE',
       'etanol_total_NORTE/NORDESTE', 'etanol

In [115]:
# Remover colunas não necessárias
columns_to_remove = ['Date_x',
                     'Date']

df_atualizada_final = df_atualizada_final.drop(columns=columns_to_remove)

display(df_atualizada_final)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,Preco_acucar_int,cana_de_acucar_preco_tonelada,acucar_exportado_dolares,etanol_exportado_dolares,acucar_importado_dolares,etanol_importado_dolares,frota_automovel,gasolina_preco_medio,etanol_preco_medio,gnv_preco_medio
0,03/01/2012,1231.5,672.95,63.21,34.54,2012,2012/13,2012,8485.000000,1504.11000,...,24.510000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
1,04/01/2012,1239.5,677.69,63.38,34.65,2012,2012/13,2012,8485.000000,1504.11000,...,24.420000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
2,05/01/2012,1248.5,679.27,62.96,34.25,2012,2012/13,2012,8485.000000,1504.11000,...,23.129999,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
3,06/01/2012,1259.0,679.07,62.90,33.93,2012,2012/13,2012,8485.000000,1504.11000,...,23.290001,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
4,09/01/2012,1265.0,688.25,62.28,33.89,2012,2012/13,2012,8485.000000,1504.11000,...,23.340000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,20.750000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2630,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,20.889999,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2631,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,20.980000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2632,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,20.320000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77


In [116]:
colunas=df_atualizada_final.columns
for i in colunas:
    print(i)

data
preco_etanol_real
preco_etanol_dolar
preco_acucar_real
preco_acucar_dolar
ano
safra
ano_colheita
area_BRASIL
area_CENTRO-OESTE
area_CENTRO-SUL
area_NORDESTE
area_NORTE
area_NORTE/NORDESTE
area_SUDESTE
produtividade_BRASIL
produtividade_CENTRO-OESTE
produtividade_CENTRO-SUL
produtividade_NORDESTE
produtividade_NORTE
produtividade_NORTE/NORDESTE
produtividade_SUDESTE
producao_BRASIL
producao_CENTRO-OESTE
producao_CENTRO-SUL
producao_NORDESTE
producao_NORTE
producao_NORTE/NORDESTE
producao_SUDESTE
acucar_BRASIL
acucar_CENTRO-OESTE
acucar_CENTRO-SUL
acucar_NORDESTE
acucar_NORTE
acucar_NORTE/NORDESTE
acucar_SUDESTE
etanol_total_BRASIL
etanol_total_CENTRO-OESTE
etanol_total_CENTRO-SUL
etanol_total_NORDESTE
etanol_total_NORTE
etanol_total_NORTE/NORDESTE
etanol_total_SUDESTE
etanol_anidro_BRASIL
etanol_anidro_CENTRO-OESTE
etanol_anidro_CENTRO-SUL
etanol_anidro_NORDESTE
etanol_anidro_NORTE
etanol_anidro_NORTE/NORDESTE
etanol_anidro_SUDESTE
atr_medio_BRASIL
atr_medio_CENTRO-OESTE
atr_medio_

In [117]:
import pandas as pd

# Sum missing values by column
missing_values_sum = df_atualizada_final.isna().groupby(level=0, axis=1).sum()

# Filter variable names with missing values
variables_with_missing_values = missing_values_sum.columns[missing_values_sum.sum() > 0]

df_atualizada_final = df_atualizada_final.drop(columns=variables_with_missing_values)

# Loop to show sum of missing values by variable
for col in variables_with_missing_values:
    print(f"Variable: {col}, Missing Values Sum: {missing_values_sum[col].sum()}")

In [118]:
# Sum missing values by column
missing_values_sum = df_atualizada_final.isna().groupby(level=0, axis=1).sum()

# Filter variable names with missing values
variables_with_missing_values = missing_values_sum.columns[missing_values_sum.sum() > 0]
# Loop to show sum of missing values by variable
for col in missing_values_sum:
    print(f"Variable: {col}, Missing Values Sum: {missing_values_sum[col].sum()}")

Variable: Desemprego, Missing Values Sum: 0
Variable: ENOS, Missing Values Sum: 0
Variable: EUR, Missing Values Sum: 0
Variable: GBP, Missing Values Sum: 0
Variable: PIB, Missing Values Sum: 0
Variable: Preco_acucar_int, Missing Values Sum: 0
Variable: Preco_petroleo, Missing Values Sum: 0
Variable: USD, Missing Values Sum: 0
Variable: acucar_BRASIL, Missing Values Sum: 0
Variable: acucar_CENTRO-OESTE, Missing Values Sum: 0
Variable: acucar_CENTRO-SUL, Missing Values Sum: 0
Variable: acucar_NORDESTE, Missing Values Sum: 0
Variable: acucar_NORTE, Missing Values Sum: 0
Variable: acucar_NORTE/NORDESTE, Missing Values Sum: 0
Variable: acucar_SUDESTE, Missing Values Sum: 0
Variable: acucar_exportado_dolares, Missing Values Sum: 0
Variable: acucar_importado_dolares, Missing Values Sum: 0
Variable: ano, Missing Values Sum: 0
Variable: ano_colheita, Missing Values Sum: 0
Variable: area_BRASIL, Missing Values Sum: 0
Variable: area_CENTRO-OESTE, Missing Values Sum: 0
Variable: area_CENTRO-SUL, M

In [119]:
display(df_atualizada_final)

Unnamed: 0,data,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano,safra,ano_colheita,area_BRASIL,area_CENTRO-OESTE,...,Preco_acucar_int,cana_de_acucar_preco_tonelada,acucar_exportado_dolares,etanol_exportado_dolares,acucar_importado_dolares,etanol_importado_dolares,frota_automovel,gasolina_preco_medio,etanol_preco_medio,gnv_preco_medio
0,03/01/2012,1231.5,672.95,63.21,34.54,2012,2012/13,2012,8485.000000,1504.11000,...,24.510000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
1,04/01/2012,1239.5,677.69,63.38,34.65,2012,2012/13,2012,8485.000000,1504.11000,...,24.420000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
2,05/01/2012,1248.5,679.27,62.96,34.25,2012,2012/13,2012,8485.000000,1504.11000,...,23.129999,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
3,06/01/2012,1259.0,679.07,62.90,33.93,2012,2012/13,2012,8485.000000,1504.11000,...,23.290001,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
4,09/01/2012,1265.0,688.25,62.28,33.89,2012,2012/13,2012,8485.000000,1504.11000,...,23.340000,55.180,745050324,72814482,45758,99676942,42682111,2.743,2.034,1.632
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,21/12/2022,2968.0,571.10,140.08,26.95,2022,2022/23,2022,8292.725995,1767.47359,...,20.750000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2630,22/12/2022,2969.5,573.59,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,20.889999,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2631,23/12/2022,2971.5,575.43,141.65,27.36,2022,2022/23,2022,8292.725995,1767.47359,...,20.980000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77
2632,27/12/2022,2973.0,562.64,136.69,25.87,2022,2022/23,2022,8292.725995,1767.47359,...,20.320000,116.407,952490043,220959253,64131,9524284,60459290,4.97,3.84,4.77


In [120]:
# Reorganizando o dataset final

# List of columns to keep at the beginning
columns_to_keep = ['data', 'safra', 'ano', 'mes', 'dia']

# List of remaining columns
remaining_columns = [col for col in df_atualizada_final.columns if col not in columns_to_keep]

# Reorganize columns
df_atualizada_final = df_atualizada_final[columns_to_keep + remaining_columns]

# Display the DataFrame with the reordered columns
print(df_atualizada_final.head())

         data    safra   ano  mes dia  preco_etanol_real  preco_etanol_dolar  \
0  03/01/2012  2012/13  2012    1  03             1231.5              672.95   
1  04/01/2012  2012/13  2012    1  04             1239.5              677.69   
2  05/01/2012  2012/13  2012    1  05             1248.5              679.27   
3  06/01/2012  2012/13  2012    1  06             1259.0              679.07   
4  09/01/2012  2012/13  2012    1  09             1265.0              688.25   

   preco_acucar_real  preco_acucar_dolar  ano_colheita  ...  Preco_acucar_int  \
0              63.21               34.54          2012  ...         24.510000   
1              63.38               34.65          2012  ...         24.420000   
2              62.96               34.25          2012  ...         23.129999   
3              62.90               33.93          2012  ...         23.290001   
4              62.28               33.89          2012  ...         23.340000   

   cana_de_acucar_preco_tonelada

In [121]:
# terminar amanhã tabela resumo
df_atualizada_final.columns = df_atualizada_final.columns.str.lower()
import pandas as pd

# Convert specific columns to date format
columns =  df_atualizada_final.columns # Add your date columns here
for col in columns:
    if col == 'data':
        df_atualizada_final[col] = pd.to_datetime(df_atualizada_final[col], format='%d/%m/%Y')
    elif col == 'safra':
        # Do nothing for 'safra' column
        pass
    elif col in ['ano','mes', 'dia']:
        df_atualizada_final[col] = df_atualizada_final[col].astype(int)
    elif col not in ['data', 'safra', 'mes', 'dia']:
        df_atualizada_final[col] = df_atualizada_final[col].astype(float)

# Calculate the number of observations for each column
n_observacoes = df_atualizada_final.notnull().sum()

# Calculate the sum of NaN values for each column
valores_faltantes = df_atualizada_final.isnull().sum()

# Get data types for each column
tipos_dados = df_atualizada_final.dtypes

# Create a DataFrame with columns 'nome_variavel', 'n_observacoes', 'valores_faltantes', 'tipo_dado', 'minimo', 'maximo', and 'media'
df_info = pd.DataFrame({
    'nome_variavel': n_observacoes.index,
    'n_observacoes': n_observacoes.values,
    'valores_faltantes': valores_faltantes.values,
    'tipo_dado': tipos_dados.values,
})

In [122]:
display(columns)

Index(['data', 'safra', 'ano', 'mes', 'dia', 'preco_etanol_real',
       'preco_etanol_dolar', 'preco_acucar_real', 'preco_acucar_dolar',
       'ano_colheita', 'area_brasil', 'area_centro-oeste', 'area_centro-sul',
       'area_nordeste', 'area_norte', 'area_norte/nordeste', 'area_sudeste',
       'produtividade_brasil', 'produtividade_centro-oeste',
       'produtividade_centro-sul', 'produtividade_nordeste',
       'produtividade_norte', 'produtividade_norte/nordeste',
       'produtividade_sudeste', 'producao_brasil', 'producao_centro-oeste',
       'producao_centro-sul', 'producao_nordeste', 'producao_norte',
       'producao_norte/nordeste', 'producao_sudeste', 'acucar_brasil',
       'acucar_centro-oeste', 'acucar_centro-sul', 'acucar_nordeste',
       'acucar_norte', 'acucar_norte/nordeste', 'acucar_sudeste',
       'etanol_total_brasil', 'etanol_total_centro-oeste',
       'etanol_total_centro-sul', 'etanol_total_nordeste',
       'etanol_total_norte', 'etanol_total_norte/nord

In [123]:
# Verificando duplicados no dataset

duplicates = df_atualizada_final[df_atualizada_final.duplicated()]

if duplicates.empty:
    print("No duplicates found.")
else:
    print("Duplicates found:")
    print(duplicates)

Duplicates found:
           data    safra   ano  mes  dia  preco_etanol_real  \
357  2013-07-15  2013/14  2013    7   15             1047.5   
590  2014-07-15  2014/15  2014    7   15             1168.0   
835  2015-07-15  2015/16  2015    7   15             1148.0   
2036 2020-07-15  2020/21  2020    7   15             1673.5   
2037 2020-07-15  2020/21  2020    7   15             1673.5   
2038 2020-07-15  2020/21  2020    7   15             1673.5   

      preco_etanol_dolar  preco_acucar_real  preco_acucar_dolar  ano_colheita  \
357               470.15              44.47               19.96        2013.0   
590               525.65              46.78               21.05        2014.0   
835               366.42              48.48               15.47        2015.0   
2036              310.94              77.29               14.36        2020.0   
2037              310.94              77.29               14.36        2020.0   
2038              310.94              77.29           

In [124]:
# Removendo duplicados
df_atualizada_final = df_atualizada_final.drop_duplicates()

In [125]:
# Incluindo coluna com Lei de Paridade dos combustíveis
import pandas as pd
df_atualizada_final['data'] = pd.to_datetime(df_atualizada_final['data']) 
df_atualizada_final['PPI'] = (df_atualizada_final['data'] >= pd.to_datetime('2016-10-01')).astype(int)

df_atualizada_final.tail(1480)

Unnamed: 0,data,safra,ano,mes,dia,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano_colheita,...,cana_de_acucar_preco_tonelada,acucar_exportado_dolares,etanol_exportado_dolares,acucar_importado_dolares,etanol_importado_dolares,frota_automovel,gasolina_preco_medio,etanol_preco_medio,gnv_preco_medio,PPI
1131,2016-09-30,2016/17,2016,9,30,1670.0,513.69,94.70,29.13,2016.0,...,67.241,1.249711e+09,73850217.0,95715.0,25927532.0,51296982.0,3.648,2.510,2.224,0
1132,2016-10-03,2016/17,2016,10,3,1680.0,525.00,94.20,29.44,2016.0,...,68.017,8.699539e+08,39644023.0,115612.0,34056844.0,51296982.0,3.662,2.676,2.201,1
1133,2016-10-04,2016/17,2016,10,4,1690.5,519.35,94.38,29.00,2016.0,...,68.017,8.699539e+08,39644023.0,115612.0,34056844.0,51296982.0,3.662,2.676,2.201,1
1134,2016-10-05,2016/17,2016,10,5,1694.0,525.92,95.09,29.52,2016.0,...,68.017,8.699539e+08,39644023.0,115612.0,34056844.0,51296982.0,3.662,2.676,2.201,1
1135,2016-10-06,2016/17,2016,10,6,1725.0,535.05,95.50,29.62,2016.0,...,68.017,8.699539e+08,39644023.0,115612.0,34056844.0,51296982.0,3.662,2.676,2.201,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,2022-12-21,2022/23,2022,12,21,2968.0,571.10,140.08,26.95,2022.0,...,116.407,9.524900e+08,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1
2630,2022-12-22,2022/23,2022,12,22,2969.5,573.59,141.65,27.36,2022.0,...,116.407,9.524900e+08,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1
2631,2022-12-23,2022/23,2022,12,23,2971.5,575.43,141.65,27.36,2022.0,...,116.407,9.524900e+08,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1
2632,2022-12-27,2022/23,2022,12,27,2973.0,562.64,136.69,25.87,2022.0,...,116.407,9.524900e+08,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1


In [146]:
# Incluindo coluna com Lei de Paridade dos combustíveis
import pandas as pd
df_atualizada_final['data'] = pd.to_datetime(df_atualizada_final['data']) 
df_atualizada_final['pandemia'] = (df_atualizada_final['data'] >= pd.to_datetime('2020-03-11')).astype(int)

df_atualizada_final.tail(664)

Unnamed: 0,data,safra,ano,mes,dia,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano_colheita,...,acucar_exportado_dolares,etanol_exportado_dolares,acucar_importado_dolares,etanol_importado_dolares,frota_automovel,gasolina_preco_medio,etanol_preco_medio,gnv_preco_medio,PPI,pandemia
1947,2020-03-05,2020/21,2020,3,5,2130.5,458.37,80.33,17.28,2020.0,...,420072892.0,41944915.0,113493.0,115245718.0,58016405.0,4.462,3.196,3.195,1,0
1948,2020-03-06,2020/21,2020,3,6,2125.5,459.17,80.91,17.48,2020.0,...,420072892.0,41944915.0,113493.0,115245718.0,58016405.0,4.462,3.196,3.195,1,0
1949,2020-03-09,2020/21,2020,3,9,2073.0,436.88,80.13,16.89,2020.0,...,420072892.0,41944915.0,113493.0,115245718.0,58016405.0,4.462,3.196,3.195,1,0
1950,2020-03-10,2020/21,2020,3,10,2039.0,439.06,78.92,16.99,2020.0,...,420072892.0,41944915.0,113493.0,115245718.0,58016405.0,4.462,3.196,3.195,1,0
1951,2020-03-11,2020/21,2020,3,11,2024.0,427.55,79.35,16.76,2020.0,...,420072892.0,41944915.0,113493.0,115245718.0,58016405.0,4.462,3.196,3.195,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2629,2022-12-21,2022/23,2022,12,21,2968.0,571.10,140.08,26.95,2022.0,...,952490043.0,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1,1
2630,2022-12-22,2022/23,2022,12,22,2969.5,573.59,141.65,27.36,2022.0,...,952490043.0,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1,1
2631,2022-12-23,2022/23,2022,12,23,2971.5,575.43,141.65,27.36,2022.0,...,952490043.0,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1,1
2632,2022-12-27,2022/23,2022,12,27,2973.0,562.64,136.69,25.87,2022.0,...,952490043.0,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1,1


In [147]:
# Incluindo dados de percentual de etanol na gasolina
perc_etanol_gasolina = pd.read_csv('perc_etanol_gasolina.csv', names =['data', 'perc_eta_gas'])

perc_etanol_gasolina['data'] = pd.to_datetime(perc_etanol_gasolina['data'], format='%Y')
perc_etanol_gasolina['data'] = perc_etanol_gasolina['data'].dt.strftime('%Y/%m/%d') 
perc_etanol_gasolina['data'] = pd.to_datetime(perc_etanol_gasolina['data'])

perc_etanol_gasolina['ano'] = perc_etanol_gasolina['data'].dt.year
perc_etanol_gasolina['mes'] = perc_etanol_gasolina['data'].dt.month
perc_etanol_gasolina= perc_etanol_gasolina.groupby(['ano','mes'])['perc_eta_gas'].mean().reset_index()
perc_etanol_gasolina.head(1000)

Unnamed: 0,ano,mes,perc_eta_gas
0,1977,1,12.314947
1,1978,1,13.502392
2,1979,1,14.649499
3,1980,1,16.132084
4,1981,1,18.147998
5,1982,1,20.031684
6,1983,1,21.361716
7,1984,1,22.153314
8,1985,1,21.043956
9,1986,1,17.156466


In [148]:
# Fazendo o merge com os dados origianais

df_atualizada_final_a= pd.merge(df_atualizada_final,perc_etanol_gasolina,on=['ano','mes'],how='left')

#Imputação de dados para adequação da granularidade

# Ano
df_atualizada_final_a['perc_eta_gas'] = df_atualizada_final_a['perc_eta_gas'].fillna(df_atualizada_final_a.groupby(['ano'])['perc_eta_gas'].transform(calculate_mode))

display(df_atualizada_final_a)
#for i in df_atualizada_final_a['data']:
#    print(i)

Unnamed: 0,data,safra,ano,mes,dia,preco_etanol_real,preco_etanol_dolar,preco_acucar_real,preco_acucar_dolar,ano_colheita,...,etanol_exportado_dolares,acucar_importado_dolares,etanol_importado_dolares,frota_automovel,gasolina_preco_medio,etanol_preco_medio,gnv_preco_medio,PPI,pandemia,perc_eta_gas
0,2012-01-03,2012/13,2012,1,3,1231.5,672.95,63.21,34.54,2012.0,...,72814482.0,45758.0,99676942.0,42682111.0,2.743,2.034,1.632,0,0,20.357804
1,2012-01-04,2012/13,2012,1,4,1239.5,677.69,63.38,34.65,2012.0,...,72814482.0,45758.0,99676942.0,42682111.0,2.743,2.034,1.632,0,0,20.357804
2,2012-01-05,2012/13,2012,1,5,1248.5,679.27,62.96,34.25,2012.0,...,72814482.0,45758.0,99676942.0,42682111.0,2.743,2.034,1.632,0,0,20.357804
3,2012-01-06,2012/13,2012,1,6,1259.0,679.07,62.90,33.93,2012.0,...,72814482.0,45758.0,99676942.0,42682111.0,2.743,2.034,1.632,0,0,20.357804
4,2012-01-09,2012/13,2012,1,9,1265.0,688.25,62.28,33.89,2012.0,...,72814482.0,45758.0,99676942.0,42682111.0,2.743,2.034,1.632,0,0,20.357804
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2603,2022-12-21,2022/23,2022,12,21,2968.0,571.10,140.08,26.95,2022.0,...,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1,1,26.919763
2604,2022-12-22,2022/23,2022,12,22,2969.5,573.59,141.65,27.36,2022.0,...,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1,1,26.919763
2605,2022-12-23,2022/23,2022,12,23,2971.5,575.43,141.65,27.36,2022.0,...,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1,1,26.919763
2606,2022-12-27,2022/23,2022,12,27,2973.0,562.64,136.69,25.87,2022.0,...,220959253.0,64131.0,9524284.0,60459290.0,4.970,3.840,4.770,1,1,26.919763


In [149]:
df_atualizada_final_a.dtypes

data                  datetime64[ns]
safra                         object
ano                            int32
mes                            int32
dia                            int32
                           ...      
etanol_preco_medio           float64
gnv_preco_medio              float64
PPI                            int32
pandemia                       int32
perc_eta_gas                 float64
Length: 88, dtype: object

In [150]:
# Sum missing values by column
missing_values_sum = df_atualizada_final_a.isna().groupby(level=0, axis=1).sum()

# Filter variable names with missing values
#variables_with_missing_values = missing_values_sum.columns[missing_values_sum.sum() > 0]
# Loop to show sum of missing values by variable
for col in missing_values_sum:
    print(f"Variable: {col}, Missing Values Sum: {missing_values_sum[col].sum()}")

Variable: PPI, Missing Values Sum: 0
Variable: acucar_brasil, Missing Values Sum: 0
Variable: acucar_centro-oeste, Missing Values Sum: 0
Variable: acucar_centro-sul, Missing Values Sum: 0
Variable: acucar_exportado_dolares, Missing Values Sum: 0
Variable: acucar_importado_dolares, Missing Values Sum: 0
Variable: acucar_nordeste, Missing Values Sum: 0
Variable: acucar_norte, Missing Values Sum: 0
Variable: acucar_norte/nordeste, Missing Values Sum: 0
Variable: acucar_sudeste, Missing Values Sum: 0
Variable: ano, Missing Values Sum: 0
Variable: ano_colheita, Missing Values Sum: 0
Variable: area_brasil, Missing Values Sum: 0
Variable: area_centro-oeste, Missing Values Sum: 0
Variable: area_centro-sul, Missing Values Sum: 0
Variable: area_nordeste, Missing Values Sum: 0
Variable: area_norte, Missing Values Sum: 0
Variable: area_norte/nordeste, Missing Values Sum: 0
Variable: area_sudeste, Missing Values Sum: 0
Variable: atr_medio_brasil, Missing Values Sum: 0
Variable: atr_medio_centro-oes

In [151]:
# Verificando duplicados no dataset

duplicates = df_atualizada_final_a[df_atualizada_final_a.duplicated()]

if duplicates.empty:
    print("No duplicates found.")
else:
    print("Duplicates found:")
    print(duplicates)

No duplicates found.


In [152]:
# Assuming df_atualizada1 is your DataFrame that you want to export
# Specify the file path where you want to save the Excel file
excel_file_path = "dataset_atualizada.xlsx"

# Export the DataFrame to an Excel file
df_atualizada_final_a.to_excel(excel_file_path, index=False)

print("Excel file has been successfully exported.")

Excel file has been successfully exported.


In [153]:
# terminar amanhã tabela resumo
df_atualizada_final_a.columns = df_atualizada_final_a.columns.str.lower()
import pandas as pd

# Convert specific columns to date format
columns =  df_atualizada_final_a.columns # Add your date columns here
for col in columns:
    if col == 'data':
        df_atualizada_final_a[col] = pd.to_datetime(df_atualizada_final_a[col], format='%d/%m/%Y')
    elif col == 'safra':
        # Do nothing for 'safra' column
        pass
    elif col in ['ano','mes', 'dia']:
        df_atualizada_final_a[col] = df_atualizada_final_a[col].astype(int)
    elif col not in ['data', 'safra', 'mes', 'dia']:
        df_atualizada_final_a[col] = df_atualizada_final_a[col].astype(float)

# Calculate the number of observations for each column
n_observacoes = df_atualizada_final_a.notnull().sum()

# Calculate the sum of NaN values for each column
valores_faltantes = df_atualizada_final_a.isnull().sum()

# Get data types for each column
tipos_dados = df_atualizada_final_a.dtypes

# Create a DataFrame with columns 'nome_variavel', 'n_observacoes', 'valores_faltantes', 'tipo_dado', 'minimo', 'maximo', and 'media'
df_info = pd.DataFrame({
    'nome_variavel': n_observacoes.index,
    'n_observacoes': n_observacoes.values,
    'valores_faltantes': valores_faltantes.values,
    'tipo_dado': tipos_dados.values,
})

In [154]:
# Assuming df_atualizada1 is your DataFrame that you want to export
# Specify the file path where you want to save the Excel file
excel_file_path = "df_info.xlsx"

# Export the DataFrame to an Excel file
df_info.to_excel(excel_file_path, index=False)

print("Excel file has been successfully exported.")

Excel file has been successfully exported.
