#Produção de Biodiesel (2005 - 2022)

### Instalação das bibliotecas necessárias

In [170]:
import pandas as pd

###Fixando a quantidade máxima de colunas e linhas que aparecerão em tela

In [171]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 328)

###Leitura do dataset (2005 - 2021)

In [172]:
df = pd.read_csv("/content/producao-biodiesel-m3-2005-2021.csv", sep = ';')

###Visão geral do dataframe

In [173]:
df

Unnamed: 0,ANO,MÊS,GRANDE REGIÃO,UNIDADE DA FEDERAÇÃO,PRODUTOR,PRODUTO,PRODUÇÃO
0,2005,ABR,REGIÃO SUL,RIO GRANDE DO SUL,GRANOL (CACHOEIRA DO SUL),BIODIESEL,0
1,2005,MAI,REGIÃO SUL,RIO GRANDE DO SUL,GRANOL (CACHOEIRA DO SUL),BIODIESEL,0
2,2005,FEV,REGIÃO SUL,RIO GRANDE DO SUL,GRANOL (CACHOEIRA DO SUL),BIODIESEL,0
3,2005,MAR,REGIÃO SUL,RIO GRANDE DO SUL,GRANOL (CACHOEIRA DO SUL),BIODIESEL,0
4,2005,JUN,REGIÃO SUL,RIO GRANDE DO SUL,GRANOL (CACHOEIRA DO SUL),BIODIESEL,0
...,...,...,...,...,...,...,...
19885,2021,MAI,REGIÃO NORDESTE,CEARÁ,BRASIL ECODIESEL (CRATEUS),BIODIESEL,0
19886,2021,AGO,REGIÃO NORDESTE,CEARÁ,BRASIL ECODIESEL (CRATEUS),BIODIESEL,0
19887,2021,SET,REGIÃO NORDESTE,CEARÁ,BRASIL ECODIESEL (CRATEUS),BIODIESEL,0
19888,2021,JUN,REGIÃO NORDESTE,CEARÁ,BRASIL ECODIESEL (CRATEUS),BIODIESEL,0


###Backup do dataset

In [174]:
df_bruto = df.copy()

###Leitura do dataset 2022

In [175]:
df1 = pd.read_csv("/content/producao-biodiesel-m3-2022.csv", sep = ';')

###Visão geral do dataframe

In [176]:
df1

Unnamed: 0,ANO,MÊS,GRANDE REGIÃO,PRODUÇÃO
0,2022,Janeiro,REGIÃO SUDESTE,36814544
1,2022,Fevereiro,REGIÃO SUDESTE,36125567
2,2022,Março,REGIÃO SUDESTE,348037
3,2022,Abril,REGIÃO SUDESTE,36548676
4,2022,Maio,REGIÃO SUDESTE,42120002
5,2022,Junho,REGIÃO SUDESTE,38348731
6,2022,Janeiro,REGIÃO CENTRO-OESTE,139431639
7,2022,Fevereiro,REGIÃO CENTRO-OESTE,168472449
8,2022,Março,REGIÃO CENTRO-OESTE,167483554
9,2022,Abril,REGIÃO CENTRO-OESTE,153830372


###Backup do dataset

In [177]:
df1_bruto = df1.copy()

###Concatenando os datasets

In [178]:
dfbio = pd.merge(df_bruto, df1_bruto, how = 'outer')

###Visão geral da tabela concatenada

In [179]:
dfbio

Unnamed: 0,ANO,MÊS,GRANDE REGIÃO,UNIDADE DA FEDERAÇÃO,PRODUTOR,PRODUTO,PRODUÇÃO
0,2005,ABR,REGIÃO SUL,RIO GRANDE DO SUL,GRANOL (CACHOEIRA DO SUL),BIODIESEL,0
1,2005,ABR,REGIÃO SUL,RIO GRANDE DO SUL,FUGA,BIODIESEL,0
2,2005,ABR,REGIÃO SUL,SANTA CATARINA,SEARA,BIODIESEL,0
3,2005,ABR,REGIÃO SUL,RIO GRANDE DO SUL,TRES TENTOS,BIODIESEL,0
4,2005,ABR,REGIÃO SUL,RIO GRANDE DO SUL,OLFAR,BIODIESEL,0
...,...,...,...,...,...,...,...
19915,2022,Fevereiro,REGIÃO NORDESTE,,,,41889274
19916,2022,Março,REGIÃO NORDESTE,,,,43918328
19917,2022,Abril,REGIÃO NORDESTE,,,,5266972
19918,2022,Maio,REGIÃO NORDESTE,,,,51881207


##Tratamento e Verificação de Inconsistências

###Eliminação das colunas desnecessárias

In [180]:
dfbio = dfbio.drop(['UNIDADE DA FEDERAÇÃO', 'PRODUTOR', 'PRODUTO'], axis=1)

In [181]:
# Verificando os tipos das colunas

dfbio.dtypes

ANO               int64
MÊS              object
GRANDE REGIÃO    object
PRODUÇÃO         object
dtype: object

###Mudança dos Schemas

In [182]:
dfbio.rename(columns = {
    'ANO': 'ano',
    'MÊS': 'mes',
    'GRANDE REGIÃO': 'regiao',
    'PRODUÇÃO': 'producao_metros_cubicos'}, inplace=True)

In [183]:
# Coluna ano

ano =  sorted(pd.unique(dfbio['ano']))
for a in range(len(ano)):
  if a % 1 == 0:
        print()
  print(ano[a], end=', ')


2005, 
2006, 
2007, 
2008, 
2009, 
2010, 
2011, 
2012, 
2013, 
2014, 
2015, 
2016, 
2017, 
2018, 
2019, 
2020, 
2021, 
2022, 

In [184]:
# Coluna mes

mes =  sorted(pd.unique(dfbio['mes']))
for m in range(len(mes)):
  if m % 1 == 0:
        print()
  print(mes[m], end=', ')


ABR, 
AGO, 
Abril, 
DEZ, 
FEV, 
Fevereiro, 
JAN, 
JUL, 
JUN, 
Janeiro, 
Junho, 
MAI, 
MAR, 
Maio, 
Março, 
NOV, 
OUT, 
SET, 

In [185]:
# Normalização da coluna mes

dfbio['mes'] = dfbio['mes'].replace(['ABR', 'AGO', 'Abril', 'DEZ', 'FEV', 'Fevereiro', 'JAN', 'JUL', 'JUN', 'Janeiro', 'Junho', 'MAI', 'MAR', 'Maio', 'Março', 'NOV', 'OUT', 'SET'], [ 'ABRIL', 'AGOSTO', 'ABRIL','DEZEMBRO', 'FEVEREIRO','FEVEREIRO','JANEIRO','JULHO','JUNHO','JANEIRO','JUNHO','MAIO','MARÇO','MAIO','MARÇO','NOVEMBRO','OUTUBRO','SETEMBRO'])
  


In [186]:
# Coluna regiao

regiao =  sorted(pd.unique(dfbio['regiao']))
for r in range(len(regiao)):
  if r % 1 == 0:
        print()
  print(regiao[r], end=', ')


REGIÃO CENTRO-OESTE, 
REGIÃO NORDESTE, 
REGIÃO NORTE, 
REGIÃO SUDESTE, 
REGIÃO SUL, 

In [187]:
# Eliminação da palavra "REGIÃO"

dfbio['regiao'] = dfbio['regiao'].apply(lambda x: x.replace('REGIÃO', ''))

In [188]:
# Coluna producao_metros_cubicos

producao =  sorted(pd.unique(dfbio['producao_metros_cubicos']))
for p in range(len(producao)):
  if p % 20 == 0:
        print()
  print(producao[p], end=', ')


0, 0,002, 0,2, 0,3, 0,6, 0,813, 1, 1,1, 1,2, 1,212, 1,5, 1,57, 1,811, 10, 10,273, 10,8, 100, 100,021, 100,748, 1000, 
1000,057, 10006,48, 10010,078, 10014,918, 10020,687, 10023,27, 10029,515, 10029,726, 10031,691, 10032,092, 10034,551, 10037,7, 10038,314, 1004,3, 10042,609, 10046,957, 1005,813, 10056,925, 1006,668, 10063,831, 
10065,876, 10068,588, 10070,48, 10072,735, 10074,612, 10075,851, 10079,118, 10082,212, 10083,498, 10086,127, 10087,498, 1009,8, 10095,849, 10098,313, 101,909, 10108,25, 10109,485, 1011,248, 1011,4, 1011,933, 
10119,89, 10120,046, 10120,306, 10123,764, 10127,291, 10127,402, 1013, 1013,165, 10131,361, 10132,952, 10133,289, 10135,549, 10137,89, 10139,159, 1014,444, 1014,76, 1014,81, 1015,086, 10159,786, 10171,318, 
10172,33, 1018,11, 10186,758, 10188,549, 10189,884, 10191,037, 10198,078, 102, 102,058, 102,618, 102,696, 1020,045, 1020,743, 10201,5, 10211,447, 10211,831, 10214,829, 10218,899, 10223,359, 10228,945, 
1024, 1024,56, 10240,185, 10244,311, 10249,888, 1025

In [189]:
# Replace de vírgula por ponto

dfbio['producao_metros_cubicos'] = dfbio['producao_metros_cubicos'].apply(lambda x: x.replace(',', '.'))

In [190]:
# Convertendo de string para tipo float

dfbio['producao_metros_cubicos'] = dfbio['producao_metros_cubicos'].astype(float)

In [191]:
# Padronizando para 3 casas decimais depois da vírgula

dfbio.loc[:, "producao_metros_cubicos"] = dfbio["producao_metros_cubicos"].map('{:.3f}'.format)

In [192]:
# Convertendo de string para tipo float

dfbio['producao_metros_cubicos'] = dfbio['producao_metros_cubicos'].astype(float)

In [193]:
# Verificando os tipos de colunas

dfbio.dtypes


ano                          int64
mes                         object
regiao                      object
producao_metros_cubicos    float64
dtype: object

In [194]:
# Visão geral da tabela

dfbio

Unnamed: 0,ano,mes,regiao,producao_metros_cubicos
0,2005,ABRIL,SUL,0.000
1,2005,ABRIL,SUL,0.000
2,2005,ABRIL,SUL,0.000
3,2005,ABRIL,SUL,0.000
4,2005,ABRIL,SUL,0.000
...,...,...,...,...
19915,2022,FEVEREIRO,NORDESTE,41889.274
19916,2022,MARÇO,NORDESTE,43918.328
19917,2022,ABRIL,NORDESTE,52669.720
19918,2022,MAIO,NORDESTE,51881.207


In [195]:
# Produção geral entre as regiões de acordo com o ano

dfbio.groupby(['ano','regiao']) ['producao_metros_cubicos'].sum().reset_index() 

Unnamed: 0,ano,regiao,producao_metros_cubicos
0,2005,CENTRO-OESTE,0.0
1,2005,NORDESTE,156.37
2,2005,NORTE,510.4
3,2005,SUDESTE,43.82
4,2005,SUL,25.57
5,2006,CENTRO-OESTE,10121.372
6,2006,NORDESTE,34797.864
7,2006,NORTE,2420.9
8,2006,SUDESTE,21561.895
9,2006,SUL,99.95
