In [106]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


<h3 style="color:orange;">Especificando os tipos dos atributos ao abrir o DataFrame, observa-se que "vendas" está no formato brasileiro (vírgula) e classificada como <i>object</i>, exigindo tratamento.</h3>


In [160]:
#Ao todo temos 6 atributos
tipos_de_dados = {
    'ANO': int,
    'MÊS': str,  
    'GRANDE REGIÃO': str,
    'UNIDADE DA FEDERAÇÃO': str,
    'PRODUTO': str,
    'VENDAS': float #passo direto como float ao abrir  
} 

<h1 style="color:orange;">Carrega o Dataset Vendas de Derivados de Petróleo e Biocombustíveis (m³) - 90.072 linhas × 6 colunas</h1>


df = pd.read_csv('vendas-combustiveis-m3-1990-2024.csv', sep=';',  dtype=tipos_de_dados, decimal=',')

In [111]:
df

Unnamed: 0,ANO,MÊS,GRANDE REGIÃO,UNIDADE DA FEDERAÇÃO,PRODUTO,VENDAS
0,1990,JAN,REGIÃO CENTRO-OESTE,GOIÁS,ETANOL HIDRATADO,29876.051
1,1990,SET,REGIÃO CENTRO-OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,20544.692
2,1990,OUT,REGIÃO CENTRO-OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,15368.064
3,1990,NOV,REGIÃO CENTRO-OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,34415.728
4,1990,FEV,REGIÃO CENTRO-OESTE,GOIÁS,ETANOL HIDRATADO,21750.741
...,...,...,...,...,...,...
90067,2024,ABR,REGIÃO NORTE,RORAIMA,ÓLEO DIESEL,26055.810
90068,2024,ABR,REGIÃO NORTE,TOCANTINS,ÓLEO DIESEL,105345.100
90069,2024,MAR,REGIÃO NORTE,TOCANTINS,ÓLEO DIESEL,107549.707
90070,2024,JUL,REGIÃO NORTE,AMAZONAS,ÓLEO DIESEL,91205.356


<h2 style="color:orange;">Pré-processamento</h2>


In [113]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90072 entries, 0 to 90071
Data columns (total 6 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ANO                   90072 non-null  int32  
 1   MÊS                   90072 non-null  object 
 2   GRANDE REGIÃO         90072 non-null  object 
 3   UNIDADE DA FEDERAÇÃO  90072 non-null  object 
 4   PRODUTO               90072 non-null  object 
 5   VENDAS                90072 non-null  float64
dtypes: float64(1), int32(1), object(4)
memory usage: 3.8+ MB


In [114]:
df.isnull().sum()

ANO                     0
MÊS                     0
GRANDE REGIÃO           0
UNIDADE DA FEDERAÇÃO    0
PRODUTO                 0
VENDAS                  0
dtype: int64

In [115]:
df.nunique()

ANO                        35
MÊS                        12
GRANDE REGIÃO               5
UNIDADE DA FEDERAÇÃO       27
PRODUTO                     8
VENDAS                  78740
dtype: int64

In [116]:
df.dtypes

ANO                       int32
MÊS                      object
GRANDE REGIÃO            object
UNIDADE DA FEDERAÇÃO     object
PRODUTO                  object
VENDAS                  float64
dtype: object

In [117]:
df.duplicated().sum()

0

In [118]:
produtos_unicos = df['PRODUTO'].unique()

print(produtos_unicos)


['ETANOL HIDRATADO' 'GASOLINA C' 'GASOLINA DE AVIAÇÃO' 'GLP'
 'QUEROSENE DE AVIAÇÃO' 'QUEROSENE ILUMINANTE' 'ÓLEO COMBUSTÍVEL'
 'ÓLEO DIESEL']


<h1 style="color:orange;">Contando a ocorrência de cada valor</h1>


In [120]:
conta_produtos = df['PRODUTO'].value_counts()
conta_produtos

PRODUTO
ETANOL HIDRATADO        11259
GASOLINA C              11259
GASOLINA DE AVIAÇÃO     11259
GLP                     11259
QUEROSENE DE AVIAÇÃO    11259
QUEROSENE ILUMINANTE    11259
ÓLEO COMBUSTÍVEL        11259
ÓLEO DIESEL             11259
Name: count, dtype: int64

In [121]:
conta_mes = df['MÊS'].value_counts()
conta_mes

MÊS
JAN    7560
SET    7560
FEV    7560
JUL    7560
MAI    7560
MAR    7560
AGO    7560
JUN    7560
ABR    7560
OUT    7344
NOV    7344
DEZ    7344
Name: count, dtype: int64

In [122]:
conta_vendas = df['VENDAS'].value_counts()
conta_vendas

VENDAS
0.000         6605
10.000         273
5.000          249
15.000         213
20.000         165
              ... 
1762.316         1
1846.196         1
2196.345         1
1695.980         1
111733.400       1
Name: count, Length: 78740, dtype: int64

In [123]:
conta_ano = df['ANO'].value_counts()
conta_ano

ANO
1990    2592
2016    2592
2010    2592
2011    2592
2012    2592
2013    2592
2014    2592
2015    2592
2017    2592
2008    2592
2018    2592
2019    2592
2020    2592
2021    2592
2022    2592
2023    2592
2009    2592
2007    2592
1991    2592
1998    2592
1992    2592
1993    2592
1994    2592
1995    2592
1996    2592
1997    2592
1999    2592
2006    2592
2000    2592
2001    2592
2002    2592
2003    2592
2004    2592
2005    2592
2024    1944
Name: count, dtype: int64

<h3 style="color:orange;">Separando dados em númericos e categóricos</h3>


In [154]:
df_categorico = df.select_dtypes(include=['object'])
df_numerico = df.select_dtypes(include=['number'])

In [162]:
df_categorico

Unnamed: 0,MÊS,GRANDE REGIÃO,UNIDADE DA FEDERAÇÃO,PRODUTO
0,JAN,REGIÃO CENTRO-OESTE,GOIÁS,ETANOL HIDRATADO
1,SET,REGIÃO CENTRO-OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO
2,OUT,REGIÃO CENTRO-OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO
3,NOV,REGIÃO CENTRO-OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO
4,FEV,REGIÃO CENTRO-OESTE,GOIÁS,ETANOL HIDRATADO
...,...,...,...,...
90067,ABR,REGIÃO NORTE,RORAIMA,ÓLEO DIESEL
90068,ABR,REGIÃO NORTE,TOCANTINS,ÓLEO DIESEL
90069,MAR,REGIÃO NORTE,TOCANTINS,ÓLEO DIESEL
90070,JUL,REGIÃO NORTE,AMAZONAS,ÓLEO DIESEL


In [164]:
df_numerico

Unnamed: 0,ANO,VENDAS
0,1990,29876.051
1,1990,20544.692
2,1990,15368.064
3,1990,34415.728
4,1990,21750.741
...,...,...
90067,2024,26055.810
90068,2024,105345.100
90069,2024,107549.707
90070,2024,91205.356
