# Apresentação do projeto.

In [1]:
# ---- Import Libs ---- #
import pandas as pd

In [2]:
# ---- Datasets ---- #
df1 = pd.read_csv("../base/gasolina_2000+.csv", index_col=0)
df2 = pd.read_csv("../base/gasolina_2010+.csv", low_memory=False, index_col=0)
df = pd.concat([df1,df2])

In [3]:
# ---- Info ---- #
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 120823 entries, 0 to 120822
Data columns (total 18 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   DATA INICIAL                   120823 non-null  object 
 1   DATA FINAL                     120823 non-null  object 
 2   REGIÃO                         120823 non-null  object 
 3   ESTADO                         120823 non-null  object 
 4   PRODUTO                        120823 non-null  object 
 5   NÚMERO DE POSTOS PESQUISADOS   120823 non-null  int64  
 6   UNIDADE DE MEDIDA              120823 non-null  object 
 7   PREÇO MÉDIO REVENDA            120823 non-null  float64
 8   DESVIO PADRÃO REVENDA          120823 non-null  float64
 9   PREÇO MÍNIMO REVENDA           120823 non-null  float64
 10  PREÇO MÁXIMO REVENDA           120823 non-null  float64
 11  MARGEM MÉDIA REVENDA           120823 non-null  object 
 12  COEF DE VARIAÇÃO REVENDA       1208

In [4]:
df["DATA INICIAL"] = pd.to_datetime(df["DATA INICIAL"])
df["DATA FINAL"] = pd.to_datetime(df["DATA FINAL"])

In [5]:
df[["DATA INICIAL", "DATA FINAL"]].dtypes

DATA INICIAL    datetime64[ns]
DATA FINAL      datetime64[ns]
dtype: object

In [6]:
df["ANO-MES"] = df["DATA FINAL"].apply(lambda x: f'{x.year}-{x.month:02d}')
df["ANO-MES"]

0         2004-05
1         2004-05
2         2004-05
3         2004-05
4         2004-05
           ...   
120818    2021-05
120819    2021-05
120820    2021-05
120821    2021-05
120822    2021-05
Name: ANO-MES, Length: 120823, dtype: object

In [7]:
df.dtypes

DATA INICIAL                     datetime64[ns]
DATA FINAL                       datetime64[ns]
REGIÃO                                   object
ESTADO                                   object
PRODUTO                                  object
NÚMERO DE POSTOS PESQUISADOS              int64
UNIDADE DE MEDIDA                        object
PREÇO MÉDIO REVENDA                     float64
DESVIO PADRÃO REVENDA                   float64
PREÇO MÍNIMO REVENDA                    float64
PREÇO MÁXIMO REVENDA                    float64
MARGEM MÉDIA REVENDA                     object
COEF DE VARIAÇÃO REVENDA                float64
PREÇO MÉDIO DISTRIBUIÇÃO                 object
DESVIO PADRÃO DISTRIBUIÇÃO               object
PREÇO MÍNIMO DISTRIBUIÇÃO                object
PREÇO MÁXIMO DISTRIBUIÇÃO                object
COEF DE VARIAÇÃO DISTRIBUIÇÃO            object
ANO-MES                                  object
dtype: object

In [8]:
df.head(3)

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO,ANO-MES
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133,2004-05
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115,2004-05
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098,2004-05


In [9]:
df['PRODUTO'].value_counts()

PRODUTO
GASOLINA COMUM        23570
GLP                   23561
ETANOL HIDRATADO      23440
ÓLEO DIESEL           21194
GNV                   14469
ÓLEO DIESEL S10        9113
OLEO DIESEL S10        2376
OLEO DIESEL            2351
GASOLINA ADITIVADA      749
Name: count, dtype: int64

In [10]:
df.to_csv("../base/gasprice.csv", index=False)

# Desafios a parte para construção de gráficos:

1. Filtrar o DataFrame para obter apenas dados da "Gasolina Comum".
2. Obter preço médio de revenda da gasolina com base ao mes e ano (exemplo: 08-2008)
3. Obter preço médio de revendo da gasolina com base ao mes/ano e estado. (exemplo: 05-2014 em SP)
4. Países onde a gasolina ultrapassou R$5,00 e quando ocorreu.
5. Média de preço dos estados da região e ano.

In [11]:
# Filtrando DataFrame
df_gas = df[df["PRODUTO"] ==  "GASOLINA COMUM" ]
df_gas.PRODUTO.value_counts()

PRODUTO
GASOLINA COMUM    23570
Name: count, dtype: int64

In [12]:
# Filtrando DataFrame com base no Ano e Mes
df_revenda_mes_ano =  df_gas[df_gas["ANO-MES"] == "2008-08"][["PREÇO MÉDIO REVENDA"]]
df_revenda_mes_ano

Unnamed: 0,PREÇO MÉDIO REVENDA
17949,2.573
17950,2.429
17951,2.626
17952,2.718
17953,2.768
...,...
18079,2.546
18080,2.402
18081,2.438
18082,2.595


In [13]:
# Filtrando DataFrame com base no Ano/Mes e Estado
df_revenda_mes_ano_estado = df_gas[(df_gas["ANO-MES"] == "2014-05") & (df_gas["ESTADO"] == "SAO PAULO")]["PREÇO MÉDIO REVENDA"].mean()
df_revenda_mes_ano_estado

2.8822

In [14]:
# Filtrando DataFrame com base no Ano/Mes e Estado com valor definido
df_revenda_pais = df_gas[df_gas["PREÇO MÉDIO REVENDA"] > 5][["ESTADO", "ANO-MES", "PREÇO MÉDIO REVENDA"]]
display(df_revenda_pais)
display(df_revenda_pais["ESTADO"].value_counts())

Unnamed: 0,ESTADO,ANO-MES,PREÇO MÉDIO REVENDA
98201,ACRE,2018-05,5.053
98347,ACRE,2018-06,5.035
98493,ACRE,2018-06,5.038
98511,RIO DE JANEIRO,2018-06,5.016
98646,ACRE,2018-06,5.031
...,...,...,...
120721,RORAIMA,2021-05,5.364
120722,SANTA CATARINA,2021-05,5.051
120723,SAO PAULO,2021-05,5.265
120724,SERGIPE,2021-05,5.586


ESTADO
ACRE                   60
RIO DE JANEIRO         34
TOCANTINS              20
RIO GRANDE DO NORTE    14
DISTRITO FEDERAL       12
MINAS GERAIS           11
RIO GRANDE DO SUL      11
PIAUI                  11
PARA                   11
MATO GROSSO DO SUL     11
CEARA                  11
BAHIA                  11
ALAGOAS                11
PERNAMBUCO             10
SERGIPE                10
SANTA CATARINA         10
RONDONIA               10
AMAZONAS               10
MARANHAO               10
GOIAS                  10
ESPIRITO SANTO         10
PARAIBA                 9
MATO GROSSO             9
PARANA                  9
RORAIMA                 9
SAO PAULO               9
Name: count, dtype: int64

In [17]:
# Filtrando com região
df_aux = df_gas[df['DATA FINAL'].apply(lambda x: x.year) == 2020]
df_aux[df_aux['REGIÃO'] == "SUL"]["PREÇO MÉDIO REVENDA"].mean()

  df_aux = df_gas[df['DATA FINAL'].apply(lambda x: x.year) == 2020]


4.176280303030303