# Análise variação do preço da gasolina

**Objetivo da análise**

Gerar uma tabela com a variação percentural ano a ano do preço médio da gasolina comum no estado do Rio de Janeiro.

**Base de Dados no Kaggle**

[https://www.kaggle.com/datasets/matheusfreitag/gas-prices-in-brazil](https://www.kaggle.com/datasets/matheusfreitag/gas-prices-in-brazil)

In [44]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from datetime import date

In [12]:
df_precos = pd.read_csv("precos.tsv", delimiter="\t", parse_dates=["DATA INICIAL", "DATA FINAL"])

In [13]:
df_precos.head()

Unnamed: 0,DATA INICIAL,DATA FINAL,REGIÃO,ESTADO,PRODUTO,NÚMERO DE POSTOS PESQUISADOS,UNIDADE DE MEDIDA,PREÇO MÉDIO REVENDA,DESVIO PADRÃO REVENDA,PREÇO MÍNIMO REVENDA,PREÇO MÁXIMO REVENDA,MARGEM MÉDIA REVENDA,COEF DE VARIAÇÃO REVENDA,PREÇO MÉDIO DISTRIBUIÇÃO,DESVIO PADRÃO DISTRIBUIÇÃO,PREÇO MÍNIMO DISTRIBUIÇÃO,PREÇO MÁXIMO DISTRIBUIÇÃO,COEF DE VARIAÇÃO DISTRIBUIÇÃO
0,2004-05-09,2004-05-15,CENTRO OESTE,DISTRITO FEDERAL,ETANOL HIDRATADO,127,R$/l,1.288,0.016,1.19,1.35,0.463,0.012,0.825,0.11,0.4201,0.9666,0.133
1,2004-05-09,2004-05-15,CENTRO OESTE,GOIAS,ETANOL HIDRATADO,387,R$/l,1.162,0.114,0.89,1.449,0.399,0.098,0.763,0.088,0.5013,1.05,0.115
2,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO,ETANOL HIDRATADO,192,R$/l,1.389,0.097,1.18,1.76,0.419,0.07,0.97,0.095,0.5614,1.161,0.098
3,2004-05-09,2004-05-15,CENTRO OESTE,MATO GROSSO DO SUL,ETANOL HIDRATADO,162,R$/l,1.262,0.07,1.09,1.509,0.432,0.055,0.83,0.119,0.5991,1.22242,0.143
4,2004-05-09,2004-05-15,NORDESTE,ALAGOAS,ETANOL HIDRATADO,103,R$/l,1.181,0.078,1.05,1.4,0.24,0.066,0.941,0.077,0.7441,1.0317,0.082


In [14]:
df_precos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120823 entries, 0 to 120822
Data columns (total 18 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   DATA INICIAL                   120823 non-null  datetime64[ns]
 1   DATA FINAL                     120823 non-null  datetime64[ns]
 2   REGIÃO                         120823 non-null  object        
 3   ESTADO                         120823 non-null  object        
 4   PRODUTO                        120823 non-null  object        
 5   NÚMERO DE POSTOS PESQUISADOS   120823 non-null  int64         
 6   UNIDADE DE MEDIDA              120823 non-null  object        
 7   PREÇO MÉDIO REVENDA            120823 non-null  float64       
 8   DESVIO PADRÃO REVENDA          120823 non-null  float64       
 9   PREÇO MÍNIMO REVENDA           120823 non-null  float64       
 10  PREÇO MÁXIMO REVENDA           120823 non-null  float64       
 11  

In [17]:
df_precos.columns

Index(['DATA INICIAL', 'DATA FINAL', 'REGIÃO', 'ESTADO', 'PRODUTO',
       'NÚMERO DE POSTOS PESQUISADOS', 'UNIDADE DE MEDIDA',
       'PREÇO MÉDIO REVENDA', 'DESVIO PADRÃO REVENDA', 'PREÇO MÍNIMO REVENDA',
       'PREÇO MÁXIMO REVENDA', 'MARGEM MÉDIA REVENDA',
       'COEF DE VARIAÇÃO REVENDA', 'PREÇO MÉDIO DISTRIBUIÇÃO',
       'DESVIO PADRÃO DISTRIBUIÇÃO', 'PREÇO MÍNIMO DISTRIBUIÇÃO',
       'PREÇO MÁXIMO DISTRIBUIÇÃO', 'COEF DE VARIAÇÃO DISTRIBUIÇÃO'],
      dtype='object')

In [18]:
df_tratado_precos = df_precos.copy()

In [19]:
df_tratado_precos.columns = ['DATA_INICIAL', 'DATA_FINAL', 'REGIAO', 'ESTADO', 'PRODUTO',
       'NM_POSTOS_PESQUISADOS', 'UNIDADE_MEDIDA',
       'PRECO_MEDIO_REVENDA', 'STD_REVENDA', 'PRECO_MINIMO_REVENDA',
       'PRECO_MAXIMO_REVENDA', 'MARGEM_MEDIA_REVENDA',
       'COEF_VARIACAO_REVENDA', 'PRECO_MEDIO_DISTRIBUICAO',
       'STD_DISTRIBUIÇÃO', 'PRECO_MINIMO_DISTRIBUICAO',
       'PRECO_MAXIMO_DISTRIBUICAO', 'COEF_VARIACAO_DISTRIBUICAO']

In [22]:
df_tratado_precos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120823 entries, 0 to 120822
Data columns (total 18 columns):
 #   Column                      Non-Null Count   Dtype         
---  ------                      --------------   -----         
 0   DATA_INICIAL                120823 non-null  datetime64[ns]
 1   DATA_FINAL                  120823 non-null  datetime64[ns]
 2   REGIAO                      120823 non-null  object        
 3   ESTADO                      120823 non-null  object        
 4   PRODUTO                     120823 non-null  object        
 5   NM_POSTOS_PESQUISADOS       120823 non-null  int64         
 6   UNIDADE_MEDIDA              120823 non-null  object        
 7   PRECO_MEDIO_REVENDA         120823 non-null  float64       
 8   STD_REVENDA                 120823 non-null  float64       
 9   PRECO_MINIMO_REVENDA        120823 non-null  float64       
 10  PRECO_MAXIMO_REVENDA        120823 non-null  float64       
 11  MARGEM_MEDIA_REVENDA        120823 non-

In [23]:
df_tratado_precos.shape

(120823, 18)

In [32]:
df_tratado_precos['PRODUTO'] == 'GASOLINA COMUM'

0         False
1         False
2         False
3         False
4         False
          ...  
120818    False
120819    False
120820    False
120821    False
120822    False
Name: PRODUTO, Length: 120823, dtype: bool

In [99]:
df_rj = df_tratado_precos.loc[df_tratado_precos['ESTADO'] == "RIO DE JANEIRO"]

In [100]:
df_rj_gasolina = df_rj.loc[df_rio_de_janeiro['PRODUTO'] == 'GASOLINA COMUM'].copy()

In [101]:
df_rj_gasolina.head()

Unnamed: 0,DATA_INICIAL,DATA_FINAL,REGIAO,ESTADO,PRODUTO,NM_POSTOS_PESQUISADOS,UNIDADE_MEDIDA,PRECO_MEDIO_REVENDA,STD_REVENDA,PRECO_MINIMO_REVENDA,PRECO_MAXIMO_REVENDA,MARGEM_MEDIA_REVENDA,COEF_VARIACAO_REVENDA,PRECO_MEDIO_DISTRIBUICAO,STD_DISTRIBUIÇÃO,PRECO_MINIMO_DISTRIBUICAO,PRECO_MAXIMO_DISTRIBUICAO,COEF_VARIACAO_DISTRIBUICAO
12086,2004-05-09,2004-05-15,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1071,R$/l,2.045,0.109,1.7,2.599,0.254,0.053,1.791,0.047,1.6363,1.9594,0.026
12113,2004-05-16,2004-05-22,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.04,0.113,1.7,2.599,0.252,0.055,1.788,0.049,1.5943,1.99651,0.027
12140,2004-05-23,2004-05-29,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.042,0.108,1.7,2.599,0.252,0.053,1.79,0.046,1.63596,2.2137,0.026
12167,2004-05-30,2004-06-05,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1055,R$/l,2.053,0.111,1.73,2.599,0.251,0.054,1.802,0.055,1.64,2.21425,0.031
12194,2004-06-06,2004-06-12,SUDESTE,RIO DE JANEIRO,GASOLINA COMUM,1091,R$/l,2.063,0.107,1.76,2.599,0.247,0.052,1.816,0.054,1.64,2.32425,0.03


In [102]:
df_rj_gasolina['ANO'] = df_rj_gasolina['DATA_FINAL'].dt.year

In [103]:
variacao_percentual = df_rj_gasolina.groupby("ANO").agg(
{
    'PRECO_MEDIO_REVENDA':np.mean
}).copy()

In [118]:
variacao_percentual.head()

Unnamed: 0_level_0,PRECO_MEDIO_REVENDA
ANO,Unnamed: 1_level_1
2004,2.171939
2005,2.338588
2006,2.561365
2007,2.532077
2008,2.546731


Int64Index([2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013,
            2014, 2015, 2016, 2017, 2018, 2019, 2020],
           dtype='int64', name='ANO')