Projeto de análise descritiva, sobre o preço da gasolina comum no ano de 2022, nos postos Automoto - Automóveis do Amapá, com base em 12 conjuntos de dados, disponível na "[Série Histórica de Preços de Combustíveis](https://dados.gov.br/dados/conjuntos-dados/serie-historica-de-precos-de-combustiveis-por-revenda)", do Portal de Dados Abertos do governo.

# IDENTIFICAÇÃO DA POPULAÇÃO DO ESTUDO E DAS VARIÁVEIS DE INTERESSE
A população de estudo será dada com base nos dados dos postos Automoto no estado do Amapá.

## Manipulação de Dados
A biblioteca para manipulação de dados a ser utilizada neste projeto será o pandas.

### Importação do Pandas e leitura dos dataframes

In [1]:
import pandas as pd

O conjunto de dados utilizado é resultado de uma concatenação de 12 datasets disponível na citação acima.

In [2]:
df = pd.read_csv("/content/drive/MyDrive/projetos/estudo_etanol_gasolina_comum2022/gasolinaEtanolComum2022.csv",
                 sep=';')
df.head()

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,N,AC,RIO BRANCO,AUTO POSTO AMAPA - EIRELI,00.529.581/0001-53,VIA CHICO MENDES,3570,,AREAL,69906-119,GASOLINA,03/01/2022,699,,R$ / litro,VIBRA ENERGIA
1,SE,MG,MANHUACU,AUTO POSTO ITAUNA LTDA,13.005.663/0001-40,RUA LUIZ CERQUEIRA,55,,CENTRO,36900-085,GASOLINA ADITIVADA,03/01/2022,7489,,R$ / litro,VIBRA ENERGIA
2,SE,SP,SANTO ANDRE,POSTO DE GASOLINA MONTE CARLO LTDA,13.007.891/0001-50,RUA JORGE BERETTA,960,TERREO,PARQUE ERASMO ASSSUNCAO,09271-400,GASOLINA,03/01/2022,6397,,R$ / litro,IPIRANGA
3,SE,SP,SANTO ANDRE,POSTO DE GASOLINA MONTE CARLO LTDA,13.007.891/0001-50,RUA JORGE BERETTA,960,TERREO,PARQUE ERASMO ASSSUNCAO,09271-400,ETANOL,03/01/2022,4997,,R$ / litro,IPIRANGA
4,SE,SP,SANTO ANDRE,POSTO DE GASOLINA MONTE CARLO LTDA,13.007.891/0001-50,RUA JORGE BERETTA,960,TERREO,PARQUE ERASMO ASSSUNCAO,09271-400,GASOLINA ADITIVADA,03/01/2022,6597,,R$ / litro,IPIRANGA


In [3]:
df.shape

(603015, 16)

### Organização dos dados
O dataframe `df` contém os dados de todo o Brasil, com um ottal de 603015 registros (linhas) e 16 variáveis (colunas), assim, será feita uma amostragem, contendo apenas os dados do estado do Amapá.

In [4]:
df_ap = df.copy().rename(columns={"Estado - Sigla": "SIGLA_ESTADO"}).query("SIGLA_ESTADO == 'AP'")
df_ap.head()

Unnamed: 0,Regiao - Sigla,SIGLA_ESTADO,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
4070,N,AP,MACAPA,AUTOMOTO - AUTOMOVEIS DO AMAPA LTDA,03.659.452/0013-01,AVENIDA CARLOS LINS CORTES,1844,,INFRAERO,68908-074,GASOLINA,04/01/2022,586,,R$ / litro,BRANCA
4071,N,AP,MACAPA,AUTOMOTO - AUTOMOVEIS DO AMAPA LTDA,03.659.452/0015-73,AVENIDA HENRIQUE GALUCIO,161,LETRA A,CENTRAL,68900-115,GASOLINA,04/01/2022,586,,R$ / litro,BRANCA
5412,N,AP,MACAPA,POSTO ICCAR LTDA,02.280.133/0034-52,AVENIDA RIO VILA NOVA,62,ESQ. C/ RUA BEIRA RIO,TREM,68905-160,GASOLINA,04/01/2022,583,,R$ / litro,BRANCA
5413,N,AP,MACAPA,AUTOMOTO COMBUSTIVEIS DO AMAPA LTDA,05.983.192/0003-89,RUA CANDIDO MENDES,167,,CENTRAL,68900-100,GASOLINA,04/01/2022,586,,R$ / litro,BRANCA
9235,N,AP,MACAPA,AUTOMOTO - AUTOMOVEIS DO AMAPA LTDA,03.659.452/0006-82,RUA CICERO MARQUES DE SOUZA,3134,,NOVO HORIZONTE,68909-803,GASOLINA,05/01/2022,586,,R$ / litro,VIBRA ENERGIA


In [5]:
df_ap.shape

(1391, 16)

O estado do Amapá possui um total de 1391 registros.

#### Renomeando variáveis
As variáveis serão colocadas em caixa-alta e separadas por underline.

In [6]:
df_ap.rename(columns={"Regiao - Sigla": "SIGLA_REGIAO"},
             inplace=True)

In [7]:
ajuste_variavel = {i:i.upper().replace(" ", "_") for i in df_ap.columns}

In [8]:
df_ap.rename(columns=ajuste_variavel, inplace=True)

In [9]:
df_ap.columns

Index(['SIGLA_REGIAO', 'SIGLA_ESTADO', 'MUNICIPIO', 'REVENDA',
       'CNPJ_DA_REVENDA', 'NOME_DA_RUA', 'NUMERO_RUA', 'COMPLEMENTO', 'BAIRRO',
       'CEP', 'PRODUTO', 'DATA_DA_COLETA', 'VALOR_DE_VENDA', 'VALOR_DE_COMPRA',
       'UNIDADE_DE_MEDIDA', 'BANDEIRA'],
      dtype='object')

#### Renomeando registros
Os registros do tipo object (texto) serão renomeados, para facilitar a visualização na tabela.

In [10]:
registro_antigo = [[j for j in df_ap[i]] for i in df_ap.columns]

In [11]:
ajuste_registro = [[j.title() if isinstance(j, str) else j
                    for j in df_ap[i]] for i in df_ap.columns]

In [12]:
for var, i in zip(df_ap.columns, list(range(len(df_ap.columns)))):
    df_ap.replace(registro_antigo[i], ajuste_registro[i], inplace=True)

In [13]:
df_ap.head()

Unnamed: 0,SIGLA_REGIAO,SIGLA_ESTADO,MUNICIPIO,REVENDA,CNPJ_DA_REVENDA,NOME_DA_RUA,NUMERO_RUA,COMPLEMENTO,BAIRRO,CEP,PRODUTO,DATA_DA_COLETA,VALOR_DE_VENDA,VALOR_DE_COMPRA,UNIDADE_DE_MEDIDA,BANDEIRA
4070,N,Ap,Macapa,Automoto - Automoveis Do Amapa Ltda,03.659.452/0013-01,Avenida Carlos Lins Cortes,1844,,Infraero,68908-074,Gasolina,04/01/2022,586,,R$ / Litro,Branca
4071,N,Ap,Macapa,Automoto - Automoveis Do Amapa Ltda,03.659.452/0015-73,Avenida Henrique Galucio,161,Letra A,Central,68900-115,Gasolina,04/01/2022,586,,R$ / Litro,Branca
5412,N,Ap,Macapa,Posto Iccar Ltda,02.280.133/0034-52,Avenida Rio Vila Nova,62,Esq. C/ Rua Beira Rio,Trem,68905-160,Gasolina,04/01/2022,583,,R$ / Litro,Branca
5413,N,Ap,Macapa,Automoto Combustiveis Do Amapa Ltda,05.983.192/0003-89,Rua Candido Mendes,167,,Central,68900-100,Gasolina,04/01/2022,586,,R$ / Litro,Branca
9235,N,Ap,Macapa,Automoto - Automoveis Do Amapa Ltda,03.659.452/0006-82,Rua Cicero Marques De Souza,3134,,Novo Horizonte,68909-803,Gasolina,05/01/2022,586,,R$ / Litro,Vibra Energia


In [14]:
df_ap.dtypes

SIGLA_REGIAO          object
SIGLA_ESTADO          object
MUNICIPIO             object
REVENDA               object
CNPJ_DA_REVENDA       object
NOME_DA_RUA           object
NUMERO_RUA            object
COMPLEMENTO           object
BAIRRO                object
CEP                   object
PRODUTO               object
DATA_DA_COLETA        object
VALOR_DE_VENDA        object
VALOR_DE_COMPRA      float64
UNIDADE_DE_MEDIDA     object
BANDEIRA              object
dtype: object

#### Estratificação da população
A população será estratificada com base na gasolina do tipo comum e na revenda com maior ocorrência de dados.

In [15]:
df_ap.PRODUTO.value_counts()

PRODUTO
Gasolina              1163
Gasolina Aditivada     183
Etanol                  45
Name: count, dtype: int64

In [16]:
df_ap.REVENDA.value_counts()

REVENDA
Automoto - Automoveis Do Amapa Ltda          331
Automoto Combustiveis Do Amapa Ltda          193
Sepe Tiaraju Empreendimentos Eireli          115
Comercial Grao De Ouro Ltda                  106
Posto De Combustiveis Jardins Eireli         102
Claudionor Costa Dos Santos                   83
Posto Iccar Ltda                              70
Grampos Oiapoc Ltda                           64
Real Petróleo Ltda                            63
J C Da S Farias Eireli                        62
Auto Posto Machado Ltda                       62
Auto Posto Terceiro Milênio Ltda              38
Souza & Cavalcante Comercio Ltda              24
Monte & Filhos Ltda                           21
Aeroposto Combustiveis Automotivos Ltda       18
J. C. S. Guimaraes Ltda                       14
Posto Catarinao Eireli                        10
Auto Posto Playcenter Ltda                     4
Machado & Andrade Ltda                         3
Auto Posto Amazonas Stn Ltda                   2
R E R Empree

A revenda com maior ocorrência de dados é a Automoto - Automoveis Do Amapa Ltda.

In [17]:
automoto_atmv = df_ap.copy().query("PRODUTO == 'Gasolina'\
and REVENDA == 'Automoto - Automoveis Do Amapa Ltda'")
automoto_atmv.head()

Unnamed: 0,SIGLA_REGIAO,SIGLA_ESTADO,MUNICIPIO,REVENDA,CNPJ_DA_REVENDA,NOME_DA_RUA,NUMERO_RUA,COMPLEMENTO,BAIRRO,CEP,PRODUTO,DATA_DA_COLETA,VALOR_DE_VENDA,VALOR_DE_COMPRA,UNIDADE_DE_MEDIDA,BANDEIRA
4070,N,Ap,Macapa,Automoto - Automoveis Do Amapa Ltda,03.659.452/0013-01,Avenida Carlos Lins Cortes,1844,,Infraero,68908-074,Gasolina,04/01/2022,586,,R$ / Litro,Branca
4071,N,Ap,Macapa,Automoto - Automoveis Do Amapa Ltda,03.659.452/0015-73,Avenida Henrique Galucio,161,Letra A,Central,68900-115,Gasolina,04/01/2022,586,,R$ / Litro,Branca
9235,N,Ap,Macapa,Automoto - Automoveis Do Amapa Ltda,03.659.452/0006-82,Rua Cicero Marques De Souza,3134,,Novo Horizonte,68909-803,Gasolina,05/01/2022,586,,R$ / Litro,Vibra Energia
9237,N,Ap,Macapa,Automoto - Automoveis Do Amapa Ltda,03.659.452/0002-59,Rua Hildemar Maia,900,A,Santa Rita,68901-310,Gasolina,05/01/2022,586,,R$ / Litro,Branca
11052,N,Ap,Macapa,Automoto - Automoveis Do Amapa Ltda,03.659.452/0014-92,Rua Eliezer Levy,1047,Letra A,Central,68900-083,Gasolina,06/01/2022,586,,R$ / Litro,Branca


Verificando se há registros vazios na variável VALOR_DE_VENDA.

In [18]:
automoto_atmv.VALOR_DE_VENDA.isnull().value_counts()

VALOR_DE_VENDA
False    330
Name: count, dtype: int64

Serão removidas variáveis que não serão utilizadas nos estudos.

In [19]:
automoto_atmv.SIGLA_REGIAO.value_counts()

SIGLA_REGIAO
N    330
Name: count, dtype: int64

In [20]:
automoto_atmv.SIGLA_ESTADO.value_counts()

SIGLA_ESTADO
Ap    330
Name: count, dtype: int64

In [21]:
automoto_atmv.VALOR_DE_COMPRA.isnull().value_counts()

VALOR_DE_COMPRA
True    330
Name: count, dtype: int64

In [22]:
automoto_atmv.drop(columns=["PRODUTO", "REVENDA", "SIGLA_ESTADO",
                            "SIGLA_REGIAO", "VALOR_DE_COMPRA"], inplace=True)

In [23]:
automoto_atmv.shape

(330, 11)

Será necessário fazer uma mudança do tipo da variável `VALOR_DE_VENDA`, suprindo a necessidade de operações numéricas do estudo.

In [24]:
vv_novo = [i.replace(",", ".") for i in automoto_atmv.VALOR_DE_VENDA]

In [25]:
automoto_atmv.VALOR_DE_VENDA.replace(automoto_atmv.VALOR_DE_VENDA.values,
                                     vv_novo, inplace=True)

In [26]:
automoto_atmv["VALOR_DE_VENDA"] = automoto_atmv.VALOR_DE_VENDA.astype(float)

A população a ser utilizada no estudo contemplará os 4 bairros com maior quantidade de dados.

In [27]:
automoto_atmv.BAIRRO.value_counts()

BAIRRO
Central           103
Pacoval            47
Santa Rita         40
Buritizal          39
Trem               28
Novo Horizonte     22
Infraero           21
Congos             12
Novo Buritizal     11
Sao Jose            7
Name: count, dtype: int64

In [28]:
bairros = list(automoto_atmv.BAIRRO.value_counts().index)[:4]

In [29]:
automoto_atmv2 = automoto_atmv.copy()[automoto_atmv["BAIRRO"].isin(bairros)]
automoto_atmv2.head()

Unnamed: 0,MUNICIPIO,CNPJ_DA_REVENDA,NOME_DA_RUA,NUMERO_RUA,COMPLEMENTO,BAIRRO,CEP,DATA_DA_COLETA,VALOR_DE_VENDA,UNIDADE_DE_MEDIDA,BANDEIRA
4071,Macapa,03.659.452/0015-73,Avenida Henrique Galucio,161,Letra A,Central,68900-115,04/01/2022,5.86,R$ / Litro,Branca
9237,Macapa,03.659.452/0002-59,Rua Hildemar Maia,900,A,Santa Rita,68901-310,05/01/2022,5.86,R$ / Litro,Branca
11052,Macapa,03.659.452/0014-92,Rua Eliezer Levy,1047,Letra A,Central,68900-083,06/01/2022,5.86,R$ / Litro,Branca
11211,Macapa,03.659.452/0007-63,Rua Hildemar Maia,2699,,Buritizal,68902-870,06/01/2022,5.86,R$ / Litro,Branca
12130,Macapa,03.659.452/0001-78,Rua Guanabara,503,,Pacoval,68908-360,06/01/2022,5.86,R$ / Litro,Branca


# DESCRIÇÃO DOS DADOS

## Medidas de Tendência Central
Com as Medidas de Tendência Central, o conjunto de dados pode ser representado como um todo, com suas características sendo identificadas.

Tendo em vista que o conjunto de dados é datado ao ano de 2022, será feito um ajuste na data, para facilitar a visualização dos dados.

In [30]:
ajuste_data = [i.replace("/2022", '') for i in automoto_atmv2.DATA_DA_COLETA]

In [31]:
automoto_atmv2.DATA_DA_COLETA.replace(automoto_atmv2.DATA_DA_COLETA.values,
                                      ajuste_data, inplace=True)

Serão criado 4 subdataframes, para as medidas de tendência central e uso posterior.

In [32]:
atmv_bairro1 = automoto_atmv2[automoto_atmv2.BAIRRO == bairros[0]]
atmv_bairro2 = automoto_atmv2[automoto_atmv2.BAIRRO == bairros[1]]
atmv_bairro3 = automoto_atmv2[automoto_atmv2.BAIRRO == bairros[2]]
atmv_bairro4 = automoto_atmv2[automoto_atmv2.BAIRRO == bairros[3]]

**Média:**  
Com a média, têm-se a concentração dos dados.

In [33]:
md_b1 = round(atmv_bairro1.VALOR_DE_VENDA.mean(), 3)
md_b2 = round(atmv_bairro2.VALOR_DE_VENDA.mean(), 3)
md_b3 = round(atmv_bairro3.VALOR_DE_VENDA.mean(), 3)
md_b4 = round(atmv_bairro4.VALOR_DE_VENDA.mean(), 3)

**Moda:**  
A moda mostra o valor, ou valores que mais se repetem nos dados.

In [34]:
mod_b1 = list(atmv_bairro1.VALOR_DE_VENDA.mode())
mod_b2 = list(atmv_bairro2.VALOR_DE_VENDA.mode())
mod_b3 = list(atmv_bairro3.VALOR_DE_VENDA.mode())
mod_b4 = list(atmv_bairro4.VALOR_DE_VENDA.mode())

**Mediana:**  
Com a mediana obtemos o valor central no dataset.

In [35]:
mdn_b1 = round(atmv_bairro1.VALOR_DE_VENDA.median(), 3)
mdn_b2 = round(atmv_bairro2.VALOR_DE_VENDA.median(), 3)
mdn_b3 = round(atmv_bairro3.VALOR_DE_VENDA.median(), 3)
mdn_b4 = round(atmv_bairro4.VALOR_DE_VENDA.median(), 3)

In [36]:
dados_mtc = {"MEDIA": [md_b1, md_b2, md_b3, md_b4],
             "MODA": [mod_b1, mod_b2, mod_b3, mod_b4],
             "MEDIANA": [mdn_b1, mdn_b2, mdn_b3, mdn_b4]}

In [37]:
df_mtc = pd.DataFrame(dados_mtc, index=bairros)
df_mtc

Unnamed: 0,MEDIA,MODA,MEDIANA
Central,5.486,[6.44],5.79
Pacoval,5.504,"[6.25, 6.44]",5.79
Santa Rita,5.463,[6.44],5.775
Buritizal,5.549,"[6.25, 6.44]",5.82


Apesar de se tratar de 4 postos de vendas diferentes, as medidas de tendência central encontram-se em coesão, pois tratam-se da mesma revenda.

## Visualização dos Dados

### Boxplot
O boxplot representa a distribuição dos dados no conjunto. O mesmo contém os 4 postos com maior quantidade de dados.

In [38]:
import plotly.express as px

In [39]:
tema = px.colors.qualitative.Light24

In [40]:
boxplot_precos = px.box(automoto_atmv2, y="VALOR_DE_VENDA", color="BAIRRO",
                   points="all", notched=True,
                   color_discrete_sequence=tema)

boxplot_precos.update_layout(width=1000, plot_bgcolor="#F9F9F9",
                        title=dict(text="Automoto - Automoveis Do Amapá\
 Ltda.<br>Preço da Gasolina 2022<br>", x=0.5, y=0.96, font_size=22),
                        legend=dict(title="Bairro", bgcolor="#F9F9F9",
                                    bordercolor="#D0D1D3", borderwidth=1,
                                    font=dict(size=14)))

boxplot_precos.update_xaxes(showline=True, linewidth=1, linecolor="lightgrey")

boxplot_precos.update_yaxes(title="Valor de Venda", showline=True, linewidth=1,
                            linecolor="lightgrey", tickprefix="R$")

Com este resultado, é possível perceber que a amplitude escalar do preço da gasolina entre os 4 postos encontra semelhança entre si, bem como a centralidade dos dados nos conjuntos. É possível notar ainda que, entre a mediana e o limite inferior dos dados, há uma dispersão maior no conjunto de dados, enquanto que entre a mediana e o limite superior, os dados estão mais concentrados.

### Escala de preços
A escala de preços em relação a data revela a variação do preço da gasolina comum em determinada data.

In [41]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

In [42]:
dados_precos = go.Scatter(x=automoto_atmv2.DATA_DA_COLETA,
                          y=automoto_atmv2.VALOR_DE_VENDA, mode="lines",
                          line=dict(color=tema[0]))

layout_precos = go.Layout(title=dict(text="Escala de Preços 2022 - \
Postos Automoto", x=0.5, font_size=22),
                          xaxis=dict(title="Data"),
                          yaxis=dict(title="Preço"), height=600)

indice_precos = go.Figure(data=dados_precos, layout=layout_precos)

indice_precos.update_layout(xaxis_range=[15, 50], plot_bgcolor="#F9F9F9")

indice_precos.update_yaxes(showline=True, linewidth=1, linecolor="lightgrey",
                           tickprefix="R$")
indice_precos.update_xaxes(showline=True, linewidth=1, linecolor="lightgrey",
                           rangeslider_visible=True)

Com base na representação gráfica, é possível notar que entre o período de 25/04 a 22/06, houve uma consistência no preço da gasolina. Após este período,houve uma decrescente até o dia 28/09.  
Vejamos esta relação, tendo em vista os 4 postos analisados anteriormente, de forma separada.

In [43]:
quadro_precos = make_subplots(rows=2, cols=2, subplot_titles=bairros)

quadro_precos.add_trace(go.Scatter(x=atmv_bairro1.DATA_DA_COLETA,
                         y=atmv_bairro1.VALOR_DE_VENDA,
                         line=dict(color=tema[0]),
                         name=bairros[0]), row=1, col=1)

quadro_precos.add_trace(go.Scatter(x=atmv_bairro2.DATA_DA_COLETA,
                         y=atmv_bairro2.VALOR_DE_VENDA,
                         line=dict(color=tema[1]),
                         name=bairros[1]), row=1, col=2)

quadro_precos.add_trace(go.Scatter(x=atmv_bairro3.DATA_DA_COLETA,
                         y=atmv_bairro3.VALOR_DE_VENDA,
                         line=dict(color=tema[2]),
                         name=bairros[2]), row=2, col=1)

quadro_precos.add_trace(go.Scatter(x=atmv_bairro4.DATA_DA_COLETA,
                         y=atmv_bairro4.VALOR_DE_VENDA,
                         line=dict(color=tema[3]),
                         name=bairros[3]), row=2, col=2)

quadro_precos.update_traces(mode="lines")

quadro_precos.update_layout(height=700, plot_bgcolor="white",
                  title=dict(text="Automoto - Automoveis Do Amapá Ltda.<br>\
Preço da Gasolina 2022<br>", x=0.5, y=0.95, font_size=22),
                  legend=dict(title="Bairros", bgcolor="#F9F9F9",
                              bordercolor="#D0D1D3", borderwidth=1,
                              font=dict(size=14)))

quadro_precos.update_xaxes(showline=True, linewidth=1, linecolor="lightgrey",
                 tickangle=45)
quadro_precos.update_yaxes(showline=True, linewidth=1, linecolor="lightgrey",
                 tickprefix="R$")

Há similaridade quanto a visualização gráfica em relação ao preço da gasolina comum entre os 4 postos.