INTRODUÇÃO: 
Dataset: Gas Prices in Brazil: https://www.kaggle.com/matheusfreitag/gas-prices-in-brazil

Este dataset contém os registros dos preços médios semanais dos combustíveis do Brasil entre os anos de 2004 e 2019.
Cada observação (registro/linha) consiste em um registro de preço aferido para um dado tipo de combustível em uma dada localidade do Brasil.
Alguns dos principais atributos (colunas) do dataset são: 'ESTADO', 'PRODUTO', 'NÚMERO DE POSTOS PESQUISADOS', 'PREÇO MÉDIO REVENDA'.

* O arquivo disponibilizado no Kaggle está no formato tsv. Embora o pandas consiga abrí-lo normalmente, convertemos tal arquivo para o formato CSV, que é um dos formatos mais utilizados, e mudamos seu separado para ';' apenas para mostrar algumas opções da função de carregamento

1.IMPORTANDO BIBLIOTECAS E ARQUIVOS.

In [4]:
import pandas as pd
import seaborn as sns
import numpy as np
import plotly.express as px


ModuleNotFoundError: No module named 'pandas'

In [None]:
df_gas = pd.read_csv('GasPricesinBrazil_2004-2019.csv')
df_gas

: 

Encontramos o primeiro problema que é o separado que está em ponto e virgula.Então iremos novamente importar o arquivo mas indicando o seperador

In [None]:

df_gas = pd.read_csv('GasPricesinBrazil_2004-2019.csv', sep=';')
long_lat= pd.read_csv('estados.csv')
df_gas

: 

1.1 Pré-processamento e análise exploratória de dados

In [None]:
df_gas.info()

: 

In [None]:
df_gas.isnull().sum()

: 

In [None]:
df_gas.drop(labels=['DATA INICIAL','DATA FINAL','Unnamed: 0'], axis= 1).describe().transpose()

: 

In [None]:
df_gas.select_dtypes(object).describe().transpose()

: 

In [None]:

print(f'A soma do preço máximo de revenda {df_gas["PREÇO MÉDIO REVENDA"].sum().round(2)}')

: 

In [None]:
df_gas.groupby(['REGIÃO','PRODUTO'])['PREÇO MÉDIO REVENDA'].sum()

: 

In [None]:
df_gas.groupby('PRODUTO')['PREÇO MÉDIO REVENDA'].mean().round(2)

: 

In [None]:
df_gas.groupby('ESTADO')['NÚMERO DE POSTOS PESQUISADOS'].count().sort_values(ascending=False)

: 

In [None]:
df_gas.groupby('REGIÃO')['NÚMERO DE POSTOS PESQUISADOS'].sum()

: 

Depois de uma breve análise exploratória vimos que as colunas não possui numéros vazios(NaN), podemos ver também qual é o máximo, minimo e a média, pra cada coluna. A próxima etapa será limpeza de dados.

2. Limpeza e Transformação de dados.





Depois de uma análise exploratória, vimos que algumas colunas que deveriam está com tipo int64, estão object, as mesma possui linhas preenchida com hifén, também iremos descartar colunas que não será necessário para a nossa análise como por exemplo o "Unnamed: 0".


In [None]:
df_gas.drop(columns=['DATA INICIAL','DATA FINAL','Unnamed: 0'],inplace=True)
df_gas = df_gas.replace({'-':np.nan,0:np.nan})

: 

In [None]:
df_gas['UNIDADE DE MEDIDA'] = df_gas['UNIDADE DE MEDIDA'].replace(to_replace=['Kg','/','m'], value='', regex=True)

: 

In [None]:
df_gas.isnull().sum()

: 

In [None]:
df_gas.loc[df_gas['PREÇO MÍNIMO DISTRIBUIÇÃO'].isna()]

: 

In [None]:
for coluna in ['MARGEM MÉDIA REVENDA','PREÇO MÉDIO DISTRIBUIÇÃO','DESVIO PADRÃO DISTRIBUIÇÃO','PREÇO MÍNIMO DISTRIBUIÇÃO','PREÇO MÁXIMO DISTRIBUIÇÃO','COEF DE VARIAÇÃO DISTRIBUIÇÃO']:
    df_gas[coluna] = pd.to_numeric(df_gas[coluna], errors='coerce')
    df_gas[coluna] = df_gas[coluna].fillna(df_gas[coluna].median())
df_gas.info()

: 

In [None]:
df_gas

: 

In [None]:
for i in df_gas:
    df_gas[i] = df_gas[i].replace(to_replace=0, value=np.nan, regex=True)
df_gas.info()
for vazio in ['DESVIO PADRÃO REVENDA','COEF DE VARIAÇÃO REVENDA','DESVIO PADRÃO DISTRIBUIÇÃO','COEF DE VARIAÇÃO DISTRIBUIÇÃO']:
    df_gas[vazio] = df_gas[vazio].fillna(df_gas[vazio].median())
df_gas

: 

3. VISUALIZAÇÃO GRÁFICA

In [None]:
sns.set_theme(style='darkgrid')
sns.lineplot(data=df_gas,x='ANO', y='NÚMERO DE POSTOS PESQUISADOS', hue='REGIÃO')

: 

In [None]:
sns.set(rc={'figure.figsize':(20,10)})
sns.displot(data=df_gas, x='REGIÃO', col='PRODUTO',stat='count',kde=True)

: 

In [None]:
sns.histplot(data=df_gas, x='ANO',hue='PRODUTO', multiple='stack', legend=True)

: 

In [None]:
fig = px.bar(data_frame=df_gas, x='ANO',y='PREÇO MÉDIO REVENDA')
fig.show()

: 

: 

In [None]:
fig = px.bar(data_frame=df_gas, x='ANO' ,y='PREÇO MÉDIO DISTRIBUIÇÃO', color='REGIÃO')
fig.show()

: 

RESUMO DOS INSIGHT GERADO:

Os dados nos dizem que há região com mais postos pesquisados é região SUDESTE, porém a distribuição está mais concentrado na REGIÃO NORDESTE, podemos através do gráfico a decadência dos números de postos pesquisados ela tem um grande auge no ano de 2004 na região SUDESTE com o o passar dos anos temos uma grande decaída em relação ao número de posto pesquisados. O histórico de preços começa em 2004 e é atualizado, em geral, até a data do ano de 2019. Em termos nominais, a gasolina foi comercializada nesse período a cerca de R$ 3,1 por litro; já em termos reais, usando o índice de preços IPCA com último valor como data-base, foi comercializada a cerca de R$ 5,7 por litro. Ambos valores são médias do período, que é uma medida bastante sensível na presença de valores extremos na distribuição, como é o caso dos dados nominais. Os gráficos nos mostra que os preços de venda da gasolina variaram bastante, passando por diferentes tendências a depender do período em análise e tem a maior a crescente no ano de 2018,Por ser um preço monitorado ou administrado pelo governo, a gasolina pode sofrer variações que não podem ser explicadas pela lei de oferta e demanda da teoria econômica. Como podemos ver a maior parte de média de distribuição está maior na região NORDESTE, podemos analisar também que o PRODUTO mais vendido é o GLP que tem a maior quantidade vendida justamente na região NORDESTE.

SOLUÇÃO:
Com esta análise cheguei a seguinte conclusão de que para resolver a grande queda de número de postos pesquisados e a queda da revenda depois do ano de 2018, com uma crescente que teve nos anos passados. Podemos ter uma solução na qual os postos possa ter uma distribuição maior nos estados com pouca quantidade de revenda, focando no produto GLP já que é o mais vendido. Outra solução que podemos chegar é que o problema era a assimetria de informação: o motorista ia no posto A e abastecia e depois verificava que no posto B o preço era menor, Então um dashboard desenvolvido para ajuda o motorista a evitar esse tipo de situação seria o melhor? Possivelmente sim! Com o mapa o motorista pode facilmente verificar os postos mais próximos de sua localização, assim como consultar os dados de preço praticado recentemente e historicamente.

CONCLUSÃO:
Chegamos ao final dessa jornada por dentro da implementação de um projeto de análise dados. O objetivo foi resolver um problema real com dados reais, visando explorar os desafios que podem ser encontrados no dia a dia de trabalho.