# Projeto de módulo 4 - Resilia - Analisando e tratando dados



Nosso objetivo nesse projeto é realizar a análise de dois datasets diferentes, relacionados aos preços, datas e locais de venda de todo tipo de combustível, no período de Junho a Julho de 2021

Importando as bibliotecas que serão utilizadas na nossa análise

In [1]:
import pandas as pd 
import numpy as np
from datetime import datetime, timedelta

## Análise de Dados do mês de Junho de 2021

### Importando nossos dados diretamente da URL

In [2]:
link = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-06-gasolina-etanol.csv'
dados_jun = pd.read_csv(link,sep=';')

## Realizando a limpeza dos dados de Junho de 2021

Verificando os dados antes de qualquer alteração, para localizar qualquer irregularidade

In [None]:
dados_jun.head()

Verificando se existem dados com valores nulos em suas células ( Valores NaN )

In [None]:
dados_jun.isna().sum()

Fazendo a substituição dos valores nulos ( NaN ) pela string **"Sem Complemento"**

In [5]:
dados_jun = dados_jun.fillna("Sem Complemento")

Deletando a coluna **"Valor de Compra"**, pois nessa coluna inexistem informações.

In [6]:
del dados_jun['Valor de Compra']

Substituindo todos os "Sem Complemento" na coluna Bairro pela string "N/A"

In [7]:
dados_jun['Bairro'] = dados_jun['Bairro'].replace(['Sem Complemento'],'N/A')

Removendo valores duplicados nas linhas

In [None]:
dados_jun.duplicated()
dados_jun.drop_duplicates()

Verificando se os dados foram substituídos corretamente

In [None]:
dados_jun[(dados_jun['Bairro'] == 'N/A')]

Aplicando métodos para atualização de colunas, ao analisar, percebi que estavam em valores **string**, e não **inteiro**, aplicando a função lambda para atualização de células.

In [10]:
dados_jun['Valor de Venda'] = dados_jun['Valor de Venda'].apply(lambda x:str(x).replace(",","."))
dados_jun['Valor de Venda'] = dados_jun['Valor de Venda'].astype('float64')
dados_jun['Cep'] = dados_jun['Cep'].apply(lambda x:str(x).replace("-","."))
dados_jun['Cep'] = dados_jun['Cep'].astype('float64')
dados_jun['CNPJ da Revenda'] = dados_jun['CNPJ da Revenda'].apply(lambda x:str(x).replace("/",".").replace("-","."))
dados_jun['CNPJ da Revenda'] = dados_jun['CNPJ da Revenda'].apply(lambda x:str(x).replace(".",""))

Ao verificar também, nota-se que a coluna de **"Data da Coleta"** não está em *DataStamp*, e sim em *String*, portanto, aplicamos uma função também para corrigir isso.

In [11]:
dados_jun['Data da Coleta'] = pd.to_datetime(dados_jun['Data da Coleta'])

Verificando os tipos de dados dentro de cada coluna no DataFrame

In [None]:
dados_jun.dtypes

Após esses procedimentos, nossos dados estão limpos e prontos para a análise, são procedimentos simples mas são fundamentais para que a análise ocorra de forma precisa e coesa, e que erros não apareçam durante ela. Abaixo vou fazer uma nova verificação de dados, imprimindo todo nosso *DataSet* e dar aquela última checada.

Última verificação para integridade dos dados.

In [None]:
dados_jun

## Análise dos Dados do mês de Julho de 2021

In [None]:
link2 = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-07-gasolina-etanol.csv'
dados_jul = pd.read_csv(link2,sep=';')
dados_jul

***Descrição utilizando 'ALL' para conter todos os dados***

In [None]:
dados_jul.describe(include= 'all')

***Print Informações do DataFrame***

In [None]:
dados_jul.info()

***Converter 'Valor de Venda' para float***

In [17]:
dados_jul["Valor de Venda"] = dados_jul["Valor de Venda"].replace(",",".", regex=True).astype(float)

In [18]:
dados_jul['Data da Coleta'] = dados_jul['Data da Coleta'].astype('datetime64[ns]')


In [None]:
dados_jul.info()

***Verificando dados nulos para cada coluna***

In [None]:
dados_jul.isna().sum()

***Remover do dataframe qualquer duplicata presente:***



In [None]:
#dados_jul = dados_jul.drop_duplicates()
dados_jul.duplicated()

***Subistituir dados nulos por "Sem complemento"***

In [22]:
dados_jul = dados_jul.fillna("Sem Complemento")

***Deletar a coluna "Valor de Compra" (não possui dados)***

In [23]:
del dados_jul['Valor de Compra']

***Substituir todos "Sem Complemento" na coluna Bairro pela string "N/A"***


In [24]:
dados_jul['Bairro'] = dados_jul['Bairro'].replace(['Sem Complemento'],'N/A')

***Verificando alterações***

In [None]:
dados_jul

## PERGUNTA 1: 
Como se comportaram o preço dos combustíveis durante os dois meses citados? Os valores do etanol e da gasolina tiveram uma tendência de queda ou diminuição?

In [None]:
analise_jul.groupby('Produto').mean().sort_values(by='Produto')

In [None]:
analise_jun.groupby('Produto').mean().sort_values(by='Produto')

## PERGUNTA 2:
Qual o preço médio da gasolina e do etanol nesses dois meses?

In [None]:
analise_jun.groupby('Produto').mean()

In [None]:
analise_jul.groupby('Produto').mean()

## PERGUNTA 3:
Quais os 5 estados com o preço médio da gasolina e do etanol mais caros?

In [None]:
gasolina_aditivada_concat.groupby(['Estado - Sigla','Produto'])[['Valor de Venda']].mean().sort_values(by='Valor de Venda' ,ascending=False)[:5].plot(kind = 'barh')

In [None]:
gasolina_concat.groupby(['Estado - Sigla','Produto'])[['Valor de Venda']].mean().sort_values(by='Valor de Venda' ,ascending=False)[:5].plot(kind = 'barh')

In [None]:
etanol_concat.groupby(['Estado - Sigla','Produto'])[['Valor de Venda']].mean().sort_values(by='Valor de Venda' ,ascending=False)[:5].plot(kind = 'barh')

## PERGUNTA 4:
Qual o preço médio da gasolina e do etanol por estado?

In [None]:
round(dados_concat.groupby(['Estado - Sigla','Produto'])[['Valor de Venda']].mean().sort_values(by='Estado - Sigla'),3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Valor de Venda
Estado - Sigla,Produto,Unnamed: 2_level_1
AC,ETANOL,5.535
AC,GASOLINA,6.443
AC,GASOLINA ADITIVADA,6.424
AL,ETANOL,5.187
AL,GASOLINA,5.958
...,...,...
SP,GASOLINA,5.462
SP,GASOLINA ADITIVADA,5.630
TO,GASOLINA,5.934
TO,ETANOL,5.133


In [None]:
round(dados_concat.groupby(['Estado - Sigla','Produto'])[['Valor de Venda']].mean().sort_values(by='Estado - Sigla', ascending= False),3).plot(kind = 'barh', figsize=(20,30))

## PERGUNTA 5:
 Qual o município que possui o menor preço para a gasolina e para o etanol?

In [None]:
gasolina_concat.groupby(['Estado - Sigla','Município','Produto'])[['Valor de Venda']].min().sort_values(by='Valor de Venda').head(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Valor de Venda
Estado - Sigla,Município,Produto,Unnamed: 3_level_1
MT,SORRISO,GASOLINA,4.398


In [None]:
gasolina_aditivada_concat.groupby(['Estado - Sigla','Município','Produto'])[['Valor de Venda']].min().sort_values(by='Valor de Venda').head(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Valor de Venda
Estado - Sigla,Município,Produto,Unnamed: 3_level_1
SP,COTIA,GASOLINA ADITIVADA,4.199


In [None]:
etanol_concat.groupby(['Estado - Sigla','Município','Produto'])[['Valor de Venda']].min().sort_values(by='Valor de Venda').head(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Valor de Venda
Estado - Sigla,Município,Produto,Unnamed: 3_level_1
SP,SANTA BARBARA D'OESTE,ETANOL,3.097


## PERGUNTA 6:
Qual o município que possui o maior preço para a gasolina e para o etanol?

In [None]:
gasolina_concat.groupby(['Estado - Sigla','Município','Produto'])[['Valor de Venda']].max().sort_values(by='Valor de Venda', ascending=False).head(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Valor de Venda
Estado - Sigla,Município,Produto,Unnamed: 3_level_1
RS,BAGE,GASOLINA,6.999


In [None]:
gasolina_aditivada_concat.groupby(['Estado - Sigla','Município','Produto'])[['Valor de Venda']].max().sort_values(by='Valor de Venda', ascending=False).head(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Valor de Venda
Estado - Sigla,Município,Produto,Unnamed: 3_level_1
RS,BAGE,GASOLINA ADITIVADA,7.097


In [None]:
etanol_concat.groupby(['Estado - Sigla','Município','Produto'])[['Valor de Venda']].max().sort_values(by='Valor de Venda', ascending=False).head(1)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Valor de Venda
Estado - Sigla,Município,Produto,Unnamed: 3_level_1
RS,PELOTAS,ETANOL,6.999


## R12