# Projeto de módulo 4 - Resilia - Analisando e tratando dados



Nosso objetivo nesse projeto é realizar a análise de dois datasets diferentes, relacionados aos preços, datas e locais de venda de todo tipo de combustível, no período de Junho a Julho de 2021

Importando as bibliotecas que serão utilizadas na nossa análise

In [None]:
import pandas as pd 
import numpy as np
from datetime import datetime, timedelta

## Análise de Dados do mês de Junho de 2021

### Importando nossos dados diretamente da URL

In [None]:
link = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-06-gasolina-etanol.csv'
dados_jun = pd.read_csv(link,sep=';')

## Realizando a limpeza dos dados

Verificando os dados antes de qualquer alteração, para localizar qualquer irregularidade

In [None]:
dados_jun.head()

Verificando se existem dados com valores nulos em suas células ( Valores NaN )

In [None]:
dados_jun.isna().sum()

Fazendo a substituição dos valores nulos ( NaN ) pela string **"Sem Complemento"**

In [None]:
dados_jun = dados_jun.fillna("Sem Complemento")

Deletando a coluna **"Valor de Compra"**, pois nessa coluna inexistem informações.

In [None]:
del dados_jun['Valor de Compra']

Substituindo todos os "Sem Complemento" na coluna Bairro pela string "N/A"

In [None]:
dados_jun['Bairro'] = dados_jun['Bairro'].replace(['Sem Complemento'],'N/A')

Removendo valores duplicados nas linhas

In [None]:
dados_jun.duplicated()
dados_jun.drop_duplicates()

Verificando se os dados foram substituídos corretamente

In [None]:
dados_jun[(dados_jun['Bairro'] == 'N/A')]

Aplicando métodos para atualização da coluna **"Valor de Venda"**, ao analisar, percebi que estavam em valores **string**, e não **inteiro**, aplicando a função lambda para atualização de células.

In [None]:
dados_jun['Valor de Venda'] = dados_jun['Valor de Venda'].apply(lambda x:str(x).replace(",","."))
dados_jun['Valor de Venda'] = dados_jun['Valor de Venda'].astype('float64')

Ao verificar também, nota-se que a coluna de **"Data da Coleta"** não está em *DataStamp*, e sim em *String*, portanto, aplicamos uma função também para corrigir isso.

In [None]:
dados_jun['Data da Coleta'] = pd.to_datetime(dados_jun['Data da Coleta'])

Verificando os tipos de dados dentro de cada coluna no DataFrame

In [None]:
dados_jun.dtypes

Após esses procedimentos, nossos dados estão limpos e prontos para a análise, são procedimentos simples mas são fundamentais para que a análise ocorra de forma precisa e coesa, e que erros não apareçam durante ela. Abaixo vou fazer uma nova verificação de dados, imprimindo todo nosso *DataSet* e dar aquela última checada.

Última verificação para integridade dos dados.

In [None]:
dados_jun

## Análise dos Dados do mês de Julho de 2021

In [None]:
link2 = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-07-gasolina-etanol.csv'
dados_jul = pd.read_csv(link2,sep=';')
dados_jul

Unnamed: 0,Região - Sigla,Estado - Sigla,Município,Revenda,CNPJ da Revenda,Nome da Rua,Número Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,NE,CE,MARACANAU,BEZERRA & MENDES COMERCIAL DE PETRÓLEO LTDA.,05.397.086/0001-51,RODOVIA MARANGUAPE - FORTALEZA - KM 06,S/N,,PARQUE LUZARDO VIANA,61910-000,GASOLINA,01/07/2021,5499,,R$ / litro,IPIRANGA
1,NE,CE,MARACANAU,BEZERRA & MENDES COMERCIAL DE PETRÓLEO LTDA.,05.397.086/0001-51,RODOVIA MARANGUAPE - FORTALEZA - KM 06,S/N,,PARQUE LUZARDO VIANA,61910-000,ETANOL,01/07/2021,52,,R$ / litro,IPIRANGA
2,NE,CE,MARACANAU,BEZERRA & MENDES COMERCIAL DE PETRÓLEO LTDA.,05.397.086/0001-51,RODOVIA MARANGUAPE - FORTALEZA - KM 06,S/N,,PARQUE LUZARDO VIANA,61910-000,GASOLINA ADITIVADA,01/07/2021,5699,,R$ / litro,IPIRANGA
3,NE,CE,MARACANAU,LUIZA GLAURIA R T MENEZES,03.602.329/0001-10,ESTRADA FORTALEZA MARANGUAPE,S/N,,KAGADO,61901-410,GASOLINA,01/07/2021,549,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
4,NE,CE,MARACANAU,LUIZA GLAURIA R T MENEZES,03.602.329/0001-10,ESTRADA FORTALEZA MARANGUAPE,S/N,,KAGADO,61901-410,ETANOL,01/07/2021,499,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
47844,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,GASOLINA ADITIVADA,26/07/2021,587,,R$ / litro,BRANCA
47845,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,ETANOL,26/07/2021,499,,R$ / litro,BRANCA
47846,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,GASOLINA,26/07/2021,587,,R$ / litro,BRANCA
47847,SE,MG,ARAXA,AUTO POSTO BRANQUINHO LTDA,37.461.683/0001-94,AVENIDA SENADOR MONTANDON,950,,CENTRO,38183-214,ETANOL,28/07/2021,4599,,R$ / litro,RIO BRANCO
