# Projeto de módulo 4 - Resilia - Analisando e tratando dados



Nosso objetivo nesse projeto é realizar a análise de dois datasets diferentes, relacionados aos preços, datas e locais de venda de todo tipo de combustível, no período de Junho a Julho de 2021

Importando as bibliotecas que serão utilizadas na nossa análise

In [86]:
import pandas as pd 
import numpy as np
from datetime import datetime, timedelta

## Análise de Dados do mês de Junho de 2021

### Importando nossos dados diretamente da URL

In [87]:
link = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-06-gasolina-etanol.csv'
dados_jun = pd.read_csv(link,sep=';')

## Realizando a limpeza dos dados de Junho de 2021

Verificando os dados antes de qualquer alteração, para localizar qualquer irregularidade

In [88]:
dados_jun.head()

Unnamed: 0,Região - Sigla,Estado - Sigla,Município,Revenda,CNPJ da Revenda,Nome da Rua,Número Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0005-75,AVENIDA BOULEVARD THAUMATURGO,1031,,CENTRO,69980-000,GASOLINA,02/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
1,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0005-75,AVENIDA BOULEVARD THAUMATURGO,1031,,CENTRO,69980-000,GASOLINA ADITIVADA,02/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
2,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,ETANOL,01/06/2021,61,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
3,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,GASOLINA,01/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
4,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0004-94,AVENIDA LAURO MULLER,943,,JOÃO ALVES,69980-000,GASOLINA,02/06/2021,689,,R$ / litro,BRANCA


Verificando se existem dados com valores nulos em suas células ( Valores NaN )

In [89]:
dados_jun.isna().sum()

Região - Sigla           0
Estado - Sigla           0
Município                0
Revenda                  0
CNPJ da Revenda          0
Nome da Rua              0
Número Rua              23
Complemento          39685
Bairro                 124
Cep                      0
Produto                  0
Data da Coleta           0
Valor de Venda           0
Valor de Compra      49737
Unidade de Medida        0
Bandeira                 0
dtype: int64

Fazendo a substituição dos valores nulos ( NaN ) pela string **"Sem Complemento"**

In [90]:
dados_jun = dados_jun.fillna("Sem Complemento")

Deletando a coluna **"Valor de Compra"**, pois nessa coluna inexistem informações.

In [91]:
del dados_jun['Valor de Compra']

Substituindo todos os "Sem Complemento" na coluna Bairro pela string "N/A"

In [92]:
dados_jun['Bairro'] = dados_jun['Bairro'].replace(['Sem Complemento'],'N/A')

Removendo valores duplicados nas linhas

In [None]:
dados_jun.duplicated()
dados_jun.drop_duplicates()

Verificando se os dados foram substituídos corretamente

In [None]:
dados_jun[(dados_jun['Bairro'] == 'N/A')]

Aplicando métodos para atualização de colunas, ao analisar, percebi que estavam em valores **string**, e não **inteiro**, aplicando a função lambda para atualização de células.

In [95]:
dados_jun['Valor de Venda'] = dados_jun['Valor de Venda'].apply(lambda x:str(x).replace(",","."))
dados_jun['Valor de Venda'] = dados_jun['Valor de Venda'].astype('float64')
dados_jun['Cep'] = dados_jun['Cep'].apply(lambda x:str(x).replace("-","."))
dados_jun['Cep'] = dados_jun['Cep'].astype('float64')
dados_jun['CNPJ da Revenda'] = dados_jun['CNPJ da Revenda'].apply(lambda x:str(x).replace("/",".").replace("-","."))
dados_jun['CNPJ da Revenda'] = dados_jun['CNPJ da Revenda'].apply(lambda x:str(x).replace(".",""))

Ao verificar também, nota-se que a coluna de **"Data da Coleta"** não está em *DataStamp*, e sim em *String*, portanto, aplicamos uma função também para corrigir isso.

In [96]:
dados_jun['Data da Coleta'] = pd.to_datetime(dados_jun['Data da Coleta'])

Verificando os tipos de dados dentro de cada coluna no DataFrame

In [97]:
dados_jun.dtypes

Região - Sigla               object
Estado - Sigla               object
Município                    object
Revenda                      object
CNPJ da Revenda              object
Nome da Rua                  object
Número Rua                   object
Complemento                  object
Bairro                       object
Cep                         float64
Produto                      object
Data da Coleta       datetime64[ns]
Valor de Venda              float64
Unidade de Medida            object
Bandeira                     object
dtype: object

Após esses procedimentos, nossos dados estão limpos e prontos para a análise, são procedimentos simples mas são fundamentais para que a análise ocorra de forma precisa e coesa, e que erros não apareçam durante ela. Abaixo vou fazer uma nova verificação de dados, imprimindo todo nosso *DataSet* e dar aquela última checada.

Última verificação para integridade dos dados.

In [98]:
dados_jun

Unnamed: 0,Região - Sigla,Estado - Sigla,Município,Revenda,CNPJ da Revenda,Nome da Rua,Número Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Unidade de Medida,Bandeira
0,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03608766000575,AVENIDA BOULEVARD THAUMATURGO,1031,Sem Complemento,CENTRO,69980.000,GASOLINA,2021-02-06,6.89,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
1,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03608766000575,AVENIDA BOULEVARD THAUMATURGO,1031,Sem Complemento,CENTRO,69980.000,GASOLINA ADITIVADA,2021-02-06,6.89,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
2,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03608766000656,AVENIDA 25 DE AGOSTO,1350,Sem Complemento,25 DE AGOSTO,69980.000,ETANOL,2021-01-06,6.10,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
3,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03608766000656,AVENIDA 25 DE AGOSTO,1350,Sem Complemento,25 DE AGOSTO,69980.000,GASOLINA,2021-01-06,6.89,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
4,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03608766000494,AVENIDA LAURO MULLER,943,Sem Complemento,JOÃO ALVES,69980.000,GASOLINA,2021-02-06,6.89,R$ / litro,BRANCA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49732,NE,PE,VITORIA DE SANTO ANTAO,OLIVEIRA E SILVA POSTOS LTDA,35228711000100,AVENIDA HENRIQUE DE HOLANDA,S/N,ANEXO 01,REDENCAO,55612.025,GASOLINA,2021-06-27,5.59,R$ / litro,BRANCA
49733,NE,PE,VITORIA DE SANTO ANTAO,OLIVEIRA E SILVA POSTOS LTDA,35228711000100,AVENIDA HENRIQUE DE HOLANDA,S/N,ANEXO 01,REDENCAO,55612.025,ETANOL,2021-06-27,4.72,R$ / litro,BRANCA
49734,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23797660000140,AVENIDA CORONEL VENANCIO FLORES,28,Sem Complemento,CENTRO,29190.010,GASOLINA,2021-06-28,5.67,R$ / litro,BRANCA
49735,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23797660000140,AVENIDA CORONEL VENANCIO FLORES,28,Sem Complemento,CENTRO,29190.010,ETANOL,2021-06-28,4.79,R$ / litro,BRANCA


## Análise dos Dados do mês de Julho de 2021

In [None]:
link2 = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-07-gasolina-etanol.csv'
dados_jul = pd.read_csv(link2,sep=';')
dados_jul

***Descrição utilizando 'ALL' para conter todos os dados***

In [None]:
dados_jul.describe(include= 'all')

***Print Informações do DataFrame***

In [None]:
dados_jul.info()

***Converter Colunas para float***

In [None]:
dados_jul['Valor de Venda'] = dados_jul['Valor de Venda'].apply(lambda x:str(x).replace(",","."))
dados_jul['Valor de Venda'] = dados_jul['Valor de Venda'].astype('float64')
dados_jul['Cep'] = dados_jul['Cep'].apply(lambda x:str(x).replace("-","."))
dados_jul['Cep'] = dados_jul['Cep'].astype('float64')
dados_jul['CNPJ da Revenda'] = dados_jul['CNPJ da Revenda'].apply(lambda x:str(x).replace("/",".").replace("-","."))
dados_jul['CNPJ da Revenda'] = dados_jul['CNPJ da Revenda'].apply(lambda x:str(x).replace(".",""))

***Converter coluna 'Data da Coleta' para data***

In [103]:
dados_jul['Data da Coleta'] = dados_jul['Data da Coleta'].astype('datetime64[ns]')


In [None]:
dados_jul.info()

***Verificando dados nulos para cada coluna***

In [None]:
dados_jul.isna().sum()

***Remover do dataframe qualquer duplicata presente:***



In [None]:
#dados_jul = dados_jul.drop_duplicates()
dados_jul.duplicated()

***Subistituir dados nulos por "Sem complemento"***

In [107]:
dados_jul = dados_jul.fillna("Sem Complemento")

***Deletar a coluna "Valor de Compra" (não possui dados)***

In [108]:
del dados_jul['Valor de Compra']

***Substituir todos "Sem Complemento" na coluna Bairro pela string "N/A"***


In [109]:
dados_jul['Bairro'] = dados_jul['Bairro'].replace(['Sem Complemento'],'N/A')

***Verificando alterações***

In [None]:
dados_jul