# Projeto de módulo 4 - Resilia - Analisando e tratando dados



Nosso objetivo nesse projeto é realizar a análise de dois datasets diferentes, relacionados aos preços, datas e locais de venda de todo tipo de combustível, no período de Junho a Julho de 2021

Importando as bibliotecas que serão utilizadas na nossa análise

In [4]:
import pandas as pd 
import numpy as np
from datetime import datetime, timedelta

ModuleNotFoundError: No module named 'pandas'

## Análise de Dados do mês de Junho de 2021

### Importando nossos dados diretamente da URL

In [None]:
link = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-06-gasolina-etanol.csv'
dados_jun = pd.read_csv(link,sep=';')

## Realizando a limpeza dos dados

Verificando os dados antes de qualquer alteração, para localizar qualquer irregularidade

In [None]:
dados_jun.head()

Verificando se existem dados com valores nulos em suas células ( Valores NaN )

In [None]:
dados_jun.isna().sum()

Fazendo a substituição dos valores nulos ( NaN ) pela string **"Sem Complemento"**

In [None]:
dados_jun = dados_jun.fillna("Sem Complemento")

Deletando a coluna **"Valor de Compra"**, pois nessa coluna inexistem informações.

In [None]:
del dados_jun['Valor de Compra']

Substituindo todos os "Sem Complemento" na coluna Bairro pela string "N/A"

In [None]:
dados_jun['Bairro'] = dados_jun['Bairro'].replace(['Sem Complemento'],'N/A')

Removendo valores duplicados nas linhas

In [None]:
dados_jun.duplicated()
dados_jun.drop_duplicates()

Verificando se os dados foram substituídos corretamente

In [None]:
dados_jun[(dados_jun['Bairro'] == 'N/A')]

Aplicando métodos para atualização da coluna **"Valor de Venda"**, ao analisar, percebi que estavam em valores **string**, e não **inteiro**, aplicando a função lambda para atualização de células.

In [None]:
dados_jun['Valor de Venda'] = dados_jun['Valor de Venda'].apply(lambda x:str(x).replace(",","."))
dados_jun['Valor de Venda'] = dados_jun['Valor de Venda'].astype('float64')

Ao verificar também, nota-se que a coluna de **"Data da Coleta"** não está em *DataStamp*, e sim em *String*, portanto, aplicamos uma função também para corrigir isso.

In [None]:
dados_jun['Data da Coleta'] = pd.to_datetime(dados_jun['Data da Coleta'])

Verificando os tipos de dados dentro de cada coluna no DataFrame

In [None]:
dados_jun.dtypes

Após esses procedimentos, nossos dados estão limpos e prontos para a análise, são procedimentos simples mas são fundamentais para que a análise ocorra de forma precisa e coesa, e que erros não apareçam durante ela. Abaixo vou fazer uma nova verificação de dados, imprimindo todo nosso *DataSet* e dar aquela última checada.

Última verificação para integridade dos dados.

In [None]:
dados_jun

## Análise dos Dados do mês de Julho de 2021

In [None]:
link2 = 'https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-07-gasolina-etanol.csv'
dados_jul = pd.read_csv(link2,sep=';')
dados_jul

***Descrição utilizando 'ALL' para conter todos os dados***

In [None]:
dados_jul.describe(include= 'all')

***Print Informações do DataFrame***

In [None]:
dados_jul.info()

***Converter 'Valor de Venda' para float***

In [None]:
dados_jul["Valor de Venda"] = dados_jul["Valor de Venda"].replace(",",".", regex=True).astype(float)

***Converter coluna 'Data da Coleta' para data***

In [None]:
dados_jul['Data da Coleta'] = dados_jul['Data da Coleta'].astype('datetime64[ns]')


In [None]:
dados_jul.info()

***Verificando dados nulos para cada coluna***

In [None]:
dados_jul.isna().sum()

***Remover do dataframe qualquer duplicata presente:***



In [None]:
#dados_jul = dados_jul.drop_duplicates()
dados_jul.duplicated()

***Subistituir dados nulos por "Sem complemento"***

In [None]:
dados_jul = dados_jul.fillna("Sem Complemento")

***Deletar a coluna "Valor de Compra" (não possui dados)***

In [None]:
del dados_jul['Valor de Compra']

***Substituir todos "Sem Complemento" na coluna Bairro pela string "N/A"***


In [None]:
dados_jul['Bairro'] = dados_jul['Bairro'].replace(['Sem Complemento'],'N/A')

***Verificando alterações***

In [None]:
dados_jul