<a href="https://colab.research.google.com/github/RaianPorto/Projeto_M4_DA/blob/branch-Liora/Notebook_Projeto_M4_Grupo4_ANP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**DATA ANALYTICS: Analisando os Dados da ANP**

---

*Projeto Módulo 4 | Guilherme Rezende, Letícia Felippe, Liora Dopacio, Tatiany Castelhano, Raian Porto*

---


<img alt="Colaboratory logo" width="100%" src="https://clickpetroleoegas.com.br/wp-content/uploads/2020/10/ANP-860x483.jpeg">





**Metodologia do Projeto**

O projeto foi desenvolvido em cima de análise exploratória e estatística descritiva, sendo dividido em seis etapas: *entender o negócio, entender e preparar os dados, limpeza de dados, consultas em Pandas, Numpy e Seaborn, análise exploratória e estatística descritiva com comentários em markdowns.*

---
<img alt="Colaboratory logo" width="100%" src="https://advancedinstitute.ai/wp-content/uploads/2019/04/analise_dados-1170x500.png">

### **Entendendo o Negócio:** 

Serão apresentados os objetivos do negócio, avaliando quais os problemas a serem resolvidos, bem como determinando mais dois problemas de negócio que agreguem valor e ajudem na tomada de decisões significativas.

**Objetivos da ANP**

Agência Nacional do Petróleo, Gás Natural e Biocombustíveis (ANP), criada em 1997 pela lei n º 9.478, é o órgão regulador das atividades que integram as indústrias de ***petróleo e gás natural e de biocombustíveis*** no Brasil. Suas atividades foram iniciadas em 14 de janeiro de 1998. Vinculada ao Ministério das Minas e Energia é a autarquia federal responsável pela execução da política nacional para o setor.

---


***Objetivos estratégicos da ANP:***

* Incentivar a exploração e a produção de petróleo e gás natural em benefício da
sociedade brasileira;
* Atuar para o desenvolvimento de um mercado de gás natural que atenda os interesses
da sociedade;
* Fomentar investimentos na produção, distribuição e revenda de derivados de petróleo
e de biocombustíveis;
* Ampliar o diálogo com os agentes regulados e a sociedade;
* Atualizar a regulamentação da ANP, minimizando barreiras ao investimento e
reduzindo os custos impostos pela regulação;
* Alocar e utilizar recursos com eficiência e transparência;
* Implementar a gestão de projetos na ANP;
* Promover a produtividade e a simplificação dos processos organizacionais;
* Utilizar soluções de TI e inovação como promotoras de produtividade nas atividades
da ANP


---
<center><img alt="Analisando Airbnb" width="30%" src="https://upload.wikimedia.org/wikipedia/commons/9/96/Anp-logo-3.png"></center>

---


**Quais os problemas a serem resolvidos?**

Neste projeto busca-se resolver os seguintes problemas:

1. Como se comportaram o preço dos combustíveis durante os dois meses
citados? Os valores do etanol e da gasolina tiveram uma tendência de
queda ou diminuição?
2. Qual o preço médio da gasolina e do etanol nesses dois meses?
3. Quais os 5 estados com o preço médio da gasolina e do etanol mais
caros?
4. Qual o preço médio da gasolina e do etanol por estado?
5. Qual o município que possui o menor preço para a gasolina e para o
etanol?
6. Qual o município que possui o maior preço para a gasolina e para o
etanol?
7. Qual a região que possui o maior valor médio da gasolina?
8. Qual a região que possui o menor valor médio do etanol?
9. Há alguma correlação entre o valor do combustível (gasolina e etanol) e a
região onde ele é vendido?
10. Há alguma correlação entre o valor do combustível (gasolina e etanol) e a
bandeira que vende ele?


---


**Métricas para aferição do sucesso do projeto**

* Respostas para os 10 problemas apresentados no item anterior, considerando os dados de junho e julho de 2021 disponibilizados pela ANP, além da formulação de duas consultas extras com informações relevantes que poderão ser utilizadas na busca da solução dos problemas.

### **Entendendo os Dados:**

Estaremos coletando os dados iniciais no portal da ANP, estruturando os referidos dados, bem como explorando os dados com as estatísticas descritivas.


##### **Coletando os dados iniciais**

Por meio do portal da [ANP](https://dados.gov.br/dataset/serie-historica-de-precos-de-combustiveis-por-revenda), é possível obter dados sobre a série histórica de preços de combustíveis para desenvolver projetos e soluções em Data Analytics.

Assim, foram selecionados os arquivos dos meses de ***junho e julho de 2021***
contendo a série histórica dos preços da gasolina e do etanol em todo o Brasil.

In [None]:
#carregando as bibliotecas que serão usadas no projeto
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt

In [None]:
#carregando a tabela de junho de 2021 com as informações extraídas do site
df_junho = pd.read_csv('https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-06-gasolina-etanol.csv', sep=';')

In [None]:
#carregando a tabela de julho de 2021 com as informações extraídas do site
df_julho = pd.read_csv('https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsan/2021/2021-07-gasolina-etanol.csv', sep=';')

In [None]:
#Utilizamos a função .concat() para juntar os dois dataframes criados anteriormente em um só.
#primeiro contato com o dataframe
dataframe = pd.concat([df_junho, df_julho], ignore_index =True)
dataframe

Unnamed: 0,Região - Sigla,Estado - Sigla,Município,Revenda,CNPJ da Revenda,Nome da Rua,Número Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0005-75,AVENIDA BOULEVARD THAUMATURGO,1031,,CENTRO,69980-000,GASOLINA,02/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
1,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0005-75,AVENIDA BOULEVARD THAUMATURGO,1031,,CENTRO,69980-000,GASOLINA ADITIVADA,02/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
2,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,ETANOL,01/06/2021,61,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
3,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,GASOLINA,01/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
4,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0004-94,AVENIDA LAURO MULLER,943,,JOÃO ALVES,69980-000,GASOLINA,02/06/2021,689,,R$ / litro,BRANCA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
97581,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,GASOLINA ADITIVADA,26/07/2021,587,,R$ / litro,BRANCA
97582,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,ETANOL,26/07/2021,499,,R$ / litro,BRANCA
97583,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,GASOLINA,26/07/2021,587,,R$ / litro,BRANCA
97584,SE,MG,ARAXA,AUTO POSTO BRANQUINHO LTDA,37.461.683/0001-94,AVENIDA SENADOR MONTANDON,950,,CENTRO,38183-214,ETANOL,28/07/2021,4599,,R$ / litro,RIO BRANCO


##### **Descrevendo os dados**

Descreveremos os dados do dataframe com objetivo de conhecermos seu formato, os tipos de variáveis, bem como aspectos gerais úteis ao entendimento geral do problema.



In [None]:
#conhecendo o formato dos dados - apresentando 97.586 linhas e 16 colunas.
dataframe.shape

(97586, 16)

In [None]:
#conhecendo os tipos das colunas
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97586 entries, 0 to 97585
Data columns (total 16 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Região - Sigla     97586 non-null  object 
 1   Estado - Sigla     97586 non-null  object 
 2   Município          97586 non-null  object 
 3   Revenda            97586 non-null  object 
 4   CNPJ da Revenda    97586 non-null  object 
 5   Nome da Rua        97586 non-null  object 
 6   Número Rua         97529 non-null  object 
 7   Complemento        19711 non-null  object 
 8   Bairro             97327 non-null  object 
 9   Cep                97586 non-null  object 
 10  Produto            97586 non-null  object 
 11  Data da Coleta     97586 non-null  object 
 12  Valor de Venda     97586 non-null  object 
 13  Valor de Compra    0 non-null      float64
 14  Unidade de Medida  97586 non-null  object 
 15  Bandeira           97586 non-null  object 
dtypes: float64(1), object(

**Dicionário das colunas**

*   **Região - Sigla** - Sigla usada para identificar as Regiões do País
*   **Estado - Sigla** - Sigla usada para ifentificar os Estados do País
*   **Município** - Nome do município
*   **Revenda** - Razão social dos postos de gasolina
*   **CNPJ da Revenda** - CNPJ dos postos de gasolina
*   **Nome da Rua** - Nome da rua do posto de gasolina
*   **Número Rua** - Número que complementa o endereço do posto de gasolina 
*   **Complemento** - Informação que serve para ajudar a complementar a localização do posto de gasolina
*   **Bairro** - Nome do bairro do posto de gasolina
*   **Cep** - Código de Endereçamento Postal do posto de gasolina
*   **Produto** - Lista de produtos do posto de gasolina 
*   **Data da Coleta** - Data que o dado foi coletado
*   **Valor de Venda** - Preço final do combustível
*   **Valor de Compra** - Preço pago pela compra do combustível
*   **Unidade de Medida** - Unidade de medida da compra, em R$ por Litro
*   **Bandeira** - Distribuidora de combustível








#### **Estatísticas Descritivas**

Agora que já visualizamos a estrutura de nossos dados, avançamos para a etapa de aplicação de técnicas de estatística descritiva, para verificar a qualidade dos dados, atentos à identificação de valores faltantes, presença de outliers e análise de correlações entre as variáveis.

In [None]:
(dataframe.isnull().sum() / dataframe.shape[0]).sort_values(ascending=False)

Valor de Compra      1.000000
Complemento          0.798014
Bairro               0.002654
Número Rua           0.000584
Região - Sigla       0.000000
Estado - Sigla       0.000000
Município            0.000000
Revenda              0.000000
CNPJ da Revenda      0.000000
Nome da Rua          0.000000
Cep                  0.000000
Produto              0.000000
Data da Coleta       0.000000
Valor de Venda       0.000000
Unidade de Medida    0.000000
Bandeira             0.000000
dtype: float64

**Quanto a dados faltantes:**

* A coluna **`Valor de Compra`** possui 100% dos seus valores faltantes. 
* A coluna **`Complemento`** possue quase 80% de valores nulos.
* A coluna **`Número Rua`** tem aproximadamente 0,0005% dos valores nulos.


In [None]:
#Resumo estatístico da única variável númérica usando a função describe

dataframe['Valor de Venda'].describe()

count     97586
unique     1628
top       5,599
freq       3256
Name: Valor de Venda, dtype: object

### **Preparando os Dados:** 

Iniciamos a limpeza dos dados, integrando-os, formatando-os, construindo novos dados para, enfim, selecionar aqueles que serão utilizados na resolução dos problemas (análise exploratória de dados).

##### **Limpeza dos Dados**

In [None]:
#Como boa prática, foi realizada uma cópia do dataframe concatenado.
#Desta forma, mantemos o original para referência, enquanto a cópia é utilizada para a limpeza de dados e as consultas exigidas
df_copia = dataframe.copy()
df_copia

Unnamed: 0,Região - Sigla,Estado - Sigla,Município,Revenda,CNPJ da Revenda,Nome da Rua,Número Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0005-75,AVENIDA BOULEVARD THAUMATURGO,1031,,CENTRO,69980-000,GASOLINA,02/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
1,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0005-75,AVENIDA BOULEVARD THAUMATURGO,1031,,CENTRO,69980-000,GASOLINA ADITIVADA,02/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
2,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,ETANOL,01/06/2021,61,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
3,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,GASOLINA,01/06/2021,689,,R$ / litro,PETROBRAS DISTRIBUIDORA S.A.
4,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0004-94,AVENIDA LAURO MULLER,943,,JOÃO ALVES,69980-000,GASOLINA,02/06/2021,689,,R$ / litro,BRANCA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
97581,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,GASOLINA ADITIVADA,26/07/2021,587,,R$ / litro,BRANCA
97582,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,ETANOL,26/07/2021,499,,R$ / litro,BRANCA
97583,SE,ES,ARACRUZ,POSTO DE COMBUSTIVEL SHOW EIRELI,23.797.660/0001-40,AVENIDA CORONEL VENANCIO FLORES,28,,CENTRO,29190-010,GASOLINA,26/07/2021,587,,R$ / litro,BRANCA
97584,SE,MG,ARAXA,AUTO POSTO BRANQUINHO LTDA,37.461.683/0001-94,AVENIDA SENADOR MONTANDON,950,,CENTRO,38183-214,ETANOL,28/07/2021,4599,,R$ / litro,RIO BRANCO
