# Técnicas de Preparação de Dados (DADOS)

# Contexto

*   Regulamentação do mercado de **combustíveis**
*   Programa de **monitoramento** da **qualidade** dos combustíveis (**PMQC**)
   
> *L9478/1997 Art. 8o* - A ANP terá como finalidade promover a regulação, a contratação e a fiscalização das atividades econômicas integrantes da indústria do petróleo, do gás natural e dos biocombustíveis, cabendo-lhe: ...

> XI - **organizar e manter o acervo das informações e dados técnicos** relativos às atividades reguladas da indústria do petróleo, do gás natural e dos biocombustíveis;   ...

> XVI - **regular e autorizar** as atividades relacionadas à produção, à importação, à exportação, à armazenagem, à estocagem, ao transporte, à transferência, à distribuição, à revenda e à comercialização de biocombustíveis, assim como avaliação de conformidade e certificação de sua qualidade, **fiscalizando-as** diretamente ou mediante convênios com outros órgãos da União, Estados, Distrito Federal ou Municípios;   ...

> XVIII - **especificar a qualidade** dos derivados de petróleo, gás natural e seus derivados e dos biocombustíveis.

## Hipóteses a serem exploradas

1.   Qualidade dos combustíveis varia entre regiões.
2.   Qualidade tem melhorado com o tempo.
3.   Há cadeias de distribuição ruins.
4.   Em momentos específicos houve aumento de qualidade.
5.   Há relação entre o preço dos combustíveis e sua qualidade. (https://www.kaggle.com/code/dsrdavi/analise-de-precos-de-combustiveis-no-brasil/notebook)
https://basedosdados.org/dataset/6ea3e28a-42be-401a-a066-ad87ca931e69?table=3a7cb29a-0bdf-4f44-bab1-d27872e565ff

6.   Gasolina tem menor qualidade que etanol.
7.   ...

## Repositório dos dados

> https://dados.gov.br/dados/conjuntos-dados/pmqc---programa-de-monitoramento-da-qualidade-dos-combustiveis

> *Levantamento dos indicadores gerais da qualidade dos combustíveis comercializados no País e a identificação de focos de não conformidade, visando à simetria de informações e a orientar e aperfeiçoar a atuação da área de fiscalização.*



## Conhecendo os dados: perguntas

#### 1.   Quais dados estão disponíveis? Existem dados de quais períodos (mês/ano inicial e final) ?

 ### Resposta 1:

> *Escreva aqui.*



### 2.   Dados nos arquivos do acervo têm dicionários/"meta-dados"?


### Resposta 2:


> *Escreva aqui.*


### 3.   Dados possuem orientação de como fazer o carregamento?


### Resposta 3:


> *Escreva aqui.*


### 4.   Quais formatos disponíveis?

### Resposta 4:


> *Escreva aqui.*



### 5.   Quais potenciais hipóteses podem ser verificadas?


### Resposta 5:


> *Escreva aqui.*



### 6.   Reordene e adicione itens na lista de hipóteses possivelmente simplificadas) da mais facil de responder à mais díficil usando os dados do PMQC

### Resposta 6:


> *Escreva aqui.*



# Caso concreto: PMQC

Vamos primeiro identificar quais são as colunas presentes no conjunto PMQC. Para isso, use as funções `read_csv()` e `info()` do pandas.

In [None]:
mes2016_02_url = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2016/pmqc_2016_02.csv"
#df = pd.read_csv(PREENCHA AQUI)

In [None]:
#df.info()


Os dados de PMQC ao longo dos anos estão espalhados em *um arquivo para cada mês*. Precisamos juntá-los. Para isso existe a função `pandas.concat()`. Ela pode juntar mais de um `DataFrame` no sentido das linhas ou no sentido das colunas (com o argumento `axis = 1`).




Passo a passo:
*   Escreva um for que varia do ano 2016 ao ano 2022
*   Escreva outro for que varia do mês 1 ao mês 12
*   Forme a string que representa a URL para baixar esse ano e esse mês
*   Use a função `concat()` do `pandas` para unir datasets ao longo dos meses e anos

In [None]:
# Dados foram obtidos em https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2016 (... até 2023)
# Nomes dos arquivos foram padronizados em  https://www.facom.ufu.br/~albertini/dados/pmqc/pmqc_AAAA_MM.csv

# De 2016/01 a 2018/12 usa formato https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2016/pmqc_AAAA_MM.[json,csv]
# https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2016/pmqc_2016_01.csv
# De 2019/01 a 2022/06 usa
# https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2019/2019-01-pmqc.csv
#https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2022/2022-06-pmqc.csv
# De 2022/07 a 2022/12 usa
#https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2022/pmqc_2022_07.csv
# De 2023/01 a 2023/11 usa
#https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2023/pmqc-01.csv
#https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/2023/pmqc-11.csv

import pandas as pd

pmqc = pd.DataFrame()

for ano in range(2020, 2022): # existem dados de 01/2016 a 11/2023
  for mes in range(1, 13):

    if mes < 10:
      mes = '0'+str(mes)

    url = "https://www.facom.ufu.br/~albertini/dados/pmqc/pmqc_"+str(ano)+"_"+str(mes)+".csv"
    if ano == 2023 and mes == 22: break  # ainda não existe esse arquivo

    pmqc = pd.concat( [pmqc, pd.read_csv(url, sep = ';')] )
    print(pmqc.shape)



As características medidas para verificação da qualidade, classificadas como `Conforme: Sim` ou `Conforme: Não` são `Aspecto`, `Condutividade Elétrica`, `Cor`, `Massa Específica a 20ºC`, `Potencial Hidrogeniônico (pH)`, `Teor Alcoólico` e `Teor de Hidrocarbonetos`.

In [None]:
pmqc.info()

## Conhecendo os dados: quantos combustíveis distintos são vendidos no mercado brasileiro?

In [None]:
# encontre a coluna que contém o tipo de combustíveis



## Conhecendo os dados: existem registros "Não conforme" em Uberlândia?

Município        Conforme
NATAL            Não         23
SAO PAULO        Não         21
RIO DE JANEIRO   Não         17
JOAO PESSOA      Não         15
RECIFE           Não         11
EXTREMOZ         Não         10
PARNAMIRIM       Não          9
DUQUE DE CAXIAS  Não          8
CEARA-MIRIM      Não          7
SENADOR CANEDO   Não          7
Name: Conforme, dtype: int64

## Reestruture a planilha para as medições das linhas virarem colunas
*   Verifique o modo de uso da função `pivot`
*   Faça linha de tipo de ensaio distinto mudar para uma coluna
*   Lembre-se de remover dados duplicados com drop_duplicates

In [None]:
combustivel_carros = pmqc.query( PRENCHA AQUI ) # selecione somente combustiveis de carros
medicoes_por_linha = combustivel_carros[[ PREENCHA AQUI ]] # CONTINUE AQUI

medicoes_por_linha.head()

Ensaio,Aspecto,Condutividade Elétrica,Cor,Massa Específica a 20°C,Material Não Volátil,Material Particulado,Material não Volátil,Potencial Hidrogeniônico (pH),Teor Alcoólico,Teor de Hidrocarbonetos,Teor de Metanol
IdNumeric,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
189941,Sim,Sim,Sim,Sim,,,,Sim,Sim,Sim,Sim
189946,Sim,Sim,Sim,Sim,,,,Sim,Sim,Sim,Sim
189951,Sim,Sim,Sim,Sim,,,,Sim,Sim,Sim,Sim
189955,Sim,Sim,Sim,Sim,,,,Sim,Sim,Sim,Sim
189957,Sim,Sim,Sim,Sim,,,,Sim,Sim,Sim,


## Descubra quantos postos de combustíveis vendem cada tipo de combustível em Uberlândia

In [None]:
# agrupe e conte cada coluna para os dados somente de Uberlândia

## Conhecendo os dados: encontre quantas linhas identificam não conformidade da coleta

*    conte quantidade de linhas correspondentes a Conforme = Não

In [None]:
preencha aqui

Sim    5028914
Não        604
Name: Conforme, dtype: int64

# Organização dos dados: separe conjunto de dados para obter um DataFrame para Etanol Comum e um para Gasolina Comum

*    Note: combustível é  `Produto`

In [None]:
pmqc.query(PREENCHA AQUI )

## Conhecendo os dados: descubra quantas amostras não conformes há em cada UF. Qual estado tem mais amostras não conformes?

In [None]:
pmqc.groupby(preencha aqui)

## Conhecendo os dados: descubra as 10 municípios com mais amostras não conformes

## Conhecendo os dados: identifique o número de registros por ano

## Conhecendo os dados: crie nova coluna contendo a região do país (N, NE, CO, SE, S)

*    Use o dicionário de regiões passo juntamento com a função `map() para criar uma nova coluna chamada `Região`.

In [None]:
regioes = {
    'AC': 'N',
    'AL': 'NE',
    'AP': 'N',
    'AM': 'N',
    'BA': 'NE',
    'CE': 'NE',
    'DF': 'CO',
    'ES': 'SE',
    'GO': 'CO',
    'MA': 'NE',
    'MT': 'CO',
    'MS': 'CO',
    'MG': 'SE',
    'PA': 'N',
    'PB': 'NE',
    'PR': 'S',
    'PE': 'NE',
    'PI': 'NE',
    'RJ': 'SE',
    'RN': 'NE',
    'RS': 'S',
    'RO': 'N',
    'RR': 'N',
    'SC': 'S',
    'SP': 'SE',
    'SE': 'NE',
    'DF': 'CO',
    'TO': 'N'
}

pmqc['Regiao'] = pmqc['Uf'].map(regioes)


## Conhecendo os dados: conte o número de amostras "não conforme" para cada Região do país

In [None]:
pmqc[pmqc.Conforme == "Não"].groupby('Regiao').Conforme.value_counts()


Regiao  Conforme
CO      Não          49
N       Não           6
NE      Não         326
S       Não          31
SE      Não         192
Name: Conforme, dtype: int64

## Conhecendo os dados: identifique postos (via CNPJ) com múltiplas repetições de amostras "não conforme"

In [None]:
repeticoes = pmqc[pmqc.Conforme == "Não"].groupby('CnpjPosto').size().sort_values(ascending=False)
repeticoes[repeticoes > 1]

CnpjPosto
18.083.682/0001-09    6
26.644.707/0001-24    5
02.062.341/0001-17    4
20.717.841/0001-21    3
05.424.310/0001-57    3
21.231.004/0001-50    3
10.523.779/0001-83    3
12.034.584/0001-03    3
12.625.035/0001-03    3
26.058.218/0001-90    2
35.284.991/0002-47    2
02.208.651/0001-05    2
02.211.749/0015-09    2
12.781.233/0007-43    2
09.387.336/0001-23    2
43.644.050/0001-14    2
21.219.434/0001-57    2
03.543.109/0001-63    2
08.381.059/0005-02    2
13.140.950/0001-63    2
02.737.867/0003-11    2
40.993.123/0001-95    2
18.973.039/0001-50    2
27.602.275/0001-51    2
27.647.367/0001-58    2
21.553.439/0001-11    2
37.470.980/0001-04    2
00.980.113/0001-09    2
22.216.720/0002-02    2
00.517.975/0001-91    2
10.776.048/0002-20    2
00.285.458/0001-34    2
04.637.954/0001-60    2
10.857.495/0001-23    2
24.206.617/0019-55    2
24.220.972/0002-30    2
30.544.974/0001-05    2
03.848.546/0001-95    2
01.268.931/0001-38    2
08.545.462/0003-68    2
04.634.597/0001-87    2
dtype:

## Conhecendo os dados: verifique se alguma coleta pode ter resultado em mais de uma característica "não conforme" de combustível usando `IdNumeric`

In [None]:
pmqc[pmqc.Conforme == "Não"].groupby(['IdNumeric']).Conforme.value_counts().sort_values(ascending=False)


IdNumeric  Conforme
778828     Não         5
758799     Não         3
769653     Não         3
780260     Não         2
757068     Não         2
                      ..
331602     Não         1
332083     Não         1
332884     Não         1
333514     Não         1
786233     Não         1
Name: Conforme, Length: 585, dtype: int64

## Conhecendo os dados: identifique postos (via CNPJ) com múltiplas repetições de coletas **diferentes** com alguma "não conformidade"

*    Selecione apenas as coletas do IdNumeric da coleta e o CnpqPosto
*    Use drop_duplicates para obter coletas diferentes

In [None]:
pmqc[["IdNumeric", "CnpjPosto"]][pmqc.Conforme == "Não"].sort_values(by="CnpjPosto").drop_duplicates().groupby('CnpjPosto').size().sort_values(ascending=False)


CnpjPosto
26.644.707/0001-24    5
02.062.341/0001-17    4
21.231.004/0001-50    3
12.034.584/0001-03    3
05.424.310/0001-57    3
                     ..
07.604.853/0001-81    1
07.583.819/0001-78    1
07.473.735/0040-98    1
07.448.838/0001-91    1
95.115.721/0001-53    1
Length: 548, dtype: int64

In [None]:
pmqc[(pmqc.CnpjPosto == "26.644.707/0001-24") & (pmqc.Conforme == "Não")]

Unnamed: 0,DataColeta,IdNumeric,GrupoProduto,Produto,RazaoSocialPosto,CnpjPosto,Distribuidora,Endereço,Complemento,Bairro,Município,Latitude,Longitude,Uf,RegiaoPolitica,Ensaio,Resultado,UnidadeEnsaio,Conforme,Regiao
54058,2017-11-14,342265,Óleo Diesel,ÓLEO DIESEL B S10 COMUM,LITORAL NORTE COMERCIO EIRELI - EPP,26.644.707/0001-24,BANDEIRA BRANCA,"RUA TREVO DE GENIPABU,01",ANEXO 1-B,GENIPABU,EXTREMOZ,-5.689911,-35.221923,RN,NORDESTE,Aspecto,Turvo e isento de impurezas,,Não,NE
52333,2018-11-09,448080,Óleo Diesel,ÓLEO DIESEL B S10 COMUM,LITORAL NORTE COMERCIO EIRELI - EPP,26.644.707/0001-24,BANDEIRA BRANCA,"RUA TREVO DE GENIPABU,01",ANEXO 1-B,GENIPABU,EXTREMOZ,-5.689911,-35.221923,RN,NORDESTE,Aspecto,Turvo com água livre e material particulado,,Não,NE
13822,2019-07-19,515487,Óleo Diesel,ÓLEO DIESEL B S10 COMUM,LITORAL NORTE COMERCIO EIRELI,26.644.707/0001-24,BANDEIRA BRANCA,"RUA TREVO DE GENIPABU,01",ANEXO 1-B,GENIPABU,EXTREMOZ,-5.689842,-35.221722,RN,NORDESTE,Aspecto,Turvo e isento de impurezas,,Não,NE
14363,2020-08-06,602631,Óleo Diesel,ÓLEO DIESEL B S10 COMUM,LITORAL NORTE COMERCIO EIRELI,26.644.707/0001-24,BANDEIRA BRANCA,"RUA TREVO DE GENIPABU,01",ANEXO 1-B,GENIPABU,EXTREMOZ,-5.689842,-35.221722,RN,NORDESTE,Aspecto,Turvo e isento de impurezas,,Não,NE
9841,2021-07-22,692773,Óleo Diesel,ÓLEO DIESEL B S10 COMUM,26644707000124,26.644.707/0001-24,BANDEIRA BRANCA,"RUA TREVO DE GENIPABU,01",ANEXO 1-B,GENIPABU,EXTREMOZ,-5.689842,-35.221722,RN,NORDESTE,Aspecto,Turvo e isento de impurezas,,Não,NE


# Identifique os municípios com mais amostras não conformes

In [None]:
municipios_com_problemas = pmqc[["IdNumeric", "CnpjPosto", "Município", "Conforme"]][pmqc.Conforme == "Não"].drop_duplicates().groupby('Município').size().sort_values(ascending=False)
municipios_com_problemas[municipios_com_problemas>2]

Município
SAO PAULO                  21
NATAL                      20
RIO DE JANEIRO             17
JOAO PESSOA                13
RECIFE                     11
EXTREMOZ                   10
PARNAMIRIM                  9
DUQUE DE CAXIAS             8
CEARA-MIRIM                 7
CAMPINA GRANDE              7
MOSSORO                     6
SAO LUIS                    6
BAYEUX                      6
MARICA                      6
SAO GONCALO                 5
GOIANIA                     5
TOUROS                      5
APARECIDA DE GOIANIA        4
PAULISTA                    4
ARAPIRACA                   4
MACEIO                      4
LAGOA DE DENTRO             4
CAJAZEIRAS                  4
FORTALEZA                   3
MACAPA                      3
SOUSA                       3
MONTE ALEGRE                3
ITAPECERICA DA SERRA        3
ITAPIRAPUA                  3
ACU                         3
CAICO                       3
SENADOR CANEDO              3
CAMPOS DOS GOYTACAZES       3
