## Procedimentos para baixar os arquivos

In [None]:
import requests
import os
import zipfile

# Faz o download dos arquivos conforme a url fornecida e o coloca no endereço do segundo parâmetro
def baixar_arquivo(url, endereco=None):
    if endereco is None:
        endereco = os.path.basename(url.split("?")[0])
    resposta = requests.get(url, stream=True)
    if resposta.status_code == requests.codes.OK:
        with open(endereco, 'wb') as novo_arquivo:
            for parte in resposta.iter_content(chunk_size=256):
                novo_arquivo.write(parte)
        print("Download finalizado. Arquivo salvo em: {}".format(endereco))
    else:
        resposta.raise_for_status()


# Seleciona os arquivos a serem baixados do site de dados abertos da ANP
def selecionar_arquivos_fiscalizacao_para_baixar():
    # Ações de fiscalização de 2019
    metadados_fiscalizacao = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/arquivos-acoes-de-fiscalizacao/acoes-de-fiscalizacao-metadados.pdf"
    fiscalizacao = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/arquivos-acoes-de-fiscalizacao/acoes-de-fiscalizacao.csv"

    # cria o diretorio, caso não exista
    if not os.path.exists("dados\\fiscalizacoes\\"):
        os.makedirs("dados\\fiscalizacoes\\")

    print("Baixando metadados das ações de fiscalização de 2019")
    baixar_arquivo(metadados_fiscalizacao, "dados\\fiscalizacoes\\acoes-de-fiscalizacao-metadados.pdf")

    print("Baixando acoes de fiscalizacao de 2019")
    baixar_arquivo(fiscalizacao, "dados\\fiscalizacoes\\acoes-de-fiscalizacao.csv")


# Como estes arquivos são atualizados com uma certa frequencia, teremos sempre os dados mais atualizados
def selecionar_arquivos_serie_historica_para_baixar():
    # Série histórica de preços de combustíveis - revenda -  2019
    metadados_serie_historica = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/metadados-levantamento-precos.pdf"
    serie_1_sem_2019 = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsas/ca/ca-2019-01.csv"
    serie_2_sem_2019 = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/shpc/dsas/ca/ca-2019-02.csv"

    # cria o diretorio, caso não exista
    if not os.path.exists("dados\\serie\\"):
        os.makedirs("dados\\serie\\")

    print("Baixando metadados da série histórica do primeiro semestre de 2019")
    baixar_arquivo(metadados_serie_historica, "dados\serie\metadados_serie_historica.pdf")

    print("Baixando série histórica do primeiro semestre de 2019")
    baixar_arquivo(serie_1_sem_2019, "dados\serie\sem_2019-1_CA.csv")

    print("Baixando série histórica do segundo semestre de 2019")
    baixar_arquivo(serie_2_sem_2019, "dados\serie\sem_2019-2_CA.csv")



def selecionar_arquivos_multas_para_baixar():
    # multas aplicadas pela anp entre 2016 e 2019
    metadados_multas_aplicadas_2016_a_2019 = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/mav/metadados-multas-aplicadas-2016a2019.pdf"
    multas_2016_a_2019 = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/mav/multas-aplicadas-2016a2019.csv"
    
    # cria o diretorio, caso não exista
    if not os.path.exists("dados\\multas\\"):
        os.makedirs("dados\\multas\\")

    print("Baixando metadados multas aplicadas entre 2016 e 2019")
    baixar_arquivo(metadados_multas_aplicadas_2016_a_2019, "dados\multas\metadados_multas_aplicadas_2016_a_2019.pdf")
    
    print("Baixando multas aplicadas entre 2016 e 2019")
    baixar_arquivo(multas_2016_a_2019, "dados\multas\multas_2016_a_2019.csv")


def selecionar_arquivos_reclamacoes_para_baixar():
    # Reclamações registradas nos PROCONS – Sindec
    metadados_reclamacoes = "http://dados.mj.gov.br/dataset/8ff7032a-d6db-452b-89f1-d860eb6965ff/resource/d87543d6-cf9d-4752-8f3c-1b0aa075dc45/download/dicionariodadossindec3-0.pdf"
    reclamacoes = "http://dados.mj.gov.br/dataset/8ff7032a-d6db-452b-89f1-d860eb6965ff/resource/c2cce323-24c2-4430-8918-e24b2966213c/download/crf2019-dados-abertos.zip"
    
    # cria o diretorio, caso não exista
    if not os.path.exists("dados\\reclamacoes\\"):
        os.makedirs("dados\\reclamacoes\\")

    print("Baixando metadados de reclamacoes")
    baixar_arquivo(metadados_reclamacoes, "dados\\reclamacoes\\metadados_reclamacoes.pdf")
    
    print("Baixando dados de reclamacoes")
    baixar_arquivo(reclamacoes, "dados\\reclamacoes\\crf2019-dados-abertos.zip")

    print("Extraindo dados de reclamacoes do arquivo zip")
    with zipfile.ZipFile("dados\\reclamacoes\\crf2019-dados-abertos.zip", 'r') as zip_ref:
        zip_ref.extractall("dados\\reclamacoes\\")


def selecionar_arquivos_PMQC_para_baixar():    
    # dados do programa de qualidade de 2019
    metadados_PMQC = "https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/arquivos/pmqc/pmqc-metadados.pdf"
 
    PMQC_2019_01 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/PMQC_2019_01.csv"
    PMQC_2019_02 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/PMQC_2019_02.csv"
    PMQC_2019_03 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/PMQC_2019_03.csv"
    PMQC_2019_04 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-04-pmqc.csv"
    PMQC_2019_05 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-05-pmqc.csv"
    PMQC_2019_06 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-06-pmqc.csv"
    PMQC_2019_07 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-07-pmqc.csv"
    PMQC_2019_08 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-08-pmqc.csv"
    PMQC_2019_09 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-09-pmqc.csv"
    PMQC_2019_10 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-10-pmqc.csv"
    PMQC_2019_11 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-11-pmqc.csv"
    PMQC_2019_12 = "http://www.anp.gov.br/arquivos/dadosabertos/PMQC/2019-12-pmqc.csv"

    # cria o diretorio, caso não exista
    if not os.path.exists("dados\\PMQC\\"):
        os.makedirs("dados\\PMQC\\")

    print("Baixando metadado PMQC - Programa de Monitoramento da Qualidade dos Combustíveis")
    baixar_arquivo(metadados_PMQC, "dados\PMQC\PMQC_metadados.pdf")
 
    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Janeiro de 2019")
    baixar_arquivo(PMQC_2019_01, "dados\PMQC\PMQC_2019_01.csv")
    
    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Fevereiro de 2019")
    baixar_arquivo(PMQC_2019_02, "dados\PMQC\PMQC_2019_02.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Março de 2019")
    baixar_arquivo(PMQC_2019_03, "dados\PMQC\PMQC_2019_03.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Abril de 2019")
    baixar_arquivo(PMQC_2019_04, "dados\PMQC\PMQC_2019_04.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Maio de 2019")
    baixar_arquivo(PMQC_2019_05, "dados\PMQC\PMQC_2019_05.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Junho de 2019")
    baixar_arquivo(PMQC_2019_06, "dados\PMQC\PMQC_2019_06.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Julho de 2019")
    baixar_arquivo(PMQC_2019_07, "dados\PMQC\PMQC_2019_07.csv")
    
    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Agosto de 2019")
    baixar_arquivo(PMQC_2019_08, "dados\PMQC\PMQC_2019_08.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Setembro de 2019")
    baixar_arquivo(PMQC_2019_09, "dados\PMQC\PMQC_2019_09.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Outubro de 2019")
    baixar_arquivo(PMQC_2019_10, "dados\PMQC\PMQC_2019_10.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Novembro de 2019")
    baixar_arquivo(PMQC_2019_11, "dados\PMQC\PMQC_2019_11.csv")

    print("Baixando PMQC - Programa de Monitoramento da Qualidade dos Combustíveis - Dezembro de 2019")
    baixar_arquivo(PMQC_2019_12, "dados\PMQC\PMQC_2019_12.csv")

## Baixa os arquivos usando os procedimentos

In [None]:
#selecionar_arquivos_serie_historica_para_baixar()
#selecionar_arquivos_multas_para_baixar()
#selecionar_arquivos_reclamacoes_para_baixar()
#selecionar_arquivos_PMQC_para_baixar()
#selecionar_arquivos_fiscalizacao_para_baixar()

## Procedimentos para carregar os arquivos baixados nos dataframes

In [None]:
import pandas as pd
import glob

# carrega os dados de da série histórica do primeiro e segundo semestres de 2019 no dataframe
# Foi incluido o parâmetro , skipinitialspace=True para retirar os espaço em branco antes dos valores das colunas (Principalmente CNPJ)
def carregar_dados_serie_historica_2019():
    df_serie_primeiro_sem_2019 = pd.read_csv("dados\serie\sem_2019-1_CA.csv", encoding="UTF-8", sep=";", skipinitialspace=True)
    df_serie_segundo_sem_2019 = pd.read_csv("dados\serie\sem_2019-2_CA.csv", encoding="UTF-8", sep=";", skipinitialspace=True)
    return pd.concat([df_serie_primeiro_sem_2019,df_serie_segundo_sem_2019])

# carrega os dados de fiscalizações no dataframe
def carregar_dados_de_fiscalizacoes():
    df_fiscalizacoes = pd.read_csv("dados\\fiscalizacoes\\acoes-de-fiscalizacao.csv", encoding="UTF-8", sep=";", skipinitialspace=True, dtype=str)
    return df_fiscalizacoes

# carrega os dados de reclamações no dataframe
def carregar_dados_de_reclamacoes():
    df_reclamacoes = pd.read_csv("dados\\reclamacoes\\CRF2019 Dados Abertos.csv", encoding="UTF-8", sep=";", skipinitialspace=True, error_bad_lines=False, dtype=str)
    return df_reclamacoes    

# carrega os dados de multas de 2016 a 2019 no dataframe
def carregar_dados_de_multas():
    # O parâmetros skiprows foi necessário para ignorar as 4 primeiras linhas dos arquivo que possuem informações desnecessárias para a análise
    df_multas = pd.read_csv("dados\multas\multas_2016_a_2019.csv", encoding="UTF-8", sep=";", skiprows=4, skipinitialspace=True)
    return df_multas

# carrega os vários arquivos PMQC que estão no diretório dados\PMQC e concatena seus valores no dataframe final
def carregar_dados_PMQC():
    caminho = r'dados\PMQC'
    todos_os_arquivos = glob.glob(caminho + "/*.csv")
    # inicializo um vetor para incluir cada dataframe do pandas que leu um arquivo .csv
    li = []

    for nome_arquivo in todos_os_arquivos:
        df = pd.read_csv(nome_arquivo, encoding="UTF-8", sep=";", usecols=['DataColeta','CnpjPosto','GrupoProduto','Uf','RegiaoPolitica','Ensaio','Resultado','Conforme'])
        li.append(df)

    df_PMQC = pd.concat(li)
    return df_PMQC

## Dataframe Fiscalizacoes

In [None]:
df_fiscalizacoes = carregar_dados_de_fiscalizacoes()
df_fiscalizacoes.info()

In [None]:
df_fiscalizacoes['CNPJ/CPF']

In [None]:
df_fiscalizacoes['CNPJ'] = df_fiscalizacoes['CNPJ/CPF'].str[0:2] + '.' + df_fiscalizacoes['CNPJ/CPF'].str[2:5] + '.' + df_fiscalizacoes['CNPJ/CPF'].str[5:8] + '/' + df_fiscalizacoes['CNPJ/CPF'].str[8:12] + '-' + df_fiscalizacoes['CNPJ/CPF'].str[12:14]

In [None]:
df_fiscalizacoes['CNPJ']

In [None]:
df_fiscalizacoes['Data DF'] = pd.to_datetime(df_fiscalizacoes['Data DF'])

In [None]:
df_fiscalizacoes = df_fiscalizacoes[df_fiscalizacoes['Data DF'] <= '2019-12-31']

In [None]:
df_fiscalizacoes.info()

In [None]:
df_fiscalizacoes['Mes'] = pd.DatetimeIndex(df_fiscalizacoes['Data DF']).month

In [None]:
df_fiscalizacoes['Ocorrencias Fiscalizacoes'] = df_fiscalizacoes['Mes'].groupby(df_fiscalizacoes['CNPJ']).transform('count')

In [None]:
df_fiscalizacoes = df_fiscalizacoes[['CNPJ','Ocorrencias Fiscalizacoes']]

In [None]:
df_fiscalizacoes

In [None]:
df_fiscalizacoes.drop_duplicates(subset =['CNPJ'], inplace = True)

In [None]:
df_fiscalizacoes

## Dataframe Reclamacoes

In [None]:
df_reclamacoes = carregar_dados_de_reclamacoes()
df_reclamacoes.info()

In [None]:
df_reclamacoes['NumeroCNPJ']

In [None]:
df_reclamacoes['NumeroCNPJ'] = df_reclamacoes['NumeroCNPJ'].apply(lambda x: '{0:0>14}'.format(x))

In [None]:
df_reclamacoes['NumeroCNPJ']

In [None]:
df_reclamacoes['CNPJ'] = df_reclamacoes['NumeroCNPJ'].str[0:2] + '.' + df_reclamacoes['NumeroCNPJ'].str[2:5] + '.' + df_reclamacoes['NumeroCNPJ'].str[5:8] + '/' + df_reclamacoes['NumeroCNPJ'].str[8:12] + '-' + df_reclamacoes['NumeroCNPJ'].str[12:14]

In [None]:
df_reclamacoes['CNPJ']

In [None]:
df_reclamacoes['Ocorrencias Reclamacoes'] = df_reclamacoes['NumeroCNPJ'].groupby(df_reclamacoes['CNPJ']).transform('count')

In [None]:
df_reclamacoes = df_reclamacoes[['CNPJ', 'Ocorrencias Reclamacoes']]

In [None]:
df_reclamacoes

In [None]:
df_reclamacoes.drop_duplicates(subset =['CNPJ'], inplace = True)

In [None]:
df_reclamacoes

## Dataframe Multas

### Carregando os dados das multas

In [None]:
df_multas = carregar_dados_de_multas()

### Verificando os dados do dataframe de multas carregado

In [None]:
df_multas.info()

### Como a ligação entre os dataframes será pelo CNPJ, precisamos padronizá-lo

#### Verificando como está o CNPJ no dataframe Multas

In [None]:
df_multas['CNPJ/CPF']

#### Adicionando zeros a esquerda na coluna cnpj

In [None]:
df_multas['CNPJ/CPF'] = df_multas['CNPJ/CPF'].apply(lambda x: '{0:0>14}'.format(x))

In [None]:
df_multas['CNPJ/CPF']

#### Colocando o format de cnpj - 14 posições com xx.xxx.xxx/xxx-xx

In [None]:
df_multas['CNPJ'] = df_multas['CNPJ/CPF'].str[0:2] + '.' + df_multas['CNPJ/CPF'].str[2:5] + '.' + df_multas['CNPJ/CPF'].str[5:8] + '/' + df_multas['CNPJ/CPF'].str[8:12] + '-' + df_multas['CNPJ/CPF'].str[12:14]

### Cada linha do dataframe Multas deve possuir CNPJ unico.

#### Para isso, vamos verificar suas linhas duplicadas.
#### Começamos atualizar o dataframe df_multas somente cos atributos que nos interessam (CNPJ e Valor da multa aplicada)

In [None]:
df_multas = df_multas[['CNPJ','Valor da Multa Aplicada']]

#### Convertemos o tipo da coluna valor multa aplicada para float, trocando vírgula por ponto

In [None]:
df_multas['Valor da Multa Aplicada'] = df_multas['Valor da Multa Aplicada'].str.replace(',', '.').astype(float)

#### Somamos o valor total da multa aplicada para uma nova coluna chamada Total multa

In [None]:
df_multas['Total multa'] = df_multas['Valor da Multa Aplicada'].groupby(df_multas['CNPJ']).transform('sum')

#### Removemos a coluna Valor da Multa Aplicada

In [None]:
df_multas = df_multas[['CNPJ','Total multa']]

#### Removemos as linhas duplicadas

In [None]:
df_multas = df_multas.drop_duplicates()

### Verificando o resultado do dataframe df_multas

In [None]:
df_multas

## Dataframe PMQC

### Carregando os dados do PMQC

In [None]:
df_PMQC = carregar_dados_PMQC()

### Verificando os dados do dataframe PMQC carregado

In [None]:
df_PMQC.info()

### Verificando a coluna CnpjPosto

In [None]:
df_PMQC['CnpjPosto']

### Padronizando a coluna CNPJ, renomeando a coluna cnpjposto para CNPJ do dataframe PMQC, de forma a igualar com os outros dataframes

In [None]:
df_PMQC.rename(columns={'CnpjPosto':'CNPJ'}, inplace=True)

### Atualizando o tipo da coluna DataColeta para data

In [None]:
df_PMQC['DataColeta'] = pd.to_datetime(df_PMQC['DataColeta'])

In [None]:
df_PMQC

### Criamos um nova coluna Mes a partir da data da coleta

In [None]:
df_PMQC['Mes'] = pd.DatetimeIndex(df_PMQC['DataColeta']).month

### Removemos as linhas duplicadas, de forma que para cada CNPJ, no mês tenha apenas um tipo de Grupo Produto, considerando a coluna conformidade

In [None]:
df_PMQC.drop_duplicates(subset =['CNPJ','Mes','GrupoProduto'], inplace = True)

### Removemos os atributos do dataframe df_PMQC, deixando somente os atributos CNPJ, MES, GrupoProduto e Conforme

In [None]:
df_PMQC = df_PMQC[['CNPJ','Mes','GrupoProduto','Conforme']]

### Verificamos o dataframe df_PMQC

In [None]:
df_PMQC

## Dataframe Serie Histórica de 2019

### Carregando os dados da serie histórica de 2019

In [None]:
df_serie = carregar_dados_serie_historica_2019()

In [None]:
df_serie.info()

### Renomeando as colunas para UF e CNPJ

In [None]:
df_serie.rename(columns={'Estado - Sigla':'Uf','CNPJ da Revenda':'CNPJ'}, inplace=True)

### Atualizamos o tipo da coluna Data Coleta para data

In [None]:
df_serie['Data da Coleta'] = pd.to_datetime(df_serie['Data da Coleta'])

### Criamos um nova coluna Mes a partir da data da coleta

In [None]:
df_serie['Mes'] = pd.DatetimeIndex(df_serie['Data da Coleta']).month

### Formatamos os tipos das colunas 'Valor de Venda' e 'Valor de Compra' para float, alterando vírgula por ponto

In [None]:
df_serie['Valor de Venda'] = df_serie['Valor de Venda'].str.replace(',', '.').astype(float)
df_serie['Valor de Compra'] = df_serie['Valor de Compra'].str.replace(',', '.').astype(float)

#### Criamos a coluna GrupoProduto, onde vamos definir dentro dos produtos do dataframe serie a qual grupo de produtos ele pertence. Para começar, vamos importar a biblioteca numpy

In [None]:
import numpy as np

#### Vamos criar a lista de condições. Como temos 3 tipos de grupo de produtos, serão 3 condições de acordo com os produtos. Não vamos considerar o produto GNV, pois o mesmo não possui classificação de conforme

In [None]:
df_serie['Produto'].unique()

In [None]:
condicoes = [
    (df_serie['Produto'] == 'GASOLINA'),
    (df_serie['Produto'] == 'ETANOL'),
    (df_serie['Produto'] == 'DIESEL S10') | (df_serie['Produto'] == 'DIESEL'),
    (df_serie['Produto'] == 'GNV')
    ]

#### Criamos a lista de valores de GrupoProduto para cada condição

In [None]:
df_PMQC['GrupoProduto'].unique()

In [None]:
valores = ['Gasolina', 'Etanol', 'Óleo Diesel', 'GNV']

#### Criamos a nova coluna GrupoProduto e usamos np.select para colocar o valor correto de acordo com as condições

In [None]:
df_serie['GrupoProduto'] = np.select(condicoes, valores)

### Removemos colunas desnecessárias

In [None]:
df_serie = df_serie[['CNPJ','Mes','GrupoProduto','Uf','Valor de Venda','Valor de Compra','Bandeira']]

#### Visualizamos o dataframe atualizado

In [None]:
df_serie

### Verificando como ficou cada dataframe antes de juntá-los em um único dataframe

In [None]:
df_fiscalizacoes.info()
df_reclamacoes.info()

In [None]:
df_multas.info()
df_PMQC.info()

In [None]:
df_serie.info()

### Formando um único dataframe df_serie para juntar com o dataframe df_PMQC pelo CNPJ, Mes e GrupoProduto

In [None]:
df_serie = pd.merge(df_serie, df_PMQC, on=['CNPJ','Mes','GrupoProduto'], how='left' )

### Verificando o dataframe df_serie após a junção com o dataframe df_PMQC

In [None]:
df_serie.info()

### Formando um único dataframe df_serie para juntar com o dataframe df_multas pelo CNPJ

In [None]:
df_serie = pd.merge(df_serie, df_multas, on='CNPJ', how='left' )

### Verificando o dataframe df_serie após a junção com df_multas

In [None]:
df_serie.info()

In [None]:
df_serie

In [None]:
df_serie = pd.merge(df_serie, df_reclamacoes, on='CNPJ', how='left')

In [None]:
df_serie.info()

In [None]:
df_serie = pd.merge(df_serie, df_fiscalizacoes, on='CNPJ', how='left')

In [None]:
df_serie.info()

In [None]:
df_serie.isnull().sum()

### Para a nova coluna Multado incluímos a informação se existe multa ou não

In [None]:
df_serie['Multado'] = np.where(df_serie['Total multa'] > 0, 'Sim', 'Não')

### Para a nova coluna Reclamado incluímos a informação se existe reclamação ou não.

In [None]:
df_serie['Reclamado'] = np.where(df_serie['Ocorrencias Reclamacoes'] > 0, 'Sim', 'Não')

### Por fim, criamos uma nova coluna 'Fiscalizado' e incluímos a informação se já foi fiscalizado ou não.

In [None]:
df_serie['Fiscalizado'] = np.where(df_serie['Ocorrencias Fiscalizacoes'] > 0, 'Sim', 'Não')

In [None]:
df_serie.isnull().sum()

### Removendo as linhas da coluna Conforme igual a NaN

In [None]:
df_serie.dropna(subset = ["Conforme"], inplace=True)

### Para nossa análise, não podemos ter atributos vazios "NaN", logo precisamos eliminar as linhas da coluna Valor da compra que estão nesta situação

In [None]:
df_serie.dropna(subset = ["Valor de Compra"], inplace=True)

In [None]:
df_serie

### Com os novos atributos, podemos eliminar os atributos "Ocorrencias Fiscalizacoes" e "Ocorrencias Reclamacoes"

In [None]:
df_serie.drop(['Ocorrencias Fiscalizacoes','Ocorrencias Reclamacoes','Total multa'], axis=1, inplace=True)

In [None]:
df_serie

### Verificando valores vazios

In [None]:
df_serie.isnull().sum()

## Agora temos nosso dataframe pronto para realizar a análise de Machine Learn (todos os atributos vazios ou com NaN foram removidos)

### Análise da correlação entre os Valores de Compra e Venda

In [None]:
df_serie['Valor de Venda'].corr(df_serie['Valor de Compra'])

In [None]:
df_serie_gasolina = df_serie[['Mes','GrupoProduto','Uf','Valor de Venda','Valor de Compra','Bandeira','Conforme','Multado','Reclamado','Fiscalizado']]
df_serie_gasolina = df_serie_gasolina[df_serie_gasolina['GrupoProduto'] == 'Gasolina']
df_serie_gasolina.nlargest(5,'Valor de Venda')

In [None]:
df_serie_gasolina.nsmallest(5,'Valor de Venda')

In [None]:
import seaborn as sb
import matplotlib.pyplot as plt
from matplotlib import pyplot

### Verificando outliers

In [None]:
ax = sb.boxplot(x=df_serie_gasolina["Valor de Venda"])

In [None]:
ax = sb.boxplot(x=df_serie_gasolina["Valor de Compra"])

In [None]:
grafico = df_serie_gasolina[['Valor de Compra','Valor de Venda','Mes']].groupby(df_serie_gasolina['Mes']).mean().plot(
                            title="Variação do preço médio da Gasolina",
                            x="Mes",
                            y=['Valor de Compra','Valor de Venda'],figsize=(14,8))
grafico.set_xlabel("Mês de 2019")
grafico.set_ylabel("Valor em R$")
plt.show()

In [None]:
df_serie['Conforme'].groupby(df_serie['Uf']).value_counts()

In [None]:
df_serie['Reclamado'].groupby(df_serie['Uf']).value_counts()

In [None]:
df_serie['Multado'].groupby(df_serie['Uf']).value_counts()

In [None]:
df_serie_multado_sim = df_serie[df_serie["Multado"] == 'Sim']
df_serie_multado_sim = df_serie_multado_sim['Multado'].groupby(df_serie_multado_sim['Uf']).value_counts().sort_values(ascending=False)
df_serie_multado_sim

In [None]:
grafico = df_serie_multado_sim.sort_values(ascending=False).head(5).plot(kind='bar',
                                    figsize=(12,8),
                                    title="5 estados do país com maior quantidade de multas")
grafico.set_xlabel("UF")
grafico.set_ylabel("Ocorrências de multas")
plt.show()

### Analisando a coluna Fiscalizado

In [None]:
df_serie['Fiscalizado'].groupby(df_serie['Uf']).value_counts()

In [None]:
df_serie_fiscalizado_sim = df_serie[df_serie["Fiscalizado"] == 'Sim']
df_serie_fiscalizado_sim = df_serie_fiscalizado_sim['Fiscalizado'].groupby(df_serie_fiscalizado_sim['Uf']).value_counts()
df_serie_fiscalizado_sim.sort_values(ascending=False).head(5)

In [None]:
grafico = df_serie_fiscalizado_sim.sort_values(ascending=False).head(5).plot(kind='bar',
                                    figsize=(14,8),
                                    title="5 estados do país com maior quantidade de fiscalizações")
grafico.set_xlabel("UF")
grafico.set_ylabel("Ocorrências de fiscalizações")
plt.show()

In [None]:
grafico = df_serie_fiscalizado_sim.sort_values(ascending=True).head(5).plot(kind='bar',
                                    figsize=(14,8),
                                    title="5 estados do país com menor quantidade de fiscalizações")
grafico.set_xlabel("UF")
grafico.set_ylabel("Ocorrências de fiscalizações")
plt.show()

### Medidas estatísticas do DataFrame

In [None]:
df_serie.describe(include='all')

In [None]:
df_serie['Fiscalizado'].value_counts()

### Em forma de gráfico de barras

In [None]:
ax = sb.countplot(x="Fiscalizado", data=df_serie)

coluna_alvo = df_serie.Fiscalizado.value_counts()
print('Não:', coluna_alvo[0])
print('Sim:', coluna_alvo[1])
print('Proporção:', round(coluna_alvo[1] / coluna_alvo[0], 2), ': 1')

### Realizando a importação das bibliotecas necessárias

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import ConfusionMatrixDisplay

### Criamos as variáveis que serão usadas como previsores da classificacao e a classe alvo

### Utilizamos o labelenconder somente para as colunas com atributos categóricos, transformando-os em numéricos

### Os atributos Mes, Valor de Venda e Valor de Compra não precisam ser transformados

In [None]:
le = LabelEncoder()

atributos = df_serie.iloc[:,0:10].values
atributos[:,0] = le.fit_transform(atributos[:,0])  
atributos[:,2] = le.fit_transform(atributos[:,2])  
atributos[:,3] = le.fit_transform(atributos[:,3])  
atributos[:,6] = le.fit_transform(atributos[:,6])  
atributos[:,7] = le.fit_transform(atributos[:,7])  
atributos[:,8] = le.fit_transform(atributos[:,8])  
atributos[:,9] = le.fit_transform(atributos[:,9])  

classe_alvo = df_serie.iloc[:,10].values  

### Realizamos a divisão do dataframe entre treinamento e teste (na proporção de 20% para teste e 80% para treinamento)

In [None]:
X_treinamento, X_teste, Y_treinamento, Y_teste =  train_test_split(atributos, classe_alvo, test_size = 0.2, random_state = 1)

## Modelo NAIVE BAYES

### Criamos do modelo Gaussian Naive Bayes

In [None]:
from sklearn.naive_bayes import GaussianNB

### Treinamos o modelo

In [None]:
classificador_nb = GaussianNB()
classificador_nb.fit(X_treinamento, Y_treinamento)

### Com as predições podemos usar o dataframe separado para o teste

In [None]:
predicao_nb = classificador_nb.predict(X_teste)

### Visualizamos as predições usando o dataframe separado para o teste

In [None]:
predicao_nb

### Geramos a matriz de confusão

In [None]:
confusao_nb = confusion_matrix(Y_teste, predicao_nb)

In [None]:
print(confusao_nb)

### Visualizando a matrix de confusão

In [None]:
cmd_nb = ConfusionMatrixDisplay(confusao_nb, display_labels=classificador_nb.classes_).plot()

In [None]:
relatorio_nb = classification_report(Y_teste, predicao_nb)

In [None]:
print(relatorio_nb)

### Validação cruzada para o modelo Naive bayes

In [None]:
from sklearn.model_selection import cross_val_score

validacao_nb = cross_val_score(classificador_nb, atributos, classe_alvo, scoring='accuracy', cv=5)
print(validacao_nb.mean())

## Modelo Arvore de decisao

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree

### Criamos e treinamos o modelo

In [None]:
classificador_arvore = DecisionTreeClassifier(random_state = 1) 
classificador_arvore.fit(X_treinamento,Y_treinamento)

### Visualizamos a árvore de decisão

In [None]:
plt.figure(figsize=(14,8))
plot_tree(classificador_arvore, max_depth=5, filled=True, rounded=True)
plt.show()

### Predições com os registros de teste

In [None]:
predicao_arvore = classificador_arvore.predict(X_teste)
print(predicao_arvore)

### Matriz de confusão e cálculo da acurácia

In [None]:
confusao_arvore = confusion_matrix(Y_teste, predicao_arvore)
print(confusao_arvore)
cmd_arvore = ConfusionMatrixDisplay(confusao_arvore, display_labels=classificador_arvore.classes_).plot()

### Visualizando o relatório da matriz de confusão da arvore de decisão

In [None]:
relatorio_arvore = classification_report(Y_teste, predicao_arvore)
print(relatorio_arvore)

### Validação cruzada para o classificador arvore

In [None]:
validacao_arvore = cross_val_score(classificador_arvore, atributos, classe_alvo, scoring='accuracy', cv=5)
print(validacao_arvore.mean())

## Modelo Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

classificador_rf = RandomForestClassifier()
classificador_rf.fit(X_treinamento, Y_treinamento)

### Realizamos a predição do modelo nos dados de teste

In [None]:
predicao_rf = classificador_rf.predict(X_teste)
print(predicao_rf)

In [None]:
confusao_rf = confusion_matrix(Y_teste, predicao_rf)
print(confusao_rf)
cmd_rf = ConfusionMatrixDisplay(confusao_rf, display_labels=classificador_rf.classes_).plot()

In [None]:
relatorio_rf = classification_report(Y_teste, predicao_rf)
print(relatorio_rf)

### Validação cruzada do classificador Random Forest

In [None]:
validacao_rf = cross_val_score(classificador_rf, atributos, classe_alvo, scoring='accuracy', cv=5)
print(validacao_rf.mean())

## Modelo SVM (Support Vector Machine)

In [None]:
from sklearn import svm

classificador_svm = svm.SVC(gamma='auto')
classificador_svm.fit(X_treinamento, Y_treinamento)
predicao_svm = classificador_svm.predict(X_teste)
confusao_svm = confusion_matrix(Y_teste, predicao_svm)
print(confusao_svm)
cmd_svm = ConfusionMatrixDisplay(confusao_svm, display_labels=classificador_svm.classes_).plot()

In [None]:
relatorio_svm = classification_report(Y_teste, predicao_svm)
print(relatorio_svm)

In [None]:
validacao_svm = cross_val_score(classificador_svm, atributos, classe_alvo, scoring='accuracy', cv=5)
print(validacao_svm.mean())

## Modelo KNN

### Treinando o KNN - Valor inicial padrão

In [None]:
from sklearn.neighbors import KNeighborsClassifier

classificador_knn = KNeighborsClassifier()
classificador_knn.fit(X_treinamento, Y_treinamento)
predicao_knn = classificador_knn.predict(X_teste)
confusao_knn = confusion_matrix(Y_teste, predicao_knn)
print(confusao_knn)
cmd_knn = ConfusionMatrixDisplay(confusao_knn, display_labels=classificador_knn.classes_).plot()

In [None]:
relatorio_knn = classification_report(Y_teste, predicao_knn)
print(relatorio_knn)

### Avaliamos o desempenho do KNN com validação cruzada

### Faz a validação cruzada com 5 folds e ao final exibe a média da acurácia

In [None]:
validacao_knn = cross_val_score(classificador_knn, atributos, classe_alvo, scoring='accuracy', cv=5)
print(validacao_knn.mean())

### Vamos avaliar o desempenho do modelo com outros k vizinhos (1 a 10)

### Treinando o KNN - Valor k = 1 a 10

In [None]:
for k in range(1, 11):
    classificador_knn = KNeighborsClassifier(n_neighbors = k)
    classificador_knn.fit(X_treinamento, Y_treinamento)
    validacao_knn = cross_val_score(classificador_knn, atributos, classe_alvo, scoring='accuracy', cv=5)
    print('Validação cruzada para a acurácia do modelo knn sendo k = ' + str(k) + ' -> ' + str(validacao_knn.mean()))

### Agora com o classificador_knn recebendo o modelo com k = 1

In [None]:
classificador_knn_1 = KNeighborsClassifier(n_neighbors = 1)
classificador_knn_1.fit(X_treinamento, Y_treinamento)
predicao_knn_1 = classificador_knn_1.predict(X_teste)
confusao_knn_1 = confusion_matrix(Y_teste, predicao_knn_1)
print(confusao_knn_1)
cmd_knn_1 = ConfusionMatrixDisplay(confusao_knn_1, display_labels=classificador_knn_1.classes_).plot()

In [None]:
relatorio_knn_1 = classification_report(Y_teste, predicao_knn_1)
print(relatorio_knn_1)

### Aplicando reamostragem com o SMOTE

In [None]:
from imblearn.over_sampling import SMOTE

atributos_re = atributos
classe_alvo_re = classe_alvo

smote = SMOTE(random_state=1)
atributos_re, classe_alvo_re = smote.fit_resample(atributos_re, classe_alvo_re)
sb.countplot(x=classe_alvo_re)

X_treinamento_re, X_teste_re, Y_treinamento_re, Y_teste_re =  train_test_split(atributos_re, classe_alvo_re, test_size = 0.2, random_state = 1)

### Modelo Naive Bayes com reamostragem

In [None]:
classificador_nb_re = GaussianNB()
classificador_nb_re.fit(X_treinamento_re, Y_treinamento_re)
predicao_nb_re = classificador_nb_re.predict(X_teste_re)
confusao_nb_re = confusion_matrix(Y_teste_re, predicao_nb_re)
print(confusao_nb_re)
cmd_nb_re = ConfusionMatrixDisplay(confusao_nb_re, display_labels=classificador_nb_re.classes_).plot()
relatorio_nb_re = classification_report(Y_teste_re, predicao_nb_re)
print(relatorio_nb_re)

In [None]:
validacao_nb_re = cross_val_score(classificador_nb_re, atributos_re, classe_alvo_re, scoring='accuracy', cv=5)
print(validacao_nb_re.mean())

### Modelo Random Forest com Reamostragem

In [None]:
classificador_rf_re = RandomForestClassifier()
classificador_rf_re.fit(X_treinamento_re, Y_treinamento_re)
predicao_rf_re = classificador_rf_re.predict(X_teste_re)
confusao_rf_re = confusion_matrix(Y_teste_re, predicao_rf_re)
print(confusao_rf_re)
cmd_rf_re = ConfusionMatrixDisplay(confusao_rf_re, display_labels=classificador_rf_re.classes_).plot()
relatorio_rf_re = classification_report(Y_teste_re, predicao_rf_re)
print(relatorio_rf_re)

In [None]:
validacao_rf_re = cross_val_score(classificador_rf_re, atributos_re, classe_alvo_re, scoring='accuracy', cv=5)
print(validacao_rf_re.mean())