##### Bibliotecas


In [65]:
import os
import numpy as np
import pandas as pd
import openpyxl #biblioteca para ler o arquivo .xlsx
import plotly.express as px
import plotly.io as pio
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import seaborn as sns
#from plotly.subplots import make_subplots

In [66]:
pio.renderers.default = 'notebook'  # Configura o renderizador para notebook

##### Globais

In [67]:
diretorio        = 'datasets'
arquivo_extensao = '.csv'

___
##### Conjunto de Dados

Série Histórica de Preços de Combustíveis e de GLP   
https://www.gov.br/anp/pt-br/centrais-de-conteudo/dados-abertos/serie-historica-de-precos-de-combustiveis

A análise será realizada no **Conjunto de Dados semanais agrupados por semestre (2013 a 2023)**, considerando somente os **Combustíveis automotivos**, totalizando 21 arquivos csv.
<br><br>
___

##### Análise da Estrutura dos Dados (antes da limpeza)



In [68]:
df_dados          = pd.DataFrame()    
df_estrutra_dados = pd.DataFrame()
lista_arquivos    = []

# Lista os arquivos do diretório
for arquivo in os.listdir(diretorio):
    if arquivo.endswith(arquivo_extensao):
       lista_arquivos.append(arquivo) 
       
# Carrega o DataFrame 
for dataset in lista_arquivos:
    caminho_arquivo   = os.path.join(diretorio, dataset)
    df_dados          = pd.read_csv(caminho_arquivo, sep=';', low_memory=False)
    df_estrutra_dados = pd.concat([df_estrutra_dados, df_dados], ignore_index=True)

##### Dimensões da Base de Dados

In [None]:
print(f"Linhas: {len(df_estrutra_dados)}")
print(f"Colunas: {len(df_estrutra_dados.iloc[0])}")

##### Estrutura da Base de Dados

In [None]:
df_estrutra_dados.info()

##### Campos nulos

In [None]:
df_estrutra_dados.isnull().sum()

##### Visualização do DataFrame (Head e Tail)

In [None]:
print(display(df_estrutra_dados)) 

___
##### Análise da Estrutura dos Dados (processo de limpeza)

Otimização:
* Colunas não consideradas na análise serão excluídas do dataframe
* A fim de um melhor aproveitamento de espaço, algumas colunas terão o seu tipo alterado

In [None]:
df_dados        = pd.DataFrame()
df_dados_limpos = pd.DataFrame()
lista_arquivos  = []

# Lista os arquivos do diretório
for arquivo in os.listdir(diretorio):
    if arquivo.endswith(arquivo_extensao):
       lista_arquivos.append(arquivo) 

# Carrega o DataFrame 
for dataset in lista_arquivos:
    caminho_arquivo = os.path.join(diretorio, dataset)
    df_dados        = pd.read_csv(caminho_arquivo,
                                  sep=';', thousands = '.', decimal = ',',
                                  dtype = {'Regiao - Sigla': 'category',
                                           'Estado - Sigla': 'category',
                                           'Valor de Compra': np.float64})
    
    df_dados_limpos = pd.concat([df_dados_limpos, df_dados], ignore_index=True)

# Exclui colunas    
df_dados_limpos.drop(columns=['Nome da Rua',
                              'Numero Rua',
                              'Complemento',
                              'Bairro',
                              'Cep',
                              'Valor de Compra',
                              'Unidade de Medida'], inplace=True)

df_dados_limpos.rename(columns={'Regiao - Sigla': 'Regiao', 
                                'Estado - Sigla': 'Estado',
                                'CNPJ da Revenda': 'CNPJ',
                                'Data da Coleta': 'Data_Coleta',
                                'Valor de Venda': 'Valor_Venda'}, inplace=True)

# Criando colunas de mês e ano
df_dados_limpos['Data_Coleta'] = pd.to_datetime(df_dados_limpos['Data_Coleta'], format="%d/%m/%Y")
df_dados_limpos['Ano']         = df_dados_limpos['Data_Coleta'].dt.year
df_dados_limpos['Mes']         = df_dados_limpos['Data_Coleta'].dt.month
                     
df_dados_limpos.info()

##### Visualização do DataFrame (Head e Tail)

In [None]:
print(display(df_dados_limpos)) 

___