In [1]:
import pandas as pd
import os

In [2]:
# Configurações
work_directory = "../../combustiveis/"
final_dataset_name = "dataset_etanol_sp.csv"
combustivel = "ETANOL"
estado = "SP"

In [3]:
# Adquire os nomes dos arquivos existentes no diretório
# Cada nome de arquivo representa uma entrada semestral do dataset
filenames = next(os.walk(work_directory), (None, None, []))[2]

print(f'Quantidade total de entradas semestrais: {len(filenames)}')

Quantidade total de entradas semestrais: 47


In [4]:
# Cria um dataframe para unificar todas as entradas semestrais
final_df = pd.DataFrame()

In [None]:
# Primeiro, remover arquivo existente de dataset final
# Isso é necessário pois se o arquivo já existir, iremos escrever mais dados sobre ele
# Dessa maneira, a fidelidade dos dados do dataset será prejudicada
try:
    os.remove(work_directory + final_dataset_name)
except OSError as e:
    print ("Nenhum arquivo existente de dataset final")

# Realiza leitura de cada um dos datasets semestrais e concatena em um único dataframe
i = 1

for filename in filenames:
    # Ignora arquivo de dataset final, ler apenas entradas semestrais
    if not "ca-" in filename:
        continue
        
    # Realiza leitura do dataset
    df = pd.read_csv(work_directory + filename, sep=";", decimal=",", encoding="cp860")
    
    # Aplicar filtros desejados para o dataset
    df = df[(df["Produto"] == combustivel) & (df["Estado - Sigla"] == estado)]
    
    # Acrescenta coluna com o identificador do semestre
    df.insert(0, "Semestre", filename[3:10], True)

    # Para concatenar o dataframe no arquivo CSV, considerar o header apenas para a primeira entrada
    save_header = True if i == 1 else False
    
    # Concatena o dataframe lido com o dataframe geral
    df.to_csv(work_directory + final_dataset_name, mode="a", index=False, header=save_header)
    
    print(f'Leitura finalizada da entrada {i}')
    i += 1

print("Concatenação finalizada")