In [1]:
import os
import codecs
from datetime import datetime

In [2]:
def encode_to_utf8(**kwargs):
    """
    Funcao para padronizar a codificacao dos arquivos originais em UTF-8.
    Facilita a futura leitura dos arquivos e elimina caracteres desconhecidos.
    
    Args:
        original_encode(str): Codificacao original do arquivo.
                              Ex.: 'cp1252'
        in_data_path(str): Caminho completo para acesso ao arquivo original.
                           Ex.: '..\data\01-collected\2012_Funcoes.csv'
        out_data_path(str): Caminho completo para escrita do arquivo codificado
                            em UTF-8.
                            Ex.: '..\data\02-cleaned\2012_Funcoes.csv'
    """
    
    # Log: Mensagem de inicio da codificacao
    print(str(datetime.now()) + ': Inicio da codificacao do arquivo ' + kwargs['in_data_path'])
    
    # Le arquivo na codificacao original
    with codecs.open(kwargs['in_data_path'], 'rb', encoding = kwargs['original_encode'], errors = 'replace') as file:
        
        # Substitui os caracteres desconhecidos por interrogacao
        lines = file.read().replace('\x1a', '?').replace('\u0085', '?')

    # Escreve o arquivo codificado em UTF-8
    with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as file:
        file.write(lines)
    
    # Log: Mensagem de termino da codificacao
    print(str(datetime.now()) + ': Fim da codificacao do arquivo '+ kwargs['out_data_path'])

In [3]:
def clean_files():
    """
    Funcao para limpar os arquivos coletados, codificando em UTF-8 e elimando caracteres desconhecidos.
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\01-collected'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\02-cleaned'
    
    # Codificacao dos arquivos originais
    kwargs['original_encode'] = 'latin-1'

    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Limpeza dos arquivos iniciada.')

    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:

        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['data_file'] = file
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Codifica o arquivo original em UTF-8
        encode_to_utf8(**kwargs)
      
    # Log: Mensagem de finalizacao do processo
    print(str(datetime.now()) + ': Limpeza dos arquivos finalizada.')

In [4]:
def main():
    """
    Limpa os dados de prestacao de contas por candidato. 
    Origem: Tribunal Superior Eleitoral (TSE) 
    """
        
    ### Limpa os arquivos
    clean_files()

if __name__ == '__main__':
    main()

2021-11-15 18:30:06.342099: Limpeza dos arquivos iniciada.
2021-11-15 18:30:06.342099: Inicio da codificacao do arquivo ..\data\01-collected\despesas_contratadas_candidatos_2020_AC.csv
2021-11-15 18:30:06.368028: Fim da codificacao do arquivo ..\data\02-cleaned\despesas_contratadas_candidatos_2020_AC.csv
2021-11-15 18:30:06.368028: Inicio da codificacao do arquivo ..\data\01-collected\despesas_contratadas_candidatos_2020_AL.csv
2021-11-15 18:30:06.536817: Fim da codificacao do arquivo ..\data\02-cleaned\despesas_contratadas_candidatos_2020_AL.csv
2021-11-15 18:30:06.539809: Inicio da codificacao do arquivo ..\data\01-collected\despesas_contratadas_candidatos_2020_AM.csv
2021-11-15 18:30:06.698971: Fim da codificacao do arquivo ..\data\02-cleaned\despesas_contratadas_candidatos_2020_AM.csv
2021-11-15 18:30:06.701963: Inicio da codificacao do arquivo ..\data\01-collected\despesas_contratadas_candidatos_2020_AP.csv
2021-11-15 18:30:06.726896: Fim da codificacao do arquivo ..\data\02-clean

2021-11-15 18:31:09.640020: Fim da codificacao do arquivo ..\data\02-cleaned\despesas_pagas_candidatos_2020_CE.csv
2021-11-15 18:31:09.642014: Inicio da codificacao do arquivo ..\data\01-collected\despesas_pagas_candidatos_2020_ES.csv
2021-11-15 18:31:09.742378: Fim da codificacao do arquivo ..\data\02-cleaned\despesas_pagas_candidatos_2020_ES.csv
2021-11-15 18:31:09.743376: Inicio da codificacao do arquivo ..\data\01-collected\despesas_pagas_candidatos_2020_GO.csv
2021-11-15 18:31:10.200350: Fim da codificacao do arquivo ..\data\02-cleaned\despesas_pagas_candidatos_2020_GO.csv
2021-11-15 18:31:10.202344: Inicio da codificacao do arquivo ..\data\01-collected\despesas_pagas_candidatos_2020_MA.csv
2021-11-15 18:31:10.387088: Fim da codificacao do arquivo ..\data\02-cleaned\despesas_pagas_candidatos_2020_MA.csv
2021-11-15 18:31:10.388086: Inicio da codificacao do arquivo ..\data\01-collected\despesas_pagas_candidatos_2020_MG.csv
2021-11-15 18:31:11.604718: Fim da codificacao do arquivo ..

2021-11-15 18:31:41.430577: Fim da codificacao do arquivo ..\data\02-cleaned\receitas_candidatos_2020_PE.csv
2021-11-15 18:31:41.433569: Inicio da codificacao do arquivo ..\data\01-collected\receitas_candidatos_2020_PI.csv
2021-11-15 18:31:41.638526: Fim da codificacao do arquivo ..\data\02-cleaned\receitas_candidatos_2020_PI.csv
2021-11-15 18:31:41.640557: Inicio da codificacao do arquivo ..\data\01-collected\receitas_candidatos_2020_PR.csv
2021-11-15 18:31:42.583707: Fim da codificacao do arquivo ..\data\02-cleaned\receitas_candidatos_2020_PR.csv
2021-11-15 18:31:42.591686: Inicio da codificacao do arquivo ..\data\01-collected\receitas_candidatos_2020_RJ.csv
2021-11-15 18:31:43.256253: Fim da codificacao do arquivo ..\data\02-cleaned\receitas_candidatos_2020_RJ.csv
2021-11-15 18:31:43.262237: Inicio da codificacao do arquivo ..\data\01-collected\receitas_candidatos_2020_RN.csv
2021-11-15 18:31:43.400409: Fim da codificacao do arquivo ..\data\02-cleaned\receitas_candidatos_2020_RN.csv

2021-11-15 18:31:48.533665: Fim da codificacao do arquivo ..\data\02-cleaned\receitas_candidatos_doador_originario_2020_SE.csv
2021-11-15 18:31:48.533665: Inicio da codificacao do arquivo ..\data\01-collected\receitas_candidatos_doador_originario_2020_SP.csv
2021-11-15 18:31:48.648895: Fim da codificacao do arquivo ..\data\02-cleaned\receitas_candidatos_doador_originario_2020_SP.csv
2021-11-15 18:31:48.650889: Inicio da codificacao do arquivo ..\data\01-collected\receitas_candidatos_doador_originario_2020_TO.csv
2021-11-15 18:31:48.658922: Fim da codificacao do arquivo ..\data\02-cleaned\receitas_candidatos_doador_originario_2020_TO.csv
2021-11-15 18:31:48.658922: Limpeza dos arquivos finalizada.
