In [1]:
import os
import codecs
from datetime import datetime

In [2]:
def join_lines(**kwargs):
    """
    Le o arquivo de entrada, caso algum dos registros tenha quantidade de colunas diferente
    do cabecalho, a linha seguinte e concatenada com a atual e escrita no arquivo de saida.
    """
    
    # Log: Mensagem de inicio da verificacao dos registros
    print(str(datetime.now()) + ': Verificando registros do arquivo ' + kwargs['data_file'])
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = 'utf-8') as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as writer:
            
            # Armazena o header do arquivo de entrada
            header = reader.readline()
            
            # Conta a quantidade de colunas no header
            qt_columns = header.count('\";\"')
            
            # Define os contadores
            qt_lines = 0
            qt_joins = 0
            
            # Escreve o cabecalho no arquivo de saida
            writer.write(header)
            
            # Para cada linha no arquivo de entrada
            for line in reader:
                
                # Escreve o registro do arquivo de entrada no arquivo de saida 
                # Caso o registro tenha quantidade de colunas diferente do cabecalho
                # a linha seguinte e concatenada com a atual
                if line.count('\";\"') != qt_columns:
                    qt_joins += 1
                    writer.write(line.replace("\r\n", "") + reader.readline())
                else:
                    qt_lines += 1
                    writer.write(line)
                    
    # Log: Resultado da verificacao dos registros
    print(str(datetime.now()) + ': Resultado: Normais = ' + str(qt_lines) + ' - Corrigidas = ' + str(qt_joins))

In [3]:
def organize_files():
    """
    Para cada arquivo de origem, e verificado se a quantidade de colunas de cada registro corresponde
    com a quantidade de colunas do cabecalho do arquivo.        
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\02-cleaned'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\03-organized'
    
    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Organizacao dos arquivos iniciada.')
    
    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:
        
        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['data_file'] = file
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Corrige registros com menos colunas que o esperado
        join_lines(**kwargs)
      
    # Log: Mensagem de finalizacao do processo de limpeza
    print(str(datetime.now()) + ': Organizacao dos arquivos finalizada.')

In [4]:
def main():
    """
    Organiza os dados de prestacao de contas por candidato. 
    Origem: Tribunal Superior Eleitoral (TSE)
    """
    
    ### Organiza os arquivos
    organize_files()

if __name__ == '__main__':
    main()

2021-11-15 18:35:27.666510: Organizacao dos arquivos iniciada.
2021-11-15 18:35:27.666510: Verificando registros do arquivo despesas_contratadas_candidatos_2020_AC.csv
2021-11-15 18:35:27.926884: Resultado: Normais = 13394 - Corrigidas = 0
2021-11-15 18:35:27.926884: Verificando registros do arquivo despesas_contratadas_candidatos_2020_AL.csv
2021-11-15 18:35:29.095489: Resultado: Normais = 66375 - Corrigidas = 0
2021-11-15 18:35:29.095489: Verificando registros do arquivo despesas_contratadas_candidatos_2020_AM.csv
2021-11-15 18:35:30.242479: Resultado: Normais = 67660 - Corrigidas = 0
2021-11-15 18:35:30.242479: Verificando registros do arquivo despesas_contratadas_candidatos_2020_AP.csv
2021-11-15 18:35:30.554579: Resultado: Normais = 16322 - Corrigidas = 0
2021-11-15 18:35:30.554579: Verificando registros do arquivo despesas_contratadas_candidatos_2020_BA.csv
2021-11-15 18:35:34.226976: Resultado: Normais = 213707 - Corrigidas = 0
2021-11-15 18:35:34.227973: Verificando registros d

2021-11-15 18:39:03.041823: Resultado: Normais = 56962 - Corrigidas = 0
2021-11-15 18:39:03.041823: Verificando registros do arquivo despesas_pagas_candidatos_2020_RO.csv
2021-11-15 18:39:03.647824: Resultado: Normais = 35646 - Corrigidas = 0
2021-11-15 18:39:03.647824: Verificando registros do arquivo despesas_pagas_candidatos_2020_RR.csv
2021-11-15 18:39:03.933019: Resultado: Normais = 23135 - Corrigidas = 0
2021-11-15 18:39:03.933019: Verificando registros do arquivo despesas_pagas_candidatos_2020_RS.csv
2021-11-15 18:39:06.914148: Resultado: Normais = 223655 - Corrigidas = 0
2021-11-15 18:39:06.914148: Verificando registros do arquivo despesas_pagas_candidatos_2020_SC.csv
2021-11-15 18:39:08.372428: Resultado: Normais = 127297 - Corrigidas = 0
2021-11-15 18:39:08.372428: Verificando registros do arquivo despesas_pagas_candidatos_2020_SE.csv
2021-11-15 18:39:08.768999: Resultado: Normais = 32549 - Corrigidas = 0
2021-11-15 18:39:08.768999: Verificando registros do arquivo despesas_p

2021-11-15 18:41:09.087580: Resultado: Normais = 4840 - Corrigidas = 0
2021-11-15 18:41:09.087580: Verificando registros do arquivo receitas_candidatos_doador_originario_2020_RJ.csv
2021-11-15 18:41:09.209265: Resultado: Normais = 9995 - Corrigidas = 0
2021-11-15 18:41:09.209265: Verificando registros do arquivo receitas_candidatos_doador_originario_2020_RN.csv
2021-11-15 18:41:09.254390: Resultado: Normais = 791 - Corrigidas = 0
2021-11-15 18:41:09.254390: Verificando registros do arquivo receitas_candidatos_doador_originario_2020_RO.csv
2021-11-15 18:41:09.265527: Resultado: Normais = 511 - Corrigidas = 0
2021-11-15 18:41:09.266535: Verificando registros do arquivo receitas_candidatos_doador_originario_2020_RR.csv
2021-11-15 18:41:09.272509: Resultado: Normais = 34 - Corrigidas = 0
2021-11-15 18:41:09.272509: Verificando registros do arquivo receitas_candidatos_doador_originario_2020_RS.csv
2021-11-15 18:41:09.492980: Resultado: Normais = 19951 - Corrigidas = 0
2021-11-15 18:41:09.49