In [1]:
import os
import codecs
from datetime import datetime

In [2]:
def join_lines(**kwargs):
    """
    Le o arquivo de entrada, caso alguma das linhas tenha quantidade de colunas diferente
    da do cabecalho, a linha seguinte e concatenada com a atual e escrita no arquivo de saida.
    """
    
    # Log: Mensagem de inicio da verificacao dos registros
    print(str(datetime.now()) + ': Verificando registros do arquivo ' + kwargs['data_file'] + ' .')
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = 'utf-8') as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as writer:
            
            # Armazena o header
            header = reader.readline()
            
            # Conta a quantidade de colunas no header
            qt_columns = header.count("\t")
            
            # Contadores
            qt_lines = 0
            qt_joins = 0
            
            writer.write(header)
            
            for line in reader:
                
                if line.count("\t") != qt_columns:                        
                    qt_joins += 1
                    writer.write(line.replace("\r\n", "") + reader.readline())
                else:
                    qt_lines += 1
                    writer.write(line)
                    
    # Log: Resultado da verificacao dos registros
    print(str(datetime.now()) + ': Resultado: Normais = ' + str(qt_lines) + ' - Corrigidas = ' + str(qt_joins))

In [3]:
def organize_files():
    """
    Para cada arquivo de origem, e verificado se a quantidade de colunas de cada registros corresponde
    com a quantidade de colunas do cabecalho do arquivo.        
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\02-cleaned'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\03-organized'
    
    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Organizacao dos arquivos iniciada.')
    
    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:
        
        kwargs['data_file'] = file

        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Log: Corrige registros com menos colunas que o esperado
        print(str(datetime.now()) + ': Enviando ' + kwargs['data_file'] + ' para organizacao.')
        join_lines(**kwargs)
      
    # Log: Mensagem de finalizacao do processo de limpeza
    print(str(datetime.now()) + ': Organizacao dos arquivos finalizada.')

In [4]:
def main():
    """
    Organiza os dados de Cartao de Pagamento do Governo Federal (CPGF)
    Origem: Portal da Transparencia
    """
    
    ### Organiza os arquivos
    organize_files()

if __name__ == '__main__':
    main()

2019-08-16 09:15:50.059066: Organizacao dos arquivos iniciada.
2019-08-16 09:15:50.060056: Enviando 201901_CPGF.csv para organizacao.
2019-08-16 09:15:50.060056: Verificando registros do arquivo 201901_CPGF.csv .
2019-08-16 09:15:50.211649: Resultado: Normais = 8988 - Corrigidas = 0
2019-08-16 09:15:50.211649: Enviando 201902_CPGF.csv para organizacao.
2019-08-16 09:15:50.211649: Verificando registros do arquivo 201902_CPGF.csv .
2019-08-16 09:15:50.246554: Resultado: Normais = 1985 - Corrigidas = 0
2019-08-16 09:15:50.246554: Enviando 201903_CPGF.csv para organizacao.
2019-08-16 09:15:50.246554: Verificando registros do arquivo 201903_CPGF.csv .
2019-08-16 09:15:50.377205: Resultado: Normais = 7129 - Corrigidas = 0
2019-08-16 09:15:50.377205: Enviando 201904_CPGF.csv para organizacao.
2019-08-16 09:15:50.377205: Verificando registros do arquivo 201904_CPGF.csv .
2019-08-16 09:15:50.499921: Resultado: Normais = 8361 - Corrigidas = 0
2019-08-16 09:15:50.499921: Enviando 201905_CPGF.csv 