In [1]:
import os
import codecs
from datetime import datetime

In [2]:
def join_lines(**kwargs):
    """
    Le o arquivo de entrada, caso alguma das linhas tenha quantidade de colunas diferente
    da do cabecalho, a linha seguinte e concatenada com a atual e escrita no arquivo de saida.
    """
    
    # Log: Mensagem de inicio da verificacao dos registros
    print(str(datetime.now()) + ': Verificando registros do arquivo ' + kwargs['data_file'] + ' .')
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = 'utf-8') as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as writer:
            
            # Armazena o header
            header = reader.readline()
            
            # Conta a quantidade de colunas no header
            qt_columns = header.count('\";\"')
            
            # Contadores
            qt_lines = 0
            qt_joins = 0
            
            writer.write(header)
            
            for line in reader:
                
                if line.count('\";\"') != qt_columns:
                    qt_joins += 1
                    writer.write(line.replace("\r\n", "") + reader.readline())
                else:
                    qt_lines += 1
                    writer.write(line)
                    
    # Log: Resultado da verificacao dos registros
    print(str(datetime.now()) + ': Resultado: Normais = ' + str(qt_lines) + ' - Corrigidas = ' + str(qt_joins))

In [3]:
def organize_files():
    """
    Para cada arquivo de origem, e verificado se a quantidade de colunas de cada registros corresponde
    com a quantidade de colunas do cabecalho do arquivo.        
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\02-cleaned'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\03-organized'
    
    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Organizacao dos arquivos iniciada.')
    
    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:
        
        kwargs['data_file'] = file

        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Log: Corrige registros com menos colunas que o esperado
        print(str(datetime.now()) + ': Enviando ' + kwargs['data_file'] + ' para organizacao.')
        join_lines(**kwargs)
      
    # Log: Mensagem de finalizacao do processo de limpeza
    print(str(datetime.now()) + ': Organizacao dos arquivos finalizada.')

In [4]:
def main():
    """
    Organiza os dados de Cartao de Pagamento do Governo Federal (CPGF)
    Origem: Portal da Transparencia
    """
    
    ### Organiza os arquivos
    organize_files()

if __name__ == '__main__':
    main()

2019-08-21 07:50:06.356855: Organizacao dos arquivos iniciada.
2019-08-21 07:50:06.356855: Enviando 201301_CPGF.csv para organizacao.
2019-08-21 07:50:06.356855: Verificando registros do arquivo 201301_CPGF.csv .
2019-08-21 07:50:06.612344: Resultado: Normais = 17550 - Corrigidas = 0
2019-08-21 07:50:06.612344: Enviando 201302_CPGF.csv para organizacao.
2019-08-21 07:50:06.612344: Verificando registros do arquivo 201302_CPGF.csv .
2019-08-21 07:50:06.659217: Resultado: Normais = 3310 - Corrigidas = 0
2019-08-21 07:50:06.659217: Enviando 201303_CPGF.csv para organizacao.
2019-08-21 07:50:06.659217: Verificando registros do arquivo 201303_CPGF.csv .
2019-08-21 07:50:06.778941: Resultado: Normais = 9473 - Corrigidas = 0
2019-08-21 07:50:06.778941: Enviando 201304_CPGF.csv para organizacao.
2019-08-21 07:50:06.778941: Verificando registros do arquivo 201304_CPGF.csv .
2019-08-21 07:50:06.986345: Resultado: Normais = 16190 - Corrigidas = 0
2019-08-21 07:50:06.986345: Enviando 201305_CPGF.cs

2019-08-21 07:50:14.749005: Resultado: Normais = 6970 - Corrigidas = 0
2019-08-21 07:50:14.749005: Enviando 201604_CPGF.csv para organizacao.
2019-08-21 07:50:14.749005: Verificando registros do arquivo 201604_CPGF.csv .
2019-08-21 07:50:14.910606: Resultado: Normais = 13019 - Corrigidas = 0
2019-08-21 07:50:14.910606: Enviando 201605_CPGF.csv para organizacao.
2019-08-21 07:50:14.910606: Verificando registros do arquivo 201605_CPGF.csv .
2019-08-21 07:50:15.075166: Resultado: Normais = 12485 - Corrigidas = 0
2019-08-21 07:50:15.075166: Enviando 201606_CPGF.csv para organizacao.
2019-08-21 07:50:15.076130: Verificando registros do arquivo 201606_CPGF.csv .
2019-08-21 07:50:15.243716: Resultado: Normais = 13512 - Corrigidas = 0
2019-08-21 07:50:15.244512: Enviando 201607_CPGF.csv para organizacao.
2019-08-21 07:50:15.244545: Verificando registros do arquivo 201607_CPGF.csv .
2019-08-21 07:50:15.409240: Resultado: Normais = 13159 - Corrigidas = 0
2019-08-21 07:50:15.409240: Enviando 2016

2019-08-21 07:50:21.092044: Resultado: Normais = 10876 - Corrigidas = 0
2019-08-21 07:50:21.093089: Enviando 201906_CPGF.csv para organizacao.
2019-08-21 07:50:21.093089: Verificando registros do arquivo 201906_CPGF.csv .
2019-08-21 07:50:21.252626: Resultado: Normais = 11708 - Corrigidas = 0
2019-08-21 07:50:21.252626: Organizacao dos arquivos finalizada.
