In [1]:
import os
import codecs
from datetime import datetime

In [2]:
def join_lines(**kwargs):
    """
    Le o arquivo de entrada, caso algum dos registros tenha quantidade de colunas diferente
    do cabecalho, a linha seguinte e concatenada com a atual e escrita no arquivo de saida.
    """
    
    # Log: Mensagem de inicio da verificacao dos registros
    print(str(datetime.now()) + ': Verificando registros do arquivo ' + kwargs['data_file'])
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = 'utf-8') as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as writer:
            
            # Armazena o header do arquivo de entrada
            header = reader.readline()
            
            # Conta a quantidade de colunas no header
            qt_columns = header.count('\";\"')
            
            # Define os contadores
            qt_lines = 0
            qt_joins = 0
            
            # Escreve o cabecalho no arquivo de saida
            writer.write(header)
            
            # Para cada linha no arquivo de entrada
            for line in reader:
                
                # Escreve o registro do arquivo de entrada no arquivo de saida 
                # Caso o registro tenha quantidade de colunas diferente do cabecalho
                # a linha seguinte e concatenada com a atual
                if line.count('\";\"') != qt_columns:
                    qt_joins += 1
                    writer.write(line.replace("\r\n", "") + reader.readline())
                else:
                    qt_lines += 1
                    writer.write(line)
                    
    # Log: Resultado da verificacao dos registros
    print(str(datetime.now()) + ': Resultado: Normais = ' + str(qt_lines) + ' - Corrigidas = ' + str(qt_joins))

In [3]:
def organize_files():
    """
    Para cada arquivo de origem, e verificado se a quantidade de colunas de cada registro corresponde
    com a quantidade de colunas do cabecalho do arquivo.        
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\02-cleaned'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\03-organized'
    
    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Organizacao dos arquivos iniciada.')
    
    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:
        
        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['data_file'] = file
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Corrige registros com menos colunas que o esperado
        join_lines(**kwargs)
      
    # Log: Mensagem de finalizacao do processo de limpeza
    print(str(datetime.now()) + ': Organizacao dos arquivos finalizada.')

In [4]:
def main():
    """
    Organiza os dados de Contratos do Governo Federal (Contratos).
    Origem: Portal da Transparencia 
    """
    
    ### Organiza os arquivos
    organize_files()

if __name__ == '__main__':
    main()

2020-01-03 11:30:40.541803: Organizacao dos arquivos iniciada.
2020-01-03 11:30:40.542832: Verificando registros do arquivo 201901_Apostilamento.csv
2020-01-03 11:30:40.545833: Resultado: Normais = 0 - Corrigidas = 0
2020-01-03 11:30:40.545833: Verificando registros do arquivo 201901_Compras.csv
2020-01-03 11:30:40.629008: Resultado: Normais = 3411 - Corrigidas = 0
2020-01-03 11:30:40.629008: Verificando registros do arquivo 201901_ItemCompra.csv
2020-01-03 11:30:40.636985: Resultado: Normais = 0 - Corrigidas = 0
2020-01-03 11:30:40.637990: Verificando registros do arquivo 201901_TermoAditivo.csv
2020-01-03 11:30:40.642015: Resultado: Normais = 0 - Corrigidas = 0
2020-01-03 11:30:40.642015: Verificando registros do arquivo 201902_Apostilamento.csv
2020-01-03 11:30:40.645963: Resultado: Normais = 0 - Corrigidas = 0
2020-01-03 11:30:40.645963: Verificando registros do arquivo 201902_Compras.csv
2020-01-03 11:30:40.709792: Resultado: Normais = 2721 - Corrigidas = 0
2020-01-03 11:30:40.709