In [10]:
import os
import codecs
from datetime import datetime

In [11]:
def join_lines(**kwargs):
    """
    Le o arquivo de entrada, caso algum dos registros tenha quantidade de colunas diferente
    do cabecalho, a linha seguinte e concatenada com a atual e escrita no arquivo de saida.
    """
    
    # Log: Mensagem de inicio da verificacao dos registros
    print(str(datetime.now()) + ': Verificando registros do arquivo ' + kwargs['data_file'])
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = 'utf-8') as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as writer:
            
            # Armazena o header do arquivo de entrada
            header = reader.readline()
            
            # Conta a quantidade de colunas no header
            qt_columns = header.count('\";\"')
            
            # Define os contadores
            qt_lines = 0
            qt_joins = 0
            
            # Escreve o cabecalho no arquivo de saida
            writer.write(header)
            
            # Para cada linha no arquivo de entrada
            for line in reader:
                
                # Escreve o registro do arquivo de entrada no arquivo de saida 
                # Caso o registro tenha quantidade de colunas diferente do cabecalho
                # a linha seguinte e concatenada com a atual
                if line.count('\";\"') != qt_columns:
                    qt_joins += 1
                    writer.write(line.replace("\r\n", "") + reader.readline())
                else:
                    qt_lines += 1
                    writer.write(line)
                    
    # Log: Resultado da verificacao dos registros
    print(str(datetime.now()) + ': Resultado: Normais = ' + str(qt_lines) + ' - Corrigidas = ' + str(qt_joins))

In [12]:
def organize_files():
    """
    Para cada arquivo de origem, e verificado se a quantidade de colunas de cada registro corresponde
    com a quantidade de colunas do cabecalho do arquivo.        
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\02-cleaned'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\03-organized'
    
    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Organizacao dos arquivos iniciada.')
    
    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:
        
        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['data_file'] = file
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Corrige registros com menos colunas que o esperado
        join_lines(**kwargs)
      
    # Log: Mensagem de finalizacao do processo de limpeza
    print(str(datetime.now()) + ': Organizacao dos arquivos finalizada.')

In [13]:
def main():
    """
    Organiza os dados de Licitacoes do Governo Federal (Licitacoes).
    Origem: Portal da Transparencia
    """
    
    ### Organiza os arquivos
    organize_files()

if __name__ == '__main__':
    main()

2019-09-12 10:07:37.527083: Organizacao dos arquivos iniciada.
2019-09-12 10:07:37.527083: Verificando registros do arquivo 201301_ItemLicitacao.csv
2019-09-12 10:07:37.782399: Resultado: Normais = 20619 - Corrigidas = 0
2019-09-12 10:07:37.782399: Verificando registros do arquivo 201301_Licitacao.csv
2019-09-12 10:07:37.919065: Resultado: Normais = 7122 - Corrigidas = 0
2019-09-12 10:07:37.920033: Verificando registros do arquivo 201301_ParticipantesLicitacao.csv
2019-09-12 10:07:39.208590: Resultado: Normais = 112226 - Corrigidas = 0
2019-09-12 10:07:39.208590: Verificando registros do arquivo 201302_ItemLicitacao.csv
2019-09-12 10:07:39.545716: Resultado: Normais = 34596 - Corrigidas = 0
2019-09-12 10:07:39.545716: Verificando registros do arquivo 201302_Licitacao.csv
2019-09-12 10:07:39.725202: Resultado: Normais = 10609 - Corrigidas = 0
2019-09-12 10:07:39.725202: Verificando registros do arquivo 201302_ParticipantesLicitacao.csv
2019-09-12 10:07:41.561323: Resultado: Normais = 13

2019-09-12 10:10:53.649773: Resultado: Normais = 125397 - Corrigidas = 0
2019-09-12 10:10:53.649773: Verificando registros do arquivo 201406_Licitacao.csv
2019-09-12 10:10:53.940302: Resultado: Normais = 16203 - Corrigidas = 0
2019-09-12 10:10:53.940302: Verificando registros do arquivo 201406_ParticipantesLicitacao.csv
2019-09-12 10:11:02.705846: Resultado: Normais = 732589 - Corrigidas = 0
2019-09-12 10:11:02.705846: Verificando registros do arquivo 201407_ItemLicitacao.csv
2019-09-12 10:11:04.558911: Resultado: Normais = 165970 - Corrigidas = 0
2019-09-12 10:11:04.558911: Verificando registros do arquivo 201407_Licitacao.csv
2019-09-12 10:11:04.938710: Resultado: Normais = 20824 - Corrigidas = 0
2019-09-12 10:11:04.938710: Verificando registros do arquivo 201407_ParticipantesLicitacao.csv
2019-09-12 10:11:16.477409: Resultado: Normais = 926561 - Corrigidas = 0
2019-09-12 10:11:16.477409: Verificando registros do arquivo 201408_ItemLicitacao.csv
2019-09-12 10:11:18.339571: Resultado:

2019-09-12 10:14:24.201257: Resultado: Normais = 20300 - Corrigidas = 0
2019-09-12 10:14:24.201257: Verificando registros do arquivo 201511_ParticipantesLicitacao.csv
2019-09-12 10:14:38.800897: Resultado: Normais = 1082981 - Corrigidas = 0
2019-09-12 10:14:38.801895: Verificando registros do arquivo 201512_ItemLicitacao.csv
2019-09-12 10:14:40.335791: Resultado: Normais = 116606 - Corrigidas = 0
2019-09-12 10:14:40.335791: Verificando registros do arquivo 201512_Licitacao.csv
2019-09-12 10:14:40.565209: Resultado: Normais = 11852 - Corrigidas = 0
2019-09-12 10:14:40.565209: Verificando registros do arquivo 201512_ParticipantesLicitacao.csv
2019-09-12 10:14:49.590623: Resultado: Normais = 685311 - Corrigidas = 0
2019-09-12 10:14:49.591604: Verificando registros do arquivo 201601_ItemLicitacao.csv
2019-09-12 10:14:50.227918: Resultado: Normais = 48853 - Corrigidas = 0
2019-09-12 10:14:50.227918: Verificando registros do arquivo 201601_Licitacao.csv
2019-09-12 10:14:50.343576: Resultado:

2019-09-12 10:17:30.789209: Resultado: Normais = 565133 - Corrigidas = 0
2019-09-12 10:17:30.789209: Verificando registros do arquivo 201705_ItemLicitacao.csv
2019-09-12 10:17:32.210405: Resultado: Normais = 110588 - Corrigidas = 0
2019-09-12 10:17:32.211403: Verificando registros do arquivo 201705_Licitacao.csv
2019-09-12 10:17:32.543514: Resultado: Normais = 14092 - Corrigidas = 0
2019-09-12 10:17:32.543514: Verificando registros do arquivo 201705_ParticipantesLicitacao.csv
2019-09-12 10:17:41.721099: Resultado: Normais = 656758 - Corrigidas = 0
2019-09-12 10:17:41.721099: Verificando registros do arquivo 201706_ItemLicitacao.csv
2019-09-12 10:17:43.167227: Resultado: Normais = 116478 - Corrigidas = 0
2019-09-12 10:17:43.168224: Verificando registros do arquivo 201706_Licitacao.csv
2019-09-12 10:17:43.409578: Resultado: Normais = 13761 - Corrigidas = 0
2019-09-12 10:17:43.409578: Verificando registros do arquivo 201706_ParticipantesLicitacao.csv
2019-09-12 10:17:52.540098: Resultado:

2019-09-12 10:20:43.967841: Resultado: Normais = 165531 - Corrigidas = 0
2019-09-12 10:20:43.967841: Verificando registros do arquivo 201810_Licitacao.csv
2019-09-12 10:20:44.401042: Resultado: Normais = 22057 - Corrigidas = 0
2019-09-12 10:20:44.401042: Verificando registros do arquivo 201810_ParticipantesLicitacao.csv
2019-09-12 10:20:57.105446: Resultado: Normais = 879960 - Corrigidas = 0
2019-09-12 10:20:57.105446: Verificando registros do arquivo 201811_ItemLicitacao.csv
2019-09-12 10:20:59.541928: Resultado: Normais = 177930 - Corrigidas = 0
2019-09-12 10:20:59.541928: Verificando registros do arquivo 201811_Licitacao.csv
2019-09-12 10:21:00.083483: Resultado: Normais = 23670 - Corrigidas = 0
2019-09-12 10:21:00.083483: Verificando registros do arquivo 201811_ParticipantesLicitacao.csv
2019-09-12 10:21:12.782923: Resultado: Normais = 901553 - Corrigidas = 0
2019-09-12 10:21:12.782923: Verificando registros do arquivo 201812_ItemLicitacao.csv
2019-09-12 10:21:14.840383: Resultado: