In [1]:
import os
import codecs
from datetime import datetime

In [2]:
def join_lines(**kwargs):
    """
    Le o arquivo de entrada, caso algum dos registros tenha quantidade de colunas diferente
    do cabecalho, a linha seguinte e concatenada com a atual e escrita no arquivo de saida.
    """
    
    # Log: Mensagem de inicio da verificacao dos registros
    print(str(datetime.now()) + ': Verificando registros do arquivo ' + kwargs['data_file'])
    
    # Le o arquivo de entrada
    with codecs.open(kwargs['in_data_path'], 'r', encoding = 'utf-8') as reader:
        
        # Prepara o arquivo de saida
        with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as writer:
            
            # Armazena o header do arquivo de entrada
            header = reader.readline()
            
            # Conta a quantidade de colunas no header
            qt_columns = header.count('\";\"')
            
            # Define os contadores
            qt_lines = 0
            qt_joins = 0
            
            # Escreve o cabecalho no arquivo de saida
            writer.write(header)
            
            # Para cada linha no arquivo de entrada
            for line in reader:
                
                # Escreve o registro do arquivo de entrada no arquivo de saida 
                # Caso o registro tenha quantidade de colunas diferente do cabecalho
                # a linha seguinte e concatenada com a atual
                if line.count('\";\"') != qt_columns:
                    qt_joins += 1
                    writer.write(line.replace("\r\n", "") + reader.readline())
                else:
                    qt_lines += 1
                    writer.write(line)
                    
    # Log: Resultado da verificacao dos registros
    print(str(datetime.now()) + ': Resultado: Normais = ' + str(qt_lines) + ' - Corrigidas = ' + str(qt_joins))

In [3]:
def organize_files():
    """
    Para cada arquivo de origem, e verificado se a quantidade de colunas de cada registro corresponde
    com a quantidade de colunas do cabecalho do arquivo.        
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\02-cleaned'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\03-organized'
    
    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Organizacao dos arquivos iniciada.')
    
    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:
        
        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['data_file'] = file
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Corrige registros com menos colunas que o esperado
        join_lines(**kwargs)
      
    # Log: Mensagem de finalizacao do processo de limpeza
    print(str(datetime.now()) + ': Organizacao dos arquivos finalizada.')

In [6]:
def main():
    """
    Organiza os dados de Contratos do Governo Federal (Contratos).
    Origem: Portal da Transparencia 
    """
    
    ### Organiza os arquivos
    organize_files()

if __name__ == '__main__':
    main()

2019-09-03 19:52:22.930590: Organizacao dos arquivos iniciada.
2019-09-03 19:52:22.930590: Verificando registros do arquivo 201301_Apostilamento.csv
2019-09-03 19:52:22.940563: Resultado: Normais = 358 - Corrigidas = 0
2019-09-03 19:52:22.940563: Verificando registros do arquivo 201301_Compras.csv
2019-09-03 19:52:23.047277: Resultado: Normais = 4683 - Corrigidas = 0
2019-09-03 19:52:23.047277: Verificando registros do arquivo 201301_ItemCompra.csv
2019-09-03 19:52:23.206850: Resultado: Normais = 13645 - Corrigidas = 0
2019-09-03 19:52:23.206850: Verificando registros do arquivo 201301_TermoAditivo.csv
2019-09-03 19:52:23.281651: Resultado: Normais = 5564 - Corrigidas = 0
2019-09-03 19:52:23.281651: Verificando registros do arquivo 201302_Apostilamento.csv
2019-09-03 19:52:23.288666: Resultado: Normais = 336 - Corrigidas = 0
2019-09-03 19:52:23.288666: Verificando registros do arquivo 201302_Compras.csv
2019-09-03 19:52:23.347477: Resultado: Normais = 3138 - Corrigidas = 0
2019-09-03 1

2019-09-03 19:52:27.252575: Resultado: Normais = 11469 - Corrigidas = 0
2019-09-03 19:52:27.252575: Verificando registros do arquivo 201402_TermoAditivo.csv
2019-09-03 19:52:27.334357: Resultado: Normais = 4555 - Corrigidas = 0
2019-09-03 19:52:27.335354: Verificando registros do arquivo 201403_Apostilamento.csv
2019-09-03 19:52:27.340340: Resultado: Normais = 201 - Corrigidas = 0
2019-09-03 19:52:27.340340: Verificando registros do arquivo 201403_Compras.csv
2019-09-03 19:52:27.416140: Resultado: Normais = 3299 - Corrigidas = 0
2019-09-03 19:52:27.416140: Verificando registros do arquivo 201403_ItemCompra.csv
2019-09-03 19:52:27.661483: Resultado: Normais = 8143 - Corrigidas = 0
2019-09-03 19:52:27.661483: Verificando registros do arquivo 201403_TermoAditivo.csv
2019-09-03 19:52:27.784156: Resultado: Normais = 3213 - Corrigidas = 0
2019-09-03 19:52:27.784156: Verificando registros do arquivo 201404_Apostilamento.csv
2019-09-03 19:52:27.802108: Resultado: Normais = 215 - Corrigidas = 0

2019-09-03 19:52:31.625400: Resultado: Normais = 2888 - Corrigidas = 0
2019-09-03 19:52:31.625400: Verificando registros do arquivo 201505_Apostilamento.csv
2019-09-03 19:52:31.630419: Resultado: Normais = 195 - Corrigidas = 0
2019-09-03 19:52:31.630419: Verificando registros do arquivo 201505_Compras.csv
2019-09-03 19:52:31.678290: Resultado: Normais = 2822 - Corrigidas = 0
2019-09-03 19:52:31.679255: Verificando registros do arquivo 201505_ItemCompra.csv
2019-09-03 19:52:31.768019: Resultado: Normais = 9473 - Corrigidas = 0
2019-09-03 19:52:31.768019: Verificando registros do arquivo 201505_TermoAditivo.csv
2019-09-03 19:52:31.807913: Resultado: Normais = 3000 - Corrigidas = 0
2019-09-03 19:52:31.807913: Verificando registros do arquivo 201506_Apostilamento.csv
2019-09-03 19:52:31.812899: Resultado: Normais = 197 - Corrigidas = 0
2019-09-03 19:52:31.812899: Verificando registros do arquivo 201506_Compras.csv
2019-09-03 19:52:31.860769: Resultado: Normais = 2754 - Corrigidas = 0
2019-

2019-09-03 19:52:35.065741: Resultado: Normais = 9309 - Corrigidas = 0
2019-09-03 19:52:35.065741: Verificando registros do arquivo 201606_TermoAditivo.csv
2019-09-03 19:52:35.101678: Resultado: Normais = 2277 - Corrigidas = 0
2019-09-03 19:52:35.102644: Verificando registros do arquivo 201607_Apostilamento.csv
2019-09-03 19:52:35.106632: Resultado: Normais = 171 - Corrigidas = 0
2019-09-03 19:52:35.106632: Verificando registros do arquivo 201607_Compras.csv
2019-09-03 19:52:35.179438: Resultado: Normais = 3036 - Corrigidas = 0
2019-09-03 19:52:35.180435: Verificando registros do arquivo 201607_ItemCompra.csv
2019-09-03 19:52:35.306100: Resultado: Normais = 10214 - Corrigidas = 0
2019-09-03 19:52:35.306100: Verificando registros do arquivo 201607_TermoAditivo.csv
2019-09-03 19:52:35.342003: Resultado: Normais = 2321 - Corrigidas = 0
2019-09-03 19:52:35.342003: Verificando registros do arquivo 201608_Apostilamento.csv
2019-09-03 19:52:35.346991: Resultado: Normais = 128 - Corrigidas = 0

2019-09-03 19:52:38.712507: Resultado: Normais = 2944 - Corrigidas = 0
2019-09-03 19:52:38.712507: Verificando registros do arquivo 201708_ItemCompra.csv
2019-09-03 19:52:38.840164: Resultado: Normais = 9753 - Corrigidas = 0
2019-09-03 19:52:38.841162: Verificando registros do arquivo 201708_TermoAditivo.csv
2019-09-03 19:52:38.883064: Resultado: Normais = 1399 - Corrigidas = 0
2019-09-03 19:52:38.883064: Verificando registros do arquivo 201709_Apostilamento.csv
2019-09-03 19:52:38.890033: Resultado: Normais = 29 - Corrigidas = 0
2019-09-03 19:52:38.890033: Verificando registros do arquivo 201709_Compras.csv
2019-09-03 19:52:38.954858: Resultado: Normais = 2706 - Corrigidas = 0
2019-09-03 19:52:38.955856: Verificando registros do arquivo 201709_ItemCompra.csv
2019-09-03 19:52:39.068597: Resultado: Normais = 9326 - Corrigidas = 0
2019-09-03 19:52:39.068597: Verificando registros do arquivo 201709_TermoAditivo.csv
2019-09-03 19:52:39.085509: Resultado: Normais = 1209 - Corrigidas = 0
201

2019-09-03 19:52:42.047109: Resultado: Normais = 3402 - Corrigidas = 0
2019-09-03 19:52:42.047109: Verificando registros do arquivo 201810_ItemCompra.csv
2019-09-03 19:52:42.192744: Resultado: Normais = 13379 - Corrigidas = 0
2019-09-03 19:52:42.192744: Verificando registros do arquivo 201810_TermoAditivo.csv
2019-09-03 19:52:42.198742: Resultado: Normais = 267 - Corrigidas = 0
2019-09-03 19:52:42.199695: Verificando registros do arquivo 201811_Apostilamento.csv
2019-09-03 19:52:42.201689: Resultado: Normais = 0 - Corrigidas = 0
2019-09-03 19:52:42.201689: Verificando registros do arquivo 201811_Compras.csv
2019-09-03 19:52:42.271503: Resultado: Normais = 3394 - Corrigidas = 0
2019-09-03 19:52:42.271503: Verificando registros do arquivo 201811_ItemCompra.csv
2019-09-03 19:52:42.431584: Resultado: Normais = 13242 - Corrigidas = 0
2019-09-03 19:52:42.431584: Verificando registros do arquivo 201811_TermoAditivo.csv
2019-09-03 19:52:42.440592: Resultado: Normais = 231 - Corrigidas = 0
2019