In [1]:
import os
import codecs
from datetime import datetime

In [6]:
def encode_to_utf8(**kwargs):
    """
    Funcao para padronizar a codificacao dos arquivos originais em UTF-8.
    Facilita a futura leitura dos arquivos e elimina caracteres desconhecidos.
    
    Args:
        original_encode(str): Codificacao original do arquivo.
                              Ex.: 'cp1252'
        in_data_path(str): Caminho completo para acesso ao arquivo original.
                           Ex.: '..\data\01-collected\2012_Funcoes.csv'
        out_data_path(str): Caminho completo para escrita do arquivo codificado
                            em UTF-8.
                            Ex.: '..\data\02-cleaned\2012_Funcoes.csv'
    """
    
    # Log: Mensagem de inicio da codificacao
    print(str(datetime.now()) + ': Inicio da codificacao do arquivo ' + kwargs['in_data_path'])
    
    # Le arquivo na codificacao original
    with codecs.open(kwargs['in_data_path'], 'rb', encoding = kwargs['original_encode'], errors = 'replace') as file:
        
        # Substitui os caracteres desconhecidos por interrogacao
        lines = file.read().replace('\x1a', '?').replace('\u0085', '?')

    # Escreve o arquivo codificado em UTF-8
    with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as file:
        file.write(lines)
    
    # Log: Mensagem de termino da codificacao
    print(str(datetime.now()) + ': Fim da codificacao do arquivo '+ kwargs['out_data_path'])

In [7]:
def clean_files():
    """
    Funcao para limpar os arquivos coletados, codificando em UTF-8 e elimando caracteres desconhecidos.
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\01-collected'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\02-cleaned'
    
    # Codificacao dos arquivos originais
    kwargs['original_encode'] = 'latin-1'

    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Limpeza dos arquivos iniciada.')

    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:

        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['data_file'] = file
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Codifica o arquivo original em UTF-8
        encode_to_utf8(**kwargs)
      
    # Log: Mensagem de finalizacao do processo
    print(str(datetime.now()) + ': Limpeza dos arquivos finalizada.')

In [8]:
def main():
    """
    Limpa os dados de Contratos do Governo Federal (Contratos).
    Origem: Portal da Transparencia
    """
        
    ### Limpa os arquivos
    clean_files()

if __name__ == '__main__':
    main()

2019-09-03 19:52:04.534595: Limpeza dos arquivos iniciada.
2019-09-03 19:52:04.534595: Inicio da codificacao do arquivo ..\data\01-collected\201301_Apostilamento.csv
2019-09-03 19:52:04.538584: Fim da codificacao do arquivo ..\data\02-cleaned\201301_Apostilamento.csv
2019-09-03 19:52:04.538584: Inicio da codificacao do arquivo ..\data\01-collected\201301_Compras.csv
2019-09-03 19:52:04.551551: Fim da codificacao do arquivo ..\data\02-cleaned\201301_Compras.csv
2019-09-03 19:52:04.551551: Inicio da codificacao do arquivo ..\data\01-collected\201301_ItemCompra.csv
2019-09-03 19:52:04.565543: Fim da codificacao do arquivo ..\data\02-cleaned\201301_ItemCompra.csv
2019-09-03 19:52:04.565543: Inicio da codificacao do arquivo ..\data\01-collected\201301_TermoAditivo.csv
2019-09-03 19:52:04.575485: Fim da codificacao do arquivo ..\data\02-cleaned\201301_TermoAditivo.csv
2019-09-03 19:52:04.576483: Inicio da codificacao do arquivo ..\data\01-collected\201302_Apostilamento.csv
2019-09-03 19:52:0

2019-09-03 19:52:04.928220: Fim da codificacao do arquivo ..\data\02-cleaned\201401_ItemCompra.csv
2019-09-03 19:52:04.928220: Inicio da codificacao do arquivo ..\data\01-collected\201401_TermoAditivo.csv
2019-09-03 19:52:04.938195: Fim da codificacao do arquivo ..\data\02-cleaned\201401_TermoAditivo.csv
2019-09-03 19:52:04.939190: Inicio da codificacao do arquivo ..\data\01-collected\201402_Apostilamento.csv
2019-09-03 19:52:04.941185: Fim da codificacao do arquivo ..\data\02-cleaned\201402_Apostilamento.csv
2019-09-03 19:52:04.941185: Inicio da codificacao do arquivo ..\data\01-collected\201402_Compras.csv
2019-09-03 19:52:04.950195: Fim da codificacao do arquivo ..\data\02-cleaned\201402_Compras.csv
2019-09-03 19:52:04.950195: Inicio da codificacao do arquivo ..\data\01-collected\201402_ItemCompra.csv
2019-09-03 19:52:04.960134: Fim da codificacao do arquivo ..\data\02-cleaned\201402_ItemCompra.csv
2019-09-03 19:52:04.960134: Inicio da codificacao do arquivo ..\data\01-collected\201

2019-09-03 19:52:05.339121: Fim da codificacao do arquivo ..\data\02-cleaned\201412_ItemCompra.csv
2019-09-03 19:52:05.340120: Inicio da codificacao do arquivo ..\data\01-collected\201412_TermoAditivo.csv
2019-09-03 19:52:05.352092: Fim da codificacao do arquivo ..\data\02-cleaned\201412_TermoAditivo.csv
2019-09-03 19:52:05.353084: Inicio da codificacao do arquivo ..\data\01-collected\201501_Apostilamento.csv
2019-09-03 19:52:05.357073: Fim da codificacao do arquivo ..\data\02-cleaned\201501_Apostilamento.csv
2019-09-03 19:52:05.358071: Inicio da codificacao do arquivo ..\data\01-collected\201501_Compras.csv
2019-09-03 19:52:05.374030: Fim da codificacao do arquivo ..\data\02-cleaned\201501_Compras.csv
2019-09-03 19:52:05.374030: Inicio da codificacao do arquivo ..\data\01-collected\201501_ItemCompra.csv
2019-09-03 19:52:05.387996: Fim da codificacao do arquivo ..\data\02-cleaned\201501_ItemCompra.csv
2019-09-03 19:52:05.388988: Inicio da codificacao do arquivo ..\data\01-collected\201

2019-09-03 19:52:05.899621: Fim da codificacao do arquivo ..\data\02-cleaned\201602_Compras.csv
2019-09-03 19:52:05.900619: Inicio da codificacao do arquivo ..\data\01-collected\201602_ItemCompra.csv
2019-09-03 19:52:05.911592: Fim da codificacao do arquivo ..\data\02-cleaned\201602_ItemCompra.csv
2019-09-03 19:52:05.911592: Inicio da codificacao do arquivo ..\data\01-collected\201602_TermoAditivo.csv
2019-09-03 19:52:05.918571: Fim da codificacao do arquivo ..\data\02-cleaned\201602_TermoAditivo.csv
2019-09-03 19:52:05.919569: Inicio da codificacao do arquivo ..\data\01-collected\201603_Apostilamento.csv
2019-09-03 19:52:05.923559: Fim da codificacao do arquivo ..\data\02-cleaned\201603_Apostilamento.csv
2019-09-03 19:52:05.923559: Inicio da codificacao do arquivo ..\data\01-collected\201603_Compras.csv
2019-09-03 19:52:05.934528: Fim da codificacao do arquivo ..\data\02-cleaned\201603_Compras.csv
2019-09-03 19:52:05.935526: Inicio da codificacao do arquivo ..\data\01-collected\201603

2019-09-03 19:52:06.497025: Fim da codificacao do arquivo ..\data\02-cleaned\201702_Apostilamento.csv
2019-09-03 19:52:06.498022: Inicio da codificacao do arquivo ..\data\01-collected\201702_Compras.csv
2019-09-03 19:52:06.510989: Fim da codificacao do arquivo ..\data\02-cleaned\201702_Compras.csv
2019-09-03 19:52:06.510989: Inicio da codificacao do arquivo ..\data\01-collected\201702_ItemCompra.csv
2019-09-03 19:52:06.603740: Fim da codificacao do arquivo ..\data\02-cleaned\201702_ItemCompra.csv
2019-09-03 19:52:06.604738: Inicio da codificacao do arquivo ..\data\01-collected\201702_TermoAditivo.csv
2019-09-03 19:52:06.611718: Fim da codificacao do arquivo ..\data\02-cleaned\201702_TermoAditivo.csv
2019-09-03 19:52:06.612716: Inicio da codificacao do arquivo ..\data\01-collected\201703_Apostilamento.csv
2019-09-03 19:52:06.622689: Fim da codificacao do arquivo ..\data\02-cleaned\201703_Apostilamento.csv
2019-09-03 19:52:06.623687: Inicio da codificacao do arquivo ..\data\01-collected\

2019-09-03 19:52:07.556713: Fim da codificacao do arquivo ..\data\02-cleaned\201712_TermoAditivo.csv
2019-09-03 19:52:07.556713: Inicio da codificacao do arquivo ..\data\01-collected\201801_Apostilamento.csv
2019-09-03 19:52:07.597601: Fim da codificacao do arquivo ..\data\02-cleaned\201801_Apostilamento.csv
2019-09-03 19:52:07.597601: Inicio da codificacao do arquivo ..\data\01-collected\201801_Compras.csv
2019-09-03 19:52:07.636493: Fim da codificacao do arquivo ..\data\02-cleaned\201801_Compras.csv
2019-09-03 19:52:07.638490: Inicio da codificacao do arquivo ..\data\01-collected\201801_ItemCompra.csv
2019-09-03 19:52:07.666413: Fim da codificacao do arquivo ..\data\02-cleaned\201801_ItemCompra.csv
2019-09-03 19:52:07.666413: Inicio da codificacao do arquivo ..\data\01-collected\201801_TermoAditivo.csv
2019-09-03 19:52:07.676386: Fim da codificacao do arquivo ..\data\02-cleaned\201801_TermoAditivo.csv
2019-09-03 19:52:07.676386: Inicio da codificacao do arquivo ..\data\01-collected\2

2019-09-03 19:52:07.947661: Fim da codificacao do arquivo ..\data\02-cleaned\201811_Compras.csv
2019-09-03 19:52:07.947661: Inicio da codificacao do arquivo ..\data\01-collected\201811_ItemCompra.csv
2019-09-03 19:52:07.961626: Fim da codificacao do arquivo ..\data\02-cleaned\201811_ItemCompra.csv
2019-09-03 19:52:07.961626: Inicio da codificacao do arquivo ..\data\01-collected\201811_TermoAditivo.csv
2019-09-03 19:52:07.964616: Fim da codificacao do arquivo ..\data\02-cleaned\201811_TermoAditivo.csv
2019-09-03 19:52:07.964616: Inicio da codificacao do arquivo ..\data\01-collected\201812_Apostilamento.csv
2019-09-03 19:52:07.967607: Fim da codificacao do arquivo ..\data\02-cleaned\201812_Apostilamento.csv
2019-09-03 19:52:07.967607: Inicio da codificacao do arquivo ..\data\01-collected\201812_Compras.csv
2019-09-03 19:52:07.983566: Fim da codificacao do arquivo ..\data\02-cleaned\201812_Compras.csv
2019-09-03 19:52:07.983566: Inicio da codificacao do arquivo ..\data\01-collected\201812