In [9]:
import os
import codecs
from datetime import datetime

In [10]:
def encode_to_utf8(**kwargs):
    """
    Funcao para padronizar a codificacao dos arquivos originais em UTF-8.
    Facilita a futura leitura dos arquivos e elimina caracteres desconhecidos.
    
    Args:
        original_encode(str): Codificacao original do arquivo.
                              Ex.: 'cp1252'
        in_data_path(str): Caminho completo para acesso ao arquivo original.
                           Ex.: '..\data\01-collected\2012_Funcoes.csv'
        out_data_path(str): Caminho completo para escrita do arquivo codificado
                            em UTF-8.
                            Ex.: '..\data\02-cleaned\2012_Funcoes.csv'
    """
    
    # Log: Mensagem de inicio da codificacao
    print(str(datetime.now()) + ': Inicio da codificacao do arquivo ' + kwargs['in_data_path'])
    
    # Le arquivo na codificacao original
    with codecs.open(kwargs['in_data_path'], 'rb', encoding = kwargs['original_encode'], errors = 'replace') as file:
        
        # Substitui os caracteres desconhecidos por interrogacao
        lines = file.read().replace('\x1a', '?').replace('\u0085', '?')

    # Escreve o arquivo codificado em UTF-8
    with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as file:
        file.write(lines)
    
    # Log: Mensagem de termino da codificacao
    print(str(datetime.now()) + ': Fim da codificacao do arquivo '+ kwargs['out_data_path'])

In [11]:
def clean_files():
    """
    Funcao para limpar os arquivos coletados, codificando em UTF-8 e elimando caracteres desconhecidos.
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\data\\01-collected'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\data\\02-cleaned'
    
    # Codificacao dos arquivos originais
    kwargs['original_encode'] = 'latin-1'

    # Lista dos arquivos originais 
    kwargs['data_files'] = os.listdir(kwargs['in_data_dir'])
    
    # Log: Mensagem de inicio do processo 
    print(str(datetime.now()) + ': Limpeza dos arquivos iniciada.')

    # Para cada arquivo na lista de arquivos originais
    for file in kwargs['data_files']:

        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['data_file'] = file
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'].replace('\u255E','a').replace('ç','c'))
        
        # Codifica o arquivo original em UTF-8
        encode_to_utf8(**kwargs)
      
    # Log: Mensagem de finalizacao do processo
    print(str(datetime.now()) + ': Limpeza dos arquivos finalizada.')

In [12]:
def main():
    """
    Limpa os dados de Licitacoes do Governo Federal (Licitacoes).
    Origem: Portal da Transparencia
    """
        
    ### Limpa os arquivos
    clean_files()

if __name__ == '__main__':
    main()

2019-09-12 10:05:07.696720: Limpeza dos arquivos iniciada.
2019-09-12 10:05:07.696720: Inicio da codificacao do arquivo ..\data\01-collected\201301_ItemLicitaç╞o.csv
2019-09-12 10:05:07.718644: Fim da codificacao do arquivo ..\data\02-cleaned\201301_ItemLicitacao.csv
2019-09-12 10:05:07.719642: Inicio da codificacao do arquivo ..\data\01-collected\201301_Licitaç╞o.csv
2019-09-12 10:05:07.735642: Fim da codificacao do arquivo ..\data\02-cleaned\201301_Licitacao.csv
2019-09-12 10:05:07.736598: Inicio da codificacao do arquivo ..\data\01-collected\201301_ParticipantesLicitaç╞o.csv
2019-09-12 10:05:07.851291: Fim da codificacao do arquivo ..\data\02-cleaned\201301_ParticipantesLicitacao.csv
2019-09-12 10:05:07.855279: Inicio da codificacao do arquivo ..\data\01-collected\201302_ItemLicitaç╞o.csv
2019-09-12 10:05:07.935065: Fim da codificacao do arquivo ..\data\02-cleaned\201302_ItemLicitacao.csv
2019-09-12 10:05:07.937061: Inicio da codificacao do arquivo ..\data\01-collected\201302_Licita

2019-09-12 10:05:34.878781: Fim da codificacao do arquivo ..\data\02-cleaned\201401_ParticipantesLicitacao.csv
2019-09-12 10:05:34.888752: Inicio da codificacao do arquivo ..\data\01-collected\201402_ItemLicitaç╞o.csv
2019-09-12 10:05:34.969537: Fim da codificacao do arquivo ..\data\02-cleaned\201402_ItemLicitacao.csv
2019-09-12 10:05:34.971532: Inicio da codificacao do arquivo ..\data\01-collected\201402_Licitaç╞o.csv
2019-09-12 10:05:34.994471: Fim da codificacao do arquivo ..\data\02-cleaned\201402_Licitacao.csv
2019-09-12 10:05:34.995474: Inicio da codificacao do arquivo ..\data\01-collected\201402_ParticipantesLicitaç╞o.csv
2019-09-12 10:05:35.567060: Fim da codificacao do arquivo ..\data\02-cleaned\201402_ParticipantesLicitacao.csv
2019-09-12 10:05:35.587006: Inicio da codificacao do arquivo ..\data\01-collected\201403_ItemLicitaç╞o.csv
2019-09-12 10:05:35.694716: Fim da codificacao do arquivo ..\data\02-cleaned\201403_ItemLicitacao.csv
2019-09-12 10:05:35.696710: Inicio da codif

2019-09-12 10:05:56.746890: Fim da codificacao do arquivo ..\data\02-cleaned\201502_ParticipantesLicitacao.csv
2019-09-12 10:05:56.758857: Inicio da codificacao do arquivo ..\data\01-collected\201503_ItemLicitaç╞o.csv
2019-09-12 10:05:56.866568: Fim da codificacao do arquivo ..\data\02-cleaned\201503_ItemLicitacao.csv
2019-09-12 10:05:56.868563: Inicio da codificacao do arquivo ..\data\01-collected\201503_Licitaç╞o.csv
2019-09-12 10:05:56.899480: Fim da codificacao do arquivo ..\data\02-cleaned\201503_Licitacao.csv
2019-09-12 10:05:56.899480: Inicio da codificacao do arquivo ..\data\01-collected\201503_ParticipantesLicitaç╞o.csv
2019-09-12 10:05:58.620749: Fim da codificacao do arquivo ..\data\02-cleaned\201503_ParticipantesLicitacao.csv
2019-09-12 10:05:58.633718: Inicio da codificacao do arquivo ..\data\01-collected\201504_ItemLicitaç╞o.csv
2019-09-12 10:05:58.750404: Fim da codificacao do arquivo ..\data\02-cleaned\201504_ItemLicitacao.csv
2019-09-12 10:05:58.752399: Inicio da codif

2019-09-12 10:06:17.454543: Fim da codificacao do arquivo ..\data\02-cleaned\201603_ParticipantesLicitacao.csv
2019-09-12 10:06:17.468505: Inicio da codificacao do arquivo ..\data\01-collected\201604_ItemLicitaç╞o.csv
2019-09-12 10:06:17.594169: Fim da codificacao do arquivo ..\data\02-cleaned\201604_ItemLicitacao.csv
2019-09-12 10:06:17.596165: Inicio da codificacao do arquivo ..\data\01-collected\201604_Licitaç╞o.csv
2019-09-12 10:06:17.619102: Fim da codificacao do arquivo ..\data\02-cleaned\201604_Licitacao.csv
2019-09-12 10:06:17.620100: Inicio da codificacao do arquivo ..\data\01-collected\201604_ParticipantesLicitaç╞o.csv
2019-09-12 10:06:20.403230: Fim da codificacao do arquivo ..\data\02-cleaned\201604_ParticipantesLicitacao.csv
2019-09-12 10:06:20.416198: Inicio da codificacao do arquivo ..\data\01-collected\201605_ItemLicitaç╞o.csv
2019-09-12 10:06:20.523909: Fim da codificacao do arquivo ..\data\02-cleaned\201605_ItemLicitacao.csv
2019-09-12 10:06:20.526901: Inicio da codif

2019-09-12 10:06:38.766866: Fim da codificacao do arquivo ..\data\02-cleaned\201704_ParticipantesLicitacao.csv
2019-09-12 10:06:38.779831: Inicio da codificacao do arquivo ..\data\01-collected\201705_ItemLicitaç╞o.csv
2019-09-12 10:06:39.255472: Fim da codificacao do arquivo ..\data\02-cleaned\201705_ItemLicitacao.csv
2019-09-12 10:06:39.258466: Inicio da codificacao do arquivo ..\data\01-collected\201705_Licitaç╞o.csv
2019-09-12 10:06:39.301240: Fim da codificacao do arquivo ..\data\02-cleaned\201705_Licitacao.csv
2019-09-12 10:06:39.302238: Inicio da codificacao do arquivo ..\data\01-collected\201705_ParticipantesLicitaç╞o.csv
2019-09-12 10:06:41.339042: Fim da codificacao do arquivo ..\data\02-cleaned\201705_ParticipantesLicitacao.csv
2019-09-12 10:06:41.355001: Inicio da codificacao do arquivo ..\data\01-collected\201706_ItemLicitaç╞o.csv
2019-09-12 10:06:41.463709: Fim da codificacao do arquivo ..\data\02-cleaned\201706_ItemLicitacao.csv
2019-09-12 10:06:41.466701: Inicio da codif

2019-09-12 10:07:03.794038: Fim da codificacao do arquivo ..\data\02-cleaned\201805_ParticipantesLicitacao.csv
2019-09-12 10:07:03.806971: Inicio da codificacao do arquivo ..\data\01-collected\201806_ItemLicitaç╞o.csv
2019-09-12 10:07:03.919675: Fim da codificacao do arquivo ..\data\02-cleaned\201806_ItemLicitacao.csv
2019-09-12 10:07:03.922696: Inicio da codificacao do arquivo ..\data\01-collected\201806_Licitaç╞o.csv
2019-09-12 10:07:03.949695: Fim da codificacao do arquivo ..\data\02-cleaned\201806_Licitacao.csv
2019-09-12 10:07:03.950648: Inicio da codificacao do arquivo ..\data\01-collected\201806_ParticipantesLicitaç╞o.csv
2019-09-12 10:07:04.822497: Fim da codificacao do arquivo ..\data\02-cleaned\201806_ParticipantesLicitacao.csv
2019-09-12 10:07:04.836460: Inicio da codificacao do arquivo ..\data\01-collected\201807_ItemLicitaç╞o.csv
2019-09-12 10:07:04.953980: Fim da codificacao do arquivo ..\data\02-cleaned\201807_ItemLicitacao.csv
2019-09-12 10:07:04.955975: Inicio da codif