In [1]:
import os
import codecs

In [2]:
def encode_to_utf8(**kwargs):
    """
    Funcao para padronizar a codificacao dos arquivos originais em UTF-8.
    Facilita a futura leitura dos arquivos e elimina caracteres desconhecidos.
    
    Args:
        original_encode(str): Codificacao original do arquivo.
                              Ex.: 'cp1252'
        in_data_path(str): Caminho completo para acesso ao arquivo original.
                           Ex.: '..\data\raw\2012_Funcoes.csv'
        out_data_path(str): Caminho completo para escrita do arquivo codificado
                            em UTF-8.
                            Ex.: '..\data\encoded\2012_Funcoes.csv'
    """
    
    # Log: Mensagem de inicio da decodificacao
    print 'Inicio: ' + kwargs['in_data_path']
    
    # Le arquivo na codificacao original
    with codecs.open(kwargs['in_data_path'], 'rb', encoding = kwargs['original_encode'], errors = 'replace') as file:
        # Substitui os caracteres desconhecidos por interrogacao
        lines = file.read().replace('\x1a', '?')

    # Escreve o arquivo codificado em UTF-8
    with codecs.open(kwargs['out_data_path'], 'w', encoding = 'utf-8') as file:
        file.write(lines)
    
    # Log: Mensagem de termino da codificacao
    print 'Fim: '+ kwargs['out_data_path']

In [3]:
def clean_files():
    """
    Funcao para limpar os arquivos coletados, codificando em UTF-8 e elimando caracteres desconhecidos.
    """
    
    # Prepara o dicionario de variaveis (kwargs = keyworded arguments)
    kwargs = {}
    
    # Diretorio de armazenamento dos arquivos originais
    kwargs['in_data_dir'] = '..\\..\\data\\01-collected'
    
    # Diretorio de armazenamento dos arquivos tratados
    kwargs['out_data_dir'] = '..\\..\\data\\02-cleaned'
    
    # Codificacao dos arquivos originais
    kwargs['original_encode'] = 'utf-8'

    # Lista dos arquivos originais 
    files = os.listdir(kwargs['in_data_dir'])

    # Para cada arquivo na lista de arquivos originais
    for data_file in files:
        
        kwargs['data_file'] = data_file

        # Define o caminho completo de acesso e escrita dos arquivos
        kwargs['in_data_path'] = os.path.join(kwargs['in_data_dir'], kwargs['data_file'])
        kwargs['out_data_path'] = os.path.join(kwargs['out_data_dir'], kwargs['data_file'])
        
        # Codifica o arquivo original em UTF-8
        print 'Enviando ' + kwargs['data_file'] + ' para limpeza.'
        encode_to_utf8(**kwargs)

In [4]:
def main():
    ### Limpa os arquivos
    clean_files()

if __name__ == '__main__':
    main()

Enviando 20180718_AC.txt para limpeza.
Inicio: ..\..\data\01-collected\20180718_AC.txt
Fim: ..\..\data\02-cleaned\20180718_AC.txt
Enviando 20180718_AL.txt para limpeza.
Inicio: ..\..\data\01-collected\20180718_AL.txt
Fim: ..\..\data\02-cleaned\20180718_AL.txt
Enviando 20180718_AM.txt para limpeza.
Inicio: ..\..\data\01-collected\20180718_AM.txt
Fim: ..\..\data\02-cleaned\20180718_AM.txt
Enviando 20180718_AP.txt para limpeza.
Inicio: ..\..\data\01-collected\20180718_AP.txt
Fim: ..\..\data\02-cleaned\20180718_AP.txt
Enviando 20180718_BA.txt para limpeza.
Inicio: ..\..\data\01-collected\20180718_BA.txt
Fim: ..\..\data\02-cleaned\20180718_BA.txt
Enviando 20180718_CE.txt para limpeza.
Inicio: ..\..\data\01-collected\20180718_CE.txt
Fim: ..\..\data\02-cleaned\20180718_CE.txt
Enviando 20180718_DF.txt para limpeza.
Inicio: ..\..\data\01-collected\20180718_DF.txt
Fim: ..\..\data\02-cleaned\20180718_DF.txt
Enviando 20180718_ES.txt para limpeza.
Inicio: ..\..\data\01-collected\20180718_ES.txt
Fim