# Limpar os diacríticos

Como a maior parte dos discursos publicados na matéria foi extraída de um PDF, há certos problemas de padronização. O principal deles é a presença de caracteres diacríticos no lugar de acentos em formato ASCII, formando uma string de `length == 2` em vez de um único caractere. Isso dificulta comparações e tem efeitos, ainda que pequenos, na análise.

Vamos definir uma função que remove e substitui estes.

#### Importar pacotes, definir configurações e ler os dados

In [1]:
import glob
import pandas as pd
import os

In [2]:
def find_fpaths( dir_path, pattern ):
    '''
    >> DESCRIÇÃO
    
    Usa o módulo glob para buscar todos os arquivos
    que correspondam ao padrão passado na variável 
    pattern'. Retorna uma lista de paths no formato 
    string. 
    
    >> PARÂMETROS
    
    dir_path -> uma string com o caminho para o
    diretório onde a busca pelos arquivos será
    realizada.
    
    pattern -> uma string com o padrão de texto
    que deve ser procurado no diretório.
    
    '''
    
    full_pattern = dir_path + pattern
    files = glob.glob( full_pattern )
    
    return files

In [3]:
files = find_fpaths( "../data/txts/", "*.txt" )

#### Define a função que vai fazer a substituição das palavras

In [4]:
def clean_diacritics( file_list ):
    '''
    >> DESCRIÇÃO
    
    Recebe uma lista de arquivos. Lê e itera por cada um deles, 
    palavra a palavra, procurando strings diacríticas que foram 
    'hard-coded' em um dicionário. Quando detecta uma delas, faz 
    a substituição da string detectada pelo value do dicionário.
    
    >> PARÂMETROS
    
    file_list -> Lista de arquivos que devem ter os valores substituídos
    
    '''
    
    # Define um dicionário com os dados que devem ser repostos
    corresp = {
     'ç':'ç',
     'à':'à',
     'á':'á',
     'ã':'ã',
     'â':'â',
     'é':'é',
     'ê':'ê',
     'í':'í',
     'ó':'ó',
     'ô':'ô',
     'õ':'õ',
     'ú':'ú',
     'ü':'ü',
    }
    
    # Para cada arquivo na lista
    for file in file_list:
        # Abra o arquivo. Note que ele já não tem newlines.
        content = open( file )
        content = content.read()
        
        # Separa todas as palavras do arquivo
        content = content.split(" ")
        
        # Para cada palavra no conteúdo
        for index, word in enumerate( content ):
            
            # Chega para ver se os valores do dicionário estão na palavra
            for key, value in corresp.items():
                
                # Se estiver, substitui
                if key in word:
                    content[index] = content[index].replace(key, value)
            
        # Após substituir todas as palavras...
        # Se o diretório de textos limpos não exitir, crie um
        new_fp = '../output/txts-limpos/'
        if not os.path.exists(new_fp):
            os.makedirs(new_fp)
        
        # Salve um arquivo com o mesmo nome do original neste novo diretório
        new_fn = file[ 13: ]
        with open ( new_fp + new_fn, 'w+') as f:
            f.write(" ".join(content))
        


In [5]:
clean_diacritics(files)