<a href="https://colab.research.google.com/github/ilexistools/ebralc2021/blob/main/limpar_textos_subst.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Limpar textos por meio de substituições
Mutias vezes, os textos que coletamos podem conter caracteres estranhos e itens desnecessários para o processamento ou a análise. É possível também que queiramos que os textos estejam em determinado formato para o processamento.

Para tanto, podemos criar um conjunto de regras de substituição para limpar ou normalizar os textos de acordo com nossa necessidade.



# Recursos
Para realizar o teste de utilização básica, precisamos carregar o arquivo:

In [2]:
import requests 

url = 'https://github.com/ilexistools/ebralc2021/raw/main/recursos/texto_twitter.txt'
response = requests.get(url)
with open('texto_twitter.txt', 'wb') as f:
    f.write(response.content)

Desse modo, para demonstrar as possibilidades da abordagem, vamos utilizar o seguinte trecho de texto com comunicações do Twitter:

In [6]:
with open('texto_twitter.txt','r', encoding='utf-8') as fh:
  texto = fh.read()
  print(texto)

13 Cláudia não sabe a cor dos capacetes das Nações Unidas mas sabe outras coisas. :p TVI Reality #loveontoptvi https://t.co/6Y4PCmI0k6
...: @adFabi @bibliotecarioSP @mirellyGmont @LucasGranello @lucasedgar22 Eleição nn é um jogo, se um perder todos perdem. ***
...: E o *canditato* q vc vai votar pode influenciar a vida de muitas pessoas, inclusive a sua. :))
...: Mas pq vc votaria nele, de vdd?


# Utilização
Neste exemplo, queremos retirar todos os caracteres estranhos para fazer a contagem das palavras do texto.

In [7]:
import re
from string import punctuation

regras = []
regras.append((r'https?://\S+','')) # remove URL
regras.append((r'@\w+','')) # remove nomes de usuários
regras.append((r'#\w+','')) # remove hashtags
regras.append((r':\w+','')) # remove códigos de emoticons
regras.append((r'[' + punctuation + ']','')) # remove pontuação
regras.append((r'^[0-9]+','')) # remove numeração no ínicio
regras.append((r'\n+',' ')) # substitui o carectere de nova linha por espaço
regras.append((r' +',' ')) # remove espaços duplos
# aplica as regras
for p, s in regras:
  texto = re.sub(p, s, texto)

texto = texto.lower() # converte para minúsculas
print(texto)

 cláudia não sabe a cor dos capacetes das nações unidas mas sabe outras coisas tvi reality eleição nn é um jogo se um perder todos perdem e o canditato q vc vai votar pode influenciar a vida de muitas pessoas inclusive a sua mas pq vc votaria nele de vdd


No código, utilizamos o módulo ‘re’ para criar um conjunto de expressões regulares que realizam as substituições dos itens desnecessários para o processamento. Primeiro, as regras são criadas e armazenadas em uma lista. Em seguida, são aplicadas sequencialmente em um comando de laço. Por último, convertermos o texto resultante para minúsculas e o imprimimos na tela.

Para corrigir erros de ortografia ou traduzir itens da linguagem da Internet (‘internetês’), podemos utilizar um dicionário para realizar as substituições:

In [8]:
dicionario = {'nn': 'não',
              'q' : 'que',
              'vc' : 'você',
              'pq' : 'porque',
              'vdd' : 'verdade'}
s = []
for palavra in texto.split():
  if palavra in dicionario:
    s.append(dicionario[palavra])
  else:
    s.append(palavra)

  texto = ' '.join(s)
print(texto)

cláudia não sabe a cor dos capacetes das nações unidas mas sabe outras coisas tvi reality eleição não é um jogo se um perder todos perdem e o canditato que você vai votar pode influenciar a vida de muitas pessoas inclusive a sua mas porque você votaria nele de verdade
