# Técnicas de pré-processamento de texto para NLP

<p>Este é um guia de exemplos das principais de técnicas de pré-processamento de texto para NLP. Aplicando as técnicas de pré-processamento de texto, podemos remover o ruído dos dados brutos e tornar os dados brutos mais valiosos para a construção de modelos.</p>
<p>Os dados brutos para NLP nada mais são que textos coletados de alguma fonte de interesse, podendo ser avaliações de sites, documentos, mídia social, tweets do Twitter, artigos de notícias, produtos de um marketplace, e-mails, dentre outros.</p>
<p>O pré-processamento de dados é a etapa principal e extremamente importante para qualquer projeto que envolva ciência de dados, incluindo não somente NLP, mas sobre tudo aprendizado de máquina, aprendizado profundo e visão computacional. Dessa forma, essas técnicas podem variar de acordo com o campo da inteligência artifical, por exemplo técnicas de pré-processamento de dados de aprendizado de máquina variam de aprendizado profundo, linguagem natural e visão computacional.</p>
<p>Vejamos as diferentes técnicas ou métodos de pré-processamento de texto que podemos aplicar na NLP:</p>

- Conversão de texto para minúscula
- Remoção de <i>tags</i> HTML
- Removeção de URLs
- Conversão de números para palavras
- Remoção de caracteres acentuados
- Correção ortográfica
- Remoção de caracteres de pontuação



## Conversão de texto para minúscula

<p>É uma abordagem simples e eficaz, pois a conversão torna-se necessária para reduzir a dimensionalidade evitando palavras iguais, como NLP, Nlp ou nlp sejam tratadas como palavras distintas.</p>
<p>Este método é útil para problemas que utilizam frequência de palavras, como classificação de documentos, por exemplo <i><a href="https://en.wikipedia.org/wiki/Bag-of-words_model">Bag of Words</a></i>, <a href="https://en.wikipedia.org/wiki/Tf%E2%80%93idf">TFIDF</a>, <a  href="https://en.wikipedia.org/wiki/Word2vec">Word2Vec</a>, <a href="https://en.wikipedia.org/wiki/GloVe_(machine_learning)">GloVe</a> e <a href="https://en.wikipedia.org/wiki/FastText">fastText</a>. Por outro lado, não sendo indicado para o reconhecimento de <i>tag</i> de partes da fala (<a href="https://en.wikipedia.org/wiki/Part-of-speech_tagging">PoS tagging</a>) ou <a href="https://medium.com/@5hirish/dependency-parsing-in-nlp-d7ade014186">análise de dependência</a>, onde a capitalização adequada de palavras é essencial para reconhecer substantivos, verbos, etc.</p>

In [4]:
def convert_to_lower_case(text):
	return text.lower()

### Exemplo

In [6]:
text = 'Este é um exemplo de texto NLP.'
print(convert_to_lower_case(text))

este é um exemplo de texto nlp.


## Remoção de <i>tags</i> HTML

<p>Quando o texto contém <i>tags</i> HTML é necessário removê-las, pois não há informação valiosa. Os meios mais comuns de removê-las é usando regex ou também pelo módulo <b>BeautifulSoup</b> da biblioteca <b><a href="https://pypi.org/project/bs4/">bs4</a></b>.

In [8]:
from bs4 import BeautifulSoup
def remove_html_tags(text):
	parser = BeautifulSoup(text, 'html.parser')
	return parser.get_text(separator = ' ')

### Exemplo

In [9]:
text = """<body>
<div>
<h1>Produtos encontrados: IPhone.</h1>
<h3>IPhone 10.</h3>
</div>
</body>
"""
print(remove_html_tags(text))


 
 Produtos encontrados: IPhone. 
 IPhone 10. 
 
 



## Remoção de URLs

In [119]:
import re
def remove_urls(text):
	url_pattern = r'https?://\S+|www\.\S+'
	return re.sub(pattern=url_pattern, repl='', string=text)

### Exemplo

In [120]:
text = """Por favor, pesquise no Google por NLP para contrar mais informações https://www.google.com/search?q=nlp&oq=nlp&aqs=edge.0.69i59l3j69i60l3j0.1045j0j4&sourceid=chrome&ie=UTF-8. Tudo bem?
"""

print(remove_urls(text))

Por favor, pesquise no Google por NLP para contrar mais informações  Tudo bem?



## Conversão de números para palavras

<p>Esse tipo de conversão pode ser interessante aplicar quando os números são importantes para o contexto. Utilizamos a biblioteca <b><a href="https://pypi.org/project/num2words/">num2words</a></b> para fazer a conversão de número para palavra.</p>

In [54]:
from num2words import num2words
def numbers_to_words(text, lang='pt_BR'):
    words = text.split()
    
    for word_index in filter(lambda word_index: words[word_index].isdigit(), range(len(words))):        
        words[word_index] = num2words(words[word_index], lang)
    
    return ' '.join(words)

### Exemplo

In [55]:
texto = 'Este produto dou nota 1000 !!! Sensacional! Vou comprar mais 3 !:)'
print(numbers_to_words(texto))

Este produto dou nota one thousandth !!! Sensacional! Vou comprar mais third !:)


## Remoção de caracteres acentuados

In [None]:
<p>Quando os caracteres especiais não são removidos do texto, o modelo identifica palavras acenturadas distintas, como pröva e prova. Porém, pode ser complicado utilizar essa técnica com palavras no idioma português, pois algumas palavras acentuadas possuem significados diferentes e dependendo do problema em questão, elas devem manter essa distinção, como pais e país. Nesse caso, outra técnica por ser melhor empregada, por exemplo  correção ortográfica.</p>

In [80]:
import unidecode
def remove_accented_characters(text):
    return unidecode.unidecode(text)

### Exemplo

In [81]:
text = 'Este foi o 10º e último produto congelado. Ele estava 30°C.'
print(remove_accented_characters(text))

Este foi o 10o e ultimo produto "congelado". Ele estava 30degC.


## Correção ortográfica

<p>Importante técnica para reduzir o ruíno no texto. Há alguns pacotes disponíveis em Python, porém nem todos funcionam bem utilizando o idioma Português, talvez isso pode ser resolvido incluindo mais palavras ao dicionário. Uma boa biblioteca em Python para correção ortográfica é a <b><a href="https://github.com/fsondej/autocorrect">autocorrect</a></b> que permite incluir outros idiomas ou até mesmo melhorar as existentes de forma fácil.</p>

In [113]:
from autocorrect import Speller
def correct_spell(text, lang='pt'):
    speller = Speller(lang)
    return speller(text) 

### Exemplo

In [114]:
text = 'Vams corigir este testo com palvcras e tambem sem acentuaçao.'
print(correct_spell(text))

Vamos corrigir este resto com palavras e tambem sem acentuação.


## Remoção de caracteres de pontuação

In [128]:
from string import punctuation
def remove_punctuation(text):
	return text.translate(str.maketrans('', '', punctuation))

### Exemplo

In [130]:
text = 'Este produto é otimo (fácil intalação)!!!!! Tenho uma dúvida, qual é a voltagem do produto? Vontagem: 110v, 220v. '
print(remove_punctuation(text))

Este produto é otimo fácil intalação Tenho uma dúvida qual é a voltagem do produto Vontagem 110v 220v 
