# Tarefas de pré-processamento



O pipeline clássico de PLN prevê fundamentalmente três passos na etapa de pré-processamento:

1. **Tokenization -** refere-se ao procedimento de dividir uma frase em suas partes constituintes - as palavras e a pontuação das quais ela é composta. É diferente de simplesmente dividir a frase em espaços em branco e, em vez disso, divide a frase em palavras constituintes, números (se houver) e pontuação, que nem sempre podem ser separados por espaços em branco.

2. **PoS (Part-of-Speech) Tagging -** é responsável pelo processo de definição da classe gramatical das palavras, de acordo com as funções sintáticas. Em PLN, o termo PoS se refere a classes gramaticais. PoS Tagging se refere ao processo de etiquetação de palavras dentro de frases com seus respectivos PoS. Extraímos os PoS de tokens que constituem uma frase para que possamos filtrar os PoS de interesse e analisá-los. PoS tagging é realizada usando diferentes técnicas, uma das quais é uma abordagem baseada em regras que constrói uma lista para atribuir uma possível tag para cada palavra.

3. **Remoção de stop words -** stop words são as palavras que ocorrem com mais frequência em qualquer idioma e são usadas apenas para apoiar a construção de frases e não contribuem em nada para a semântica de uma frase. Portanto, podemos remover essas palavras de qualquer texto antes de um processo de PLL, pois elas ocorrem com muita frequência e sua presença não tem muito impacto no sentido de uma frase. Removê-las nos ajudará a limpar nossos dados, tornando sua análise muito mais eficiente.

## 1. Tokenização

O NLTK fornece um método chamado word_tokenize, que transforma o texto em tokens. Ele separa o texto em palavras diferentes com base na pontuação e espaços entre as palavras.

In [None]:
# Importando o módulo necessário da NLTK
from nltk import word_tokenize,download

In [None]:
# Baixando os corpora necessários para esse notebook
download(['punkt','averaged_perceptron_tagger','stopwords'])

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# Definindo função para obtenção de tokens
def get_tokens(sentenca):
  palavras = word_tokenize(sentenca)
  return palavras

In [None]:
# Exemplo de uso da função recém-definida
print(get_tokens("Esse é um notebook sobre PLN!"))

['Esse', 'é', 'um', 'notebook', 'sobre', 'PLN', '!']


## 2. PoS Tagging

Vamos pensar num exemplo de PoS Taggins usando a sentença "The sky is blue" com as seguintes tags disponíveis:
* DT = Determiner
* NN = Noun, common, singular or mass
* VBZ = Verb, present tense, third-person singular
* JJ = Adjective

Nossa sentença após o processo de PoS poderia ser representada pelo seguinte conjunto de tuplas:

* (The, DT), (sky, NN), (is, VBZ), (blue, JJ)

Da mesma forma que o NLTK possui um método que nos auxilia na tokenização das palavras, ele também possui um método voltado ao tageamento, o  pos_tag. Temos ao todo 34 tags disponíveis na NLTK, elas podem ser consultadas na seguinte página: https://pythonprogramming.net/natural-language-toolkit-nltk-part-speech-tagging/

In [None]:
# Importando o método
from nltk import pos_tag

In [None]:
# Vamos passar uma sentença pelo método get_tokens que desenvolvemos
tokens = get_tokens("This is an NLP notebook!")

In [None]:
# Definindo uma função de PoS Tagging
def get_tags(tokens):
  return pos_tag(tokens)

In [None]:
# Verificando o tageamento obtido
get_tags(tokens)

[('This', 'DT'),
 ('is', 'VBZ'),
 ('an', 'DT'),
 ('NLP', 'JJ'),
 ('notebook', 'NN'),
 ('!', '.')]

## 3. Remoção de stopwords



Para realizar a remoção de stopwords podemos usar um corpus já integrado ao NLTK.

In [None]:
# Importando dependências
from nltk import download
from nltk.corpus import stopwords

In [None]:
# Pegando as stop words da língua inglesa
stop_words = stopwords.words('english')
print(stop_words)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [None]:
# Verificando a quantidade de stop words
print(len(stop_words))

179


In [None]:
# Definindo função para remover stop words
def rem_stopwords(sentenca, stop_words):
  return ' '.join([palavra for palavra in sentenca if palavra not in stop_words])

In [None]:
# Obtendo os tokens de uma sentença
sentenca = "Today we are learning about tokens and stop words"
tokens = get_tokens(sentenca)

In [None]:
# Obtendo os tokens após remoção de stop words
rem_stopwords(tokens, stop_words)

'Today learning tokens stop words'

In [None]:
# Podemos ainda remover ou extender stop words caso seja necessário
stop_words.extend("we")
print(rem_stopwords(tokens, stop_words))

Today we learning tokens stop words


# Normalização

O processo de **normalização de palavras** refere-se ao processo de redução/simplificação de palavras, buscando obter seus radicais. De maneira mais precisa a normalização de textos é um processo em que diferentes variações de texto são convertidas em um formato padrão. Precisamos realizar a normalização do texto, pois há algumas palavras que podem significar a mesma coisa.

Três técnicas muito importantes que envolvem a normalização são:

* **Spelling Correction** - Primeiro,identificamos a palavra com grafia incorreta, o que pode ser feito por pesquisa no dicionário. Se não houver correspondência no dicionário será considerado incorreto. Depois substituímos pela palavra soletrada corretamente. Existem muitos algoritmos para essa tarefa, como o algoritmo de distância de edição mínima, que escolhe a palavra soletrada corretamente mais próxima para uma palavra com erros ortográficos.

* **Stemming** - Reduzir palavras flexionadas/derivadas ao seu tronco/base, não necessariamente reduzindo à raíz morgfológica. Geralmente refere-se a um processo de heurística que corta as extremidades das palavras.

* **Lemmatization** - Consiste em aplicar técnicas para deflexionar uma palavra para uma forma padrão, seja alterando gênero, número ou conjugação. É como se estivessemos reduzindo uma palavra para sua forma de dicionário.


## 4 Exemplo básico de normalização

In [None]:
# Sentença que trabalharemos em cima
sentenca = "Eu visitei os EUA depois de ter ido no RU em 22-10-18"

In [None]:
# Função para normalizar especificamente a sentença definida
def normalizar(texto):
  return texto.replace("EUA", "Estados Unidos da América").replace("RU", "Reino Unido").replace("-18", "-2018")

In [None]:
sentenca_normalizada = normalizar(sentenca)
print(sentenca_normalizada)

Eu visitei os Estados Unidos da América depois de ter ido no Reino Unido em 22-10-2018


## 5. Correção ortográfica

In [None]:
# Vamos instalar a biblioteca de correção ortográfica
!pip install autocorrect

Collecting autocorrect
  Downloading autocorrect-2.5.0.tar.gz (622 kB)
[?25l[K     |▌                               | 10 kB 22.7 MB/s eta 0:00:01[K     |█                               | 20 kB 25.3 MB/s eta 0:00:01[K     |█▋                              | 30 kB 22.9 MB/s eta 0:00:01[K     |██                              | 40 kB 18.7 MB/s eta 0:00:01[K     |██▋                             | 51 kB 8.3 MB/s eta 0:00:01[K     |███▏                            | 61 kB 9.6 MB/s eta 0:00:01[K     |███▊                            | 71 kB 8.9 MB/s eta 0:00:01[K     |████▏                           | 81 kB 9.9 MB/s eta 0:00:01[K     |████▊                           | 92 kB 10.4 MB/s eta 0:00:01[K     |█████▎                          | 102 kB 7.9 MB/s eta 0:00:01[K     |█████▉                          | 112 kB 7.9 MB/s eta 0:00:01[K     |██████▎                         | 122 kB 7.9 MB/s eta 0:00:01[K     |██████▉                         | 133 kB 7.9 MB/s eta 0:00:01[K

In [None]:
# Importando bibliotecas que usaremos
import nltk
from nltk import word_tokenize  
from autocorrect import Speller

In [None]:
# Definindo objeto de corretor da língua inglesa e testando ele
spell = Speller(lang='en')
spell('Sensateonal')

'Sensational'

In [None]:
# Baixando o tokenizador de sentenças
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
# Sentença que testaremos o speller
sentenca_tks = word_tokenize("Ntural Luanguage Processin deals with the art of extracting insightes from Natural Languaes")

In [None]:
# Definindo função para correção ortográfica
def corretor_ort(tokens):
  sentenca_correta = " ".join([spell(word) for word in tokens])
  return sentenca_correta

In [None]:
# Verificando se sentença foi corrigida
corretor_ort(sentenca_tks)

'Natural Language Processing deals with the art of extracting insights from Natural Languages'

## 6. Stemming



In [None]:
# Importando a ferramenta de stemming da NLTK
from nltk import stem

In [None]:
# Definição de função que retorna o stem de uma palavra usando um determinado algoritmo
def get_stem(palavra, stemmer):
  return stemmer.stem(palavra)

In [None]:
# Criando objeto stemmer usando o algoritmo de Porter
porter_stem = stem.PorterStemmer()

In [None]:
# Verificando funcionamento do stemming com alguns exemplos
print(get_stem("production",porter_stem))
print(get_stem("coming",porter_stem))
print(get_stem("firing",porter_stem))

product
come
fire


In [None]:
# Um exemplo onde obtemos um stem que não é uma palavra
print(get_stem("battling",porter_stem))

battl


## 7. Lemmatization

In [None]:
# Importando dependências necessárias
from nltk import download
download("wordnet")
from nltk.stem.wordnet import WordNetLemmatizer

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


In [None]:
# Definindo objeto lematizador
lematizador = WordNetLemmatizer()

In [None]:
# Definindo função que pega uma palavra e devolve seu lema
def get_lemma(palavra):
  return lematizador.lemmatize(palavra)

In [None]:
# Testando alguns usos do lematizador
print(get_lemma('products'))
print(get_lemma('production'))
print(get_lemma('battles'))

product
production
battle


## 8. Detecção de sentença

In [None]:
# Importando dependências, no caso a função tokenizadora de sentenças
import nltk
from nltk.tokenize import sent_tokenize

In [None]:
# Definindo função separadora de sentenças
def get_sentencas(texto):
  return sent_tokenize(texto)

In [None]:
# Testando a função criada
get_sentencas("Esse é um grande dia. De fato, um dos melhores! Me sinto muito bem.")
# Veja que a função delimita as sentenças por pontuação

['Esse é um grande dia.', 'De fato, um dos melhores!', 'Me sinto muito bem.']

In [None]:
# Nossa função é capaz de diferenciar pontos de final de frase e de abreviação
get_sentencas("Estamos no consultório do Dr. Marcos. Só nos resta esperar")

['Estamos no consultório do Dr. Marcos.', 'Só nos resta esperar']