# Conceitos e técnicas de Processamento de Linguagem Natural (PLN)

O Processamento de Linguagem Natural (PLN) (ou do inglês *Natural language processing (NLP)*) é uma subárea da Ciência da Computação que
tem o seu foco em estudos voltados para a geração e compreensão automática da linguagem natural.

Quando o objetivo é a compreensão da linguagem natural, faz-se necessário converter a linguagem humana em uma representação formal que possa ser manipulada por sistemas computacionais. 

Quando a linguagem natural está expressa na forma textual, a primeira iniciativa para se obter uma representação
formal que possa ser processada por um computador é a de pré-processamento do texto. A seguir são
apresentadas algumas das possíveis etapas de pré-processamento de um texto.


## Tokenização

A tokenização tem como objetivo a separação de uma sequência de caracteres utilizando os espaços, quebras de linha e/ou pontuações como delimitadores. Geralmente essa é a primeira etapa executada durante o pré-processamento de um texto, servindo como base para as etapas seguintes. A tokenização pode ser efetuada com o objetivo de segmentar os caracteres, as palavras ou até mesmo as sentenças, dependendendo da necessidade específica. Um das bibliotecas disponíveis em python com várias ferramentas de tokenização é a NLTK. Execute o código abaixo com uma mesma frase tokenizada de várias formas diferentes:

In [1]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

texto = "O sol brilha forte no céu azul. Uma suave brisa balança as folhas das árvores. Enquanto isso, as crianças correm alegremente pelo parque."

frases = sent_tokenize(texto)
print("Tokenização a nível de frases: ")
print(" | ".join(frases))
print("===============================")
palavras = word_tokenize(texto)
print("Tokenização a nível de palavras: ")
print(" | ".join(palavras))
print("===============================")
#Usando um delimitador especial
delimit = texto.split(",")
print("Tokenização com delimitador específico: ")
print(" | ".join(delimit))

Tokenização a nível de frases: 
O sol brilha forte no céu azul. | Uma suave brisa balança as folhas das árvores. | Enquanto isso, as crianças correm alegremente pelo parque.
Tokenização a nível de palavras: 
O | sol | brilha | forte | no | céu | azul | . | Uma | suave | brisa | balança | as | folhas | das | árvores | . | Enquanto | isso | , | as | crianças | correm | alegremente | pelo | parque | .
Tokenização com delimitador específico: 
O sol brilha forte no céu azul. Uma suave brisa balança as folhas das árvores. Enquanto isso |  as crianças correm alegremente pelo parque.


## N-Gramas

Um n-grama pode ser considerado uma sequência contígua de *n* itens obtidos a partir de um texto. Esses itens podem ser palavras, caracteres ou outros símbolos presentes no texto. O valor de *n* é definido pelo usuário, sendo os mais comuns *n=1* (unigramas), *n=2* (bigramas) e *n=3* (trigramas). O código abaixo mostra os unigramas e bigramas de caracteres obtidos a partir da frase: "Olá, como vc está?".

In [2]:
frase = "Olá, como vc está?"

unigrams = [frase[i:i+1] for i in range(len(frase)-1)]
bigrams = [frase[i:i+2] for i in range(len(frase)-1)]

print("Unigramas :"," | ".join(unigrams))
print("Bigramas: "," | ".join(bigrams))

Unigramas : O | l | á | , |   | c | o | m | o |   | v | c |   | e | s | t | á
Bigramas:  Ol | lá | á, | ,  |  c | co | om | mo | o  |  v | vc | c  |  e | es | st | tá | á?


## Remoção de Stopwords

Stopwords são palavras que ocorrem muito frequentemente em um texto, ou seja, palavras comuns em uma determinada língua. Alguns exemplos de stopwords são pronomes, preposições, artigos etc. Em alguns casos, esse tipo de palavra não contribui no processamento de linguagem natural e, por isso, podem ser removidas. Isso pode diminuir consideravelmente a quantidade de palavras no texto, o que pode ser uma vantagem do ponto de vista computacional, pois a remoção de palavras comuns tende a reduzir a dimensionalidade dos dados. No exemplo abaixo podemos ver as *stopwords* presentes no texto. Mais uma vez, utilizaremos a biblioteca NLTK para nos ajudar com essa tarefa.

In [3]:
import nltk
from nltk.corpus import stopwords
# É necessário o download da lista de stopwords em português
nltk.download('stopwords',quiet=True)
stop_words = set(stopwords.words('portuguese'))
 
word_tokens = word_tokenize(texto)
filtered_sentence = [w for w in word_tokens if w.lower() in stop_words]
print("Texto original: ",texto)
print("Stopwords: ",", ".join(filtered_sentence))

Texto original:  O sol brilha forte no céu azul. Uma suave brisa balança as folhas das árvores. Enquanto isso, as crianças correm alegremente pelo parque.
Stopwords:  O, no, Uma, as, das, isso, as, pelo


## Lematização

O lema de uma palavra pode ser considerado sua forma "dicionarizada", ou seja, quando a palavra é representada pelo singular masculino para
substantivos e adjetivos e infinitivo para verbos. A palavra "gostaria", por exemplo, tem como seu lema a palavra "gostar". O exemplo abaixo mostra a lematização de um pequeno texto. Para este exemplo, utilizaremos a biblioteca *spacy*, que contém várias ferramentas para trabalharmos com PLN, inclusive a lematização na língua portuguesa.


In [4]:
!pip install --quiet spacy
!python -m spacy download pt_core_news_lg --quiet 

import spacy
import string

nlp = spacy.load("pt_core_news_lg")
doc = nlp(texto)

print("Texto :")
print(texto,"\n")

for w in doc:
    if w.text not in string.punctuation:
        print("Palavra: {} | Lema(s): {}".format(w.text,w.lemma_))


[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_lg')
Texto :
O sol brilha forte no céu azul. Uma suave brisa balança as folhas das árvores. Enquanto isso, as crianças correm alegremente pelo parque. 

Palavra: O | Lema(s): o
Palavra: sol | Lema(s): sol
Palavra: brilha | Lema(s): brilhar
Palavra: forte | Lema(s): forte
Palavra: no | Lema(s): em o
Palavra: céu | Lema(s): céu
Palavra: azul | Lema(s): azul
Palavra: Uma | Lema(s): um
Palavra: suave | Lema(s): suave
Palavra: brisa | Lema(s): brisa
Palavra: balança | Lema(s): balançar
Palavra: as | Lema(s): o
Palavra: folhas | Lema(s): folha
Palavra: das | Lema(s): de o
Palavra: árvores | Lema(s): árvore
Palavra: Enquanto | Lema(s): enquanto
Palavra: isso | Lema(s): isso
Palavra: as | Lema(s): o
Palavra: crianças | Lema(s): criança
Palavra: correm | Lema(s): correr
Palavra: alegremente | Lema(s): alegremente
Palavra: pelo | Lema(s): por o
Palavra: parque | Lema(s): parque


## Etiquetagem Morfológica

A sintaxe de um idioma é o conjunto de regras que tem como objetivo dar sentido gramatical a um conjunto de palavras. A etiquetagem
morfológica (part of speech – POS) consiste na análise da função gramatical de cada palavra numa frase. A língua portuguesa, por exemplo, é composta por 10 classes de palavras (adjetivos, advérbios, artigos, conjunções, interjeições, numerais, preposições, pronomes, substantivos e verbos), porém, mais classes podem ser utilizadas durante a etiquetagem morfológica. Mais uma vez, a biblioteca *spacy* faz a etiquetagem para o idioma português, como é possível ver no exemplo abaixo. Além disso, você pode verificar o significado de cada tag do exemplo [aqui](https://universaldependencies.org/u/pos/).


In [5]:
for w in doc:
    print("Palavra: {} | Etiqueta Morfológica : {}".format(w.text,w.pos_))

Palavra: O | Etiqueta Morfológica : DET
Palavra: sol | Etiqueta Morfológica : NOUN
Palavra: brilha | Etiqueta Morfológica : VERB
Palavra: forte | Etiqueta Morfológica : ADJ
Palavra: no | Etiqueta Morfológica : ADP
Palavra: céu | Etiqueta Morfológica : NOUN
Palavra: azul | Etiqueta Morfológica : ADJ
Palavra: . | Etiqueta Morfológica : PUNCT
Palavra: Uma | Etiqueta Morfológica : DET
Palavra: suave | Etiqueta Morfológica : ADJ
Palavra: brisa | Etiqueta Morfológica : NOUN
Palavra: balança | Etiqueta Morfológica : VERB
Palavra: as | Etiqueta Morfológica : DET
Palavra: folhas | Etiqueta Morfológica : NOUN
Palavra: das | Etiqueta Morfológica : ADP
Palavra: árvores | Etiqueta Morfológica : NOUN
Palavra: . | Etiqueta Morfológica : PUNCT
Palavra: Enquanto | Etiqueta Morfológica : ADP
Palavra: isso | Etiqueta Morfológica : PRON
Palavra: , | Etiqueta Morfológica : PUNCT
Palavra: as | Etiqueta Morfológica : DET
Palavra: crianças | Etiqueta Morfológica : NOUN
Palavra: correm | Etiqueta Morfológica :