# Aula prática 8 de ORI 2023-1 - Introdução ao Processamento de Língua Natural com NLTK - 19/09/2023

Referência: http://www.facom.ufu.br/~wendelmelo/terceiros/tutorial_nltk.pdf

Link para a gravação da aula em 2020-2:

https://web.microsoftstream.com/video/240f2485-8865-4b29-89d1-95baeee6377a?channelId=32516ce2-5ee6-4787-8484-ce7fe08df48e

O NLTK é bibioteca para processamento de língua natural em Python.

Para Instalar o nltk, algum dos comandos a seguir deve funcionar em sua linha de comando:

* pip install -U nltk
* pip3 install -U nltk
* py -m pip install -U nltk
* python -m pip install -U nltk
* python3 -m pip install -U nltk

In [None]:
#para rodar o pip aqui o colab, colocamos uma exclamação na frente do comando
!pip install -U nltk



#Usando o NLTK

In [None]:
import nltk
help(nltk)

É possível baixar subpacotes do nltk com a função download. Vamos usar a função download para baixar o subpacote stopwords, que fornece uma lista de stopwords em diferentes linguagens

In [None]:
nltk.download("stopwords")
#só precisamos baixar subpacotes uma única vez. Eles estarão disponíveis a partir daqui

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
#podemos então obter uma lista de stopwords em língua portuguesa
stopwords = nltk.corpus.stopwords.words("portuguese")
stopwords

É possível usar o nltk para tokenização de textos. Para isso, usaremos o subpacote punkt

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
#tokenizando texto por palavras
frase = "A humanidade é desumana! Mas, ainda... temos chance?"
palavras = nltk.word_tokenize(frase)
palavras

['A',
 'humanidade',
 'é',
 'desumana',
 '!',
 'Mas',
 ',',
 'ainda',
 '...',
 'temos',
 'chance',
 '?']

In [None]:
#podemos tokenizar por sentenças (frases)
texto = "Oi, Tim! Tá Vivo? Claro!"
frases = nltk.sent_tokenize(texto)
frases

['Oi, Tim!', 'Tá Vivo?', 'Claro!']

#Extraindo radicais de palavras

Usaremos o extratos rslp, que é o extrator de radicais para língua portuguesa.

In [None]:
nltk.download("rslp")

[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

In [None]:
extrator = nltk.stem.RSLPStemmer()
extrator.stem("aprendizagem")

'aprendiz'

In [None]:
extrator.stem("luminosidade")

'luminos'

O nltk possui ferramentas para classificação de palavras

O nltk possui um corpus (base de dados) em língua portuguesa chamado mac_morpho. mac_morpho traz exemplos de sentenças (frases) classificadas (etiquetadas)

Há três tipos de dados classificados

* Por palavras (método tagged_words)
* Por sentença (método tagged_sents)
* Por parágrafo (método tagged_paras)


In [None]:
nltk.download("mac_morpho")

[nltk_data] Downloading package mac_morpho to /root/nltk_data...
[nltk_data]   Unzipping corpora/mac_morpho.zip.


True

In [None]:
from nltk.corpus import mac_morpho

frases_classificadas = mac_morpho.tagged_sents()
print(frases_classificadas)

[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]


In [None]:
print( frases_classificadas[0] )

[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')]


# Classificação de palavras com NLTK

Vamo fazer um exemplo de classificação de palavras usando o classificador (etiquetador) unigram (unigram tagger)

In [None]:
import nltk

#obtendo as sentenças classificdas do mac_morpho
sentencas_classificadas = nltk.corpus.mac_morpho.tagged_sents()

#instanciando um etiquetador unigram, e passando as
#frases etiquetadas para ele treinar
classificador_unigram = nltk.tag.UnigramTagger( sentencas_classificadas )

#definindo um texto para ser classificado
texto = "Nos deram espelhos, e vimos um mundo doente!"
tokens_texto = nltk.word_tokenize( texto )  #separa em tokens de palavras

classificacao = classificador_unigram.tag( tokens_texto )

print(classificacao)

[('Nos', 'PROPESS'), ('deram', 'V'), ('espelhos', 'N'), (',', ','), ('e', 'KC'), ('vimos', 'V'), ('um', 'ART'), ('mundo', 'N'), ('doente', 'ADJ'), ('!', '!')]


In [None]:
frase2 = "Já chegou o disco voador!"
tokens_texto2 = nltk.word_tokenize( frase2 )

classif2 = classificador_unigram.tag( tokens_texto2 )
print(classif2)

[('Já', 'ADV'), ('chegou', 'V'), ('o', 'ART'), ('disco', 'N'), ('voador', 'ADJ'), ('!', '!')]


Pode-se usar os etiquetadores BigramTagger e TrigramTagger para fazer a clasisficação. A diferença entre eles é que unigram observa um token de cada vez, ao passo que bigram observa dois tokens em sequeência (considera pares de tokens), e o trigram 3 (considera trio de palavras).

É possível combinar diversos classificados para uso em cadeia

In [None]:
import nltk

#obtendo as sentenças classificdas do mac_morpho
sentencas_classificadas = nltk.corpus.mac_morpho.tagged_sents()

#cria um classificador default que classifica tudo como substantivo
#se os demais classicadores falharem, a classsificação default de substantivo será usada
classificador0 = nltk.DefaultTagger('N')

classificador1 = nltk.UnigramTagger( sentencas_classificadas, backoff = classificador0 )
classificador2 = nltk.BigramTagger( sentencas_classificadas, backoff=classificador1 )
classificador3 = nltk.TrigramTagger( sentencas_classificadas, backoff = classificador2 )

texto3 = "O rato Romário roeu a roupa do rei de Roma na rinha"
tokens_texto3 = texto3.split()   #separa as palavras

classificacao3 = classificador3.tag( tokens_texto3 )
print(classificacao3)



[('O', 'ART'), ('rato', 'N'), ('Romário', 'NPROP'), ('roeu', 'N'), ('a', 'PREP'), ('roupa', 'N'), ('do', 'KS'), ('rei', 'N'), ('de', 'PREP'), ('Roma', 'NPROP'), ('na', 'NPROP'), ('rinha', 'N')]


Como o processo de treinar o classificador pode ser muito demorado, pode-se salvar o classificador já treinado em um arquivo para posterior carregamento.

In [None]:
#salvando nosso classificador em um arquivo
import pickle

arquivo = open( "classificador.bin", "wb" )
pickle.dump( classificador3, arquivo )
arquivo.close()

In [None]:
#carregamento agora o classificador salvo no arquivo
import pickle
arquivo = open( "classificador.bin", "rb")
classif = pickle.load( arquivo )  # carrega o classificador salvo no arquivo

texto = "O sol nasce para todos, só não sabe quem não quer!"
tokens = nltk.word_tokenize( texto )

classificacao = classif.tag( texto )
print(classificacao)

[('O', 'ART'), (' ', 'N'), ('s', 'N'), ('o', 'ART'), ('l', 'N'), (' ', 'N'), ('n', 'N'), ('a', 'PREP'), ('s', 'N'), ('c', 'N'), ('e', 'KC'), (' ', 'N'), ('p', 'N'), ('a', 'PREP'), ('r', 'N'), ('a', 'PREP'), (' ', 'N'), ('t', 'N'), ('o', 'ART'), ('d', 'NPROP'), ('o', 'ART'), ('s', 'N'), (',', ','), (' ', 'N'), ('s', 'N'), ('ó', 'IN'), (' ', 'N'), ('n', 'N'), ('ã', 'N'), ('o', 'ART'), (' ', 'N'), ('s', 'N'), ('a', 'PREP'), ('b', 'N'), ('e', 'KC'), (' ', 'N'), ('q', 'N'), ('u', 'N'), ('e', 'KC'), ('m', 'N'), (' ', 'N'), ('n', 'N'), ('ã', 'N'), ('o', 'ART'), (' ', 'N'), ('q', 'N'), ('u', 'N'), ('e', 'KC'), ('r', 'N'), ('!', '!')]
