# 1. Introdução e Preparação

NLTK (Natural Language Toolkit)
* Ampla e tradicional biblioteca de NLP
* Possui vaários recursos como tokenização, stemming, tagging, parsing, etc.

Obs.: No Colab não precisa instalar o NLTK.

In [1]:
# Instalação
#!pip install nltk
!pip install nltk==3.3

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting nltk==3.3
  Using cached nltk-3.3-py3-none-any.whl
Installing collected packages: nltk
  Attempting uninstall: nltk
    Found existing installation: nltk 3.8.1
    Uninstalling nltk-3.8.1:
      Successfully uninstalled nltk-3.8.1
Successfully installed nltk-3.3


In [2]:
# Importação da biblioteca
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer, SnowballStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag, pos_tag_sents
import string

# Download de pacotes
nltk.download("stopwords")
nltk.download("punkt")
nltk.download("tagsets")
nltk.download('wordnet')
nltk.download("averaged_perceptron_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("words")

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Package tagsets is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


True

In [3]:
texto = 'Nós somos feitos de poeira de estrelas. Nós somos uma maneira de cosmos se autoconhecer. A imaginação nos leva a mundos que nunca se quer existiram. Mas sem ela não vamos a lugar algum.'
print(texto)

Nós somos feitos de poeira de estrelas. Nós somos uma maneira de cosmos se autoconhecer. A imaginação nos leva a mundos que nunca se quer existiram. Mas sem ela não vamos a lugar algum.


O NLTK possui um gerenciador de downloads, que mostra as opções dentro do pacote.

In [4]:
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> l

Packages:
  [ ] abc................. Australian Broadcasting Commission 2006
  [ ] alpino.............. Alpino Dutch Treebank
  [*] averaged_perceptron_tagger Averaged Perceptron Tagger
  [ ] averaged_perceptron_tagger_ru Averaged Perceptron Tagger (Russian)
  [ ] basque_grammars..... Grammars for Basque
  [ ] bcp47............... BCP-47 Language Tags
  [ ] biocreative_ppi..... BioCreAtIvE (Critical Assessment of Information
                           Extraction Systems in Biology)
  [ ] bllip_wsj_no_aux.... BLLIP Parser: WSJ Model
  [ ] book_grammars....... Grammars from NLTK Book
  [ ] brown............... Brown Corpus
  [ ] brown_tei........... Brown Corpus (TEI XML Version)
  [ ] cess_cat............ CESS-CAT Treebank
  [ ] cess_esp

True

# 2. Produção de Tokens

A tokenização pode ser feita tanto para sentenças quanto para palavras.

In [5]:
# Tokenização de sentença
sentencas = sent_tokenize(texto, language = 'portuguese')
print(type(sentencas))
print(len(sentencas))
print(sentencas)

<class 'list'>
4
['Nós somos feitos de poeira de estrelas.', 'Nós somos uma maneira de cosmos se autoconhecer.', 'A imaginação nos leva a mundos que nunca se quer existiram.', 'Mas sem ela não vamos a lugar algum.']


In [6]:
# Tokenização de palavras
tokens = word_tokenize(texto, language = 'portuguese')
print(type(tokens))
print(len(tokens))
print(tokens)

<class 'list'>
38
['Nós', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.', 'Nós', 'somos', 'uma', 'maneira', 'de', 'cosmos', 'se', 'autoconhecer', '.', 'A', 'imaginação', 'nos', 'leva', 'a', 'mundos', 'que', 'nunca', 'se', 'quer', 'existiram', '.', 'Mas', 'sem', 'ela', 'não', 'vamos', 'a', 'lugar', 'algum', '.']


# 3. Gerenciando Stop Words e Pontuação

In [7]:
# Exibição da lista de stop words do pacote
stops = stopwords.words('portuguese')
print(len(stops))
print(stops)

207
['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houv

In [8]:
# Remoção de stop words da lista de tokens
palavras_sem_stopwords = [p for p in tokens if p not in stops]
print(len(palavras_sem_stopwords))
print(texto)
print(palavras_sem_stopwords)

23
Nós somos feitos de poeira de estrelas. Nós somos uma maneira de cosmos se autoconhecer. A imaginação nos leva a mundos que nunca se quer existiram. Mas sem ela não vamos a lugar algum.
['Nós', 'feitos', 'poeira', 'estrelas', '.', 'Nós', 'maneira', 'cosmos', 'autoconhecer', '.', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'quer', 'existiram', '.', 'Mas', 'vamos', 'lugar', 'algum', '.']


In [9]:
# Exibição de lista de pontuações
print(string.punctuation)

# Remoção de pontuação
palavras_sem_pontuacao = [p for p in palavras_sem_stopwords if p not in string.punctuation]
print(len(palavras_sem_pontuacao))
print(texto)
print(palavras_sem_pontuacao)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
19
Nós somos feitos de poeira de estrelas. Nós somos uma maneira de cosmos se autoconhecer. A imaginação nos leva a mundos que nunca se quer existiram. Mas sem ela não vamos a lugar algum.
['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'quer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']


# 4. Produzindo Métricas

Uma das funcionalidades do NLTK é a exibição da distribuição de frequência dos tokens. A partir desta distribuição de frequência é possível mostrar de forma ordenada as principais.

In [10]:
# Exibição da distribuição de frequência dos tokens
frequencia = nltk.FreqDist(palavras_sem_pontuacao)
frequencia

FreqDist({'Nós': 2, 'feitos': 1, 'poeira': 1, 'estrelas': 1, 'maneira': 1, 'cosmos': 1, 'autoconhecer': 1, 'A': 1, 'imaginação': 1, 'leva': 1, ...})

In [11]:
# Exibição das 5 palavras mais comuns no texto
mais_comuns = frequencia.most_common(5)
mais_comuns

[('Nós', 2), ('feitos', 1), ('poeira', 1), ('estrelas', 1), ('maneira', 1)]

# 5. Stemming na prática

Objetivo do Stemming: trazer a mesma referência para cada palavra, de modo que sempre que ela apareça o algoritmo saiba que se trata da mesma coisa (vai ter sempre o mesmo significado).

Principais algoritmos de stemming:
* Porter: mais comum e mais antigo.
* Snowball: melhorado com relação ao Porter (às vezes chamado de "Porter 2"). Melhor desempenho computacional.
* Lancaster: mais agressivo. Resultados às vezes não intuitivo.

In [12]:
# Stemming das palavras sem pontuação (com algoritmo Porter)
stemmer1 = PorterStemmer()
stem1 = [stemmer1.stem(word) for word in palavras_sem_pontuacao]
print(palavras_sem_pontuacao)
print(stem1)

['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'quer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['nó', 'feito', 'poeira', 'estrela', 'nó', 'maneira', 'cosmo', 'autoconhec', 'A', 'imaginação', 'leva', 'mundo', 'nunca', 'quer', 'existiram', 'ma', 'vamo', 'lugar', 'algum']


In [13]:
# Stemming das palavras sem pontuação (com algoritmo Snowball)
stemmer2 = SnowballStemmer('portuguese')
stem2 = [stemmer2.stem(word) for word in palavras_sem_pontuacao]
print(palavras_sem_pontuacao)
print(stem2)

['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'quer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['nós', 'feit', 'poeir', 'estrel', 'nós', 'maneir', 'cosm', 'autoconhec', 'a', 'imagin', 'lev', 'mund', 'nunc', 'quer', 'exist', 'mas', 'vam', 'lug', 'algum']


In [14]:
# Stemming das palavras sem pontuação (com algoritmo Snowball)
stemmer3 = LancasterStemmer()
stem3 = [stemmer3.stem(word) for word in palavras_sem_pontuacao]
print(palavras_sem_pontuacao)
print(stem3)

['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'quer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['nós', 'feito', 'poeir', 'estrela', 'nós', 'maneir', 'cosmo', 'autoconhec', 'a', 'imaginação', 'lev', 'mundo', 'nunc', 'quer', 'existiram', 'mas', 'vamo', 'lug', 'alg']


# 6. Criando Pós-Taggin

In [15]:
# Consulta dos significados das siglas na realização do Tag dos tokens
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

In [16]:
# Geração do pos tags para palavras
pos = nltk.pos_tag(palavras_sem_pontuacao)
print(pos)

[('Nós', 'NNP'), ('feitos', 'NN'), ('poeira', 'NN'), ('estrelas', 'NNS'), ('Nós', 'NNP'), ('maneira', 'NN'), ('cosmos', 'NN'), ('autoconhecer', 'VBZ'), ('A', 'DT'), ('imaginação', 'JJ'), ('leva', 'NN'), ('mundos', 'NN'), ('nunca', 'JJ'), ('quer', 'NN'), ('existiram', 'NN'), ('Mas', 'NNP'), ('vamos', 'NN'), ('lugar', 'NN'), ('algum', 'NN')]


In [17]:
# Geração do pos tags para sentenças
token2 = sent_tokenize(texto)
ntokens = []
for tokensentenca in token2:
  ntokens.append(word_tokenize(tokensentenca))
print(ntokens)

possentenca = pos_tag_sents(ntokens)
print(possentenca)

[['Nós', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.'], ['Nós', 'somos', 'uma', 'maneira', 'de', 'cosmos', 'se', 'autoconhecer', '.'], ['A', 'imaginação', 'nos', 'leva', 'a', 'mundos', 'que', 'nunca', 'se', 'quer', 'existiram', '.'], ['Mas', 'sem', 'ela', 'não', 'vamos', 'a', 'lugar', 'algum', '.']]
[[('Nós', 'NNP'), ('somos', 'VBD'), ('feitos', 'NNS'), ('de', 'FW'), ('poeira', 'FW'), ('de', 'FW'), ('estrelas', 'FW'), ('.', '.')], [('Nós', 'NNP'), ('somos', 'NN'), ('uma', 'JJ'), ('maneira', 'NN'), ('de', 'IN'), ('cosmos', 'FW'), ('se', 'JJ'), ('autoconhecer', 'NN'), ('.', '.')], [('A', 'DT'), ('imaginação', 'JJ'), ('nos', 'JJ'), ('leva', 'NN'), ('a', 'DT'), ('mundos', 'NN'), ('que', 'NN'), ('nunca', 'FW'), ('se', 'FW'), ('quer', 'NN'), ('existiram', 'NN'), ('.', '.')], [('Mas', 'NNP'), ('sem', 'NN'), ('ela', 'NN'), ('não', 'JJ'), ('vamos', 'NN'), ('a', 'DT'), ('lugar', 'NN'), ('algum', 'NN'), ('.', '.')]]


# 7. Lemmatization na prática

In [18]:
!python3 -m nltk.downloader wordnet
import subprocess

# Comando a ser executado
command = "unzip /root/nltk_data/corpora/wordnet.zip -d /root/nltk_data/corpora/"

# Executa o comando no sistema
subprocess.run(command, shell=True)

nltk.data.path.append("/usr/local/lib/python3.10/dist-packages/nltk/corpus")

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [19]:
lemmatizer = WordNetLemmatizer()
resultado = [lemmatizer.lemmatize(palavra) for palavra in palavras_sem_stopwords]
print(palavras_sem_pontuacao)
print(resultado)

['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'quer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['Nós', 'feitos', 'poeira', 'estrelas', '.', 'Nós', 'maneira', 'cosmos', 'autoconhecer', '.', 'A', 'imaginação', 'lev', 'mundos', 'nunca', 'quer', 'existiram', '.', 'Mas', 'vamos', 'lugar', 'algum', '.']


# 8. Busca de Entidades Nomeadas

In [20]:
texto_en = 'Barack Obama foi um presidente dos EUA'
token3 = word_tokenize(texto_en)
tags = pos_tag(token3)
en = nltk.ne_chunk(tags)
print(en)

(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  um/JJ
  presidente/NN
  dos/NN
  (ORGANIZATION EUA/NNP))
