#Natural Language Toolkit (NLTK)

üíª [acessar este jupyter notebook no colab](https://colab.research.google.com/drive/1p-c7EPcXiGokfqbgZtZG_biXKYcwgu1j?usp=sharing)

Natural Language Toolkit (NLTK) √© uma biblioteca em Python amplamente utilizada para trabalhar com processamento de linguagem natural (NLP). Ela fornece ferramentas e recursos que facilitam o desenvolvimento de programas capazes de compreender e manipular dados de linguagem humana.

* Neste notebook, ser√£o exploradas as funcionalidades principais desta biblioteca.

##Configura√ß√µes Iniciais

O Google Colab j√° possui a biblioteca instalada com seus m√≥dulos, basta apenas importa-la junto de seus pacotes.

In [None]:
import nltk
import string

from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer, SnowballStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag, pos_tag_sents

#download de pacotes
nltk.download("stopwords") #faz o download da lista de palavras de parada
nltk.download("punkt") #faz o download do tokenizer de palavras e frases
nltk.download("tagsets") #faz o download de conjuntos de tags para POS tagging
nltk.download("wordnet") #az o download do WordNet, um banco de dados lexical para a lematiza√ß√£o
nltk.download("averaged_perceptron_tagger") #faz o download do etiquetador de partes do discurso
nltk.download("maxent_ne_chunker") #faz o download do chunker de entidade nomeada
nltk.download("words") #faz o download de um corpus de palavras

In [2]:
Texto = "N√≥s somos feitos de poeira de estrelas. N√≥s somos uma maneira de os cosmos se autoconhecer. A imagina√ß√£o nos leva a mundos que nunca sequer existiram. Mas sem ela n√£o vamos a lugar algum."
print(Texto)

N√≥s somos feitos de poeira de estrelas. N√≥s somos uma maneira de os cosmos se autoconhecer. A imagina√ß√£o nos leva a mundos que nunca sequer existiram. Mas sem ela n√£o vamos a lugar algum.


In [None]:
#Gerenciador de download
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> l

Packages:
  [ ] abc................. Australian Broadcasting Commission 2006
  [ ] alpino.............. Alpino Dutch Treebank
  [*] averaged_perceptron_tagger Averaged Perceptron Tagger
  [ ] averaged_perceptron_tagger_eng Averaged Perceptron Tagger (JSON)
  [ ] averaged_perceptron_tagger_ru Averaged Perceptron Tagger (Russian)
  [ ] averaged_perceptron_tagger_rus Averaged Perceptron Tagger (Russian)
  [ ] basque_grammars..... Grammars for Basque
  [ ] bcp47............... BCP-47 Language Tags
  [ ] biocreative_ppi..... BioCreAtIvE (Critical Assessment of Information
                           Extraction Systems in Biology)
  [ ] bllip_wsj_no_aux.... BLLIP Parser: WSJ Model
  [ ] book_grammars....... Grammars from NLTK Book
  [ ] brown.

True

##Produ√ß√£o de Tokens

A produ√ß√£o de tokens, ou tokeniza√ß√£o envolve a divis√£o de um texto em unidades menores, chamadas tokens. Esses tokens podem ser palavras, frases, ou at√© mesmo caracteres, dependendo do n√≠vel de an√°lise desejado.

*  `"Eu gosto de programa√ß√£o"` se torna `["Eu", "gosto", "de", "programa√ß√£o"]`
*  `"Eu gosto de programa√ß√£o. E voc√™?"` se torna `["Eu gosto de programa√ß√£o.", "E voc√™?"]`


In [None]:
#Tokeniza√ß√£o de palavras

tokens = word_tokenize(Texto, language="portuguese")
print(type(tokens))
print(tokens)

print(len(tokens))

<class 'list'>
['N√≥s', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.', 'N√≥s', 'somos', 'uma', 'maneira', 'de', 'os', 'cosmos', 'se', 'autoconhecer', '.', 'A', 'imagina√ß√£o', 'nos', 'leva', 'a', 'mundos', 'que', 'nunca', 'sequer', 'existiram', '.', 'Mas', 'sem', 'ela', 'n√£o', 'vamos', 'a', 'lugar', 'algum', '.']
38


In [None]:
#Tokeniza√ß√£o de senten√ßas

sentencas = sent_tokenize(Texto, language="portuguese")
print(type(sentencas))
print(sentencas)

print(len(sentencas))

<class 'list'>
['N√≥s somos feitos de poeira de estrelas.', 'N√≥s somos uma maneira de os cosmos se autoconhecer.', 'A imagina√ß√£o nos leva a mundos que nunca sequer existiram.', 'Mas sem ela n√£o vamos a lugar algum.']
4


##Gerenciando Stop Words e Pontua√ß√£o

Stop words s√£o palavras comuns que geralmente n√£o carregam muito significado em an√°lises textuais, como `"e", "a", "o", "de", "que"`, etc. A remo√ß√£o de stop words e pontua√ß√£o pode ajudar a simplificar o texto e melhorar a efic√°cia de muitos algoritmos de PLN.

In [None]:
#Lista de stopwords na NLTK

stops = stopwords.words("portuguese")
print(len(stops))
print(stops)

207
['a', '√†', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', '√†s', 'at√©', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', '√©', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', '√©ramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'est√°', 'estamos', 'est√£o', 'estar', 'estas', 'estava', 'estavam', 'est√°vamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estiv√©ramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estiv√©ssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'f√¥ramos', 'forem', 'formos', 'fosse', 'fossem', 'f√¥ssemos', 'fui', 'h√°', 'haja', 'hajam', 'hajamos', 'h√£o', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houver√°', 'houveram', 'houv√©ramos', 'houver√£o', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houver√≠amos', 'houvermos', 'houvesse', 

In [None]:
#Removendo stopwords

palavras_sem_stopwords = [p for p in tokens if p not in stops]
print(len(palavras_sem_stopwords))
print(Texto)
print(palavras_sem_stopwords)

23
N√≥s somos feitos de poeira de estrelas. N√≥s somos uma maneira de os cosmos se autoconhecer. A imagina√ß√£o nos leva a mundos que nunca sequer existiram. Mas sem ela n√£o vamos a lugar algum.
['N√≥s', 'feitos', 'poeira', 'estrelas', '.', 'N√≥s', 'maneira', 'cosmos', 'autoconhecer', '.', 'A', 'imagina√ß√£o', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', '.', 'Mas', 'vamos', 'lugar', 'algum', '.']


In [None]:
#Lista de pontua√ß√µes na NLTK

print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [None]:
#Removendo pontua√ß√£o

palavras_sem_pontuacao = [p for p in palavras_sem_stopwords if p not in string.punctuation]
print(len(palavras_sem_pontuacao))
print(Texto)
print(palavras_sem_pontuacao)

19
N√≥s somos feitos de poeira de estrelas. N√≥s somos uma maneira de os cosmos se autoconhecer. A imagina√ß√£o nos leva a mundos que nunca sequer existiram. Mas sem ela n√£o vamos a lugar algum.
['N√≥s', 'feitos', 'poeira', 'estrelas', 'N√≥s', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imagina√ß√£o', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']


##Produzindo M√©tricas

Produzir m√©tricas √© uma etapa fundamental para avaliar a efic√°cia de t√©cnicas de pr√©-processamento, como a remo√ß√£o de stop words e pontua√ß√£o, e para medir a performance de modelos de PLN.

* Contagem de palavras - medida b√°sica para entender o volume de texto;
* Frequ√™ncia de Termos - conta a frequ√™ncia de cada palavra em um documento.

In [None]:
frequencia = nltk.FreqDist(palavras_sem_pontuacao)
print(frequencia)

<FreqDist with 18 samples and 19 outcomes>


In [None]:
mais_comuns = frequencia.most_common(5)
print(mais_comuns)

[('N√≥s', 2), ('feitos', 1), ('poeira', 1), ('estrelas', 1), ('maneira', 1)]


##Stemming na Pr√°tica

O processo de stemming √© uma t√©cnica de processamento de linguagem natural que reduz palavras √†s suas ra√≠zes ou formas b√°sicas, removendo sufixos e afixos. Por exemplo, "aprendizado", "aprendiz", "aprendendo" se torna "aprend".

**Aplica√ß√£o em frase:**

* ["Eu", "estou", "amando", "o", "processo", "de", "aprendizado", ".", "Envolve", "estudar", "e", "praticar", "."]

**Ap√≥s o processo de stemming:**

* ["eu", "est", "am", "o", "process", "de", "aprend", ".", "envolv", "estud", "e", "pratic", "."]

In [None]:
#Porter - mais comun e mais antigo.

stemmer1 = PorterStemmer()
stem1 = [stemmer1.stem(word) for word in palavras_sem_stopwords]

print(palavras_sem_pontuacao)
print(stem1)

['N√≥s', 'feitos', 'poeira', 'estrelas', 'N√≥s', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imagina√ß√£o', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['n√≥', 'feito', 'poeira', 'estrela', '.', 'n√≥', 'maneira', 'cosmo', 'autoconhec', '.', 'a', 'imagina√ß√£o', 'leva', 'mundo', 'nunca', 'sequer', 'existiram', '.', 'ma', 'vamo', 'lugar', 'algum', '.']


In [None]:
#Snowball - melhorado com rela√ß√£o ao Porter. Melhor performance computacional.

stemmer2 = SnowballStemmer("portuguese")
stem2 = [stemmer2.stem(word) for word in palavras_sem_pontuacao]

print(palavras_sem_pontuacao)
print(stem2)

['N√≥s', 'feitos', 'poeira', 'estrelas', 'N√≥s', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imagina√ß√£o', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['n√≥s', 'feit', 'poeir', 'estrel', 'n√≥s', 'maneir', 'cosm', 'autoconhec', 'a', 'imagin', 'lev', 'mund', 'nunc', 'sequ', 'exist', 'mas', 'vam', 'lug', 'algum']


In [None]:
#Lancaster - mais agressivo. resultados as vezes n√£o intuitivos.

stemmer3 = LancasterStemmer()
stem3 = [stemmer3.stem(word) for word in palavras_sem_pontuacao]

print(palavras_sem_pontuacao)
print(stem3)

['N√≥s', 'feitos', 'poeira', 'estrelas', 'N√≥s', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imagina√ß√£o', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['n√≥s', 'feito', 'poeir', 'estrela', 'n√≥s', 'maneir', 'cosmo', 'autoconhec', 'a', 'imagina√ß√£o', 'lev', 'mundo', 'nunc', 'sequ', 'existiram', 'mas', 'vamo', 'lug', 'alg']


##Criando POS-Taggin

O objetivo principal do POS-Tagging (Part-of-Speech Tagging) √© identificar a fun√ß√£o gramatical de cada palavra em um texto, o que pode ajudar em v√°rias tarefas de PLN. Exemplo b√°sico de fun√ß√£o gramatical:

Frase: "O gato preto dorme no sof√°."

* O: ARTIGO
* gato: SUBSTANTIVO
* preto: ADJETIVO
* dorme: VERBO
* no: PREPOSI√á√ÉO + ARTIGO
* sof√°: SUBSTANTIVO

In [None]:
#consulta de tags
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

In [None]:
#Currently, NLTK pos_tag only supports English and Russian (i.e. lang='eng' or lang='rus')
pos = nltk.pos_tag(palavras_sem_pontuacao, lang="eng")
print(pos)

[('N√≥s', 'NNP'), ('feitos', 'NN'), ('poeira', 'NN'), ('estrelas', 'NNS'), ('N√≥s', 'NNP'), ('maneira', 'NN'), ('cosmos', 'NN'), ('autoconhecer', 'VBZ'), ('A', 'DT'), ('imagina√ß√£o', 'JJ'), ('leva', 'NN'), ('mundos', 'NN'), ('nunca', 'JJ'), ('sequer', 'NN'), ('existiram', 'NN'), ('Mas', 'NNP'), ('vamos', 'NN'), ('lugar', 'NN'), ('algum', 'NN')]


In [None]:
token2 = sent_tokenize(Texto)

ntokens = []
for tokensentenca in token2:
  ntokens.append(word_tokenize(tokensentenca))

print(ntokens)

possentenca = pos_tag_sents(ntokens)
print(possentenca)

[['N√≥s', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.'], ['N√≥s', 'somos', 'uma', 'maneira', 'de', 'os', 'cosmos', 'se', 'autoconhecer', '.'], ['A', 'imagina√ß√£o', 'nos', 'leva', 'a', 'mundos', 'que', 'nunca', 'sequer', 'existiram', '.'], ['Mas', 'sem', 'ela', 'n√£o', 'vamos', 'a', 'lugar', 'algum', '.']]
[[('N√≥s', 'NNP'), ('somos', 'VBD'), ('feitos', 'NNS'), ('de', 'FW'), ('poeira', 'FW'), ('de', 'FW'), ('estrelas', 'FW'), ('.', '.')], [('N√≥s', 'NNP'), ('somos', 'NN'), ('uma', 'JJ'), ('maneira', 'NN'), ('de', 'IN'), ('os', 'FW'), ('cosmos', 'NNS'), ('se', 'JJ'), ('autoconhecer', 'NN'), ('.', '.')], [('A', 'DT'), ('imagina√ß√£o', 'JJ'), ('nos', 'JJ'), ('leva', 'NN'), ('a', 'DT'), ('mundos', 'NN'), ('que', 'NN'), ('nunca', 'JJ'), ('sequer', 'NN'), ('existiram', 'NN'), ('.', '.')], [('Mas', 'NNP'), ('sem', 'NN'), ('ela', 'NN'), ('n√£o', 'JJ'), ('vamos', 'NN'), ('a', 'DT'), ('lugar', 'NN'), ('algum', 'NN'), ('.', '.')]]


##Lematiza√ß√£o na Pr√°tica

Lematizar √© o processo de transformar uma palavra em sua forma base ou raiz, conhecida como "lema".

Por exemplo:

* As palavras "corri", "correndo" e "correria" seriam lematizadas para o lema "correr".
* As palavras "amigos" e "amigo" seriam lematizadas para "amigo".

**Stemming x Lematization**

O stemming visa reduzir palavras morfologicamente relacionadas √† sua forma b√°sica, enquanto a lematiza√ß√£o busca retornar palavras √† sua forma can√¥nica. A lematiza√ß√£o √© mais complexa do que o stemming porque requer conhecimento lingu√≠stico mais profundo e geralmente utiliza dicion√°rios ou bases de conhecimento (como o WordNet para o ingl√™s) para mapear palavras para seus lemas correspondentes.



In [None]:
lemmatizer = WordNetLemmatizer()
resultado = [lemmatizer.lemmatize(palavra) for palavra in palavras_sem_stopwords]

print(palavras_sem_pontuacao)
print(resultado)

['N√≥s', 'feitos', 'poeira', 'estrelas', 'N√≥s', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imagina√ß√£o', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['N√≥s', 'feitos', 'poeira', 'estrelas', '.', 'N√≥s', 'maneira', 'cosmos', 'autoconhecer', '.', 'A', 'imagina√ß√£o', 'lev', 'mundos', 'nunca', 'sequer', 'existiram', '.', 'Mas', 'vamos', 'lugar', 'algum', '.']


##Busca de Entidades Nomeadas

A busca de Entidades Nomeadas (Named Entity Recognition - NER) visa identificar e classificar entidades significativas em textos n√£o estruturados, como nomes de pessoas, locais, organiza√ß√µes, datas, quantidades, entre outros. Essas entidades s√£o geralmente informa√ß√µes chave que ajudam na compreens√£o e na extra√ß√£o de informa√ß√µes de documentos textuais.

In [None]:
texto_en = "Barack Obama foi um presidente dos EUA"

token3 = word_tokenize(texto_en)
tags = pos_tag(token3)
en = nltk.ne_chunk(tags)

print(en)

(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  um/JJ
  presidente/NN
  dos/NN
  (ORGANIZATION EUA/NNP))
