<a href="https://colab.research.google.com/github/johnnycleiton07/llm-studies/blob/main/NLP_com_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Natural Language Toolkit (NLTK)


A Natural Language Toolkit (NLTK) é uma biblioteca Python amplamente utilizada para tarefas de processamento de linguagem natural (NLP). Desenvolvida inicialmente como uma ferramenta educacional, a NLTK é conhecida por sua extensiva coleção de recursos, que incluem corpora, algoritmos de processamento de texto, e módulos para trabalhar com texto em diferentes níveis de granularidade. Ela é a biblioteca de NLP mais antiga.

Principais funcionalidades da NLTK:

* Tokenização: Divide textos em frases, palavras ou outras unidades menores.
* Part-of-Speech Tagging (POS): Atribui rótulos às palavras para indicar suas categorias gramaticais.
* Named Entity Recognition (NER): Identifica e classifica entidades mencionadas no texto, como nomes de pessoas, organizações e locais.
* Parsing e Análise Sintática: Analisa a estrutura gramatical das frases, incluindo análise de dependência e análise sintática.
* Stemming e Lemmatização: Reduz palavras às suas formas base ou radicais.
* Corpora e Modelos Léxicos: Fornece acesso a diversos corpora e dicionários para treinamento e análise textual.
* Classificação e Machine Learning: Implementa algoritmos de aprendizado de máquina para tarefas como classificação de texto e análise de sentimentos

##Configurações Iniciais

In [None]:
#Google Colab já possui a biblioteca instalada com seus módulos, basta apenas importar
import nltk

from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer, SnowballStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag, pos_tag_sents
import string

#download de pacotes
nltk.download("stopwords")
nltk.download("punkt")
nltk.download("tagsets")
nltk.download("wordnet")
nltk.download("averaged_perceptron_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("words")


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

In [None]:
Texto = "Nós somos feitos de poeira de estrelas. Nós somos uma maneira de os cosmos se autoconhecer. A imaginação nos leva a mundos que nunca sequer existiram. Mas sem ela não vamos a lugar algum."
print(Texto)

Nós somos feitos de poeira de estrelas. Nós somos uma maneira de os cosmos se autoconhecer. A imaginação nos leva a mundos que nunca sequer existiram. Mas sem ela não vamos a lugar algum.


In [None]:
#Gerenciador de download
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> l

Packages:
  [ ] abc................. Australian Broadcasting Commission 2006
  [ ] alpino.............. Alpino Dutch Treebank
  [*] averaged_perceptron_tagger Averaged Perceptron Tagger
  [ ] averaged_perceptron_tagger_eng Averaged Perceptron Tagger (JSON)
  [ ] averaged_perceptron_tagger_ru Averaged Perceptron Tagger (Russian)
  [ ] averaged_perceptron_tagger_rus Averaged Perceptron Tagger (Russian)
  [ ] basque_grammars..... Grammars for Basque
  [ ] bcp47............... BCP-47 Language Tags
  [ ] biocreative_ppi..... BioCreAtIvE (Critical Assessment of Information
                           Extraction Systems in Biology)
  [ ] bllip_wsj_no_aux.... BLLIP Parser: WSJ Model
  [ ] book_grammars....... Grammars from NLTK Book
  [ ] brown.

True

##Produção de Tokens

É possível fazer a tokenização de sentença e tokenização de palavras

In [None]:
#Tokenização de sentença

sentencas = sent_tokenize(Texto, language="portuguese")
print(type(sentencas))
print(sentencas)

<class 'list'>
['Nós somos feitos de poeira de estrelas.', 'Nós somos uma maneira de os cosmos se autoconhecer.', 'A imaginação nos leva a mundos que nunca sequer existiram.', 'Mas sem ela não vamos a lugar algum.']


In [None]:
print(len(sentencas))

4


In [None]:
#Tokenização de palavras

tokens = word_tokenize(Texto, language="portuguese")
print(tokens)
print(len(tokens))

['Nós', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.', 'Nós', 'somos', 'uma', 'maneira', 'de', 'os', 'cosmos', 'se', 'autoconhecer', '.', 'A', 'imaginação', 'nos', 'leva', 'a', 'mundos', 'que', 'nunca', 'sequer', 'existiram', '.', 'Mas', 'sem', 'ela', 'não', 'vamos', 'a', 'lugar', 'algum', '.']
38


##Gerenciando Stop Words e Pontuação

In [None]:
#Lista de stopwords

stops = stopwords.words("portuguese")
print(len(stops))
print(stops)

207
['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houv

In [None]:
#Removendo stopwords

palavras_sem_stopwords = [p for p in tokens if p not in stops]
print(len(palavras_sem_stopwords))
print(Texto)
print(palavras_sem_stopwords)

23
Nós somos feitos de poeira de estrelas. Nós somos uma maneira de os cosmos se autoconhecer. A imaginação nos leva a mundos que nunca sequer existiram. Mas sem ela não vamos a lugar algum.
['Nós', 'feitos', 'poeira', 'estrelas', '.', 'Nós', 'maneira', 'cosmos', 'autoconhecer', '.', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', '.', 'Mas', 'vamos', 'lugar', 'algum', '.']


In [None]:
print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [None]:
#Removendo pontuação

palavras_sem_pontuacao = [p for p in palavras_sem_stopwords if p not in string.punctuation]
print(len(palavras_sem_pontuacao))
print(Texto)
print(palavras_sem_pontuacao)

19
Nós somos feitos de poeira de estrelas. Nós somos uma maneira de os cosmos se autoconhecer. A imaginação nos leva a mundos que nunca sequer existiram. Mas sem ela não vamos a lugar algum.
['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']


##Produzindo Métricas

In [None]:
frequencia = nltk.FreqDist(palavras_sem_pontuacao)
print(frequencia)

<FreqDist with 18 samples and 19 outcomes>


In [None]:
mais_comuns = frequencia.most_common(5)
mais_comuns

[('Nós', 2), ('feitos', 1), ('poeira', 1), ('estrelas', 1), ('maneira', 1)]

##Stemming na Prática

O processo de stemming é uma técnica de processamento de linguagem natural que reduz palavras às suas raízes ou formas básicas, removendo sufixos e afixos.

* Porter - mais comun e mais antigo.
* Snowball - melhorado com relação ao Porter. Melhor performance computacional.
* Lancaster - mais agressivo. resultados as vezes não intuitivos.

In [None]:
#Porter
stemmer1 = PorterStemmer()
stem1 = [stemmer1.stem(word) for word in palavras_sem_stopwords]

print(palavras_sem_pontuacao)
print(stem1)

['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['nó', 'feito', 'poeira', 'estrela', '.', 'nó', 'maneira', 'cosmo', 'autoconhec', '.', 'a', 'imaginação', 'leva', 'mundo', 'nunca', 'sequer', 'existiram', '.', 'ma', 'vamo', 'lugar', 'algum', '.']


In [None]:
#Snowball
stemmer2 = SnowballStemmer("portuguese")
stem2 = [stemmer2.stem(word) for word in palavras_sem_pontuacao]

print(palavras_sem_pontuacao)
print(stem2)

['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['nós', 'feit', 'poeir', 'estrel', 'nós', 'maneir', 'cosm', 'autoconhec', 'a', 'imagin', 'lev', 'mund', 'nunc', 'sequ', 'exist', 'mas', 'vam', 'lug', 'algum']


In [None]:
#Lancaster
stemmer3 = LancasterStemmer()
stem3 = [stemmer3.stem(word) for word in palavras_sem_pontuacao]

print(palavras_sem_pontuacao)
print(stem3)

['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['nós', 'feito', 'poeir', 'estrela', 'nós', 'maneir', 'cosmo', 'autoconhec', 'a', 'imaginação', 'lev', 'mundo', 'nunc', 'sequ', 'existiram', 'mas', 'vamo', 'lug', 'alg']


##Criando Pós-Taggin

In [None]:
#consulta de tags
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

In [None]:
#Currently, NLTK pos_tag only supports English and Russian (i.e. lang='eng' or lang='rus')
pos = nltk.pos_tag(palavras_sem_pontuacao, lang="eng")
print(pos)

[('Nós', 'NNP'), ('feitos', 'NN'), ('poeira', 'NN'), ('estrelas', 'NNS'), ('Nós', 'NNP'), ('maneira', 'NN'), ('cosmos', 'NN'), ('autoconhecer', 'VBZ'), ('A', 'DT'), ('imaginação', 'JJ'), ('leva', 'NN'), ('mundos', 'NN'), ('nunca', 'JJ'), ('sequer', 'NN'), ('existiram', 'NN'), ('Mas', 'NNP'), ('vamos', 'NN'), ('lugar', 'NN'), ('algum', 'NN')]


In [None]:
token2 = sent_tokenize(Texto)

ntokens = []
for tokensentenca in token2:
  ntokens.append(word_tokenize(tokensentenca))

print(ntokens)

possentenca = pos_tag_sents(ntokens)
print(possentenca)

[['Nós', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.'], ['Nós', 'somos', 'uma', 'maneira', 'de', 'os', 'cosmos', 'se', 'autoconhecer', '.'], ['A', 'imaginação', 'nos', 'leva', 'a', 'mundos', 'que', 'nunca', 'sequer', 'existiram', '.'], ['Mas', 'sem', 'ela', 'não', 'vamos', 'a', 'lugar', 'algum', '.']]
[[('Nós', 'NNP'), ('somos', 'VBD'), ('feitos', 'NNS'), ('de', 'FW'), ('poeira', 'FW'), ('de', 'FW'), ('estrelas', 'FW'), ('.', '.')], [('Nós', 'NNP'), ('somos', 'NN'), ('uma', 'JJ'), ('maneira', 'NN'), ('de', 'IN'), ('os', 'FW'), ('cosmos', 'NNS'), ('se', 'JJ'), ('autoconhecer', 'NN'), ('.', '.')], [('A', 'DT'), ('imaginação', 'JJ'), ('nos', 'JJ'), ('leva', 'NN'), ('a', 'DT'), ('mundos', 'NN'), ('que', 'NN'), ('nunca', 'JJ'), ('sequer', 'NN'), ('existiram', 'NN'), ('.', '.')], [('Mas', 'NNP'), ('sem', 'NN'), ('ela', 'NN'), ('não', 'JJ'), ('vamos', 'NN'), ('a', 'DT'), ('lugar', 'NN'), ('algum', 'NN'), ('.', '.')]]


##Lemmatization na Prática

Lematizar é o processo de transformar uma palavra em sua forma base ou raiz, conhecida como "lema".

Por exemplo:

* As palavras "corri", "correndo" e "correria" seriam lematizadas para o lema "correr".
* As palavras "amigos" e "amigo" seriam lematizadas para "amigo".

In [None]:
lemmatizer = WordNetLemmatizer()
resultado = [lemmatizer.lemmatize(palavra) for palavra in palavras_sem_stopwords]

print(palavras_sem_pontuacao)
print(resultado)

['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
['Nós', 'feitos', 'poeira', 'estrelas', '.', 'Nós', 'maneira', 'cosmos', 'autoconhecer', '.', 'A', 'imaginação', 'lev', 'mundos', 'nunca', 'sequer', 'existiram', '.', 'Mas', 'vamos', 'lugar', 'algum', '.']


##Busca de Entidades Nomeadas

In [None]:
texto_en = "Barack Obama foi um presidente dos EUA"

token3 = word_tokenize(texto_en)
tags = pos_tag(token3)
en = nltk.ne_chunk(tags)

print(en)

(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  um/JJ
  presidente/NN
  dos/NN
  (ORGANIZATION EUA/NNP))
