# Processamento de Linguagem Natural com NLTK

Este notebook cobre os tópicos básicos de Processamento de Linguagem Natural (PLN) utilizando a biblioteca NLTK. Incluímos exemplos para:
- Tokenização
- Stopwords
- Stemming
- Lematização
- POS-Tagging
- Reconhecimento de Entidades Nomeadas (NER)


## 1. Tokenização

Tokenização é o processo de dividir o texto em unidades menores chamadas *tokens*. Esses tokens podem ser palavras ou frases.

In [1]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize, sent_tokenize

# Exemplo de tokenização por palavras
texto = "O gato está dormindo no sofá. Ele é muito preguiçoso."
tokens_palavras = word_tokenize(texto, language='portuguese')
print("Tokenização por palavras:", tokens_palavras)

# Exemplo de tokenização por sentenças
tokens_sentenças = sent_tokenize(texto, language='portuguese')
print("Tokenização por sentenças:", tokens_sentenças)

Tokenização por palavras: ['O', 'gato', 'está', 'dormindo', 'no', 'sofá', '.', 'Ele', 'é', 'muito', 'preguiçoso', '.']
Tokenização por sentenças: ['O gato está dormindo no sofá.', 'Ele é muito preguiçoso.']


[nltk_data] Downloading package punkt to /home/alex/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 2. Stopwords

Stopwords são palavras comuns que são geralmente removidas em análises de texto, pois não contribuem para o significado principal (ex: "o", "e", "de").

In [2]:
from nltk.corpus import stopwords
nltk.download('stopwords')

# Carregar lista de stopwords para português
stopwords_pt = set(stopwords.words('portuguese'))

# Remover stopwords do texto tokenizado
tokens_sem_stopwords = [palavra for palavra in tokens_palavras if palavra.lower() not in stopwords_pt]
print("Texto sem stopwords:", tokens_sem_stopwords)

Texto sem stopwords: ['gato', 'dormindo', 'sofá', '.', 'preguiçoso', '.']


[nltk_data] Downloading package stopwords to /home/alex/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## 3. Stemming

Stemming é o processo de reduzir as palavras às suas raízes ou radicais. O algoritmo de stemming remove sufixos e prefixos, deixando apenas a raiz da palavra.

In [3]:
from nltk.stem import RSLPStemmer

# Inicializar o Stemmer para o português
stemmer = RSLPStemmer()

# Aplicar stemming nas palavras sem stopwords
tokens_com_stemming = [stemmer.stem(palavra) for palavra in tokens_sem_stopwords]
print("Texto com stemming:", tokens_com_stemming)

Texto com stemming: ['gat', 'dorm', 'sof', '.', 'preguiç', '.']


## 4. Lematização

A lematização é semelhante ao stemming, mas o objetivo é reduzir a palavra à sua forma base (lema) em vez de uma raiz que pode não ser uma palavra válida.

In [4]:
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer

# Inicializar o lematizador
lemmatizer = WordNetLemmatizer()

# Exemplo simples de lematização em inglês (não há suporte nativo completo para português no NLTK)
palavras = ['amando', 'correndo', 'pensando']
lemmatizadas = [lemmatizer.lemmatize(palavra, pos='v') for palavra in palavras]
print("Palavras lematizadas:", lemmatizadas)

[nltk_data] Downloading package omw-1.4 to /home/alex/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


Palavras lematizadas: ['amando', 'correndo', 'pensando']


## 5. POS-Tagging (Part-of-Speech Tagging)

POS-Tagging é o processo de etiquetar cada palavra em uma sentença com sua respectiva categoria gramatical, como substantivo, verbo, adjetivo, etc.

In [5]:
nltk.download('mac_morpho')
from nltk.corpus import mac_morpho

# Treinar um etiquetador com o corpus Mac-Morpho (português)
tagger = nltk.UnigramTagger(mac_morpho.tagged_sents())

# Aplicar POS-Tagging em uma sentença
sentenca = "O gato está correndo"
tokens_sentenca = word_tokenize(sentenca, language='portuguese')
tags = tagger.tag(tokens_sentenca)
print("POS-Tagging:", tags)

[nltk_data] Downloading package mac_morpho to /home/alex/nltk_data...
[nltk_data]   Package mac_morpho is already up-to-date!


POS-Tagging: [('O', 'ART'), ('gato', 'N'), ('está', 'V'), ('correndo', 'V')]


## 6. NER (Reconhecimento de Entidades Nomeadas)

O NER é o processo de identificar entidades nomeadas, como pessoas, locais, organizações, datas, etc., dentro de um texto.

In [6]:
nltk.download('maxent_ne_chunker')
nltk.download('words')
from nltk import ne_chunk, pos_tag

# Exemplo de NER em inglês (não há suporte nativo para NER em português no NLTK)
texto_ner = "Barack Obama was born in Hawaii."
tokens_ner = word_tokenize(texto_ner)
tags_ner = pos_tag(tokens_ner)
entidades = ne_chunk(tags_ner)
print("Entidades reconhecidas:")
print(entidades)

[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /home/alex/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /home/alex/nltk_data...
[nltk_data]   Package words is already up-to-date!


Entidades reconhecidas:
(S
  (PERSON Barack/NNP)
  (PERSON Obama/NNP)
  was/VBD
  born/VBN
  in/IN
  (GPE Hawaii/NNP)
  ./.)
