In [10]:
!pip install nltk
!pip install numpy
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')  # Base do WordNet


Collecting numpy
  Downloading numpy-2.2.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
Downloading numpy-2.2.3-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.4/16.4 MB[0m [31m36.8 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0m
[?25hInstalling collected packages: numpy
Successfully installed numpy-2.2.3


[nltk_data] Downloading package wordnet to /home/alex/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/alex/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


True

# 1. Tokenização
* Objetivo: Separar um texto em palavras e sentenças.
* Tarefa:
    - Execute o código e analise os resultados.
    - Modifique o texto de entrada e veja se há mudanças no comportamento da tokenização.


In [4]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

# Baixar os pacotes necessários
nltk.download('punkt')

# Texto de exemplo
texto = "Olá! Bem-vindo ao curso de PLN. Hoje vamos aprender sobre tokenização."

# Tokenização por palavras
palavras = word_tokenize(texto)
print("Tokens por palavras:", palavras)

# Tokenização por sentenças
sentencas = sent_tokenize(texto)
print("Tokens por sentenças:", sentencas)


Tokens por palavras: ['Olá', '!', 'Bem-vindo', 'ao', 'curso', 'de', 'PLN', '.', 'Hoje', 'vamos', 'aprender', 'sobre', 'tokenização', '.']
Tokens por sentenças: ['Olá!', 'Bem-vindo ao curso de PLN.', 'Hoje vamos aprender sobre tokenização.']


[nltk_data] Downloading package punkt to /home/alex/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# 2. Remoção de Stopwords
* Objetivo: Filtrar palavras irrelevantes para análise.
* Tarefa:
    * Teste a remoção de stopwords com diferentes frases.
    * Adicione palavras personalizadas à lista de stopwords.

In [5]:
from nltk.corpus import stopwords

# Baixar a lista de stopwords
nltk.download('stopwords')

# Definir stopwords em português
stop_words = set(stopwords.words('portuguese'))

# Remover stopwords do texto tokenizado
palavras_filtradas = [palavra for palavra in palavras if palavra.lower() not in stop_words]

print("Texto sem stopwords:", palavras_filtradas)


Texto sem stopwords: ['Olá', '!', 'Bem-vindo', 'curso', 'PLN', '.', 'Hoje', 'vamos', 'aprender', 'sobre', 'tokenização', '.']


[nltk_data] Downloading package stopwords to /home/alex/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


# 3. Stemming
* Objetivo: Reduzir palavras às suas raízes.
* Tarefa:
    * Compare os resultados do PorterStemmer e do RSLPStemmer.
    * Acrescente mais palavras e analise os resultados.

In [6]:
from nltk.stem import PorterStemmer, RSLPStemmer

# Criar os stemmers
porter = PorterStemmer()
rslp = RSLPStemmer()

# Aplicar stemming em palavras
palavras_exemplo = ["correndo", "correu", "correrão", "jogando", "jogador"]

print("Stemming - Porter:", [porter.stem(p) for p in palavras_exemplo])
print("Stemming - RSLP:", [rslp.stem(p) for p in palavras_exemplo])


Stemming - Porter: ['correndo', 'correu', 'correrão', 'jogando', 'jogador']
Stemming - RSLP: ['corr', 'corr', 'corr', 'jog', 'jog']


# 4. Lematização
* Objetivo: Reduzir palavras à sua forma base considerando o contexto.
* Tarefa:
    * Teste a lematização com verbos e substantivos em inglês.
    * Compare os resultados da lematização e do stemming.

In [7]:
from nltk.stem import WordNetLemmatizer

# Baixar os pacotes necessários
nltk.download('wordnet')
nltk.download('omw-1.4')

# Criar o lematizador
lemmatizer = WordNetLemmatizer()

# Exemplos de palavras para lematização
palavras_exemplo = ["correndo", "correu", "correrão", "jogando", "jogador"]

# Aplicando lematização
print("Lematização:", [lemmatizer.lemmatize(p) for p in palavras_exemplo])


[nltk_data] Downloading package wordnet to /home/alex/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /home/alex/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


Lematização: ['correndo', 'correu', 'correrão', 'jogando', 'jogador']


# 5. POS-Tagging (Etiquetagem Gramatical)
* Objetivo: Identificar a categoria gramatical de cada palavra.
* Tarefa:
    * Identifique a categoria gramatical das palavras de uma frase diferente.
    * Traduzir para o português e observar a necessidade de modelos em português.


In [8]:
from nltk import pos_tag

# Baixar pacotes necessários
nltk.download('averaged_perceptron_tagger')

# Exemplo de frase em inglês
frase = word_tokenize("The quick brown fox jumps over the lazy dog.")

# Aplicar POS-Tagging
print("POS-Tagging:", pos_tag(frase))


POS-Tagging: [('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN'), ('.', '.')]


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/alex/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


# 6. Reconhecimento de Entidades Nomeadas (NER)
* Objetivo: Extrair nomes de pessoas, locais e organizações de um texto.
* Tarefa:
    * Teste o NER com nomes de pessoas e empresas brasileiras.
    * Observe os tipos de entidades reconhecidas.

In [11]:
from nltk import ne_chunk

# Baixar pacotes necessários
nltk.download('maxent_ne_chunker')
nltk.download('words')

# Exemplo de frase para NER
frase = pos_tag(word_tokenize("Barack Obama was the president of the United States."))

# Aplicar NER
print("NER:", ne_chunk(frase))


[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /home/alex/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /home/alex/nltk_data...
[nltk_data]   Package words is already up-to-date!


NER: (S
  (PERSON Barack/NNP)
  (PERSON Obama/NNP)
  was/VBD
  the/DT
  president/NN
  of/IN
  the/DT
  (GPE United/NNP States/NNPS)
  ./.)
