In [51]:
import re
import string
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

nltk.download('averaged_perceptron_tagger_eng')
nltk.download('wordnet')
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [52]:
raw_text = "   <p>One ring to rule them all, one ring to find them, One ring to bring them all and in the darkness    bind them.!!</p>   "
print(raw_text)

   <p>One ring to rule them all, one ring to find them, One ring to bring them all and in the darkness    bind them.!!</p>   


In [53]:
text = raw_text.lower()

text = text.strip()

text = re.compile('<.*?>').sub('', text)

text = re.compile('[%s]' % re.escape(string.punctuation)).sub(' ', text)

text = re.sub('\\s+', ' ', text)

cleaned_text = text
print(cleaned_text)

one ring to rule them all one ring to find them one ring to bring them all and in the darkness bind them 


In [54]:
stop_words = set(stopwords.words('english'))

words = word_tokenize(cleaned_text)

filtered_sentence = []
for w in words:
    if w not in stop_words:
        filtered_sentence.append(w)

text_without_stopwords = " ".join(filtered_sentence)
print(f"Tokens originais: {words}\n")
print(f"Texto sem stopwords: \n'{text_without_stopwords}'")

Tokens originais: ['one', 'ring', 'to', 'rule', 'them', 'all', 'one', 'ring', 'to', 'find', 'them', 'one', 'ring', 'to', 'bring', 'them', 'all', 'and', 'in', 'the', 'darkness', 'bind', 'them']

Texto sem stopwords: 
'one ring rule one ring find one ring bring darkness bind'


In [55]:
porter = PorterStemmer()
stemmed_sentence = []

# Reutilizamos os tokens já sem as stopwords
words_to_process = word_tokenize(text_without_stopwords)

for w in words_to_process:
    stemmed_sentence.append(porter.stem(w))

stemmed_text = " ".join(stemmed_sentence)
print(f"Texto após stemming:\n'{stemmed_text}'")

Texto após stemming:
'one ring rule one ring find one ring bring dark bind'


In [56]:
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

wl = WordNetLemmatizer()
lemmatized_sentence = []

# Reutilizamos os tokens já sem as stopwords
words_to_process = word_tokenize(text_without_stopwords)
word_pos_tags = nltk.pos_tag(words_to_process)

for idx, tag in enumerate(word_pos_tags):
    lemmatized_sentence.append(wl.lemmatize(tag[0], get_wordnet_pos(tag[1])))

lemmatized_text = " ".join(lemmatized_sentence)
print(f"Texto após lematização:\n'{lemmatized_text}'")

Texto após lematização:
'one ring rule one ring find one ring bring darkness bind'


### Análise Final: Stemming vs. Lemmatização (Item 6)

**1. Comparação dos Resultados**

Observando os resultados gerados pelo código, temos:
* **Texto após Stemming:** `'one ring rule one ring find one ring bring dark bind'`
* **Texto após Lematização:** `'one ring rule one ring find one ring bring darkness bind'`

A diferença principal está na palavra **"darkness"**. O processo de *Stemming* a reduziu para `"dark"`, enquanto a *Lematização* a manteve intacta, pois reconheceu "darkness" como um substantivo válido.

**2. Quando Usar Cada Técnica**

* **Use Stemming quando:**
    * A **velocidade** é a prioridade e a precisão gramatical não é crítica.
    * **Exemplo:** Indexação de documentos para um motor de busca, onde o objetivo é agrupar rapidamente palavras com a mesma raiz.

* **Use Lematização quando:**
    * A **precisão** e o significado do texto são fundamentais.
    * **Exemplo:** Análise de sentimento, chatbots ou tradução automática, onde o entendimento correto do contexto é crucial.