-> Para cada palavra na lista abaixo, identifique seu lema (forma base):
running = run
better = best
studies = study
wolves = wolf
mice = mouse
children = child
was = are
ate = eat
swimming = swin
parties = party
leaves = left
knives = knive
happier = happy
studying = study
played = play
goes = go
driving = drive
talked = talk

-> Para cada frase, identifique os lemas de todas as palavras
1. "The children were playing in the leaves yesterday." = playing (play)
2. "She studies computer science and is taking three courses." =  studies (study) e taking (take)
3. "The wolves howled at the moon while mice scurried in the grass." howled (how) e scurried (scurry)
4. "He was driving faster than the cars around him." = driving (drive)
5. "The chefs used sharp knives to prepare the tastiest dishes = sharp (sharp) e dishes (dish)



-> Use a função WordNetLemmatizer() do NLTK para verificar suas respostas

#### Importando bibliotecas necessárias para realizar a limpeza e tratamento dos textos

In [45]:

import re
import string
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords

# Baixando recursos
###### esse bloco baixa os recursos do  NLKT

In [46]:
# Baixar recursos necessários do NLTK
nltk.download('stopwords', download_dir='/home/codespace/nltk_data')
nltk.download('wordnet', download_dir='/home/codespace/nltk_data')
nltk.download('omw-1.4', download_dir='/home/codespace/nltk_data')  # Open Multilingual WordNet
nltk.data.path.append('/home/codespace/nltk_data')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [47]:
def basic_cleaning(text):
    # Converter para minúsculas
    text = text.lower()
    
    # Remover pontuações
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # Remover números
    text = re.sub(r'\d+', '', text)
    
    # Remover espaços extras
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

def simple_tokenize(text):
    """
    Tokeniza um texto dividindo por espaços
    """
    return text.split()

def remove_stopwords(tokens):
    """
    Remove stopwords da lista de tokens
    """
    stop_words = set(stopwords.words('english'))
    return [word for word in tokens if word not in stop_words]

def lemmatize_tokens(tokens):
    """
    Lematiza uma lista de tokens usando WordNetLemmatizer do NLTK
    """
    lemmatizer = WordNetLemmatizer()
    return [lemmatizer.lemmatize(token) for token in tokens]

In [48]:
#Tratando a primeira frase

#Agrupei todas as palavras da lista em uma única frase
primeirafrase = 'Running, better, studies, wolves, mice, children, was, ate, swimming, parties, leaves, knives, happier, studying, played, goes, driving, talked.'

# Etapa 1: Limpeza básica
cleaned_sentence = basic_cleaning(primeirafrase)
print("Após limpeza básica:", cleaned_sentence)

# Etapa 2: Tokenização simples
tokens = simple_tokenize(cleaned_sentence)
print("Após tokenização:", tokens)

# Etapa 3: Remoção de stopwords
filtered_tokens = remove_stopwords(tokens)
print("Após remoção de stopwords:", filtered_tokens)

# Etapa 4: Lematização
lemmatized_tokens = lemmatize_tokens(filtered_tokens)
print("Após lematização:", lemmatized_tokens)



Após limpeza básica: running better studies wolves mice children was ate swimming parties leaves knives happier studying played goes driving talked
Após tokenização: ['running', 'better', 'studies', 'wolves', 'mice', 'children', 'was', 'ate', 'swimming', 'parties', 'leaves', 'knives', 'happier', 'studying', 'played', 'goes', 'driving', 'talked']
Após remoção de stopwords: ['running', 'better', 'studies', 'wolves', 'mice', 'children', 'ate', 'swimming', 'parties', 'leaves', 'knives', 'happier', 'studying', 'played', 'goes', 'driving', 'talked']
Após lematização: ['running', 'better', 'study', 'wolf', 'mouse', 'child', 'ate', 'swimming', 'party', 'leaf', 'knife', 'happier', 'studying', 'played', 'go', 'driving', 'talked']


**Nota: A primeira etapa (limpeza básica) não será mais necessária a partir daqui, pois as palavras das próximas frases já estão separadas por espaço e a string não contém caracteres especiais**

In [49]:
#Tratando a segunda frase
segundafrase = "The children were playing in the leaves yesterday."

# Etapa 2: Tokenização simples
tokens = simple_tokenize(segundafrase)
print("Após tokenização:", tokens)

# Etapa 3: Remoção de stopwords
filtered_tokens = remove_stopwords(tokens)
print("Após remoção de stopwords:", filtered_tokens)

# Etapa 4: Lematização
lemmatized_tokens = lemmatize_tokens(filtered_tokens)
print("Após lematização:", lemmatized_tokens)

Após tokenização: ['The', 'children', 'were', 'playing', 'in', 'the', 'leaves', 'yesterday.']
Após remoção de stopwords: ['The', 'children', 'playing', 'leaves', 'yesterday.']
Após lematização: ['The', 'child', 'playing', 'leaf', 'yesterday.']


In [50]:
#Tratando a terceira frase
terceirafrase="She studies computer science and is taking three courses."

# Etapa 2: Tokenização simples
tokens = simple_tokenize(terceirafrase)
print("Após tokenização:", tokens)

# Etapa 3: Remoção de stopwords
filtered_tokens = remove_stopwords(tokens)
print("Após remoção de stopwords:", filtered_tokens)

# Etapa 4: Lematização
lemmatized_tokens = lemmatize_tokens(filtered_tokens)
print("Após lematização:", lemmatized_tokens)

Após tokenização: ['She', 'studies', 'computer', 'science', 'and', 'is', 'taking', 'three', 'courses.']
Após remoção de stopwords: ['She', 'studies', 'computer', 'science', 'taking', 'three', 'courses.']
Após lematização: ['She', 'study', 'computer', 'science', 'taking', 'three', 'courses.']


In [51]:
#Tratando a quarta frase

quartafrase="The wolves howled at the moon while mice scurried in the grass."

# Etapa 2: Tokenização simples
tokens = simple_tokenize(quartafrase)
print("Após tokenização:", tokens)

# Etapa 3: Remoção de stopwords
filtered_tokens = remove_stopwords(tokens)
print("Após remoção de stopwords:", filtered_tokens)

# Etapa 4: Lematização
lemmatized_tokens = lemmatize_tokens(filtered_tokens)
print("Após lematização:", lemmatized_tokens)

Após tokenização: ['The', 'wolves', 'howled', 'at', 'the', 'moon', 'while', 'mice', 'scurried', 'in', 'the', 'grass.']
Após remoção de stopwords: ['The', 'wolves', 'howled', 'moon', 'mice', 'scurried', 'grass.']
Após lematização: ['The', 'wolf', 'howled', 'moon', 'mouse', 'scurried', 'grass.']


In [52]:
#Tratando a quinta frase
quintafrase="He was driving faster than the cars around him."

# Etapa 2: Tokenização simples
tokens = simple_tokenize(cleaned_sentence)
print("Após tokenização:", tokens)

# Etapa 3: Remoção de stopwords
filtered_tokens = remove_stopwords(tokens)
print("Após remoção de stopwords:", filtered_tokens)

# Etapa 4: Lematização
lemmatized_tokens = lemmatize_tokens(filtered_tokens)
print("Após lematização:", lemmatized_tokens)

Após tokenização: ['running', 'better', 'studies', 'wolves', 'mice', 'children', 'was', 'ate', 'swimming', 'parties', 'leaves', 'knives', 'happier', 'studying', 'played', 'goes', 'driving', 'talked']
Após remoção de stopwords: ['running', 'better', 'studies', 'wolves', 'mice', 'children', 'ate', 'swimming', 'parties', 'leaves', 'knives', 'happier', 'studying', 'played', 'goes', 'driving', 'talked']
Após lematização: ['running', 'better', 'study', 'wolf', 'mouse', 'child', 'ate', 'swimming', 'party', 'leaf', 'knife', 'happier', 'studying', 'played', 'go', 'driving', 'talked']


In [53]:
#Tratando a sexta frase

sextafrase="The chefs used sharp knives to prepare the tastiest dishes."

# Etapa 2: Tokenização simples
tokens = simple_tokenize(sextafrase)
print("Após tokenização:", tokens)

# Etapa 3: Remoção de stopwords
filtered_tokens = remove_stopwords(tokens)
print("Após remoção de stopwords:", filtered_tokens)

# Etapa 4: Lematização
lemmatized_tokens = lemmatize_tokens(filtered_tokens)
print("Após lematização:", lemmatized_tokens)

Após tokenização: ['The', 'chefs', 'used', 'sharp', 'knives', 'to', 'prepare', 'the', 'tastiest', 'dishes.']
Após remoção de stopwords: ['The', 'chefs', 'used', 'sharp', 'knives', 'prepare', 'tastiest', 'dishes.']
Após lematização: ['The', 'chef', 'used', 'sharp', 'knife', 'prepare', 'tastiest', 'dishes.']
