In [1]:
import re
import string
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords

# Baixar recursos necessários do NLTK
nltk.download('stopwords', download_dir='/home/codespace/nltk_data')
nltk.download('wordnet', download_dir='/home/codespace/nltk_data')
nltk.download('omw-1.4', download_dir='/home/codespace/nltk_data')  # Open Multilingual WordNet
nltk.data.path.append('/home/codespace/nltk_data')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [None]:
def basic_cleaning(text):
    # Converter para minúsculas
    text = text.lower()
    
    # Remover pontuações
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # Remover números
    text = re.sub(r'\d+', '', text)
    
    # Remover espaços extras
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

def simple_tokenize(text):
    """
    Tokeniza um texto dividindo por espaços
    """
    return text.split()

def remove_stopwords(tokens):
    """
    Remove stopwords da lista de tokens
    """
    stop_words = set(stopwords.words('english'))
    return [word for word in tokens if word not in stop_words]

In [41]:
# Dicionário de lematização manual
manual_lemmas = {
    "running": "run",
    "better": "good",
    "studies": "study",
    "wolves": "wolf",
    "mice": "mouse",
    "children": "child",
    "was": "be",
    "ate": "eat",
    "swimming": "swim",
    "parties": "party",
    "leaves": "leaf",
    "knives": "knife",
    "happier": "happy",
    "studying": "study",
    "played": "play",
    "goes": "go",
    "driving": "drive",
    "talked": "talk"
}

In [None]:

def lemmatize_tokens(tokens):
    """
    Lematiza uma lista de tokens usando WordNetLemmatizer do NLTK.
    Especifica que "playing" deve ser lematizado para "play" como verbo.
    """
    lemmatizer = WordNetLemmatizer()
    lemmatized_list = []

    for token in tokens:
        if token in manual_lemmas:  
            lemmatized_list.append(manual_lemmas[token])  # Usa a forma manual
        else:
            # Tenta lematizar como verbo (adicionando o parâmetro 'v')
            lemmatized_list.append(lemmatizer.lemmatize(token, pos='v'))  # Especificando verbo (v)

    return lemmatized_list

In [43]:
# Exemplo de uso
# Lista de frases para lematização
sentences = [
    "The children were playing in the leaves yesterday.",
    "She studies computer science and is taking three courses.",
    "The wolves howled at the moon while mice scurried in the grass.",
    "He was driving faster than the cars around him.",
    "The chefs used sharp knives to prepare the tastiest dishes."
]

In [None]:
# Processar cada frase
for sentence in sentences:
    print(f"\nFrase original: {sentence}")

    # Etapa 1: Limpeza básica - Deixa minusculo, remove pontuação, numero e espaço
    cleaned_sentence = basic_cleaning(sentence)
    print("Após limpeza básica:", cleaned_sentence)

    # Etapa 2: Tokenização simples - divide por espaço
    tokens = simple_tokenize(cleaned_sentence)
    print("Após tokenização:", tokens)

    # Etapa 3: Remoção de stopwords - remove coisa inutil, tipo "the" - "in"
    filtered_tokens = remove_stopwords(tokens)
    print("Após remoção de stopwords:", filtered_tokens)

    # Etapa 4: Lematização - deixa tudo o que interessa lematizado
    lemmatized_tokens = lemmatize_tokens(filtered_tokens)
    print("Após lematização:", lemmatized_tokens)


Frase original: The children were playing in the leaves yesterday.
Após limpeza básica: the children were playing in the leaves yesterday
Após tokenização: ['the', 'children', 'were', 'playing', 'in', 'the', 'leaves', 'yesterday']
Após remoção de stopwords: ['children', 'playing', 'leaves', 'yesterday']
Após lematização: ['child', 'play', 'leaf', 'yesterday']

Frase original: She studies computer science and is taking three courses.
Após limpeza básica: she studies computer science and is taking three courses
Após tokenização: ['she', 'studies', 'computer', 'science', 'and', 'is', 'taking', 'three', 'courses']
Após remoção de stopwords: ['studies', 'computer', 'science', 'taking', 'three', 'courses']
Após lematização: ['study', 'computer', 'science', 'take', 'three', 'course']

Frase original: The wolves howled at the moon while mice scurried in the grass.
Após limpeza básica: the wolves howled at the moon while mice scurried in the grass
Após tokenização: ['the', 'wolves', 'howled', 