In [20]:
!pip install numpy keras nltk scikit-learn

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import floresta
from nltk.classify import NaiveBayesClassifier
from nltk.tag import pos_tag

nltk.download('floresta')
words = floresta.words()
tagged_words = nltk.pos_tag(words)
target_classes = {'N': 'substantivo', 'ADJ': 'adjetivo', 'V': 'verbo'}

features = []
for word, tag in tagged_words:
    if tag.startswith('N'):  # Substantivo
        class_label = target_classes['N']
    elif tag.startswith('ADJ'):  # Adjetivo
        class_label = target_classes['ADJ']
    elif tag.startswith('V'):  # Verbo
        class_label = target_classes['V']
    else:
        continue

    word_features = {
        'word': word,
        'word_shape': 'uppercase' if word.isupper() else 'titlecase' if word.istitle() else 'lowercase',
        'is_upper': word.isupper(),
        'is_title': word.istitle(),
        'pos_tag': tag
    }
    features.append((word_features, class_label))
if not features:
    print("Não há palavras suficientes para treinar o classificador.")
    exit()

train_size = int(0.8 * len(features))
train_set, test_set = features[:train_size], features[train_size:]
classifier = NaiveBayesClassifier.train(train_set)
correct_count = 0
total_count = len(test_set)
for word_features, true_class in test_set:
    predicted_class = classifier.classify(word_features)
    if predicted_class == true_class:
        correct_count += 1

acertos = (correct_count / total_count) * 100
print(f"A taxa de acertos foi de {acertos:.2f}%.")

test_sentence = "A melhor parte do meu dia é o seu sorriso"
test_words = word_tokenize(test_sentence)
for word in test_words:
    word_features = {
        'word': word,
        'word_shape': 'uppercase' if word.isupper() else 'titlecase' if word.istitle() else 'lowercase',
        'is_upper': word.isupper(),
        'is_title': word.istitle(),
        'pos_tag': nltk.pos_tag([word])[0][1]
    }
    predicted_class = classifier.classify(word_features)
    print(f"A palavra '{word}' foi classificada como '{predicted_class}'.")






[nltk_data] Downloading package floresta to /root/nltk_data...
[nltk_data]   Package floresta is already up-to-date!


A taxa de acertos foi de 100.00%.
A palavra 'A' foi classificada como 'substantivo'.
A palavra 'melhor' foi classificada como 'substantivo'.
A palavra 'parte' foi classificada como 'substantivo'.
A palavra 'do' foi classificada como 'verbo'.
A palavra 'meu' foi classificada como 'substantivo'.
A palavra 'dia' foi classificada como 'substantivo'.
A palavra 'é' foi classificada como 'substantivo'.
A palavra 'o' foi classificada como 'substantivo'.
A palavra 'seu' foi classificada como 'substantivo'.
A palavra 'sorriso' foi classificada como 'substantivo'.
