In [1]:
# 1. Importar as bibliotecas necessárias
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.pipeline import make_pipeline
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
# 2. Garantir que recursos da NLTK estão baixados
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\murilo.dores\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\murilo.dores\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
#3. Dataset artificial para classificação de sentimentos
# Cada texto tem uma etiqueta: 'positivo' ou 'negativo'
dados = [
    ("Eu amo programar em Python!", "positivo"),
    ("Python é incrível e muito útil.", "positivo"),
    ("Adorei este tutorial!", "positivo"),
    ("Não gosto desse sistema.", "negativo"),
    ("Essa experiência foi horrível.", "negativo"),
    ("Nunca mais usarei esse produto.", "negativo"),
    ("O suporte foi rápido e eficiente.", "positivo"),
    ("Tudo funciona bem aqui.", "positivo"),
    ("A interface é confusa.", "negativo"),
    ("Estou decepcionado.", "negativo"),
    ("Adorei o filme!", "positivo"),
    ("Muito bom!","positivo" ),
    ("Excelente serviço!", "positivo"),
    ("Recomendo muito!", "positivo"),
    ("Ótima qualidade!", "positivo"),
    ("Maravilhoso!", "positivo"),
    ("Fantástico!", "positivo"),
    ("Incrível experiência!", "positivo"),
    ("Perfeito!", "positivo"), 
    ("Surpreendente!", "positivo"),
    ("Vale cada centavo!", "positivo"),
    ("Impecável!", "positivo"),
    ("Nota 10!", "positivo"),
    ("Superou expectativas!", "positivo"),
    ("Encantado!","positivo"),
    ("Sensacional!", "positivo"),
    ("Estou impressionado!", "positivo"),
    ("Melhor que esperava!", "positivo"),
    ("Divertido demais!", "positivo"),
    ("Amei!","positivo"),
    ("Top de linha!", "positivo"),
    ("Simplesmente perfeito!", "positivo"),
    ("Recomendo sem dúvidas!", "positivo"),
    ("Produto excelente!", "positivo"),
    ("Atendimento maravilhoso!","positivo"),
    ("Muito chato.", "negativo"), 
    ("Péssimo filme.", "negativo"), 
    ("Horrível experiência.", "negativo"), 
    ("Não recomendo.", "negativo"), 
    ("Terrível.", "negativo"), 
    ("Desapontado.", "negativo"), 
    ("Ruim demais.", "negativo"), 
    ("Lamentável.", "negativo"), 
    ("Fraco.", "negativo"), 
    ("Decepcionante.", "negativo"), 
    ("Perda de tempo.", "negativo"), 
    ("Não vale o preço.", "negativo"), 
    ("Horroroso.", "negativo"), 
    ("Péssimo atendimento.", "negativo"), 
    ("Arrependido.", "negativo"), 
    ("Muito ruim.", "negativo"), 
    ("Nunca mais compro.", "negativo"), 
    ("Qualidade inferior.", "negativo"), 
    ("Não funciona.", "negativo"), 
    ("Enganação.", "negativo"), 
    ("Pior experiência.", "negativo"), 
    ("Tive problemas.", "negativo"), 
    ("Não atendeu expectativas.", "negativo"), 
    ("Fiquei insatisfeito.", "negativo"), 
    ("Produto defeituoso.", "negativo"),     
]

print(f"\n\nDados: \n\t{dados[0:3]}\n")



Dados: 
	[('Eu amo programar em Python!', 'positivo'), ('Python é incrível e muito útil.', 'positivo'), ('Adorei este tutorial!', 'positivo')]



In [4]:
# 4. Separar textos e rótulos
textos = [t[0] for t in dados]
rotulos = [t[1] for t in dados]

In [5]:
# 5. Função de pré-processamento
def preprocessar(texto):
    # Remover pontuação e caracteres não alfanuméricos
    texto = re.sub(r'[^\w\s]', '', texto)

    # Tokenização
    tokens = word_tokenize(texto.lower())

    # Remover stopwords
    stop_words = set(stopwords.words('portuguese'))
    tokens_filtrados = [t for t in tokens if t not in stop_words]

    # retorna os dados processados
    return ' '.join(tokens_filtrados)

In [6]:
# 6. Aplicar pré-processamento
textos_limpos = [preprocessar(t) for t in textos]

In [7]:
# 7. Dividir em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(textos_limpos, rotulos, test_size=0.2, random_state=42)

In [9]:
# 8. Treinar o modelo (Multinomial Naive Bayes)
vectorizer = CountVectorizer()
modelo = make_pipeline(CountVectorizer(), MultinomialNB())
modelo.fit(X_treino, y_treino)

0,1,2
,steps,"[('countvectorizer', ...), ('multinomialnb', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,
,stop_words,
,token_pattern,'(?u)\\b\\w\\w+\\b'
,ngram_range,"(1, ...)"

0,1,2
,alpha,1.0
,force_alpha,True
,fit_prior,True
,class_prior,


In [10]:
# 9. Fazer previsões
y_pred = modelo.predict(X_teste)

# 10. Fazer previsões
y_pred = modelo.predict(X_teste)

# 11. Avaliar o modelo
print("Acurácia:", accuracy_score(y_teste, y_pred))
print("\nRelatório de classificação:")
print(classification_report(y_teste, y_pred))

Acurácia: 0.4166666666666667

Relatório de classificação:
              precision    recall  f1-score   support

    negativo       0.67      0.25      0.36         8
    positivo       0.33      0.75      0.46         4

    accuracy                           0.42        12
   macro avg       0.50      0.50      0.41        12
weighted avg       0.56      0.42      0.40        12



In [11]:
# Testando com mais casos
test_cases = [
    "Adorei o filme!",
    "Péssimo serviço.",
    "Excelente experiência!",
    "Não gostei nada.",
    "Super recomendo!",
    "Produto horrível",
    "Atendimento perfeito",
    "Completamente insatisfeito"
]

print("\nPredições:")
for case in test_cases:
    print(f"{case:30} → {modelo.predict([case])[0]}")


Predições:
Adorei o filme!                → positivo
Péssimo serviço.               → positivo
Excelente experiência!         → negativo
Não gostei nada.               → positivo
Super recomendo!               → positivo
Produto horrível               → negativo
Atendimento perfeito           → positivo
Completamente insatisfeito     → negativo


In [13]:
# Métricas de avaliação
print("\nAcurácia no teste:", modelo.score(X_test, y_test))

print(modelo.predict(["positvo"])[0])  # Saída esperada: positivo
print(modelo.predict(["negativo"])[0])  # Saída esperada: negativo

NameError: name 'X_test' is not defined