Primeiro, instale as bibliotecas necessárias

In [None]:
pip install scikit-learn nltk


Agora, importe as bibliotecas que serão utilizadas:

In [22]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


Vamos criar um conjunto de dados fictício para treinar e testar nosso modelo:

In [23]:
# Conjunto de dados de exemplo
frases = [
    "Eu amo este lugar",
    "O filme foi horrível",
    "A comida estava boa",
    "O serviço foi mediano",
    "Eu detestei o trânsito hoje",
    "O dia está ok",
    "Eu estou muito feliz hoje",
    "Estou triste com as notícias",
    "O clima está ótimo",
    "Não gostei do atendimento",
    "Atendimento terrível",
]

sentimentos = ["positivo", "negativo", "positivo", "neutro", "negativo", "neutro", "positivo", "negativo", "positivo", "negativo", "negativo"]


Neste passo, vamos transformar as frases em uma matriz de contagem usando o CountVectorizer:

In [24]:
# Inicializando o CountVectorizer para transformar as frases em uma matriz de contagem
vectorizer = CountVectorizer()

# Transformando as frases em uma matriz de contagem
X = vectorizer.fit_transform(frases)

# Exibindo o vocabulário gerado
print("Vocabulário:", vectorizer.get_feature_names_out())


Vocabulário: ['amo' 'as' 'atendimento' 'boa' 'clima' 'com' 'comida' 'detestei' 'dia'
 'do' 'estava' 'este' 'estou' 'está' 'eu' 'feliz' 'filme' 'foi' 'gostei'
 'hoje' 'horrível' 'lugar' 'mediano' 'muito' 'notícias' 'não' 'ok'
 'serviço' 'terrível' 'triste' 'trânsito' 'ótimo']


Vamos dividir os dados em conjuntos de treinamento e teste para avaliar o desempenho dos modelos:

In [25]:
# Dividindo os dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, sentimentos, test_size=0.3, random_state=42)


O Naive Bayes com suavização de Laplace com α=1. Vamos treinar o modelo com essa configuração:

In [26]:
# Modelo com suavização de Laplace (α=1)
modelo_laplace = MultinomialNB(alpha=1.0)
modelo_laplace.fit(X_train, y_train)
pred_laplace = modelo_laplace.predict(X_test)

# Avaliação do modelo
acc_laplace = accuracy_score(y_test, pred_laplace)
print(f"Acurácia com suavização de Laplace (α=1): {acc_laplace:.4f}")


Acurácia com suavização de Laplace (α=1): 0.2500


Agora, treinamos o modelo Naive Bayes com suavização de Lidstone, usando um valor diferente de α (por exemplo, α=0.5):

In [27]:
# Modelo com suavização de Lidstone (α=0.5)
modelo_lidstone = MultinomialNB(alpha=0.5)
modelo_lidstone.fit(X_train, y_train)
pred_lidstone = modelo_lidstone.predict(X_test)

# Avaliação do modelo
acc_lidstone = accuracy_score(y_test, pred_lidstone)
print(f"Acurácia com suavização de Lidstone (α=0.5): {acc_lidstone:.4f}")


Acurácia com suavização de Lidstone (α=0.5): 0.2500


Com as previsões feitas pelos dois modelos, vamos comparar suas acurácias:

In [28]:
print(f"Acurácia com suavização de Laplace (α=1): {acc_laplace:.4f}")
print(f"Acurácia com suavização de Lidstone (α=0.5): {acc_lidstone:.4f}")


Acurácia com suavização de Laplace (α=1): 0.2500
Acurácia com suavização de Lidstone (α=0.5): 0.2500


Finalmente, vamos classificar novas frases usando ambos os modelos para ver como eles se comportam

In [30]:
# Novas frases para classificação
novas_frases = ["Eu adorei a experiência", "Foi um dia terrível", "Nada mal, nada bem", "Atendimento excelente", "O filme foi mediano"]

# Transformando as novas frases na matriz de contagem
X_novas_frases = vectorizer.transform(novas_frases)

# Classificação com o modelo de Laplace
classificacao_laplace = modelo_laplace.predict(X_novas_frases)
print("Classificação com Laplace:", classificacao_laplace)

# Classificação com o modelo de Lidstone
classificacao_lidstone = modelo_lidstone.predict(X_novas_frases)
print("Classificação com Lidstone:", classificacao_lidstone)


Classificação com Laplace: ['positivo' 'negativo' 'negativo' 'positivo' 'negativo']
Classificação com Lidstone: ['positivo' 'neutro' 'negativo' 'positivo' 'neutro']


Conclusão dos Resultados
Modelo com Laplace (α=1):

Tende a ser mais assertivo e direto na classificação, especialmente em contextos onde há palavras com conotações negativas ou positivas claras. No entanto, isso pode levar a uma superestimação de sentimentos negativos em frases ambíguas ou moderadas.
Modelo com Lidstone (α=0.5):

Apresenta uma abordagem mais suave e, como resultado, pode classificar algumas frases potencialmente negativas como neutras. Isso pode ser benéfico em casos onde a linguagem é menos direta ou mais ambígua, mas também pode fazer com que o modelo subestime a polaridade em casos mais claros.