## Análise de sentimentos com algoritmo Naive Bayes

Este código demonstra a aplicação do algoritmo Naive Bayes em um projeto de análise de sentimentos. Foram utilizadas as bibliotecas pandas, numpy, tabulate, sklearn (CountVectorizer e MultinomialNB) e joblib para persistir o modelo treinado. O objetivo é classificar comentários de produtos como positivos ou negativos com base em sua pontuação geral e no texto do comentário, sendo comentários com nota maior ou igual a 3 considerados positivos, e abaixo disso negativos.

O algoritmo Naive Bayes é um método de classificação probabilístico simples, baseado no teorema de Bayes, com uma suposição "ingênua" de independência entre os recursos. Ele é frequentemente utilizado em problemas de análise de sentimentos e classificação de textos. Na prática, o algoritmo calcula a probabilidade de um comentário ser positivo ou negativo com base nas palavras presentes nele, assumindo que a presença de cada palavra é independente das outras (daí o "ingênuo").

O código carrega um conjunto de dados de avaliações de produtos, remove linhas com dados ausentes, cria uma nova coluna de classificação com base na pontuação geral e nos separa os comentários e suas classes. Em seguida, ele utiliza a classe CountVectorizer para converter os comentários em vetores de contagem de palavras. A vetorização de palavras é o processo de transformar textos em representações numéricas que possam ser usadas por algoritmos de aprendizado de máquina. No contexto do Naive Bayes para análise de sentimentos, a vetorização de palavras geralmente envolve a criação de um vocabulário com todas as palavras únicas nos textos e, em seguida, a contagem de quantas vezes cada palavra aparece em cada texto. Isso resulta em uma matriz em que cada linha representa um texto e cada coluna representa uma palavra do vocabulário, com os valores indicando a frequência de cada palavra no texto.

Os termos frequentes são avaliados com base em sua presença e frequência nos textos. No contexto da análise de sentimentos, palavras que aparecem com frequência em comentários positivos podem ser consideradas como indicativas de sentimentos positivos, enquanto palavras que aparecem com frequência em comentários negativos podem ser consideradas como indicativas de sentimentos negativos. O Naive Bayes utiliza essas frequências para calcular a probabilidade de um texto pertencer a uma determinada classe (positiva ou negativa), levando em conta a frequência de cada palavra no texto e a frequência das palavras em cada classe.

Em seguida, os vetores de contagem de palavras são usados para treinar um modelo Multinomial Naive Bayes. Esse modelo é então salvo em um arquivo para uso futuro.

Para testar o modelo, são fornecidos alguns comentários de teste que são transformados em vetores de contagem de palavras e passados para o modelo carregado, que faz previsões sobre se os comentários são positivos ou negativos. O resultado das previsões é então exibido no console.

In [10]:
# Imports
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string
import re
import pandas as pd
import csv
import numpy as np
import matplotlib.pyplot as plt
from joblib import dump, load
from tabulate import tabulate
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection import cross_val_predict, train_test_split
from IPython.display import display

# Baixando palavras comuns de pt.
nltk.download('stopwords')
nltk.download('punkt')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\augus\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\augus\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [11]:
# Carregar o conjunto de dados
dataset = pd.read_csv("C:\\fatec\\B2W-Reviews01\\B2W-Reviews01.csv", usecols=['overall_rating', 'review_text'])

# Remover linhas com valores em branco
dataset = dataset.dropna(subset=['review_text'])

# Separar os dados em features (X) e target (Y)
X = dataset['review_text'].values

In [12]:
# Tokenização e pré-processamento dos dados
X_preprocessed = []
for text in X:
    tokens = word_tokenize(text)
    tokens = [word.lower() for word in tokens if word.isalpha() and word.lower() not in stopwords.words('portuguese')]
    preprocessed_text = ' '.join(tokens)
    X_preprocessed.append(preprocessed_text)


# Criar um objeto CountVectorizer para vetorizar os dados
vectorizer = CountVectorizer()
X_vectorized = vectorizer.fit_transform(X_preprocessed)

# Dividir os dados em conjunto de treinamento e teste
X_train, X_test = train_test_split(X_vectorized, test_size=0.25, random_state=42)

# Criar e treinar o modelo Naive Bayes
model = MultinomialNB()
model.fit(X_train)

# Avaliar o modelo
accuracy = model.score(X_test)
print("Accuracy:", accuracy)

In [None]:
# Salva o modelo e o vetorizador em um único arquivo, no mesmo diretório desse notebook
dump((modelo, vectorizer), 'modelo_e_vetorizador.joblib')

# Carrega o modelo e o vetorizador do arquivo
modelo_carregado, vetorizador_carregado = load('modelo_e_vetorizador.joblib')

# Usa o modelo e o vetorizador carregados para fazer previsões
freq_testes = vetorizador_carregado.transform(testes)
previsoes = modelo_carregado.predict(freq_testes)
print(previsoes)

['Positive' 'Positive' 'Positive' 'Negative' 'Negative' 'Negative']
