In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

# Passo 1: Pré-processamento dos dados
# Carregar o conjunto de dados
df = pd.read_csv('dataset.csv')  # Substitua 'seu_dataset.csv' pelo nome do seu arquivo CSV

# Tratamento de valores ausentes (se necessário)
# df = df.dropna()

# Passo 2: Divisão do conjunto de dados
# Separação dos recursos e rótulos
X = df['review']  # Recursos (reviews)
y = df['sentiment']  # Rótulos (sentimento)

# Divisão em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Passo 3: Vetorização dos dados de texto
# Vetorização usando a contagem de palavras
vectorizer = CountVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

# Passo 4: Escolha e treinamento do algoritmo de classificação
# Criação e treinamento do modelo Naive Bayes
model = MultinomialNB()
model.fit(X_train_vectorized, y_train)

# Passo 5: Avaliação do modelo
# Previsões no conjunto de teste
y_pred = model.predict(X_test_vectorized)

# Avaliação do desempenho do modelo
accuracy = metrics.accuracy_score(y_test, y_pred)
precision = metrics.precision_score(y_test, y_pred, pos_label='positive')
recall = metrics.recall_score(y_test, y_pred, pos_label='positive')
f1_score = metrics.f1_score(y_test, y_pred, pos_label='positive')

print("Acurácia:", accuracy)
print("Precisão:", precision)
print("Recall:", recall)
print("F1-Score:", f1_score)


Acurácia: 0.8488
Precisão: 0.8730696001692405
Recall: 0.8190117086723556
F1-Score: 0.8451771451976243
