In [90]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
import csv
from sklearn.metrics import confusion_matrix, accuracy_score

from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB

In [91]:
dataset=[]
real_labels=[]
count=0

with open('sentiment-analysis.csv', newline='') as csvfile:
    
    reader = csv.reader(csvfile)
    
    for row in reader:
        if(count!=0):
          result=(str(row[0]).split(","))
          if(len(result)>1): 
            dataset.append(result[0])
            sentiment=result[1]
            if(sentiment[1] == 'P'):
                real_labels.append(1)
            else:
                real_labels.append(0)
        count+=1

In [92]:
# vetorização dos textos
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(dataset).toarray()

In [93]:
# 30% do conjunto de dados é utilizado para os testes e 70% é utilizado para o treinamento
x_train, x_test, y_train, y_test = train_test_split(X, real_labels, test_size=0.3, random_state=42)

In [94]:
gnb = GaussianNB()
mnb = MultinomialNB()
bnb = BernoulliNB()

gnb.fit(x_train, y_train)
y_pred_gnb = gnb.predict(x_test)

mnb.fit(x_train, y_train)
y_pred_mnb = mnb.predict(x_test)

bnb.fit(x_train, y_train)
y_pred_bnb = bnb.predict(x_test)       

In [95]:
print("Gaussian", accuracy_score(y_test, y_pred_gnb))
print("Multinomial", accuracy_score(y_test, y_pred_mnb))
print("Bernoulli", accuracy_score(y_test, y_pred_bnb))

Gaussian 0.9655172413793104
Multinomial 0.8620689655172413
Bernoulli 0.8275862068965517


In [96]:
# avaliação do modelo Gaussian
print(classification_report(y_test, y_pred_gnb))
conf_matrix = confusion_matrix(y_test, y_pred_gnb)

# Criar um DataFrame com 16 linhas e duas colunas
data_gnb = {'Verdadeiro': ['Positivo' if i==1 else 'Negativo' for i in y_test], 'Previsto': ['Positivo' if i==1 else 'Negativo' for i in y_pred_gnb]}
df_gnb = pd.DataFrame(data_gnb)
display(df_gnb)

              precision    recall  f1-score   support

           0       0.92      1.00      0.96        11
           1       1.00      0.94      0.97        18

    accuracy                           0.97        29
   macro avg       0.96      0.97      0.96        29
weighted avg       0.97      0.97      0.97        29



Unnamed: 0,Verdadeiro,Previsto
0,Negativo,Negativo
1,Positivo,Positivo
2,Positivo,Positivo
3,Negativo,Negativo
4,Positivo,Positivo
5,Positivo,Positivo
6,Positivo,Negativo
7,Positivo,Positivo
8,Positivo,Positivo
9,Positivo,Positivo


In [97]:
# avaliação do modelo Multinomial
print(classification_report(y_test, y_pred_mnb))
conf_matrix = confusion_matrix(y_test, y_pred_mnb)

# Criar um DataFrame com 16 linhas e duas colunas
data_mnb = {'Verdadeiro': ['Positivo' if i==1 else 'Negativo' for i in y_test], 'Previsto': ['Positivo' if i==1 else 'Negativo' for i in y_pred_mnb]}
df_mnb = pd.DataFrame(data_mnb)
display(df_mnb)

              precision    recall  f1-score   support

           0       0.73      1.00      0.85        11
           1       1.00      0.78      0.88        18

    accuracy                           0.86        29
   macro avg       0.87      0.89      0.86        29
weighted avg       0.90      0.86      0.86        29



Unnamed: 0,Verdadeiro,Previsto
0,Negativo,Negativo
1,Positivo,Positivo
2,Positivo,Positivo
3,Negativo,Negativo
4,Positivo,Positivo
5,Positivo,Negativo
6,Positivo,Negativo
7,Positivo,Positivo
8,Positivo,Negativo
9,Positivo,Positivo


In [98]:
# avaliação do modelo Bernoulli
print(classification_report(y_test, y_pred_bnb))
conf_matrix = confusion_matrix(y_test, y_pred_bnb)

# Criar um DataFrame com 16 linhas e duas colunas
data_bnb = {'Verdadeiro': ['Positivo' if i==1 else 'Negativo' for i in y_test], 'Previsto': ['Positivo' if i==1 else 'Negativo' for i in y_pred_bnb]}
df_bnb = pd.DataFrame(data_bnb)
display(df_bnb)

              precision    recall  f1-score   support

           0       0.69      1.00      0.81        11
           1       1.00      0.72      0.84        18

    accuracy                           0.83        29
   macro avg       0.84      0.86      0.83        29
weighted avg       0.88      0.83      0.83        29



Unnamed: 0,Verdadeiro,Previsto
0,Negativo,Negativo
1,Positivo,Positivo
2,Positivo,Negativo
3,Negativo,Negativo
4,Positivo,Positivo
5,Positivo,Negativo
6,Positivo,Negativo
7,Positivo,Positivo
8,Positivo,Negativo
9,Positivo,Positivo
