In [7]:
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
import pandas as pd

In [8]:
arquivo = pd.read_csv('reviews.csv', usecols = [0, 1, 2])
arquivo = arquivo.iloc[:30000]

In [9]:
# Dividindo dados em recursos (X) e rótulos de classe (y)
X = arquivo['Review']
y = arquivo['Rating']

# O TfidfVectorizer converte o texto em recursos numéricos
tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(X)

# Dividindo os dados em conjuntos de treinamento e teste - 80% para Treino e 20% para Teste
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

# Crie uma instância do estimador QDA
qda = QuadraticDiscriminantAnalysis()

# Ajusta o modelo aos dados de treinamento
qda.fit(X_train.toarray(), y_train)  # Converte X_train para array antes do ajuste

# Faz previsões em novos dados
y_pred_qda = qda.predict(X_test.toarray())  # Converte X_test para array antes das previsões




In [10]:
# Desempenho do modelo - Relatório
accuracy = accuracy_score(y_test, y_pred_qda)
report = classification_report(y_test, y_pred_qda)
print(f'Acurácia: {accuracy}')
print('Relatório de Classificação:')
print(report)

Acurácia: 0.4056666666666667
Relatório de Classificação:
              precision    recall  f1-score   support

           1       0.43      0.26      0.33      1518
           2       0.09      0.01      0.02       573
           3       0.13      0.30      0.18       619
           4       0.17      0.04      0.06       772
           5       0.54      0.72      0.62      2518

    accuracy                           0.41      6000
   macro avg       0.27      0.27      0.24      6000
weighted avg       0.38      0.41      0.37      6000



In [11]:
class_names = ["Classe 1", "Classe 2", "Classe 3", "Classe 4", "Classe 5"]

# Gera a matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred_qda)
confusion_df = pd.DataFrame(conf_matrix, columns=class_names, index=class_names)

# Exibindo a matriz de confusão
print(confusion_df)

          Classe 1  Classe 2  Classe 3  Classe 4  Classe 5
Classe 1       402        34       489        31       562
Classe 2       132         8       202        12       219
Classe 3       124         9       184        29       273
Classe 4        90        10       179        31       462
Classe 5       184        31       415        79      1809
