In [1]:
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
import pandas as pd

In [2]:
arquivo = pd.read_csv('reviews.csv', usecols = [0, 1, 2])
arquivo = arquivo.iloc[:20000]
arquivo

Unnamed: 0,Time_submitted,Review,Rating
0,2022-07-09 15:00:00,"Great music service, the audio is high quality...",5
1,2022-07-09 14:21:22,Please ignore previous negative rating. This a...,5
2,2022-07-09 13:27:32,"This pop-up ""Get the best Spotify experience o...",4
3,2022-07-09 13:26:45,Really buggy and terrible to use as of recently,1
4,2022-07-09 13:20:49,Dear Spotify why do I get songs that I didn't ...,1
...,...,...,...
19995,2022-05-21 00:51:56,It keeps saying its has no internet connection...,2
19996,2022-05-21 00:50:46,Good music playlist,5
19997,2022-05-21 00:46:52,i love this bc it sooooo awesome and i can lis...,5
19998,2022-05-21 00:37:00,It's good but sometimes all song are repeating,3


In [5]:
# Dividindo dados em recursos (X) e rótulos de classe (y)
X = arquivo['Review']
y = arquivo['Rating']

# O TfidfVectorizer converte o texto em recursos numéricos
tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(X)

# Dividindo os dados em conjuntos de treinamento e teste - 80% para Treino e 20% para Teste
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

# Crie uma instância do estimador LDA
lda = LinearDiscriminantAnalysis()

# Ajusta o modelo aos dados de treinamento
lda.fit(X_train.toarray(), y_train)  # Converte X_train para array antes do ajuste

# Faz previsões em novos dados
y_pred_lda = lda.predict(X_test.toarray())  # Converte X_test para array antes das previsões


In [6]:
# Desempenho do modelo - Relatório
accuracy = accuracy_score(y_test, y_pred_lda)
report = classification_report(y_test, y_pred_lda)
print(f'Acurácia: {accuracy}')
print('Relatório de Classificação:')
print(report)

Acurácia: 0.51825
Relatório de Classificação:
              precision    recall  f1-score   support

           1       0.54      0.53      0.54      1041
           2       0.16      0.15      0.16       375
           3       0.18      0.19      0.18       413
           4       0.29      0.30      0.29       505
           5       0.74      0.74      0.74      1666

    accuracy                           0.52      4000
   macro avg       0.38      0.38      0.38      4000
weighted avg       0.52      0.52      0.52      4000



In [7]:
class_names = ["Classe 1", "Classe 2", "Classe 3", "Classe 4", "Classe 5"]

# Gera a matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred_lda)
confusion_df = pd.DataFrame(conf_matrix, columns=class_names, index=class_names)

# Exibindo a matriz de confusão
print(confusion_df)

          Classe 1  Classe 2  Classe 3  Classe 4  Classe 5
Classe 1       549       156       133        74       129
Classe 2       169        58        57        45        46
Classe 3       129        49        77        87        71
Classe 4        63        41        72       151       178
Classe 5        99        64        99       166      1238
