In [13]:
# Importar bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import nltk


In [38]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Ler o arquivo CSV
df = pd.read_csv("data.csv", names=['data', 'label'])

#Remover Primeira linha
df = df.drop(df.index[0])

Y = df["label"]


# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(df['data'], df['label'], test_size=0.2, random_state=42)



#Alicando Label Encoder
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

y_train = label_encoder.fit_transform(y_train)
y_test = label_encoder.transform(y_test)

In [24]:

# Pré-processar os dados de texto
tfidf_vectorizer = TfidfVectorizer(max_features=1000, stop_words='english')
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)


## Usando RF

In [25]:
# Treinar o modelo Random Forest
rf_model = RandomForestClassifier(n_estimators=100)
rf_model.fit(X_train_tfidf, y_train)


In [26]:

# Fazer previsões
y_pred = rf_model.predict(X_test_tfidf)

# Avaliar o modelo
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred))


Acurácia: 0.6475620188195038

Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.21      0.15      0.18       175
     neutral       0.69      0.78      0.73       622
    positive       0.71      0.65      0.68       372

    accuracy                           0.65      1169
   macro avg       0.54      0.53      0.53      1169
weighted avg       0.63      0.65      0.63      1169


Matriz de Confusão:
 [[ 26 106  43]
 [ 80 488  54]
 [ 16 113 243]]


## Usando SVM


In [28]:
# Importando SVM
from sklearn import svm

clf = svm.SVC()
clf.fit(X_train_tfidf, y_train)

In [29]:
# Fazer previsões
y_pred = clf.predict(X_test_tfidf)

# Avaliar o modelo
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred))

Acurácia: 0.688622754491018

Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.43      0.12      0.19       175
     neutral       0.68      0.91      0.78       622
    positive       0.76      0.58      0.66       372

    accuracy                           0.69      1169
   macro avg       0.62      0.54      0.54      1169
weighted avg       0.67      0.69      0.65      1169


Matriz de Confusão:
 [[ 21 120  34]
 [ 20 569  33]
 [  8 149 215]]


### Usando XGBoost

In [40]:
import xgboost as xgb
# Importar bibliotecas necessárias

# Criar modelo XGBoost
xgb_model = xgb.XGBClassifier()



# Treinar o modelo
xgb_model.fit(X_train_tfidf, y_train)


In [41]:

# Fazer previsões
y_pred = xgb_model.predict(X_test_tfidf)

# Avaliar o modelo
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred))



Acurácia: 0.6732249786142002

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.30      0.17      0.21       175
           1       0.68      0.87      0.76       622
           2       0.79      0.59      0.68       372

    accuracy                           0.67      1169
   macro avg       0.59      0.54      0.55      1169
weighted avg       0.66      0.67      0.65      1169


Matriz de Confusão:
 [[ 29 115  31]
 [ 57 539  26]
 [ 12 141 219]]


### Usando MLP

In [42]:
from sklearn.neural_network import MLPClassifier
# Importar MLPClassifier

# Criar modelo MLP
mlp_model = MLPClassifier()

# Treinar o modelo
mlp_model.fit(X_train_tfidf, y_train)




In [43]:

# Fazer previsões
y_pred = mlp_model.predict(X_test_tfidf)

# Avaliar o modelo
print("Acurácia:", accuracy_score(y_test, y_pred))
print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))
print("\nMatriz de Confusão:\n", confusion_matrix(y_test, y_pred))


Acurácia: 0.611633875106929

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.22      0.22      0.22       175
           1       0.68      0.72      0.70       622
           2       0.69      0.62      0.65       372

    accuracy                           0.61      1169
   macro avg       0.53      0.52      0.52      1169
weighted avg       0.61      0.61      0.61      1169


Matriz de Confusão:
 [[ 38 104  33]
 [103 447  72]
 [ 34 108 230]]


## Aplicando PCA

In [36]:

from sklearn.decomposition import PCA

# Reduzir a dimensionalidade com PCA
pca = PCA()  # Escolha o número de componentes desejado
X_train_pca = pca.fit_transform(X_train_tfidf.toarray())
X_test_pca = pca.transform(X_test_tfidf.toarray())

### RF

In [37]:
# Treinar o modelo Random Forest com os dados transformados
rf_model_pca = RandomForestClassifier(n_estimators=100, n_jobs=-1)
rf_model_pca.fit(X_train_pca, y_train)

In [38]:

# Fazer previsões com os dados de teste transformados
y_pred_pca = rf_model_pca.predict(X_test_pca)

# Avaliar o modelo com PCA
print("Acurácia com PCA:", accuracy_score(y_test, y_pred_pca))
print("\nRelatório de Classificação com PCA:\n", classification_report(y_test, y_pred_pca))
print("\nMatriz de Confusão com PCA:\n", confusion_matrix(y_test, y_pred_pca))


Acurácia com PCA: 0.7025

Relatório de Classificação com PCA:
               precision    recall  f1-score   support

           0       0.69      0.74      0.72      1019
           1       0.71      0.66      0.69       981

    accuracy                           0.70      2000
   macro avg       0.70      0.70      0.70      2000
weighted avg       0.70      0.70      0.70      2000


Matriz de Confusão com PCA:
 [[758 261]
 [334 647]]


### SVM

In [39]:

# Treinar o modelo Random Forest com os dados transformados
svm_pca = svm.SVC()
svm_pca.fit(X_train_pca, y_train)

In [40]:

# Fazer previsões com os dados de teste transformados
y_pred_pca = svm_pca.predict(X_test_pca)

# Avaliar o modelo com PCA
print("Acurácia com PCA:", accuracy_score(y_test, y_pred_pca))
print("\nRelatório de Classificação com PCA:\n", classification_report(y_test, y_pred_pca))
print("\nMatriz de Confusão com PCA:\n", confusion_matrix(y_test, y_pred_pca))


Acurácia com PCA: 0.7565

Relatório de Classificação com PCA:
               precision    recall  f1-score   support

           0       0.75      0.78      0.77      1019
           1       0.76      0.73      0.75       981

    accuracy                           0.76      2000
   macro avg       0.76      0.76      0.76      2000
weighted avg       0.76      0.76      0.76      2000


Matriz de Confusão com PCA:
 [[793 226]
 [261 720]]
