In [3]:
import pandas as pd
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score, classification_report
from imblearn.over_sampling import RandomOverSampler
from sklearn.svm import SVC

# Carregar os dados
# df = pd.read_csv('Reddit_Data.csv')
# df_filtrado = df[df['category'] != 0]
# df_1 = df_filtrado['clean_comment']
# rotulos = df_filtrado['category']

data = pd.read_csv('new_comentarios_ingles.csv')
df_1 = data['Comentario']

df['Comentario'] = df['Comentario'].apply(lambda x: x.lower())

def define_sentiment(rating):
    if rating == 'positivo':
        return 1
    elif rating == 'neutro':
        return 2
    else:
        return 0
data['sentimento_polarizado'] = data['sentimento'].apply(define_sentiment)
rotulos = data['sentimento_polarizado']

# Tokenização e lematização
comentarios_tokenizados = []
wnl = WordNetLemmatizer()

stemmer = PorterStemmer()


def stemming_tokens(tokens):
    return [stemmer.stem(plv) for plv in tokens]

for tok in df_1:
    tokens = nltk.word_tokenize(str(tok))
    comentarios_tokenizados.append(tokens)

# lemm_tks = [lemmatize_tokens(tokens) for tokens in comentarios_tokenizados]
stemmed = [stemming_tokens(tokens) for tokens in comentarios_tokenizados]

# Divisão em conjuntos de treinamento e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(stemmed, rotulos, test_size=0.2, random_state=42, stratify=rotulos)

# Vetorização dos dados de texto
vectorizer = CountVectorizer()
X_treino_vect = vectorizer.fit_transform([' '.join(comentario) for comentario in X_treino])
X_teste_vect = vectorizer.transform([' '.join(comentario) for comentario in X_teste])

# Aplicando Random Oversampler
oversampler = RandomOverSampler()
X_treino_res, y_treino_res = oversampler.fit_resample(X_treino_vect, y_treino)

# Treinamento do classificador de Regressão Logística
classifier = LogisticRegression(max_iter=1000)

# Validação cruzada
scores = cross_val_score(classifier, X_treino_res, y_treino_res, cv=5)  # cv=5 indica 5-fold cross-validation

# Treinamento final do modelo
classifier.fit(X_treino_res, y_treino_res)

# Predição nos dados de teste
predicoes = classifier.predict(X_teste_vect)

# Calcular precisão, recall e F-score
precision = precision_score(y_teste, predicoes, average='weighted')
recall = recall_score(y_teste, predicoes, average='weighted')
f_score = f1_score(y_teste, predicoes, average='weighted')
acuracia = accuracy_score(y_teste, predicoes)
report = classification_report(y_teste, predicoes, target_names=['Negativo', 'Positivo', 'Neutro'])

# Imprimir resultados
print("Resultados da validação cruzada:")
print("Scores:", scores)
print("Precisão média:", scores.mean())
print("Acuracia: {:.2f}".format(acuracia))
print("Precisão: {:.2f}".format(precision))
print("Recall: {:.2f}".format(recall))
print("F-score: {:.2f}".format(f_score))
print('\n report:')
print(report)


Resultados da validação cruzada:
Scores: [0.93600204 0.92706872 0.92490119 0.92528369 0.93229632]
Precisão média: 0.9291103913798349
Acuracia: 0.75
Precisão: 0.80
Recall: 0.75
F-score: 0.77

 report:
              precision    recall  f1-score   support

    Negativo       0.24      0.31      0.27       220
    Positivo       0.90      0.83      0.86      3268
      Neutro       0.16      0.26      0.20       317

    accuracy                           0.75      3805
   macro avg       0.43      0.46      0.44      3805
weighted avg       0.80      0.75      0.77      3805

