In [6]:
import pandas as pd
import nltk
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score,classification_report
from imblearn.over_sampling import RandomOverSampler
from sklearn.svm import SVC
import re
from unidecode import unidecode

# Carregar os dados
# df = pd.read_csv('Reddit_Data.csv')
# df_filtrado = df[df['category'] != 0]
# df_1 = df_filtrado['clean_comment']
# rotulos = df_filtrado['category']

data = pd.read_csv('new_comentarios_ingles.csv')


# Removendo pontuação e emoticons
def remover_pontuacao(texto):
    new_teste = re.sub(r'["]', "", texto)
    return unidecode(re.sub(r"[,.\/'!@#\$\%\^\&\*\(\)\-\+\=\[\]\{\}\|\;\:\,\<\>\?´^~]", '', new_teste.lower()))

def remover_emoticons(texto):
    emoticon_pattern = re.compile(
        "["
        "\U0001F600-\U0001F64F"  # Emoticons
        "\U0001F300-\U0001F5FF"  # Símbolos e pictogramas
        "\U0001F680-\U0001F6FF"  # Transporte e símbolos de mapa
        "\U0001F1E0-\U0001F1FF"  # Bandeiras
        "\U00002700-\U000027BF"  # Diversos Símbolos e Pictogramas
        "\U00002600-\U000026FF"  # Diversos Símbolos
        "\U00002B50-\U00002B55"  # Símbolos e pictogramas adicionais
        "]+", flags=re.UNICODE)
    return emoticon_pattern.sub(r'', texto)


data['Comentario'] = data['Comentario'].apply(remover_pontuacao)
data['Comentario'] = data['Comentario'].apply(remover_emoticons)

df_1 = data['Comentario']
# rotulos = data['sentimento']

df['Comentario'] = df['Comentario'].apply(lambda x: x.lower())

def define_sentiment(rating):
    if rating == 'positivo':
        return 1
    elif rating == 'neutro':
        return 2
    else:
        return 0
data['sentimento_polarizado'] = data['sentimento'].apply(define_sentiment)
rotulos = data['sentimento_polarizado']

# Tokenização e lematização
comentarios_tokenizados = []


for tok in df_1:
    tokens = nltk.word_tokenize(str(tok))
    comentarios_tokenizados.append(tokens)


# Divisão em conjuntos de treinamento e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(comentarios_tokenizados, rotulos, test_size=0.2, random_state=42, stratify=rotulos)

# Vetorização dos dados de texto
vectorizer = CountVectorizer()
X_treino_vect = vectorizer.fit_transform([' '.join(comentario) for comentario in X_treino])
X_teste_vect = vectorizer.transform([' '.join(comentario) for comentario in X_teste])

# Aplicando Random Oversampler
oversampler = RandomOverSampler()
X_treino_res, y_treino_res = oversampler.fit_resample(X_treino_vect, y_treino)

# Treinamento do classificador de Regressão Logística
classifier = SVC()

# Validação cruzada
scores = cross_val_score(classifier, X_treino_res, y_treino_res, cv=5)  # cv=5 indica 5-fold cross-validation

# Treinamento final do modelo
classifier.fit(X_treino_res, y_treino_res)

# Predição nos dados de teste
predicoes = classifier.predict(X_teste_vect)

# Calcular precisão, recall e F-score
precision = precision_score(y_teste, predicoes, average='weighted')
recall = recall_score(y_teste, predicoes, average='weighted')
f_score = f1_score(y_teste, predicoes, average='weighted')
acuracia = accuracy_score(y_teste, predicoes)
class_report = classification_report(y_teste, predicoes, target_names=['Negativo', 'Positivo', 'Neutro'])


# Imprimir resultados  
print("Resultados da validação cruzada:")
print("Scores:", scores)
print("Precisão média:", scores.mean())
print("Acuracia: {:.2f}".format(acuracia))
print("Precisão: {:.2f}".format(precision))
print("Recall: {:.2f}".format(recall))
print("F-score: {:.2f}".format(f_score))
print("\nClassification Report:")
print(class_report)


Resultados da validação cruzada:
Scores: [0.75586435 0.74907561 0.73288283 0.82442943 0.75506821]
Precisão média: 0.7634640860804559
Acuracia: 0.68
Precisão: 0.82
Recall: 0.68
F-score: 0.73

Classification Report:
              precision    recall  f1-score   support

    Negativo       0.17      0.37      0.23       220
    Positivo       0.92      0.72      0.81      3268
      Neutro       0.17      0.43      0.25       317

    accuracy                           0.68      3805
   macro avg       0.42      0.51      0.43      3805
weighted avg       0.82      0.68      0.73      3805



In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\LAB\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True