In [96]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import train_test_split

In [97]:
from nltk.corpus import stopwords
import nltk
from nltk.stem import WordNetLemmatizer

In [98]:
def carregando_csv():
    
    # Lendo o txt
    df = pd.read_csv(r"train.txt", sep=";")

    # Renomeando colunas
    df.columns = ["mensagem", "emocao"]

    # Transformando em csv
    df.to_csv("train.csv", index=False)

    print("Arquivo convertido e salvo como csv")
    
    return df

### Pré processamento dos Dados

In [None]:
def processando_dados(df):

    # Retirando letras maiúsculas
    df["mensagem"] = df["mensagem"].str.lower()

    # Retirando palavras 'stopwords'
    nltk.download('stopwords')
    stop_words = set(stopwords.words('english'))

    df["mensagem"] = df["mensagem"].apply(lambda x: ' '.join(word for word in x.split() if word not in stop_words))

    # Lematiza as palavras
    nltk.download('wordnet')
    nltk.download('omw-1.4')

    lemmatizer = WordNetLemmatizer()
    df["mensagem"] = df["mensagem"].apply(lambda x: ' '.join(lemmatizer.lemmatize(word) for word in x.split()))

    return df

## Modelos

### Bag-of-Words

In [100]:
def import_bow():
    
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.naive_bayes import MultinomialNB

def execute_bow(df):

    import_bow()

    X = df["mensagem"]
    y = df["emocao"]
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Usando a representação Bag of Words em X
    vectorizer = CountVectorizer()
    X_train_bow = vectorizer.fit_transform(X_train)
    X_test_bow = vectorizer.transform(X_test)

    # Criando e treinando o modelo
    model = MultinomialNB()
    model.fit(X_train_bow, y_train)

    # Fazendo previsões
    y_pred = model.predict(X_test_bow)

    return y_test, y_pred

### TF-IDF

In [101]:
def import_tfidf():
    from sklearn.feature_extraction.text import TfidfVectorizer
    from sklearn.ensemble import RandomForestClassifier

def execute_tfidf(df):

    import_tfidf()

    X = df['mensagem']
    y = df['emocao']

    # Convertendo mensagens para vetores TF-IDF
    vectorizer = TfidfVectorizer()
    X_tfidf = vectorizer.fit_transform(X)

    # Dividindo os dados em treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)

    # Criando e treinando o modelo (aqui com RandomForest, mas pode ser outro classificador)
    model = RandomForestClassifier(random_state=42)
    model.fit(X_train, y_train)

    # Fazendo previsões
    y_pred = model.predict(X_test)

    return y_test, y_pred

### N-grams

In [102]:
def import_ngrams():
    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.naive_bayes import MultinomialNB

def execute_ngrams(df):

    import_ngrams()

    X = df['mensagem']
    y = df['emocao']

    # Transformando em vetores N-grams (fazer testes para ver qual o melhor N)
    vectorizer = CountVectorizer(ngram_range=(1, 2))

    # Vetorizando as mensagens
    X_ngrams = vectorizer.fit_transform(X)

    # Dividindo os dados em treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X_ngrams, y, test_size=0.2, random_state=42)

    # Criando e treinando o modelo
    model = MultinomialNB()
    model.fit(X_train, y_train)

    # Fazendo previsões
    y_pred = model.predict(X_test)


    return y_test, y_pred

## Main

In [103]:
def main():

    df = carregando_csv()
    df = processando_dados(df)

    while True:
        
        print('Selecione uma das técnicas para prosseguir:')
        print('1 - Bag-of-Words')
        print('2 - TF-IDF')
        print('3 - N-grams')
        print('4 - Word embeddings')
        print('5 - Subword embeddings')
        print('6 - BERT')
        print('7 - Ver estatísticas')
        print('8 - Sair')

        opcao = input()
    
        if opcao == '1':
            y_test, y_pred = execute_bow(df)

            print("Acurácia:", accuracy_score(y_test, y_pred))
            print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))

        elif opcao == '2':

            y_test, y_pred = execute_tfidf(df)

            print("Acurácia:", accuracy_score(y_test, y_pred))
            print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))

        elif opcao == '3':
            y_test, y_pred = execute_ngrams(df)

            print("Acurácia:", accuracy_score(y_test, y_pred))
            print("\nRelatório de Classificação:\n", classification_report(y_test, y_pred))

        elif opcao == '4':
            print('Em construção')

        elif opcao == '5':
            print('Em construção')

        elif opcao == '6':
            print('Em construção')

        elif opcao == '7':
            print('Em construção')

        elif opcao == '8':
            break
        
        else:
            print('Opção inválida :O tente de novo!!')
        

if __name__ == "__main__":
    main()
    

Arquivo convertido e salvo como csv


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Samsung\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Samsung\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\Samsung\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


Selecione uma das técnicas para prosseguir:
1 - Bag-of-Words
2 - TF-IDF
3 - N-grams
4 - Word embeddings
5 - Subword embeddings
6 - BERT
7 - Ver estatísticas
8 - Sair
Acurácia: 0.8753125

Relatório de Classificação:
               precision    recall  f1-score   support

       anger       0.85      0.85      0.85       450
        fear       0.84      0.85      0.84       389
         joy       0.88      0.92      0.90      1053
        love       0.78      0.77      0.77       261
     sadness       0.93      0.90      0.91       938
    surprise       0.88      0.73      0.80       109

    accuracy                           0.88      3200
   macro avg       0.86      0.84      0.85      3200
weighted avg       0.88      0.88      0.88      3200

Selecione uma das técnicas para prosseguir:
1 - Bag-of-Words
2 - TF-IDF
3 - N-grams
4 - Word embeddings
5 - Subword embeddings
6 - BERT
7 - Ver estatísticas
8 - Sair
