In [1]:
import pandas as pd
import numpy as np
import random
import re

from nltk.corpus import stopwords
from nltk.corpus import wordnet
from nltk.tokenize import word_tokenize

from sklearn.model_selection import cross_val_score, GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn import metrics

from joblib import parallel_backend
import nltk

In [3]:
# Baixando os recursos necess√°rios do NLTK
print("üîÑ Baixando os recursos necess√°rios do NLTK...")
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
print("‚úÖ Recursos baixados com sucesso!\n")


def preprocess_text(text):
    """
    Pr√©-processa o texto de entrada realizando v√°rias opera√ß√µes de limpeza.

    Args:
    text (str): O texto de entrada a ser pr√©-processado.

    Returns:
    str: O texto pr√©-processado.
    """
    if pd.isna(text):
        return ''
    if isinstance(text, str):
        # Converter para min√∫sculas
        text = text.lower()

        # Remover URLs
        text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)

        # Remover n√∫meros e pontua√ß√µes, exceto '!' e '?'
        text = re.sub(r'[^\w\s!?]', '', text)

        # Remover espa√ßos em branco extras
        text = re.sub(r'\s+', ' ', text).strip()

        # Tokeniza√ß√£o
        tokens = word_tokenize(text.lower())

        # Definir palavras de parada a serem mantidas (incluindo palavras relacionadas a emo√ß√µes)
        stop_words = set(stopwords.words('english')) - {
            'not', 'no', 'nor', 'but', 'however', 'okay', 'although', 'though',
            'happy', 'sad', 'angry', 'frustrated', 'excited', 'disappointed',
            # ... (resto das palavras relacionadas a emo√ß√µes)
        }

        # Filtrar tokens
        filtered_tokens = [word for word in tokens if word.isalpha() and word not in stop_words]
        return ' '.join(filtered_tokens)
    return ''


def get_synonyms(word):
    """
    Obt√©m sin√¥nimos para uma palavra dada usando o WordNet.

    Args:
    word (str): A palavra de entrada para encontrar sin√¥nimos.

    Returns:
    list: Uma lista de sin√¥nimos para a palavra de entrada.
    """
    return list({lemma.name() for syn in wordnet.synsets(word) for lemma in syn.lemmas()})


def data_augmentation(text, sentiment, num_augmented=3, substitution_prob=0.3):
    """
    Realiza aumento de dados no texto de entrada por substitui√ß√£o de sin√¥nimos e embaralhamento de palavras.

    Args:
    text (str): O texto de entrada para aumentar.
    sentiment (str): O r√≥tulo de sentimento do texto de entrada.
    num_augmented (int): N√∫mero de amostras aumentadas a serem geradas.
    substitution_prob (float): Probabilidade de substituir uma palavra por seu sin√¥nimo.

    Returns:
    list: Uma lista de tuplas contendo textos aumentados e seus sentimentos.
    """
    words = word_tokenize(text)
    augmented_texts = []

    # Substitui√ß√£o por sin√¥nimos
    for _ in range(num_augmented):
        new_text = []
        for word in words:
            synonyms = get_synonyms(word)
            if synonyms and random.random() < substitution_prob:
                new_text.append(random.choice(synonyms))
            else:
                new_text.append(word)
        augmented_texts.append((' '.join(new_text), sentiment))

    # Embaralhamento da ordem das palavras
    for _ in range(num_augmented):
        new_words = words.copy()
        random.shuffle(new_words)
        augmented_texts.append((' '.join(new_words), sentiment))

    return augmented_texts


def load_data(filepath):
    """
    Carrega dados de um arquivo CSV.

    Args:
    filepath (str): O caminho para o arquivo CSV.

    Returns:
    pandas.DataFrame ou None: Os dados carregados como um DataFrame, ou None se ocorrer um erro.
    """
    try:
        column_names = ['id', 'entity', 'sentiment', 'text']
        df = pd.read_csv(filepath, header=None, names=column_names)
        print("‚úÖ Dados carregados com sucesso.")
        return df
    except Exception as e:
        print(f"‚ùå Erro ao carregar o dataset: {e}")
        return None


def print_divider():
    """Imprime uma linha divis√≥ria para melhor legibilidade da sa√≠da."""
    print("\n" + "="*60)


def main():
    """
    Fun√ß√£o principal para executar o pipeline de an√°lise de sentimentos.
    """
    print("üîç Iniciando o programa...")

    # Carregando os dados de treinamento
    df_train = load_data("/content/drive/MyDrive/Trabalho IA /twitter_training.csv")

    if df_train is not None:
        print_divider()

        # Explorando os dados de treinamento
        print("üìä Nomes das colunas de treinamento:")
        print(df_train.columns)
        print_divider()
        print("üìÑ Amostra dos dados de treinamento:")
        print(df_train.head())

        if 'sentiment' in df_train.columns:
            print_divider()
            print("üìà Distribui√ß√£o das classes de sentimento de treinamento:")
            print(df_train['sentiment'].value_counts())
        else:
            print("‚ùå Erro: A coluna 'sentiment' n√£o foi encontrada no DataFrame de treinamento.")
            return

        # Remover linhas com valores NaN
        df_train = df_train.dropna(subset=['text', 'sentiment'])

        # Aplicar aumento de dados
        augmented_data = []
        for _, row in df_train.iterrows():
            augmented_data.extend(data_augmentation(row['text'], row['sentiment'], num_augmented=3, substitution_prob=0.3))

        # Adicionar dados aumentados ao DataFrame original
        df_augmented = pd.DataFrame(augmented_data, columns=['text', 'sentiment'])
        df_train = pd.concat([df_train, df_augmented], ignore_index=True)

        # Embaralhar o DataFrame
        df_train = df_train.sample(frac=1).reset_index(drop=True)

        # Pr√©-processamento dos dados de treinamento
        df_train['clean_text'] = df_train['text'].apply(preprocess_text)

        # Remover linhas vazias ap√≥s o pr√©-processamento
        df_train = df_train[df_train['clean_text'] != '']

        # Separa√ß√£o dos dados em caracter√≠sticas e alvo
        X_train = df_train['clean_text']
        y_train = df_train['sentiment']

        # Criando o pipeline do modelo de PLN usando Naive Bayes
        model = Pipeline([
            ('tfidf', TfidfVectorizer()),
            ('clf', MultinomialNB())
        ])

        # Definindo o grid de par√¢metros para ajuste de hiperpar√¢metros
        parameters = {
            'tfidf__ngram_range': [(1,2)],
            'tfidf__max_features': [25000],
            'clf__alpha': [0.3],
        }

        # Realizando Grid Search para ajuste de hiperpar√¢metros
        grid_search = GridSearchCV(model, parameters, cv=10, n_jobs=-1, verbose=1)

        # Usando parallel_backend para multi-threading
        with parallel_backend('threading'):
            grid_search.fit(X_train, y_train)

        # Obtendo o melhor modelo e par√¢metros
        best_model = grid_search.best_estimator_
        print_divider()
        print(f"üîß Melhores Par√¢metros: {grid_search.best_params_}")

        # Realizando valida√ß√£o cruzada com o melhor modelo
        cv_scores = cross_val_score(best_model, X_train, y_train, cv=10)
        print_divider()
        print("üîç Pontua√ß√µes da Valida√ß√£o Cruzada:")
        print(cv_scores)
        print(f"üî¢ Pontua√ß√£o m√©dia da Valida√ß√£o Cruzada: {np.mean(cv_scores):.4f}")

        # Carregando os dados de valida√ß√£o
        df_val = load_data("/content/drive/MyDrive/Trabalho IA /twitter_validation.csv")

        if df_val is not None:
            # Pr√©-processamento dos dados de valida√ß√£o
            df_val['text'] = df_val['text'].fillna('').astype(str)
            df_val['clean_text'] = df_val['text'].apply(preprocess_text)

            # Separa√ß√£o dos dados de valida√ß√£o
            X_val = df_val['clean_text']
            y_val = df_val['sentiment']

            # Avalia√ß√£o do modelo com o conjunto de valida√ß√£o
            y_pred_val = best_model.predict(X_val)
            print_divider()
            print("üìà Relat√≥rio de Classifica√ß√£o no conjunto de valida√ß√£o:")
            print(metrics.classification_report(y_val, y_pred_val))

            # Matriz de confus√£o no conjunto de valida√ß√£o
            conf_matrix_val = metrics.confusion_matrix(y_val, y_pred_val)
            print_divider()
            print("üìä Matriz de Confus√£o no conjunto de valida√ß√£o:")
            print(conf_matrix_val)

        # Realizando testes com frases de exemplo
        exemplo_frases = [
            "I love this product!",
            "This is the worst experience I've ever had.",
            "It's okay, not bad.",
            "Absolutely fantastic!",
            "I hate it so much.",
            "The game is a bit boring.",
            "I'm thrilled about this new update!",
            "The movie was quite mediocre.",
            "This is the best purchase I've ever made.",
            "I'm really disappointed with the service.",
            "The book was an interesting read.",
            "I feel neutral about this feature.",
            "This restaurant has excellent food.",
            "The app crashes frequently, very frustrating.",
            "I'm excited about the new release!",
            "The product arrived late and damaged.",
            "I enjoyed the concert a lot.",
            "The experience was quite underwhelming.",
            "I'm happy with my new phone.",
            "The software update was a huge improvement.",
            "I'm not satisfied with the customer support.",
            "The quality of the product exceeded my expectations.",
            "The weather was terrible during my vacation.",
            "I had an amazing time at the event.",
            "The service was slow but the food was good.",
            "I'm not impressed with the new design.",
            "The movie was entertaining and engaging.",
            "I felt let down by the recent changes.",
            "The trip was okay, nothing special.",
            "I love the new features in the latest version.",
            "The product is okay but could be better.",
            "The restaurant ambiance was lovely.",
            "I'm frustrated with the frequent bugs.",
            "The book was a great read, highly recommended!",
            "The service was excellent and prompt.",
            "The new update made everything worse.",
            "I feel indifferent about the new changes.",
            "The performance was outstanding.",
            "The quality did not meet my expectations.",
            "I am very pleased with the purchase.",
            "The user interface is much improved now.",
            "The concert was an unforgettable experience.",
            "The game is too repetitive and boring.",
            "I am thrilled with the customer service!",
            "The hotel was clean but the location was poor.",
            "I'm dissatisfied with the recent upgrade.",
            "The movie was a complete waste of time.",
            "The new product features are amazing!"
        ]

        predicoes = best_model.predict(exemplo_frases)
        print_divider()
        print("üìù Testes com frases de exemplo:")
        for frase, sentimento in zip(exemplo_frases, predicoes):
            print(f'Frase: "{frase}"\nSentimento Predito: {sentimento}\n')

        # An√°lise cr√≠tica do modelo
        print_divider()
        print("üîç An√°lise Cr√≠tica do Modelo:")
        print("Pontos fortes:")
        print("- O modelo utiliza t√©cnicas de pr√©-processamento e aumento de dados para melhorar o desempenho.")
        print("- A implementa√ß√£o de Grid Search permite otimiza√ß√£o de hiperpar√¢metros.")
        print("- O uso de valida√ß√£o cruzada fornece uma avalia√ß√£o mais robusta do modelo.")
        print("\nPontos fracos:")
        print("- A detec√ß√£o de sentimentos sutis ou amb√≠guos pode ainda ser um desafio.")
        print("- O modelo atual pode ter dificuldades com sarcasmo ou contextos mais complexos.")
        print("- A depend√™ncia de um conjunto de dados espec√≠fico pode limitar a generaliza√ß√£o.")
        print("\nOportunidades de melhorias:")
        print("- Explorar modelos mais avan√ßados, como redes neurais ou transformers.")
        print("- Implementar t√©cnicas de an√°lise de erros para identificar padr√µes de falhas do modelo.")
        print("- Considerar a inclus√£o de an√°lise de contexto ou informa√ß√µes adicionais para melhorar a precis√£o.")
        print("- Expandir o conjunto de dados de treinamento com mais exemplos variados e complexos.")

        # Informa√ß√µes adicionais
        print_divider()
        print("‚ÑπÔ∏è Informa√ß√µes adicionais:")
        print("Dados e pr√©-processamento:")
        print("- Os dados foram aumentados usando t√©cnicas de aumento de dados.")
        print("- O pr√©-processamento incluiu remo√ß√£o de URLs, n√∫meros e pontua√ß√µes.")
        print("- Stopwords foram removidas, exceto palavras importantes para an√°lise de sentimento.")
        print("- Todos os textos foram convertidos para min√∫sculas para padroniza√ß√£o.")

        print("\nModelo e treinamento:")
        print("- Utilizou-se um pipeline com TfidfVectorizer e MultinomialNB.")
        print("- O Grid Search foi aplicado para otimiza√ß√£o de hiperpar√¢metros.")
        print("- A valida√ß√£o cruzada com 20 folds foi usada para avaliar o desempenho do modelo.")

        print("\nAvalia√ß√£o e teste:")
        print("- Um conjunto de valida√ß√£o separado foi usado para testar o modelo final.")
        print("- Foram realizados testes com frases de exemplo para verificar o desempenho em casos variados.")

        print("\nLimita√ß√µes e escopo:")
        print("- O modelo atual suporta apenas an√°lises em ingl√™s.")
        print("- O desempenho pode variar dependendo do contexto e complexidade das frases.")
        print("- Sentimentos sutis ou amb√≠guos podem apresentar desafios para o modelo.")
    else:
        print("‚ùå N√£o foi poss√≠vel carregar os dados. Verifique o caminho do arquivo e tente novamente.")

if __name__ == "__main__":
    main()

üîÑ Baixando os recursos necess√°rios do NLTK...
‚úÖ Recursos baixados com sucesso!

üîç Iniciando o programa...


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


‚úÖ Dados carregados com sucesso.

üìä Nomes das colunas de treinamento:
Index(['id', 'entity', 'sentiment', 'text'], dtype='object')

üìÑ Amostra dos dados de treinamento:
     id       entity sentiment  \
0  2401  Borderlands  Positive   
1  2401  Borderlands  Positive   
2  2401  Borderlands  Positive   
3  2401  Borderlands  Positive   
4  2401  Borderlands  Positive   

                                                text  
0  im getting on borderlands and i will murder yo...  
1  I am coming to the borders and I will kill you...  
2  im getting on borderlands and i will kill you ...  
3  im coming on borderlands and i will murder you...  
4  im getting on borderlands 2 and i will murder ...  

üìà Distribui√ß√£o das classes de sentimento de treinamento:
sentiment
Negative      22542
Positive      20832
Neutral       18318
Irrelevant    12990
Name: count, dtype: int64
Fitting 10 folds for each of 1 candidates, totalling 10 fits

üîß Melhores Par√¢metros: {'clf__alpha': 0.3, 't