# Notebook de Exploração

Nesse arquivo, realizamos uma análise detalhada e experimentação com diversos modelos de aprendizado de máquina para determinar qual oferece o melhor desempenho para a nossa tarefa específica. Este processo inclui a preparação e a limpeza dos dados, o balanceamento das classes, a extração de características relevantes e a avaliação de múltiplos algoritmos. Diversos testes e validações são conduzidos para refinar os modelos e otimizar seus parâmetros. O objetivo final é identificar o modelo mais eficaz e robusto para ser utilizado em produção, garantindo uma análise precisa e confiável dos dados.

## Baixar Pandas para importar CSV

In [None]:
import pandas as pd

Importando os dados

In [None]:
df = pd.read_csv('../Notebooks/dados.csv')
df.head(10)

# Análise Exploratória do Corpus

**Introdução**

A análise exploratória de dados é um passo fundamental para desenvolver modelos que classificam sentimentos, especialmente quando lidamos com dados complexos como comentários de usuários. Neste projeto, o grupo Moodfy estudou um conjunto de comentários sobre a Uber retirados da plataforma X (antes conhecida como Twitter). O objetivo dessa análise inicial era entender melhor os dados, descobrir padrões e preparar a base para criar um modelo que possa classificar os comentários como positivos, negativos ou neutros. Esse trabalho inicial é crucial para garantir que o modelo final seja preciso e eficaz, influenciando decisões importantes sobre como atender e se comunicar com os clientes.


**Explicação dos Passos da Análise Exploratória Feita pelo Grupo Moodfy**

1. Distribuição de Sentimentos: O grupo Moodfy começou analisando como os sentimentos estavam distribuídos entre os comentários para ver se havia um equilíbrio entre positivos, negativos e neutros. Essa checagem é importante porque um desequilíbrio pode fazer o modelo futuro pender para o lado mais comum.

2. Análise de Palavras Comuns em Comentários: Eles identificaram quais palavras apareciam mais em cada tipo de sentimento. Esse passo ajuda a entender quais temas são frequentes e como certas palavras podem influenciar a classificação dos sentimentos.

3. Análise de Comprimento dos Comentários: O grupo investigou se o tamanho dos comentários estava relacionado com os sentimentos expressados. Comentários mais longos podem indicar sentimentos mais fortes.

4. Frequência de Palavras por Sentimento: Essa etapa detalhou mais a análise anterior, quantificando quantas vezes certas palavras apareciam nos diferentes sentimentos. Isso foi útil para ver se algumas palavras muito comuns, que não adicionam muito significado, estavam influenciando os resultados.

5. Correlação entre Comprimento do Comentário e Sentimento: Eles também verificaram se havia uma relação entre o tamanho dos comentários e o tipo de sentimento, para entender se pessoas mais satisfeitas ou insatisfeitas tendem a escrever mais.

6. Média de Comprimento dos Comentários por Sentimento: Por último, o grupo calculou o comprimento médio dos comentários para cada sentimento, buscando identificar comentários muito longos ou curtos que fogem do comum, o que pode sugerir a necessidade de ajustar os dados antes de criar o modelo.

#### Importação de bibliotecas de análise gráfica

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

#### Análise Exploratória do Corpus

Criação de Dataframe exclusivo para análise exploratória do corpus

In [None]:
df_analysis = pd.read_csv('..Notebooks/dados.csv')

df_analysis.head()

**1. Distribuição de Sentimentos**


Este gráfico de barras mostra a frequência de cada categoria de sentimento nos dados. Os sentimentos estão categorizados como -1 (negativo), 0 (neutro) e 1 (positivo). O gráfico ajuda a visualizar rapidamente a proporção de comentários em cada categoria, permitindo uma análise quantitativa rápida da natureza geral dos comentários no dataset. A visualização utiliza cores diferentes para cada categoria para facilitar a distinção: vermelho para negativo, cinza para neutro e azul para positivo. Esta análise é baseada no autoestudo "Como Fazer Análise de Sentimentos com Dados Textuais", onde aprendemos a aplicar métodos estatísticos para entender a distribuição de sentimentos em dados textuais.

In [None]:
def plot_sentiment_distribution(df_analysis):
    """
    Cria um gráfico de barras para mostrar a distribuição dos sentimentos nos comentários.
    
    Args:
        df_analysis (DataFrame): DataFrame contendo os dados dos sentimentos.
    
    Returns:
        None: Exibe o gráfico de barras com a distribuição dos sentimentos.
    """
    # Calcula a contagem de cada sentimento
    sentiment_counts = df_analysis['sentiment'].value_counts().sort_index()

    # Gráfico de barras
    plt.bar(sentiment_counts.index, sentiment_counts.values, color=['red', 'grey', 'blue'])
    plt.xlabel('Sentimento')
    plt.ylabel('Frequência de comentários')
    plt.title('Distribuição de Sentimentos')
    plt.xticks([-1, 0, 1], ['Negativo', 'Neutro', 'Positivo'])
    plt.show()

plot_sentiment_distribution(df_analysis)

**2. Análise de Palavras Comuns em Comentários**


Utilizando a técnica de nuvem de palavras, este gráfico destaca as palavras mais comuns em comentários de diferentes sentimentos.


In [None]:
def generate_wordcloud(data, title):
    """
    Gera uma nuvem de palavras a partir de um conjunto de dados de texto.

    Args:
    data (Series): Dados de texto (pandas Series) a partir dos quais gerar a nuvem de palavras.
    title (str): Título da nuvem de palavras.

    Returns:
    None: A função exibe a nuvem de palavras usando matplotlib.
    """
    # Garantir que todos os itens em `data` sejam strings
    data = [' '.join(item) if isinstance(item, list) else item for item in data]

    wc = WordCloud(background_color='white', max_words=200)
    plt.figure(figsize=(10, 6))
    plt.imshow(wc.generate(' '.join(data)), interpolation='bilinear')
    plt.title(title)
    plt.axis('off')
    plt.show()

# Gerar Word Clouds para cada sentimento
generate_wordcloud(df_analysis[df_analysis['sentiment'] == -1]['comment'], 'Palavras mais comuns em comentários negativos')
generate_wordcloud(df_analysis[df_analysis['sentiment'] == 0]['comment'], 'Palavras mais comuns em comentários neutros')
generate_wordcloud(df_analysis[df_analysis['sentiment'] == 1]['comment'], 'Palavras mais comuns em comentários positivos')

**3. Análise de Comprimento dos Comentários**

Este gráfico de caixa (boxplot) ilustra a distribuição do comprimento dos comentários com base nos sentimentos expressos, categorizados em negativo (-1), neutro (0) e positivo (1). Cada caixa no gráfico representa a distribuição dos comprimentos de comentários para uma categoria de sentimento específica, oferecendo uma visão sobre a mediana, os quartis e os valores extremos (outliers) de comprimento para cada grupo.


In [None]:
def plot_comment_length_by_sentiment(df_analysis):
    """Gera um gráfico de caixa para visualizar a distribuição do comprimento dos comentários por sentimento.

    Args:
        df (DataFrame): DataFrame contendo as colunas 'comment' e 'sentiment', onde 'comment' são os comentários
                        e 'sentiment' são os sentimentos associados aos comentários.

    Returns:
        None: Exibe o gráfico de caixa mostrando o comprimento dos comentários distribuídos por sentimentos.
    """
    # Calcula o comprimento de cada comentário
    df_analysis['comment_length'] = df_analysis['comment'].apply(len)

    # Configura e exibe o gráfico de caixa
    plt.figure(figsize=(10, 6))
    sns.boxplot(x='sentiment', y='comment_length', data=df_analysis)
    plt.title('Comprimento dos Comentários por Sentimento')
    plt.xlabel('Sentimento')
    plt.ylabel('Comprimento do Comentário (N° de caraceteres)')
    plt.xticks(ticks=[0, 1, 2], labels=['Negativo (-1)', 'Neutro (0)', 'Positivo (1)'])
    plt.show()

# chamada da função:
plot_comment_length_by_sentiment(df_analysis)

**4. Frequência de Palavras por Sentimento**


Este gráfico de barras compara a frequência das palavras mais comuns em comentários negativos e neutros. As barras indicam quantas vezes cada palavra foi mencionada, proporcionando uma visualização clara das diferenças no vocabulário usado em diferentes estados emocionais. Analisar essas frequências ajuda a entender os temas predominantes e possíveis áreas de insatisfação ou discussões gerais que não envolvem sentimentos fortes.


In [None]:
def analyze_word_frequency_pipeline(df):
    """Analisa e visualiza as palavras mais comuns em comentários categorizados por sentimentos negativos, neutros e positivos.

    Args:
        df_analysis (DataFrame): DataFrame contendo as colunas 'comment' e 'sentiment', onde 'comment' são os comentários
                        e 'sentiment' identifica o sentimento do comentário.

    Returns:
        None: Gera gráficos de barras mostrando as palavras mais comuns para cada categoria de sentimento.
    """
    # Função para contar palavras em um texto
    def count_words(text):
        if isinstance(text, str):  # Se for uma string, divide em palavras
            return Counter(text.split())
        elif isinstance(text, list):  # Se for uma lista, já está tokenizado
            return Counter(text)
        else:
            raise ValueError("O tipo de entrada não é suportado.")

    # Aplicação da função de contagem de palavras e agregação por sentimento
    df['words'] = df['comment'].apply(count_words)
    negative_words = sum(df[df['sentiment'] == -1]['words'], Counter())
    neutral_words = sum(df[df['sentiment'] == 0]['words'], Counter())
    positive_words = sum(df[df['sentiment'] == 1]['words'], Counter())

    # Seleção das 10 palavras mais comuns em cada categoria de sentimento
    most_common_neg = negative_words.most_common(10)
    most_common_neu = neutral_words.most_common(10)
    most_common_pos = positive_words.most_common(10)

    # Criação de gráficos de barras para cada categoria de sentimento
    fig, ax = plt.subplots(3, 1, figsize=(10, 8))

    ax[0].bar([word[0] for word in most_common_neg], [word[1] for word in most_common_neg], color='red')
    ax[0].set_title('Palavras mais comuns em comentários negativos')
    ax[0].set_ylabel('Frequência De Repetição da Palavra')

    ax[1].bar([word[0] for word in most_common_neu], [word[1] for word in most_common_neu], color='grey')
    ax[1].set_title('Palavras mais comuns em comentários neutros')
    ax[1].set_ylabel('Frequência De Repetição da Palavra')

    ax[2].bar([word[0] for word in most_common_pos], [word[1] for word in most_common_pos], color='green')
    ax[2].set_title('Palavras mais comuns em comentários positivos')
    ax[2].set_ylabel('Frequência De Repetição da Palavra')

    plt.tight_layout()
    plt.show()

# chamada da função com df_analysis
analyze_word_frequency_pipeline(df_analysis)

**5. Correlação entre Comprimento do Comentário e Sentimento**


Este gráfico de dispersão explora se o comprimento dos comentários varia com o sentimento expresso. Cada ponto representa um comentário, posicionado de acordo com seu sentimento (negativo, neutro) e comprimento. A visualização ajuda a identificar se comentários mais longos tendem a ser negativos, positivos, ou neutros, fornecendo insights sobre como os usuários se expressam em diferentes contextos emocionais.

In [None]:
def plot_comment_length_sentiment_correlation(df_analysis):
    """Gera um gráfico de dispersão para examinar a correlação entre o comprimento dos comentários e os sentimentos expressos.

    Args:
        df_analysis (DataFrame): DataFrame contendo as colunas 'sentiment' e 'comment_length', onde 'sentiment' indica o sentimento
                        do comentário e 'comment_length' é o comprimento do comentário medido em número de caracteres.

    Returns:
        None: Exibe o gráfico de dispersão.
    """
    plt.figure(figsize=(8, 5))
    plt.scatter(df_analysis['sentiment'], df_analysis['comment_length'], alpha=0.5)
    plt.title('Correlação entre Comprimento do Comentário e Sentimento')
    plt.xlabel('Tipo de Sentimento')
    plt.ylabel('Comprimento do Comentário - (N° Caracteres)')
    plt.xticks([-1, 0, 1], ['Negativo', 'Neutro', 'Positivo'])
    plt.grid(True)
    plt.show()

# chamada da função:
plot_comment_length_sentiment_correlation(df_analysis)


**6. Média de Comprimento dos Comentários por Sentimento**

Esse é um gráfico de barras que mostra a média de comprimento dos comentários para cada categoria de sentimento. Este gráfico pode indicar se sentimentos mais fortes (positivos ou negativos) levam a comentários mais detalhados.

In [None]:
def plot_average_comment_length_by_sentiment(df_analysis):
    """Calcula e visualiza a média de comprimento dos comentários por sentimento em um gráfico de barras.

    Args:
        df_analysis (DataFrame): DataFrame contendo as colunas 'sentiment' e 'comment_length', onde 'sentiment' indica o sentimento
                        do comentário e 'comment_length' é o comprimento do comentário.

    Returns:
        None: Exibe o gráfico de barras mostrando a média de comprimento dos comentários para cada sentimento.
    """
    # Cálculo da média de comprimento dos comentários por sentimento
    average_lengths = df_analysis.groupby('sentiment')['comment_length'].mean()

    # Configuração e exibição do gráfico de barras
    plt.figure(figsize=(10, 6))
    sns.barplot(x=average_lengths.index, y=average_lengths.values, palette='coolwarm')
    plt.title('Média de Comprimento dos Comentários por Sentimento')
    plt.xlabel('Sentimento')
    plt.ylabel('Média de Comprimento do Comentário (N° de Caracteres)')
    plt.xticks(ticks=[0, 1, 2], labels=['Negativo (-1)', 'Neutro (0)', 'Positivo (1)'])
    plt.show()

# chamada da função:
plot_average_comment_length_by_sentiment(df_analysis)


In [None]:
df_analysis.head(10)

# Pré-Processamento

O pré-processamento é uma etapa fundamental em um modelo de machine learning, responsável por preparar e organizar os dados antes de serem alimentados ao algoritmo de aprendizado. Ele inclui uma série de técnicas e procedimentos, como normalização, padronização, tratamento de dados faltantes e seleção de características relevantes. A funcionalidade do pré-processamento é melhorar a qualidade dos dados, tornando-os mais adequados e representativos para o modelo de machine learning. Isso ajuda a evitar problemas como overfitting, garantir que o modelo possa generalizar bem para dados novos e melhorar a eficácia do aprendizado.

### Importação de bibliotecas

In [None]:
import nltk
import re
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import stopwords
from nltk.corpus import wordnet
from nltk import pos_tag
import string
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import FunctionTransformer
from spellchecker import SpellChecker
import contractions
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from transformers import BertTokenizer, BertModel
import numpy as np
import pickle
from sklearn.ensemble import GradientBoostingClassifier
import xgboost as xgb
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Embedding
import lightgbm as lgb
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import LabelEncoder
import torch
from tensorflow.keras.preprocessing.text import Tokenizer
import spacy
from textblob import TextBlob

# Baixar os recursos necessários do NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

### Contrações

In [None]:
def expand_contractions(text):
    """
    Expande contrações em um texto dado com base em um mapeamento fornecido.

    Args:
        text (str): Texto que contém contrações.
        contraction_mapping (dict): Um dicionário mapeando contrações para suas formas expandidas.

    Returns:
        str: Texto com todas as contrações expandidas de acordo com o mapeamento.
    """
    contraction_map = {
    "can't": "can not",
    "isn't": "is not",
    "aren't": "are not",
    "wasn't": "was not",
    "weren't": "were not",
    "haven't": "have not",
    "hasn't": "has not",
    "hadn't": "had not",
    "won't": "will not",
    "wouldn't": "would not",
    "don't": "do not",
    "doesn't": "does not",
    "didn't": "did not",
    "can't've": "cannot have",
    "shouldn't": "should not",
    "shouldn't've": "should not have",
    "could've": "could have",
    "could've": "could have",
    "mightn't": "might not",
    "mightn't've": "might not have",
    "mustn't": "must not",
    "mustn't've": "must not have",
    "i'm": "i am",
    "you're": "you are",
    "he's": "he is",
    "she's": "she is",
    "it's": "it is",
    "we're": "we are",
    "they're": "they are",
    "i've": "i have",
    "you've": "you have",
    "we've": "we have",
    "they've": "they have",
    "i'd": "i would",
    "you'd": "you would",
    "he'd": "he would",
    "she'd": "she would",
    "we'd": "we would",
    "they'd": "they would",
    "i'll": "i will",
    "you'll": "you will",
    "he'll": "he will",
    "she'll": "she will",
    "we'll": "we will",
    "they'll": "they will",
}
    
    for contraction, expansion in contraction_map.items():
        text = text.replace(contraction, expansion)
    return text

# Exemplo de uso
sample_text = "I can't do this anymore, because it's too hard."
expanded_text = expand_contractions(sample_text)
print(expanded_text)

### Tokenização

A tokenização é o processo de dividir um texto em unidades menores chamadas tokens. Esses tokens podem ser palavras individuais, partes de palavras ou até mesmo caracteres, dependendo do nível de granularidade desejado. A tokenização é uma etapa fundamental no processamento de linguagem natural (PLN), sendo essencial para a preparação, análise e manipulação de texto em uma variedade de aplicações, incluindo análise de sentimento, classificação de texto e tradução automática. Ao dividir o texto em tokens, os dados tornam-se estruturados e adequados para análise, facilitando a extração de informações e a modelagem de soluções de PLN.

In [None]:
def tokenize_text(text):
    """
    Tokeniza o DataFrame em uma lista de tokens.

    Args:
    text (DataFrame): Comentários a serem tokenizados.

    Returns:
    list: Lista de tokens.
    """
    tokens = word_tokenize(text.lower())
    return tokens

def filter_empty_tokens(tokens):
    """
    Remove listas vazias ou com espaços vazios.

    Args:
    tokens (list): Lista de tokens.

    Returns:
    list: Lista de tokens não vazios.
    """
    return [token for token in tokens if token.strip()]

result = tokenize_text("Amanda asked about apples and bananas at the market.")
print(result)

### Correção de Texto

A função spell_checker é projetada para corrigir a ortografia de um texto fornecido, garantindo que certas palavras específicas, como "uber", não sejam alteradas indevidamente. Utilizando a biblioteca TextBlob, a função separa o texto em palavras individuais e aplica a correção ortográfica em cada uma delas. No entanto, se a palavra for "uber" (em qualquer capitalização), ela é mantida inalterada. Após a correção de todas as palavras, o texto é reconstruído e retornado com a ortografia corrigida. Este método é útil para manter a integridade de palavras específicas enquanto melhora a precisão ortográfica geral do texto.

In [None]:
def spell_checker(words):
    """
    Corrige a ortografia de uma lista de palavras, preservando a palavra 'uber'.

    Args:
    words (list of str): Lista de palavras a serem corrigidas.

    Returns:
    str: Texto com a ortografia corrigida.
    """
    corrected_words = []
    
    for word in words:
        if word.lower() == 'uber':
            corrected_words.append(word)
        else:
            corrected_word = str(TextBlob(word).correct())
            corrected_words.append(corrected_word)
    
    corrected_text = ' '.join(corrected_words)
    return corrected_text


### Lemmatização

A lemmatização é o processo de reduzir palavras a sua forma base ou lema, considerando o contexto e a morfologia da língua. Essa técnica é importante em PLN para tratar diferentes formas de uma palavra como iguais, como "corre" e "correu" ambas reduzidas a "correr". Isso simplifica o processamento de texto e melhora a análise em tarefas como recuperação de informações e análise de sentimento.

In [None]:
# Carregar o modelo de idioma inglês do spaCy
nlp = spacy.load("en_core_web_sm")

def get_wordnet_pos(treebank_tag):
    """
    Retorna o tag correspondente do WordNet para o tag do Treebank do Penn.
    """
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN 

def lemmatize_tokens_with_pos(tokens):
    """
    Lemmatiza uma lista de tokens baseando-se em sua parte do discurso.

    Args:
    tokens (list of str): Tokens a serem lematizados.

    Returns:
    list: Lista de lemas das palavras.
    """
    # Criar um Doc do spaCy a partir dos tokens
    doc = nlp(" ".join(tokens))

    # Lemmatiza usando o spaCy
    lemmas = [token.lemma_ for token in doc]
    return lemmas


### Retirar pontuações

A remoção de pontuação é um processo utilizado no pré-processamento de texto que visa eliminar caracteres de pontuação, como vírgulas, pontos e pontos de exclamação, de um texto. Isso é feito para limpar o texto e reduzir a dimensionalidade dos dados, facilitando a análise e a modelagem. Ao remover a pontuação, os tokens resultantes contêm apenas palavras ou partes de palavras, tornando-os mais adequados para tarefas de processamento de linguagem natural.

In [None]:
def remove_punctuation_from_tokens(tokens):
    """
    Remove pontuações de uma lista de tokens e exclui os tokens que consistem exclusivamente de caracteres de pontuação.

    Args:
    tokens (list): Lista de tokens a serem processados.

    Returns:
    list: Lista de tokens sem pontuações.
    """
    # Regex para identificar pontuações
    regex_punctuation = re.compile('[%s]' % re.escape(string.punctuation))

    # Remove pontuações de cada token e filtra tokens que ficaram vazios ou são apenas pontuações
    tokens_no_punct = [regex_punctuation.sub('', token) for token in tokens]
    tokens_no_punct = [token for token in tokens_no_punct if token.strip() != '']

    return tokens_no_punct

# Exemplo de uso da função:
tokens = ["hello!", "world...", "#amazing", "test,", ":)", "a", "."]
filtered_tokens = remove_punctuation_from_tokens(tokens)
print(filtered_tokens)


### Retirar números

A remoção de números é um passo comum no pré-processamento de texto que consiste em eliminar todos os caracteres numéricos de um texto. Isso é feito para limpar o texto de informações numéricas que podem não ser relevantes para a análise ou para garantir que as palavras sejam tratadas de maneira uniforme durante a tokenização. Ao remover números, os tokens resultantes contêm apenas palavras e outros caracteres não numéricos, simplificando o texto para análise e modelagem.

In [None]:
def remove_numbers_from_tokens(tokens):
    """
    Remove todos os dígitos de uma lista de tokens e remove os tokens que consistem exclusivamente de números.

    Args:
    tokens (list): Lista de tokens a serem processados.

    Returns:
    list: Lista de tokens sem números.
    """
    # Remover dígitos de cada token e depois filtrar os tokens que são apenas números ou ficaram vazios
    tokens_no_numbers = [re.sub(r'\d+', '', token) for token in tokens]
    tokens_no_numbers = [token for token in tokens_no_numbers if token.strip() != '']
    return tokens_no_numbers

# Exemplo de uso da função:
tokens = ["hello123", "world", "2023", "test", "12345"]
filtered_tokens = remove_numbers_from_tokens(tokens)
print(filtered_tokens)


### Remoção de Stop Words

Stopwords são palavras que são frequentemente removidas durante o pré-processamento de texto em tarefas de Processamento de Linguagem Natural (PLN). Essas palavras são geralmente as mais comuns em um idioma, como ‘é’, ‘em’, ‘um’, ‘e’ em português, ou ‘is’, ‘in’, ‘a’, ‘and’ em inglês, e tendem a aparecer em quase todos os documentos de um corpus.

A remoção de stopwords é uma prática comum porque essas palavras, embora muito frequentes, geralmente não carregam muito significado e podem adicionar ruído aos dados. Além disso, removendo-as, podemos reduzir o tamanho do nosso vocabulário e, consequentemente, o espaço de recursos, tornando nossos modelos de PLN mais eficientes.

In [None]:
# Baixando as stopwords e o POS tagger
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')

def remove_stopwords_preserve_adverbs(tokens):
    """
    Remove stopwords de uma lista de tokens, preservando todos os advérbios, advérbios de negação específicos,
    e palavras essenciais em contextos negativos.

    Args:
    tokens (list): Lista de tokens a serem processados.

    Returns:
    list: Lista de tokens sem stopwords, com todos os advérbios, advérbios de negação específicos,
          e palavras essenciais em contextos negativos preservados.
    """
    if not isinstance(tokens, list):
        raise TypeError("Input tokens must be a list")
    
    # Carregando as stopwords
    stop_words = set(stopwords.words('english'))
    
    # Advérbios de negação específicos e palavras essenciais em contextos negativos para sempre preservar
    essential_negation_words = {'not', 'never', 'no', 'nothing', 'nowhere', 'neither', 'nor'}
    
    # Classificando os tokens por partes do discurso
    tagged_tokens = pos_tag(tokens)
    
    # Filtrando os tokens para remover as stopwords, mas manter advérbios e palavras essenciais em contextos negativos
    filtered_tokens = [word for word, tag in tagged_tokens if word.lower() not in stop_words or tag.startswith('RB') or word.lower() in essential_negation_words]
    
    return filtered_tokens

# Exemplo de uso da função:
tokens = ["I", "do", "not", "really", "like", "never", "very", "much", "this", "car", "nor", "do", "I", "hate", "it"]
cleaned_tokens = remove_stopwords_preserve_adverbs(tokens)
print(cleaned_tokens) 


### Remoção de links


A remoção de links é uma etapa de pré-processamento em tarefas de Processamento de Linguagem Natural (PLN) que envolve a eliminação de URLs ou links de um texto. Isso é feito para reduzir o ruído nos dados e focar nas palavras e frases que carregam mais significado.

Links geralmente não contribuem para a semântica de um texto e podem ser bastante variados e únicos, o que pode adicionar ruído e aumentar a dimensionalidade dos dados. Além disso, os links podem levar a conteúdo externo que está fora do contexto do texto atual, tornando a análise mais complexa.

In [None]:
# Definir a função para remover URLs
def remove_urls(text):
    """
    Remove URLs de um texto fornecido.

    Args:
    texto (list): O texto de entrada contendo URLs.

    Returns:
    list: Lista de tokens com URLs removidas.
    """
    return re.sub(r'http\S+|www.\S+', '', text, flags=re.MULTILINE)

### Balanceamento das Classes de Dados

O balanceamento das classes de dados é uma prática crucial em aprendizado de máquina para garantir que cada categoria seja representada de forma equitativa. Isso previne que o modelo desenvolva viés em direção à classe majoritária e melhora a precisão geral em prever categorias menos representadas. 

Na base de dados em questão, realizamos um balanceamento focado nas dinâmicas de desproporção entre as classes de sentimentos negativos e positivos. Primeiro, removemos os outliers baseando-nos apenas na distribuição dos próprios dados negativos para eliminar comentários atípicos que poderiam distorcer a análise. Após essa filtragem, procedemos com uma redução estratégica, eliminando aleatoriamente 40% dos dados negativos restantes. Além disso, para tratar a sub-representação dos sentimentos positivos, duplicamos os dados dessa classe. Essa abordagem combinada não só equilibra a presença das classes no dataset mas também facilita o treinamento de modelos mais justos e eficazes, evitando o viés em direção a qualquer classe específica.

In [None]:
def remove_outliers_balance_negatives_and_multiply_positives(df):
    """
    Remove outliers do comprimento dos comentários para a classe de sentimentos negativos (-1),
    baseando-se nos quartis da própria classe negativa, e remove aleatoriamente 40% dos dados negativos
    restantes para ajudar no balanceamento das classes. Multiplica os dados da classe positiva (1) por 2,5 vezes
    para aumentar sua representatividade no dataset.

    Args:
        df (DataFrame): DataFrame contendo as colunas 'sentiment', 'comment', e 'comment_length'.

    Returns:
        DataFrame: DataFrame com outliers removidos da classe negativa, redução estratégica de 40% dos negativos,
                    e multiplicação dos dados positivos por 2,5 vezes.
    """
    # Adiciona a coluna 'comment_length' ao DataFrame se não existir
    if 'comment_length' not in df.columns:
        df['comment_length'] = df['comment'].apply(len)

    # Adiciona a coluna 'word_count'
    df['word_count'] = df['comment'].apply(lambda x: len(x.split()))
    
    # Filtra os dados para a classe negativa (-1)
    negativos = df[df['sentiment'] == -1]
    
    # Calcula os quartis apenas para a classe negativa
    Q1 = negativos['comment_length'].quantile(0.25)
    Q3 = negativos['comment_length'].quantile(0.75)
    IQR = Q3 - Q1
    upper_bound = Q3 + 1.5 * IQR

    # Filtra os outliers na classe negativa baseado no limite calculado
    negativos_filtrados = negativos[negativos['comment_length'] <= upper_bound]
    
    # Amostragem aleatória para remover 40% dos dados negativos filtrados
    negativos_reduzidos = negativos_filtrados.sample(frac=0.75, random_state=42)

    # Multiplica os dados da classe positiva (1) por 2,5 vezes
    positivos = df[df['sentiment'] == 1]
    positivos_multiplicados = pd.concat([positivos] * 2 + [positivos.sample(frac=0.5, random_state=42)], ignore_index=True)
    
    # Combina os dados reduzidos de sentimentos negativos com as outras classes
    df_final = pd.concat([negativos_reduzidos, df[df['sentiment'] == 0], positivos_multiplicados], ignore_index=True)

    return df_final


### Pipeline


Pipeline é um conceito essencial em diversos campos, incluindo tecnologia da informação, manufatura, logística e até mesmo em processos criativos. Em termos gerais, refere-se a uma sequência de etapas interconectadas e ordenadas, onde o resultado de cada etapa serve como entrada para a próxima. Essas etapas podem ser atividades, operações ou processos específicos. O objetivo principal de um pipeline é otimizar a eficiência e a produtividade, dividindo um trabalho complexo em partes menores e mais gerenciáveis, permitindo que cada etapa seja executada de forma independente e simultânea. Isso não apenas acelera o processo, mas também permite melhorias contínuas em cada etapa individualmente, resultando em um produto final de maior qualidade.

In [None]:
# Definir o pipeline para pré-processamento dos comentários
pipeline = Pipeline([
    ('expand_contractions', FunctionTransformer(lambda x: x.apply(expand_contractions))),
    ('url_remover', FunctionTransformer(lambda x: x.apply(remove_urls))),
    ('tokenizer', FunctionTransformer(lambda x: x.apply(tokenize_text))),
    ('lemmatizacao', FunctionTransformer(lambda x: x.apply(lemmatize_tokens_with_pos))),
    ('punctuation_remover', FunctionTransformer(lambda x: x.apply(remove_punctuation_from_tokens))),
    ('number_remover', FunctionTransformer(lambda x: x.apply(remove_numbers_from_tokens))),
    ('stopwords_remover', FunctionTransformer(lambda x: x.apply(remove_stopwords_preserve_adverbs))),
    ('filter_empty_tokens', FunctionTransformer(lambda x: x.apply(filter_empty_tokens))),
    ('spell_checker', FunctionTransformer(lambda x: x.apply(spell_checker))),
])

# Primeiro aplicar a remoção de outliers e a redução de dados negativos
df = remove_outliers_balance_negatives_and_multiply_positives(df)

# Aplicar o pipeline ao DataFrame existente
df['comment'] = pipeline.fit_transform(df['comment'])
print(df)

### Exportar CSV

In [None]:
output_file_path = 'pipeline_comments.csv'
df.to_csv(output_file_path, index=False)

print(f"Arquivo CSV exportado para {output_file_path}")

In [None]:
df.head(14)

# Análise dos Corpus Após o Pré-Processamento

In [None]:
plot_sentiment_distribution(df)

In [None]:
generate_wordcloud(df[df['sentiment'] == -1]['comment'], 'Palavras mais comuns em comentários negativos')
generate_wordcloud(df[df['sentiment'] == 0]['comment'], 'Palavras mais comuns em comentários neutros')
generate_wordcloud(df[df['sentiment'] == 1]['comment'], 'Palavras mais comuns em comentários positivos')

In [None]:
plot_comment_length_by_sentiment(df)

In [None]:
# chamada da função com df
analyze_word_frequency_pipeline(df)

In [None]:
plot_comment_length_sentiment_correlation(df)

In [None]:
plot_average_comment_length_by_sentiment(df)

# Bag of Words

## Função manual

A função `manual_bow` é projetada para construir manualmente uma matriz Bag of Words a partir de uma lista de documentos, onde cada documento é representado como uma lista de palavras (tokens). O processo de implementação envolve várias etapas que contribuem para a sua funcionalidade e precisão.

In [None]:
def manual_bow(docs):
    """
    Constrói uma matriz Bag of Words (BoW) manualmente a partir de uma lista de documentos.

    Args:
        docs (list of list of str): Uma lista de documentos, onde cada documento é uma lista de palavras (tokens).

    Returns:
        tuple: Uma tupla contendo a matriz BoW e o vocabulário ordenado.
    """
    # Construção do vocabulário com os documentos
    vocabulary = set(word for doc in docs for word in doc)
    vocabulary = sorted(vocabulary)
    
    # Criação do índice para cada palavra no vocabulário
    word_index = {word: i for i, word in enumerate(vocabulary)}

    # Construção da matriz 
    bow_matrix = []
    for doc in docs:
        doc_vec = [0] * len(vocabulary)
        for word in doc:
            if word in word_index:
                doc_vec[word_index[word]] += 1
        bow_matrix.append(doc_vec)
    return bow_matrix, vocabulary

# Verifica se o primeiro elemento na coluna 'comment' é uma string
# Se for uma string, aplica uma função para dividir a string em tokens
if isinstance(df['comment'].iloc[0], str):
    df['comment'] = df['comment'].apply(lambda x: x.split())

bow, vocab = manual_bow(df['comment'])

print("Bag of Words Matrix (excerpt) - manual:\n", bow[:20])
print("Vocabulary (excerpt) - manual:\n", vocab[:20])


## Utilizando a biblioteca _sklearn_

A função `sklearn_bow` é uma implementação da construção de uma matriz Bag of Words (BoW) utilizando o `CountVectorizer` padrão da biblioteca `scikit-learn`. Esta função é projetada para processar uma lista de documentos, onde cada documento é inicialmente uma lista de palavras (tokens), e os converte em uma matriz BoW padronizada e eficiente.

In [None]:
def sklearn_bow(docs):
    """
    Constrói uma matriz Bag of Words (BoW) usando o sklearn a partir de uma lista de documentos tokenizados.
    Cada documento deve ser uma lista de palavras (tokens), e esta função os converte de volta para strings.

    Args:
        docs (list of list of str): Uma lista de documentos, onde cada documento é uma lista de palavras (tokens).

    Returns:
        tuple: Uma tupla contendo a matriz BoW e o vocabulário ordenado.
    """
    # Converter cada documento de lista de tokens para uma string
    docs = [" ".join(doc) for doc in docs]

    # Inicializar o CountVectorizer
    vectorizer = CountVectorizer()

    # Ajustar o modelo ao documento e transformar os documentos em uma matriz BoW
    bow_matrix = vectorizer.fit_transform(docs).toarray()

    # Obter o vocabulário ordenado
    vocabulary = vectorizer.get_feature_names_out()

    return bow_matrix, vocabulary


## Utilizando Bigrams SkLearn

A função `sklearn_bow_bigrams` é uma implementação para construir uma matriz Bag of Words (BoW) usando o `CountVectorizer` do scikit-learn, especificamente configurado para incluir bigramas. Esta abordagem permite capturar mais contexto ao considerar combinações de duas palavras consecutivas, além dos unigramas comuns.

In [None]:
def sklearn_bow_bigrams(docs):
    """
    Constrói uma matriz Bag of Words (BoW) usando o sklearn a partir de uma lista de documentos tokenizados,
    utilizando n-gramas. Cada documento deve ser uma lista de palavras (tokens), e esta função os converte de volta para strings.

    Args:
        docs (list of str): Uma lista de documentos, onde cada documento é uma string de palavras (tokens).

    Returns:
        tuple: Uma tupla contendo a matriz BoW e o vocabulário ordenado.
    """
    # Remover documentos vazios
    docs = [doc for doc in docs if doc.strip() != '']

    # Inicializar o CountVectorizer para usar 1 a 4-gramas
    vectorizer = CountVectorizer(ngram_range=(1, 4))

    # Ajustar o modelo ao documento e transformar os documentos em uma matriz BoW
    bow_matrix = vectorizer.fit_transform(docs).toarray()

    # Obter o vocabulário ordenado
    vocabulary = vectorizer.get_feature_names_out()

    return bow_matrix, vocabulary


## Utilizando Tfidf

A função `sklearn_tfidf` é uma implementação para construir uma matriz TF-IDF (Term Frequency-Inverse Document Frequency) usando o `TfidfVectorizer` do scikit-learn. Este método é utilizado em análises de texto para avaliar a importância de uma palavra em um conjunto de documentos, considerando não apenas a frequência da palavra no documento, mas também sua raridade em toda a coleção de documentos.

In [None]:
def sklearn_tfidf(docs):
    """
    Constrói uma matriz TF-IDF (Term Frequency-Inverse Document Frequency) usando o sklearn a partir de uma lista de documentos tokenizados.
    Cada documento deve ser uma lista de palavras (tokens), e esta função os converte de volta para strings.

    Args:
        docs (list of list of str): Uma lista de documentos, onde cada documento é uma lista de palavras (tokens).

    Returns:
        tuple: Uma tupla contendo a matriz TF-IDF e o vocabulário ordenado.
    """
    # Converter cada documento de lista de tokens para uma string
    docs = [" ".join(doc) for doc in docs]

    # Inicializar o TfidfVectorizer
    vectorizer = TfidfVectorizer()

    # Ajustar o modelo ao documento e transformar os documentos em uma matriz TF-IDF
    tfidf_matrix = vectorizer.fit_transform(docs).toarray()

    # Obter o vocabulário ordenado
    vocabulary = vectorizer.get_feature_names_out()

    return tfidf_matrix, vocabulary

# Exemplo de uso da função
docs = [["this", "is", "the", "first", "document"], ["this", "document", "is", "the", "second", "document"], ["and", "this", "is", "the", "third", "one"]]
tfidf, vocab = sklearn_tfidf(docs)

print("TF-IDF Matrix:\n", tfidf)
print("Vocabulary:\n", vocab)


## Utilizando a biblioteca _keras_

A função `generate_bow_from_tokenized_docs` é uma implementação para a criação de uma matriz Bag of Words (BoW) utilizando o `Tokenizer` do Keras, uma ferramenta do TensorFlow voltada para o processamento de texto em projetos de deep learning. Esta função processa uma lista de documentos onde cada documento já está tokenizado, e os converte em uma matriz BoW junto com o vocabulário associado.

In [None]:
def generate_bow_from_tokenized_docs(docs):
    """
    Gera a matriz Bag of Words e o vocabulário a partir de documentos tokenizados usando o Tokenizer do Keras.

    Args:
        docs (list of list of str): Lista de documentos, onde cada documento é uma lista de tokens.

    Returns:
        tuple: Tupla contendo a matriz Bag of Words e o vocabulário.
    """
    # Assegura que cada lista de tokens seja convertida de volta para uma string
    docs_text = [' '.join(tokens) for tokens in docs]

    # Inicialização do Tokenizer
    tokenizer = Tokenizer()

    # Fit no texto processado para construir o vocabulário
    tokenizer.fit_on_texts(docs_text)

    # Geração do Bag of Words
    bow_keras = tokenizer.texts_to_matrix(docs_text, mode='count')

    # Obtenção do vocabulário com índices
    vocab_keras = {k: v for k, v in sorted(tokenizer.word_index.items(), key=lambda item: item[1])}

    return bow_keras, vocab_keras

# Exemplo de uso da função:
docs = [["this", "is", "the", "first", "document"], ["this", "document", "is", "the", "second", "document"], ["and", "this", "is", "the", "third", "one"]]
bow_keras, vocab_keras = generate_bow_from_tokenized_docs(docs)

print("Bag of Words Matrix (excerpt) - keras:\n", bow_keras[:20])  
print("Vocabulary (excerpt) - keras:\n", list(vocab_keras.items()))  


## Comparação entre os técnicas de processamento de texto (BoW)

Para a comparação dos modelos BoW (Bag of Words) realizados, considerasse alguns critérios de avaliação comuns. Dentre esses critérios foram selecionados: a completude do vocabulário, a densidade da matriz, a facilidade de implementação e uso e a integração com outras ferramentas de processamento de dados e aprendizado de máquina.

1. Completude do vocabulário:
    * Manual:  O vocabulário pode não incluir todas as palavras que um "CountVectorizer" ou "Tokenizer" do keras poderia extrair devido a diferenças na forma como tokens são contados ou até mesmo filtrados.
    * Sklearn: O "CountVectorizer" é mais robusto e trata de muitos aspectos do pré-processamento de texto, garantindo um vocabulário mais completo.
    * Keras: Similar ao sklearn, o "Tokenizer" da biblioteca keras é eficaz para extrair um vocabulário abrangente e acaba sendo ainda mais útil se o próximo passo envolver modelagem de deep learning.
    * Sklearn (Bigramas): Captura mais contexto ao incluir combinações de palavras adjacentes, aumentando a completude e relevância do vocabulário.
    * Sklearn (TF-IDF): Além de capturar o vocabulário, pondera as palavras pela sua raridade nos documentos, o que pode revelar termos distintivamente significativos.
2. Densidade da matriz:
    * Manual: Tende a produzir uma matriz com mais zeros, especialmente se o pré-processamento não é tão completo quanto os métodos automáticos.
    * Sklearn e Keras: Geralmente eles acabam produzindo matrizes mais semelhantes em termos de densidade, mas isso pode variar dependendo do pré-processamento aplicado antes da vetorização.
3. Facilidade de implementação e uso:
    * Manual: Requer mais código e cuidado para garantir que os aspectos sejam realizados corretamente.
    * Sklearn: Maior facilidade de usar e integrar com pipelines de machine learning existentes em Python, pela existência do ecossistema scikit-learn.
    * Keras: Também apresenta maior facilidade de uso, especialmente se integrado com modelos de deep learning, mas pode ser um pouco excessivo para tarefas simples de vetorização de texto, acaba sendo mais lento para se processar.
4. Integração com ferramentas de Machine Learning:
    * Manual: Pode ser menos compatível com algumas ferramentas avançadas de machine learning se não houver um trabalho adicional.
    * Sklearn: Ótima integração com outras ferramentas de machine learning em Python.
    * Keras: Ótima escolha se o projeto for evoluir para utilizar redes neurais e deep learning.

## Escolha do modelo

Para projetos de processamento de linguagem natural (NLP), como análise de sentimentos e classificação de texto, o uso do sklearn acaba sendo a melhor escolha devido à sua simplicidade e grande integração com o ecossistema Python para ciência de dados. A biblioteca sklearn possui uma variedade de ferramentas pré-construídas que simplificam a implementação de NLP, reduzindo a necessidade de codificação extensiva e facilitando a execução do projeto.

# Bert Vetorização - Embadding

In [None]:
df = pd.read_csv('../Notebooks/pipeline_comments.csv')
df.head()

O código define uma função bert_embeddings que usa o modelo BERT para converter uma lista de documentos de texto em uma matriz de embeddings. Cada documento é primeiro tokenizado e então transformado em um vetor de características pelo BERT, capturando o embedding da primeira token ([CLS]) para representar o documento inteiro. Os embeddings são acumulados e retornados como uma matriz numpy, onde cada linha corresponde ao embedding de um documento.

In [None]:
def bert_embeddings(docs):
    """
    Constrói uma matriz de embeddings usando o BERT a partir de uma lista de documentos.
    Cada documento deve ser uma string e esta função usa o BERT para gerar os embeddings.

    Args:
        docs (list of str): Uma lista de documentos, onde cada documento é uma string.

    Returns:
        numpy.ndarray: Uma matriz onde cada linha é o embedding de um documento.
    """
    # Carregar o tokenizer e o modelo BERT
    tokenizer = BertTokenizer.from_pretrained('bert-large-cased')
    model = BertModel.from_pretrained('bert-large-cased')

    # Tokenizar e criar embeddings para cada documento
    embeddings = []
    for doc in docs:
        inputs = tokenizer(doc, return_tensors='pt', truncation=True, padding=True, max_length=512)
        outputs = model(**inputs)
        # Pegar o embedding da [CLS] token (primeira posição)
        cls_embedding = outputs.last_hidden_state[:, 0, :].detach().numpy()
        embeddings.append(cls_embedding)
    
    # Converter a lista de embeddings em uma matriz numpy
    embeddings_matrix = np.vstack(embeddings)
    
    return embeddings_matrix

Foi usado um código para transformar listas de palavras em strings únicas na coluna 'comment' de um DataFrame df. Após essa transformação, foram impressos o número total de documentos na coluna 'comment' e o número total de sentimentos na coluna 'sentiment'.

In [None]:
df['comment'] = df['comment'].apply(lambda x: ' '.join(x))
print(f"Número de documentos: {len(df['comment'])}")
print(f"Número de sentimentos: {len(df['sentiment'])}")

Foi gerada uma matriz de embeddings dos comentários na coluna 'comment' do DataFrame df e foram impressas suas dimensões junto com o número total de sentimentos na coluna 'sentiment'.

In [None]:
embeddings_matrix = bert_embeddings(df['comment'].tolist())
# Verificar as  dimensões
print(f"Dimensões da matriz de embeddings: {embeddings_matrix.shape}")
print(f"Dimensões dos sentimentos: {len(df['sentiment'])}")

Foi gerado um array de sentimentos a partir da coluna 'sentiment' do DataFrame df.

In [None]:
sentiments = df['sentiment'].values

Foi usado um código para mapear os rótulos de sentimentos para classes numéricas começando de 0, utilizando o LabelEncoder do scikit-learn.

In [None]:
# Mapear os rótulos para classes começando de 0
label_encoder = LabelEncoder()
mapped_sentiments = label_encoder.fit_transform(sentiments)

# Modelos ML - Bow


## 1. Gerar o BoW

Nesta etapa, utilizamos funções criadas na seção de cima para criar um (BoW). Isso significa que montamos uma lista com todas as palavras diferentes que aparecem nas avaliações dos usuários sobre o Uber. Essa lista é importante porque nos ajuda a entender quais palavras são comuns e como elas estão distribuídas nos comentários. Com essa informação, podemos preparar os dados para treinar nosso modelo de análise de sentimentos.

In [None]:
# Gerar a matriz BoW e o vocabulário
bow, vocab = sklearn_bow_bigrams(df['comment'])

# Extrair a coluna de sentimentos
sentiments = df['sentiment'].values

## 2. Dividir os Dados em Conjuntos de Treino e Teste

Nessa fase, separamos os dados coletados em dois grupos: um para treinar nosso modelo e outro para testá-lo depois. Isso ajuda a garantir que nosso modelo aprenda com um conjunto de dados e seja capaz de fazer boas previsões sobre dados novos e desconhecidos.

In [None]:
# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(bow, sentiments, test_size=0.2, random_state=42)

## 3. Treinar os Modelos


Nesta etapa, usamos dois tipos diferentes de modelos para entender melhor os sentimentos expressos nas avaliações do Uber:

**Naive Bayes**

Este modelo é bom para lidar com palavras e textos. Ele assume que cada palavra contribui de forma independente para o sentimento da avaliação, o que nos ajuda a calcular a probabilidade de um comentário ser positivo ou negativo.

In [None]:
# Inicializar e treinar o modelo Naive Bayes
bayes_model = GaussianNB()
bayes_model.fit(X_train, y_train)

**Svm**

Este modelo tenta encontrar a melhor linha (ou fronteira) que separa os comentários positivos dos negativos. É como desenhar uma linha reta no meio de pontos em um gráfico para distinguir entre duas categorias.

In [None]:
svm_model = SVC(kernel='linear') 
svm_model.fit(X_train, y_train)

## 4. Avaliar o Modelo Naive Bayes


Após treinar nossos modelos, o próximo passo é testar como eles performam com dados que eles nunca viram antes. Para isso, seguimos estes passos:

1. **Prever os Sentimentos no Conjunto de Teste**: Usamos o modelo Naive Bayes, que foi treinado anteriormente, para prever os sentimentos nas avaliações do conjunto de teste. Essas previsões são armazenadas em `y_pred`.

2. **Calcular a Precisão**: A precisão é uma medida que nos diz qual porcentagem das previsões estava correta. Calculamos isso usando a função `accuracy_score`, comparando as previsões `y_pred` com as verdadeiras respostas `y_test`.

3. **Gerar e Imprimir o Relatório de Classificação**: O relatório de classificação fornece mais detalhes sobre a performance do modelo, como precisão, recall e a pontuação F1 para cada classe (positivo, negativo). Usamos a função `classification_report` para obter e imprimir este relatório.

Essas métricas nos ajudam a entender quão bem o modelo está trabalhando e em quais áreas ele pode ser melhorado.

In [None]:
# Prever os sentimentos no conjunto de teste
y_pred = bayes_model.predict(X_test)

# Calcular a precisão
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Gerar e imprimir o relatório de classificação
print(classification_report(y_test, y_pred))


## 5. Avaliar Modelo SVM

Depois de treinar o modelo SVM, precisamos verificar como ele se comporta com dados que não foram usados no treinamento. Veja os passos a seguir:

1. **Prever os Sentimentos no Conjunto de Teste**: Utilizamos o modelo SVM para fazer previsões sobre as avaliações no conjunto de teste. Guardamos essas previsões na variável `y_pred_svm`.

2. **Calcular a Precisão**: Para entender quão precisas são essas previsões, calculamos a precisão usando a função `accuracy_score`. Essa função compara as previsões `y_pred_svm` com as respostas reais `y_test` para calcular a porcentagem de acertos.

3. **Gerar e Imprimir o Relatório de Classificação**: Para uma análise mais detalhada, geramos um relatório de classificação com a função `classification_report`. Esse relatório mostra a precisão, o recall e a pontuação F1 para cada classe de sentimento (positivo, negativo). Isso nos ajuda a entender melhor as forças e fraquezas do modelo em classificar corretamente os sentimentos.

Esse processo ajuda a avaliar a eficácia do modelo SVM em identificar corretamente os sentimentos nas avaliações, fornecendo insights valiosos para possíveis ajustes no modelo.

In [None]:
# Prever os sentimentos no conjunto de teste
y_pred = svm_model.predict(X_test)

# Calcular a precisão
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Gerar e imprimir o relatório de classificação
print(classification_report(y_test, y_pred))

## Conclusão
O modelo SVM Linear, usando a técnica de bigrams no processo de BoW, foi o mais eficaz para a análise de sentimentos das avaliações do Uber. Essa abordagem alcançou uma precisão geral de 76.43% com resultados sólidos em todas as categorias de sentimentos. Continuaremos refinando o modelo para melhorar sua precisão e capacidade de generalização.

# Modelo ML + Bert

1. Divisão da base em treino e teste

In [None]:
# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(embeddings_matrix, mapped_sentiments, test_size=0.2, random_state=42)

**Modelo SVM**

In [None]:
svm_model = SVC(kernel='linear',  decision_function_shape='ovo')
svm_model.fit(X_train, y_train)

**Modelo XGBoost**

In [None]:
best_params = {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 200}
modelXgb = xgb.XGBClassifier(objective='multi:softmax', num_class=len(np.unique(mapped_sentiments)), **best_params)
modelXgb.fit(X_train, y_train)

**Modelo Regressão Logistica**

In [None]:
# Parâmetros para o modelo de Regressão Logística
best_params = {'C': 1.0, 'solver': 'lbfgs', 'max_iter': 100}
model_log_reg = LogisticRegression(**best_params)

# Treinamento do modelo com X_train e y_train
model_log_reg.fit(X_train, y_train)

**Modelo Gradiente Boosting Classifier**

In [None]:
# Parâmetros para o modelo Gradient Boosting
best_params = {'learning_rate': 0.2, 'n_estimators': 100, 'max_depth': 4}
model_gbm = GradientBoostingClassifier(**best_params)

# Treinamento do modelo com X_train e y_train
model_gbm.fit(X_train, y_train)


**Modelo - Rede neural**

In [None]:
# Criando o modelo de rede neural
model_nn = Sequential([
    Dense(128, activation='relu', input_dim=X_train.shape[1]),  # Camada de entrada
    Dense(64, activation='relu'),  # Camada oculta
    Dense(1, activation='sigmoid')  # Camada de saída
])

# Compilando o modelo
model_nn.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Treinamento do modelo
model_nn.fit(X_train, y_train, epochs=10, batch_size=32)


**Modelo LightGBM**

In [None]:
# Configurando parâmetros para LightGBM
params = {
    'boosting_type': 'gbdt',  # Tipo tradicional de gradient boosting decision tree
    'objective': 'binary',    # Objetivo de classificação binária, mudar para 'multiclass' se necessário
    'metric': 'binary_logloss',  # Métrica para avaliação de classificação binária
    'num_leaves': 31,         # Número de folhas em uma árvore
    'learning_rate': 0.05,    # Taxa de aprendizado
    'feature_fraction': 0.9,  # Fração de características a serem selecionadas aleatoriamente para cada árvore
    'bagging_fraction': 0.8,  # Fração de dados a serem usados em cada árvore
    'bagging_freq': 5         # Frequência de bagging
}

# Criando o dataset de treinamento para LightGBM
train_data = lgb.Dataset(X_train, label=y_train)

# Treinamento do modelo
model_lgbm = lgb.train(params, train_data, num_boost_round=200)


**Modelo LSTM**

In [None]:
# Parâmetros
input_dim = X_train.shape[1]  # Número de features (dependendo de como você processou seus embeddings)
output_dim = 25  # Dimensão de saída da camada Embedding
input_length = 50  # Comprimento da entrada (número de palavras/tokens por exemplo)

# Construindo o modelo
model_lstm = Sequential([
    Embedding(input_dim, output_dim, input_length=input_length),  # Camada de embedding para vetorizar
    LSTM(32),  # Camada LSTM com 128 unidades
    Dense(1, activation='sigmoid')  # Camada de saída para classificação binária
])

# Compilando o modelo
model_lstm.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Treinamento do modelo
model_lstm.fit(X_train, y_train, epochs=4, batch_size=8)


**Resultado - Modelo SVM**

In [None]:
# Prever os sentimentos no conjunto de teste
y_pred = svm_model.predict(X_test)

# Calcular a precisão
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Gerar e imprimir o relatório de classificação
print(classification_report(y_test, y_pred))

**Accuracy:** 0.7026431718061674

| Class | Precision | Recall | F1-Score | Support |
|-------|------------|--------|----------|---------|
| 0     | 0.79       | 0.80   | 0.80     | 254     |
| 1     | 0.52       | 0.45   | 0.48     | 126     |
| 2     | 0.68       | 0.78   | 0.73     | 74      |




**Resultado - Modelo XGBoost**

In [None]:
# Prever os sentimentos no conjunto de teste
y_pred = modelXgb.predict(X_test)

# Calcular a precisão
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Gerar e imprimir o relatório de classificação
print(classification_report(y_test, y_pred))

Accuracy: 0.7731277533039648

| Class | Precision | Recall | F1-Score | Support |
|-------|------------|--------|----------|---------|
| 0     | 0.84       | 0.79   | 0.82     | 254     |
| 1     | 0.59       | 0.70   | 0.64     | 126     |
| 2     | 0.94       | 0.84   | 0.89     | 74      |


**Resultado - Modelo Regressão Logistica**

In [None]:
# Prever os sentimentos no conjunto de teste
y_pred = model_log_reg.predict(X_test)

# Calcular a precisão
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Gerar e imprimir o relatório de classificação
print(classification_report(y_test, y_pred))

Accuracy: 0.73568281938326

| Class | Precision | Recall | F1-Score | Support |
|-------|------------|--------|----------|---------|
| 0     | 0.82       | 0.83   | 0.83     | 254     |
| 1     | 0.58       | 0.56   | 0.57     | 126     |
| 2     | 0.68       | 0.70   | 0.69     | 74      |


**Resultado - Modelo GBM**

In [None]:
# Prever os sentimentos no conjunto de teste
y_pred = model_gbm.predict(X_test)

# Calcular a precisão
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Gerar e imprimir o relatório de classificação
print(classification_report(y_test, y_pred))

Accuracy: 0.7533039647577092

| Class | Precision | Recall | F1-Score | Support |
|-------|------------|--------|----------|---------|
| 0     | 0.83       | 0.78   | 0.81     | 254     |
| 1     | 0.55       | 0.69   | 0.61     | 126     |
| 2     | 0.98       | 0.76   | 0.85     | 74      |


**Resultado - Modelo Rede Neural**

In [None]:
# Prever os sentimentos no conjunto de teste
y_pred = model_nn.predict(X_test)

# Converter probabilidades em classes binárias baseadas em um limiar (0.5)
y_pred_classes = (y_pred > 0.5).astype(int)

# Calcular a precisão
accuracy = accuracy_score(y_test, y_pred_classes)
print("Accuracy:", accuracy)

# Gerar e imprimir o relatório de classificação
print(classification_report(y_test, y_pred_classes))


Accuracy: 0.6277533039647577

| Class | Precision | Recall | F1-Score | Support |
|-------|------------|--------|----------|---------|
| 0     | 0.94       | 0.66   | 0.77     | 254     |
| 1     | 0.43       | 0.94   | 0.59     | 126     |
| 2     | 0.00       | 0.00   | 0.00     | 74      |


**Resultado - Modelo LGBM**

In [None]:
y_pred = model_lgbm.predict(X_test)
y_pred_classes = (y_pred > 0.5).astype(int)  # Convertendo probabilidades para classes binárias

# Avaliar o modelo
accuracy = accuracy_score(y_test, y_pred_classes)
print("Accuracy:", accuracy)
print(classification_report(y_test, y_pred_classes))

Accuracy: 0.6365638766519823

| Class | Precision | Recall | F1-Score | Support |
|-------|------------|--------|----------|---------|
| 0     | 0.88       | 0.74   | 0.81     | 254     |
| 1     | 0.42       | 0.79   | 0.55     | 126     |
| 2     | 0.00       | 0.00   | 0.00     | 74      |


**Resultado - Modelo LSTM**

In [None]:
# Previsão dos rótulos no conjunto de teste
y_pred_probs = model_lstm.predict(X_test)
y_pred = (y_pred_probs > 0.5).astype(int)

# Cálculo das métricas
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Gerando e imprimindo o relatório de classificação
report = classification_report(y_test, y_pred)
print(report)

Accuracy: 0.29955947136563876

| Class | Precision | Recall | F1-Score | Support |
|-------|------------|--------|----------|---------|
| 0     | 0.86       | 0.05   | 0.09     | 254     |
| 1     | 0.28       | 0.98   | 0.44     | 126     |
| 2     | 0.00       | 0.00   | 0.00     | 74      |


# Exportar Modelo - ML + Bert

Para salvar o modelo, utilizamos dois métodos. Primeiro, salvamos os pesos do modelo em um arquivo .h5 usando model.save_weights. Em seguida, exportamos a arquitetura do modelo em formato JSON, salvando-a em um arquivo .json com model.to_json.

In [None]:
best_params = {'learning_rate': 0.1, 'max_depth': 4, 'n_estimators': 200}
modelXgb = xgb.XGBClassifier(objective='multi:softmax', num_class=len(np.unique(mapped_sentiments)), **best_params)
modelXgb.fit(X_train, y_train)

In [None]:
# Salvando o modelo treinado
with open('trained_model_gbm.pkl', 'wb') as f:
    pickle.dump(modelXgb, f)

In [None]:
def pipeline_test(text):
    text = remove_urls(text)
    tokens = tokenize_text(text)
    tokens = lemmatize_tokens_with_pos(tokens)
    tokens = remove_punctuation_from_tokens(tokens)
    tokens = remove_numbers_from_tokens(tokens)
    tokens = remove_stopwords_preserve_adverbs(tokens)
    tokens = filter_empty_tokens(tokens)
    tokens = spell_checker(tokens)
    return tokens

# Exemplo de uso
sample_text = "i dont like this uber guuys"
pipeline_test(sample_text)



In [None]:
spell_checker("I don't like uber")

In [None]:
# texto_processado = filter_empty_tokens(remove_stopwords(remove_numbers_from_tokens(remove_punctuation_from_tokens(lemmatize_tokens_with_pos(tokenize_text(remove_urls(texto)))))))
pipeline_test("I very hates uber hates")

In [None]:
def load_trained_model(model_path):
    with open(model_path, 'rb') as model_file:
        trained_model = pickle.load(model_file)
    return trained_model

def bert_embeddings(docs):
    tokenizer = BertTokenizer.from_pretrained('bert-large-cased')
    model_bert = BertModel.from_pretrained('bert-large-cased')
    embeddings = []
    for doc in docs:
        inputs = tokenizer(doc, return_tensors='pt', truncation=True, padding=True, max_length=512)
        outputs = model_bert(**inputs)
        cls_embedding = outputs.last_hidden_state[:, 0, :].detach().numpy()
        embeddings.append(cls_embedding)
    embeddings_matrix = np.vstack(embeddings)
    return embeddings_matrix

def fazer_predicao(modelo, texto):
    texto_processado = pipeline_test(texto)
    embeddings_texto = bert_embeddings([texto_processado])
    print(texto_processado)
    predicoes = modelo.predict(embeddings_texto)
    return predicoes

# Carregar o modelo treinado
trained_model_path = 'trained_model_gbm.pkl'
trained_model = load_trained_model(trained_model_path)

# Fazer uma predição
texto = "Wow, @Uber never ceases to impress. Needed a quick ride to the airport and they delivered. Fast and reliable as always! #Impressed"
predicted_class = fazer_predicao(trained_model, texto)
print(f"Predicted class: {predicted_class}")

# Exportar Modelo - Bigrams + ML

In [None]:
def pipeline_test(text):
    text = remove_urls(text)
    tokens = tokenize_text(text)
    tokens = lemmatize_tokens_with_pos(tokens)
    tokens = remove_punctuation_from_tokens(tokens)
    tokens = remove_numbers_from_tokens(tokens)
    tokens = remove_stopwords_preserve_adverbs(tokens)
    tokens = filter_empty_tokens(tokens)
    tokens = spell_checker(tokens)
    return tokens

# Exemplo de uso
sample_text = "i dont like this uber guuys"
pipeline_test(sample_text)

In [None]:
# Carregar os dados
df = pd.read_csv('../Notebooks/pipeline_comments.csv')

# Função para vetorização usando bigramas
def sklearn_bow_bigrams(docs):
    vectorizer = CountVectorizer(ngram_range=(1, 4))
    bow_matrix = vectorizer.fit_transform(docs)
    return bow_matrix, vectorizer

# Gerar matriz BoW usando a coluna 'comment'
X, vectorizer = sklearn_bow_bigrams(df['comment'])

# Dividir o dataset em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, df['sentiment'], test_size=0.2, random_state=42)

# Treinar o modelo SVM
model = SVC(kernel='linear', decision_function_shape='ovo')
model.fit(X_train, y_train)


In [None]:
# Salvar o modelo e o vetorizador em um arquivo pickle
with open('svm_model.pkl', 'wb') as file:
    pickle.dump(model, file)

with open('vectorizer.pkl', 'wb') as file:
    pickle.dump(vectorizer, file)


In [None]:
# Carregar o modelo e o vetorizador do arquivo pickle
with open('svm_model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)

with open('vectorizer.pkl', 'rb') as file:
    loaded_vectorizer = pickle.load(file)


In [None]:
# Suponha que temos um novo comentário para previsão
new_comment = "Felt very unsafe in my @Uber ride tonight. The driver was driving recklessly. Not what I expected from a top-rated service. #safetyfirst"

texto_processado = pipeline_test(new_comment)

print(texto_processado)

# Vetorizar o novo comentário usando o vetorizador carregado
# Convertendo a string em uma lista antes de vetorizar
new_comment_vectorized = loaded_vectorizer.transform([texto_processado])

# Usar o modelo carregado para fazer previsões
prediction = loaded_model.predict(new_comment_vectorized)

# Exibir a previsão
print(f"Previsão para o comentário: {prediction[0]}")


In [None]:
# Supondo que 'model' é o seu modelo treinado e 'X_test', 'y_test' são seus dados de teste

# Prever os sentimentos no conjunto de teste
y_pred = model.predict(X_test)

# Calcular a precisão
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

# Gerar e imprimir o relatório de classificação
print(classification_report(y_test, y_pred))

# Rótulos reais usados no dataset
labels = [-1, 0, 1]

# Criar a matriz de confusão com rótulos específicos
conf_matrix = confusion_matrix(y_test, y_pred, labels=labels)

# Plotar a matriz de confusão usando Seaborn
plt.figure(figsize=(10, 7))
sns.heatmap(conf_matrix, annot=True, fmt='g', cmap='Blues', cbar=False, xticklabels=labels, yticklabels=labels)
plt.xlabel('Predicted Labels')
plt.ylabel('True Labels')
plt.title('Confusion Matrix')
plt.show()
