# Instalação e Importação das Bibliotecas

Na seção "Instalação e Importação das Bibliotecas", prepara-se o ambiente de codificação configurando e carregando as bibliotecas necessárias para o projeto. Esta seção é importante pelos seguintes motivos:

1. **Instalação de Bibliotecas**: Utilizam-se comandos como `%pip install nome_da_biblioteca` para instalar bibliotecas Python que não estão presentes por padrão no ambiente de execução, mas que são essenciais para a execução do código. Este comando mágico oferece uma integração mais direta com o IPython, garantindo que as instalações ocorram no kernel correto do Python utilizado pelo Jupyter.

2. **Importação de Bibliotecas**: Após a instalação, as bibliotecas são importadas usando o comando `import`, permitindo o acesso às funções e ferramentas disponibilizadas por elas. Comandos típicos incluem `import numpy as np` e `import pandas as pd`. Esta prática garante que todas as funcionalidades necessárias estejam disponíveis e prontas para uso nas seções subsequentes do notebook.

Esta seção é posicionada no início do notebook para assegurar que todas as dependências estejam corretamente configuradas antes de prosseguir com a análise de dados ou modelagem.

In [1]:
# Instalação de "Bibliotecas Mágicas"
%pip install pandas
%pip install numpy
%pip install nltk
%pip install emoji
%pip install wordcloud
%pip install emot
%pip install imbalanced-learn
%pip install matplotlib
%pip install scikit-learn

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [2]:
# Importação de Bibliotecas
import pandas as pd
import emoji 
import matplotlib.pyplot as plt
import re
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.tokenize import word_tokenize
from emot.emo_unicode import UNICODE_EMOJI  
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report
from imblearn.pipeline import make_pipeline as make_pipeline_imb
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_curve, roc_auc_score
from wordcloud import WordCloud
from collections import Counter


In [3]:
# Recursos necessários para pré-processamento
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Inteli\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Inteli\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Inteli\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Inteli\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

# Análise Descritiva dos Dados

Na seção "Análise Descritiva dos Dados", realiza-se uma investigação inicial dos dados fornecidos pela Uber, dividindo a análise em duas subseções principais:

1. **Análise de Dados Iniciais**: Esta parte concentra-se na exploração inicial dos dados conforme recebidos, antes de qualquer manipulação ou limpeza. Examina-se a estrutura geral dos dados, incluindo tipos de dados, presença de valores ausentes, e estatísticas descritivas básicas. Também se realiza uma visualização preliminar das distribuições e relações entre variáveis. Esta análise é importante para entender o ponto de partida do conjunto de dados e identificar possíveis desafios que podem surgir durante o pré-processamento.

2. **Análise de Dados Processados**: Após a aplicação de etapas de pré-processamento, como limpeza, retirada de stop-words, e *oversample* (estratégia de aumento de dados minoritários realizado nessa seção), esta subseção avalia como os dados foram transformados e o impacto dessas mudanças. Inclui-se a revisão de estatísticas descritivas pós-processamento, comparação de distribuições antes e depois da limpeza, e uma nova avaliação de correlações entre as variáveis. O objetivo é assegurar que os dados estejam prontos para a modelagem.

Este resumo destaca os tópicos principais da análise dos dados. Para visualizações detalhadas e análises mais aprofundadas, consulte a seção 4. Análise Descritiva dos Dados na documentação completa, disponível em [este link](https://github.com/Inteli-College/2024-1B-T10-SI06-G03/blob/main/docs/documentacao.md#c4).

## Análise dos Dados Iniciais

### Análise das Colunas

- **Avaliação das Colunas**: Exibe as características e o conteúdo de cada coluna no conjunto de dados.

In [None]:
# Carregar o arquivo para ver as primeiras linhas e descobrir a estrutura
file_path = 'classification-labeled.csv'

# Ler as primeiras linhas do arquivo como texto puro para identificar o delimitador
with open(file_path, 'r', encoding='ISO-8859-1') as file:
    lines = [file.readline() for _ in range(5)]

lines

In [None]:
# Carregar os dados
classification_labeled = pd.read_csv('classification-labeled.csv', delimiter=';', encoding='ISO-8859-1')
classification_labeled.head()

### Organização dos Dados:

- **Remoção da Coluna de ID**: Elimina a coluna 'id' do conjunto de dados.
- **Contagem de Palavras por Frase**: Calcula e registra o número de palavras em cada frase.
- **Contagem de Emojis por Frase**: Identifica e conta os emojis presentes em cada frase.
- **Consolidação das Métricas**: Agrega todas as métricas acima em uma única tabela para análise.

In [None]:
# O código a seguir remove a coluna de ID

def remove_column(dataframe, column_name):
    """
    Remove uma coluna específica de um DataFrame pandas.

    Input:
    dataframe (pd.DataFrame): O DataFrame do qual a coluna será removida.
    column_name (str): O nome da coluna a ser removida.

    Output:
    pd.DataFrame: O DataFrame com a coluna especificada removida.

    """
    dataframe.drop(columns=column_name, inplace=True)
    return dataframe

# Carregar os dados do arquivo CSV
classification_labele = pd.read_csv('classification-labeled.csv', delimiter=';', encoding='ISO-8859-1')

# Excluir a coluna 'id' usando a função definida
classification_labele = remove_column(classification_labele, 'id')

# Exibir as primeiras linhas do DataFrame para verificar se a coluna foi removida corretamente
print(classification_labele.head())

In [None]:
# O código a seguir conta a quantidade de palavras por frase do banco de dados

def word_count(texto):
    """
    Conta o número de palavras em uma string fornecida.

    Inputs:
    texto (str): Uma string da qual as palavras serão contadas.

    Outputs: int: O número de palavras na string.
    """
    return len(texto.split())

# Aplicar a função à coluna 'comment' e criar uma nova coluna 'word_counter'
classification_labele['word_counter'] = classification_labele['comment'].apply(word_count)

# Calcular a média de palavras na coluna 'word_counter'
media_words = classification_labele['word_counter'].mean()

# Mostrar as primeiras linhas do DataFrame para verificar a aplicação da contagem de palavras
print(classification_labele[['comment', 'word_counter']].head())

# Mostrar a média de palavras por frase na coluna 'comment'
print(f"\nA média de palavras por frase na coluna 'comment' é: {media_words:.2f}")

In [None]:
# O código a seguir conta a quantidade de emojis por frase do banco de dados

def account_emojis(texto):
    """
    Conta o número de emojis em uma string fornecida.

    inputs: texto (str): Uma string da qual os emojis serão contados.

    Outputs: int: O número de emojis na string.
    """
    return emoji.emoji_count(texto)

# Aplicar a função à coluna 'comment' para contar emojis
classification_labele['count_emojis'] = classification_labele['comment'].apply(account_emojis)

# Mostrar as primeiras linhas do DataFrame para verificar a aplicação da contagem de emojis
print(classification_labele[['comment', 'count_emojis']].head())

# Calcular a média de emojis na coluna 'count_emojis'
media_emojis = classification_labele['count_emojis'].mean()

# Mostrar a média de emojis por frase na coluna 'comment'
print(f"\nA média de emojis por frase na coluna 'comment' é: {media_emojis:.2f}")

In [None]:
# O código a seguir une em uma tabela todas as métricas realizadas acima
 
# Aplicar a função à coluna 'comment' e criar uma nova coluna 'word_counter'
classification_labele['word_counter'] = classification_labele['comment'].apply(word_count)

# Salvar a base de dados com as alterações para a realização da Visualização Gráfica
classification_labele.to_csv('classification-labeled_with_word_counter.csv', index=False)

classification_labele.head()

### Visualização Gráfica dos Dados Iniciais

- **Contagem de Valores Nulos**: Cria tabelas para visualizar a quantidade de valores nulos em cada coluna.
- **Nuvem de Palavras**: Configura e exibe uma nuvem de palavras com os termos mais frequentes.
- **Ocorrência de Sentimentos**: Contabiliza e visualiza a frequência de cada categoria de sentimento.
- **Relação entre Tamanho da Frase e Sentimento**: Mostra graficamente como o tamanho das frases se relaciona com a classificação de sentimentos.
- **Análise de Sentimentos das Palavras Frequentes**: Visualiza a classificação de sentimentos das vinte palavras mais comuns.



In [None]:
# Carregar o arquivo CSV com a contagem de palavras
classification_labeled_with_word_counter = pd.read_csv('classification-labeled_with_word_counter.csv')
classification_labeled_with_word_counter.head()

In [None]:
# Contar valores nulos em cada coluna
null_values = classification_labeled_with_word_counter.isnull().sum()

# Criar gráfico de barras
plt.figure(figsize=(10, 5))
null_values.plot(kind='bar', color='skyblue')
plt.title('Valores Nulos por Coluna')
plt.xlabel('Colunas')
plt.xticks(rotation=0, ha='right')
plt.ylabel('Quantidade de Valores Nulos')
plt.grid(axis='y', linestyle='--', alpha=1)
plt.tight_layout()
plt.show()


In [None]:
# Visualização das palavras mais frequentes do banco de dados em uma Nuvem de Palavras

# Concatenando todos os comentários em uma única string
comments = classification_labeled_with_word_counter['comment'].values.tolist()
all_comments = " ".join(comment for comment in comments)

# Configurando a nuvem de palavras
wordcloud = WordCloud(width=800, height=400, background_color='white', colormap='viridis', 
                      max_words=100, prefer_horizontal=1.0).generate(all_comments)

# Plotando a nuvem de palavras
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

In [None]:
# Verifica a quantidade de comentários por sentimento

# Contando a ocorrência de cada sentimento
sentiment_counts = classification_labeled_with_word_counter['sentiment'].value_counts()

# Plotando o gráfico de barras
plt.figure(figsize=(8, 6))
sentiment_counts.plot(kind='bar', color=['red', 'gray', 'green'])
plt.title('Distribuição dos Sentimentos')
plt.xlabel('Sentimento')
plt.ylabel('Número de Comentários')
plt.xticks([0, 1, 2], ['Negativo', 'Neutro', 'Positivo'], rotation=0)
plt.show()

In [None]:
# Verifica a relação entre tamanho da frase e a classificação de sentimento

# Definir uma função para contar as palavras em cada comentário
def word_count(texto):
    """
    Conta o número de palavras em uma string fornecida.

    Inputs:
    texto (str): Uma string da qual as palavras serão contadas.

    Outputs: int: O número de palavras na string.
    """
    return len(texto.split())

# Aplicar a função à coluna 'comment' e criar uma nova coluna 'word_counter'
classification_labeled_with_word_counter['word_counter'] = classification_labeled_with_word_counter['comment'].apply(word_count)

# Definir os intervalos de tamanho das frases
bins = [0, 10, 20, 30, 40, 50, 60, 70]

# Criar uma nova coluna para armazenar os intervalos de tamanho das frases
classification_labeled_with_word_counter['phrase_length_bins'] = pd.cut(classification_labeled_with_word_counter['word_counter'], bins=bins, right=False)

# Calculando a contagem de cada classe de sentimento dentro de cada intervalo
sentiment_counts = classification_labeled_with_word_counter.groupby(['phrase_length_bins', 'sentiment']).size().unstack(fill_value=0)

# Definindo as cores para os sentimentos negativo, neutro e positivo, respectivamente
colors = ['red', 'gray', 'green']

# Plotando o gráfico de barras empilhadas com as cores personalizadas
sentiment_counts.plot(kind='bar', stacked=True, figsize=(12, 6), color=colors)

# Adicionando título e rótulos aos eixos
plt.title('Relação entre Tamanho da Frase e Classificação de Sentimento')
plt.xlabel('Tamanho da Frase')
plt.ylabel('Contagem')

# Rotacionando os rótulos do eixo x para melhor visualização
plt.xticks(rotation=45)

# Adicionando legenda
plt.legend(title='Sentimento', bbox_to_anchor=(1.05, 1), loc='upper left')

# Exibindo o gráfico
plt.show()


In [None]:
# Gráfico qu eclassifica o sentimento relacionado às 20 palavras mais frequentes

# Contar a frequência de todas as palavras nos comentários
word_freq = Counter(' '.join(classification_labeled_with_word_counter['comment']).split())

# Selecionar as dez palavras mais frequentes
top_words = [word[0] for word in word_freq.most_common(20)]

# Criar um dicionário para armazenar as contagens de sentimentos para cada palavra
word_sentiment_counts = {word: {'Positive': 0, 'Neutral': 0, 'Negative': 0} for word in top_words}

# Preencher o dicionário com as contagens de sentimentos para cada palavra
for word in top_words:
    for index, row in classification_labeled_with_word_counter.iterrows():
        if word.lower() in row['comment'].lower():
            sentiment = row['sentiment']
            if sentiment == 1:
                word_sentiment_counts[word]['Positive'] += 1
            elif sentiment == 0:
                word_sentiment_counts[word]['Neutral'] += 1
            elif sentiment == -1:
                word_sentiment_counts[word]['Negative'] += 1

# Criar um DataFrame a partir do dicionário
word_sentiment_classification_labeled_with_word_counter = pd.DataFrame(word_sentiment_counts).T

# Definindo as cores para os sentimentos negativo, neutro e positivo, respectivamente
colors = ['green', 'gray', 'red']

# Plotar um gráfico de barras empilhadas com as cores personalizadas
word_sentiment_classification_labeled_with_word_counter.plot(kind='bar', stacked=True, figsize=(10, 6), color=colors)
plt.title('Classificação de Sentimentos das Vinte Palavras Mais Frequentes')
plt.xlabel('Palavra')
plt.ylabel('Contagem de Palavras por Sentimentos')
plt.legend(title='Sentimento')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()


### Modelo Naive Bayes

- **Modelo de Naive Bayes**: Utilizou-se o modelo Naive Bayes para estabelecer uma linha de base de desempenho com os dados não processados. Esta etapa foi executada para proporcionar uma métrica inicial de análise e comparação, permitindo avaliar o impacto das etapas subsequentes de pré-processamento nos resultados do modelo.

In [None]:
# Substituir valores NaN por strings vazias
classification_labele['comment'].fillna('', inplace=True)

# Define as variáveis independentes e dependentes
X = classification_labele['comment']   # Textos
y = classification_labele['sentiment'] # Labels de sentimento

# Divide os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criação do pipeline com SMOTE, TF-IDF e Naive Bayes
pipeline = make_pipeline_imb(
    TfidfVectorizer(),
    SMOTE(random_state=42),
    MultinomialNB()
)

# Define o grid de hiperparâmetros para GridSearchCV
param_grid = {
    'tfidfvectorizer__ngram_range': [(1, 1), (1, 2), (1, 3)],  # Unigrams, bigrams, and trigrams
    'tfidfvectorizer__max_df': [0.5, 0.75, 1.0],
    'tfidfvectorizer__min_df': [1, 2, 3],
    'multinomialnb__alpha': [0.01, 0.1, 1]  # Suavização aditiva (Laplace/Lidstone)
}

# Configuração do GridSearchCV
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy', verbose=1)
grid_search.fit(X_train, y_train)

# Imprime a melhor acurácia encontrada e os parâmetros correspondentes
print("Melhor acurácia de validação cruzada: {:.2f}%".format(grid_search.best_score_ * 100))
print("Melhores parâmetros:", grid_search.best_params_)

# Avalia o modelo no conjunto de teste
y_pred = grid_search.predict(X_test)
print("Acurácia no conjunto de teste:", (y_test == y_pred).mean() * 100, "%")

# Relatório de classificação
print(classification_report(y_test, y_pred))

## Análise dos Dados Processados

### Oversample

- **Implementação do Oversample**: Baseando-se nos insights adquiridos na "Análise dos Dados Iniciais", optou-se por aplicar a técnica de oversample. Esta abordagem visa aumentar a quantidade de representantes das classes minoritárias no conjunto de dados, proporcionando um equilíbrio melhor entre as classes.

- **Aplicação Pós-Pré-processamento**: A técnica de oversample foi implementada após o pré-processamento dos dados. Esta sequência permite uma comparação efetiva do impacto do oversample nos dados já tratados e normalizados.

- **Exclusão em Análises Específicas**: É importante destacar que o oversample *não* é aplicado na seção de "Bag of Words" nem na análise das métricas relacionadas a esta técnica. 

In [None]:
# Carregar o dataset
processed_text_data = pd.read_csv('processed_text_data.csv')

# Substituir valores NaN por strings vazias
processed_text_data['processed_text'].fillna('', inplace=True)

# Separar os dados em features e target
X = processed_text_data['processed_text']
y = processed_text_data['sentiment']

# Vetorizar o texto processado
vectorizer = CountVectorizer()
X_vectorized = vectorizer.fit_transform(X)

# Aplicar SMOTE para balancear os dados
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X_vectorized, y)

# Converter a matriz esparsa de volta para texto 
X_resampled_text = vectorizer.inverse_transform(X_resampled)

# Criar um DataFrame com os dados resampleados
data_resampled = pd.DataFrame({
    'processed_text': [' '.join(text) for text in X_resampled_text],  # Simplificado para sempre juntar o texto
    'sentiment': y_resampled
})

# Visualizar a distribuição dos sentimentos
print('Distribuição dos sentimentos após o oversampling:', pd.Series(y_resampled).value_counts())


In [None]:
# Salvando os dados processados em um novo arquivo CSV
data_resampled.to_csv('oversampled_text_data.csv', index=False)

### Análise das Colunas
- **Avaliação das Colunas**: Exibe as características e o conteúdo de cada coluna no conjunto de dados.

In [None]:
# Carregar o arquivo para ver as primeiras linhas e descobrir a estrutura
file_path = 'oversampled_text_data.csv'

# Ler as primeiras linhas do arquivo como texto puro para identificar o delimitador
with open(file_path, 'r', encoding='ISO-8859-1') as file:
    lines = [file.readline() for _ in range(5)]

lines

In [None]:
# Carregar os dados
oversampled_text_data = pd.read_csv('oversampled_text_data.csv')
oversampled_text_data.head()

### Organização dos Dados

- **Contagem de Palavras por Frase**: Calcula e registra o número de palavras em cada frase.

*Nota*: Não foi necessário realizar as etapas de Remoção da Coluna de ID, pois essa já não contém no banco de dados trabalhado. Bem como contagem de emojis por frase, pois estes foram retirados durante o pré-processamento.

In [None]:
def word_count(texto):
    """
    Conta o número de palavras em uma string fornecida, tratando possíveis valores não-string.

    Inputs:
    texto (str): Uma string da qual as palavras serão contadas.

    Outputs:
    int: O número de palavras na string, ou 0 se o input não for uma string.
    """
    if isinstance(texto, str):
        return len(texto.split())
    return 0

oversampled_text_data['word_counter'] = oversampled_text_data['processed_text'].apply(word_count)

# Calcular a média de palavras na coluna 'word_counter'
media_words = oversampled_text_data['word_counter'].mean()

# Mostrar as primeiras linhas do DataFrame para verificar a aplicação da contagem de palavras
oversampled_text_data = oversampled_text_data[['processed_text', 'sentiment', 'word_counter']]
print(oversampled_text_data.head())

# Mostrar a média de palavras por frase na coluna 'processed_text'
print(f"\nA média de palavras por frase na coluna 'processed_text' é: {media_words:.2f}")



### Visualização Gráfica dos Dados Processados 

- **Contagem de Valores Nulos**: Cria tabelas para visualizar a quantidade de valores nulos em cada coluna.
- **Nuvem de Palavras**: Configura e exibe uma nuvem de palavras com os termos mais frequentes.
- **Ocorrência de Sentimentos**: Contabiliza e visualiza a frequência de cada categoria de sentimento.
- **Relação entre Tamanho da Frase e Sentimento**: Mostra graficamente como o tamanho das frases se relaciona com a classificação de sentimentos.
- **Análise de Sentimentos das Palavras Frequentes**: Visualiza a classificação de sentimentos das vinte palavras mais comuns.

Todos para os dados pré-processados.

In [None]:
# Contar valores nulos em cada coluna
null_values = oversampled_text_data.isnull().sum()

# Criar gráfico de barras
plt.figure(figsize=(10, 5))
null_values.plot(kind='bar', color='skyblue')
plt.title('Valores Nulos por Coluna')
plt.xlabel('Colunas')
plt.xticks(rotation=0, ha='right')
plt.ylabel('Quantidade de Valores Nulos')
plt.grid(axis='y', linestyle='--', alpha=1)
plt.tight_layout()
plt.show()

In [None]:
# Visualização das palavras mais frequentes do banco de dados em uma Nuvem de Palavras

# Filtrando os textos processados para garantir que sejam strings
processed_texts = [str(processed_text) for processed_text in oversampled_text_data['processed_text'].values.tolist()]

# Concatenando todos os comentários processados em uma única string
all_processed_texts = " ".join(processed_text for processed_text in processed_texts)

# Configurando a nuvem de palavras
wordcloud = WordCloud(width=800, height=400, background_color='white', colormap='viridis', 
                      max_words=100, prefer_horizontal=1.0).generate(all_processed_texts)

# Plotando a nuvem de palavras
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Nuvem de Palavras dos Comentários Processados')
plt.show()


In [None]:
# Verifica a quantidade de comentários por sentimento

# Contando a ocorrência de cada sentimento
sentiment_counts = oversampled_text_data['sentiment'].value_counts()

# Plotando o gráfico de barras
plt.figure(figsize=(8, 6))
sentiment_counts.plot(kind='bar', color=['red', 'gray', 'green'])
plt.title('Distribuição dos Sentimentos')
plt.xlabel('Sentimento')
plt.ylabel('Número de Comentários')
plt.xticks([0, 1, 2], ['Negativo', 'Neutro', 'Positivo'], rotation=0)
plt.show()

In [None]:
# Verifica a relação entre tamanho da frase e a classificação de sentimento

# Definir os intervalos de tamanho das frases
bins = [0, 10, 20, 30, 40, 50, 60, 70]

# Criar uma nova coluna para armazenar os intervalos de tamanho das frases
oversampled_text_data['phrase_length_bins'] = pd.cut(oversampled_text_data['word_counter'], bins=bins, right=False)

# Calculando a contagem de cada classe de sentimento dentro de cada intervalo
sentiment_counts = oversampled_text_data.groupby(['phrase_length_bins', 'sentiment']).size().unstack(fill_value=0)

# Definindo as cores para os sentimentos negativo, neutro e positivo, respectivamente
colors = ['red', 'gray', 'green']

# Plotando o gráfico de barras empilhadas com as cores personalizadas
sentiment_counts.plot(kind='bar', stacked=True, figsize=(12, 6), color=colors)

# Adicionando título e rótulos aos eixos
plt.title('Relação entre Tamanho da Frase e Classificação de Sentimento')
plt.xlabel('Tamanho da Frase')
plt.ylabel('Contagem')

# Rotacionando os rótulos do eixo x para melhor visualização
plt.xticks(rotation=45)

# Adicionando legenda
plt.legend(title='Sentimento', bbox_to_anchor=(1.05, 1), loc='upper left')

# Exibindo o gráfico
plt.show()


In [None]:
# Gráfico qu eclassifica o sentimento relacionado às 20 palavras mais frequentes

# Convertendo todos os valores para strings antes de unir
word_freq = Counter(' '.join(str(text) for text in oversampled_text_data['processed_text'] if pd.notnull(text)).split())

# Selecionar as dez palavras mais frequentes
top_words = [word[0] for word in word_freq.most_common(20)]

# Criar um dicionário para armazenar as contagens de sentimentos para cada palavra
word_sentiment_counts = {word: {'Positive': 0, 'Neutral': 0, 'Negative': 0} for word in top_words}

# Preencher o dicionário com as contagens de sentimentos para cada palavra
for word in top_words:
    for index, row in oversampled_text_data.iterrows():
        # Verificar se o valor não é nulo
        if pd.notnull(row['processed_text']):
            # Converter para minúsculas e verificar a presença da palavra
            if word.lower() in str(row['processed_text']).lower():
                sentiment = row['sentiment']
                if sentiment == 1:
                    word_sentiment_counts[word]['Positive'] += 1
                elif sentiment == 0:
                    word_sentiment_counts[word]['Neutral'] += 1
                elif sentiment == -1:
                    word_sentiment_counts[word]['Negative'] += 1

# Criar um DataFrame a partir do dicionário
word_sentiment_df = pd.DataFrame(word_sentiment_counts).T

# Definindo as cores para os sentimentos negativo, neutro e positivo, respectivamente
colors = ['green', 'gray', 'red']

# Plotar um gráfico de barras empilhadas com as cores personalizadas
word_sentiment_df.plot(kind='bar', stacked=True, figsize=(10, 6), color=colors)
plt.title('Classificação de Sentimentos das Vinte Palavras Mais Frequentes')
plt.xlabel('Palavra')
plt.ylabel('Contagem de Sentimentos')
plt.legend(title='Sentimento')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()


### Modelo Naive Bayes 

- **Modelo de Naive Bayes**: Utilizou-se o modelo Naive Bayes para estabelecer uma linha de base de desempenho com os dados não processados. Essa versão do modelo foi utilizada com os dados pré-processados e com a técnica de Oversample aplicada.

In [None]:
# Carrega os dados processados
oversampled_text_data = pd.read_csv('oversampled_text_data.csv')

# Substituir valores NaN por strings vazias
oversampled_text_data['processed_text'].fillna('', inplace=True)

# Define as variáveis independentes e dependentes
X = oversampled_text_data['processed_text']  # Textos pré-processados
y = oversampled_text_data['sentiment']       # Labels de sentimento

# Divide os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criação do pipeline com SMOTE, TF-IDF e Naive Bayes
pipeline = make_pipeline_imb(
    TfidfVectorizer(),
    SMOTE(random_state=42),
    MultinomialNB()
)

# Define o grid de hiperparâmetros para GridSearchCV
param_grid = {
    'tfidfvectorizer__ngram_range': [(1, 1), (1, 2), (1, 3)],  # Unigrams, bigrams, and trigrams
    'tfidfvectorizer__max_df': [0.5, 0.75, 1.0],
    'tfidfvectorizer__min_df': [1, 2, 3],
    'multinomialnb__alpha': [0.01, 0.1, 1]  # Suavização aditiva (Laplace/Lidstone)
}

# Configuração do GridSearchCV
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy', verbose=1)
grid_search.fit(X_train, y_train)

# Imprime a melhor acurácia encontrada e os parâmetros correspondentes
print("Melhor acurácia de validação cruzada: {:.2f}%".format(grid_search.best_score_ * 100))
print("Melhores parâmetros:", grid_search.best_params_)

# Avalia o modelo no conjunto de teste
y_pred = grid_search.predict(X_test)
print("Acurácia no conjunto de teste:", (y_test == y_pred).mean() * 100, "%")

# Relatório de classificação
print(classification_report(y_test, y_pred))

![](pipeline.png)

In [None]:
# Carregar os dados do arquivo CSV
df = pd.read_csv('classification-labeled.csv', delimiter=';', encoding='ISO-8859-1')

def clean_text(text):
    """
    Limpa o texto removendo pontuações repetidas e espaços extras.

    Args:
    text (str): O texto a ser limpo.

    Returns:
    str: O texto limpo.
    """
    # Remover pontuações excessivas (mais de um ponto de interrogação, ponto, etc.)
    text = re.sub(r'[\?\.!]+(?=[\?\.!])', '', text)

    # Corrigir espaços extras
    text = re.sub(r'\s+', ' ', text).strip()

    return text

# Aplicar a função de limpeza à coluna 'comment'
df['comment_clean'] = df['comment'].apply(clean_text)

# Mostrar as primeiras linhas do DataFrame para verificar a aplicação da limpeza
print(df[['comment', 'comment_clean']].head())


# Pré-Processamento
Haddi, Liu e Shi (2013) afirmam que pré-processar o texto significa limpá-lo e prepará-lo para classificação. Textos online geralmente possuem elementos extras como HTML, scripts e anúncios. Muitas palavras não carregam um peso significativo para entender ou classificar o texto. Removê-las ajuda na classificação e análise de sentimentos em tempo real. Dessa forma, o pré-processamento realizado inclui etapas como limpar caracteres especiais, remover palavras comuns, e outras técnicas que melhoram a análise.

É importante reforçar que todos os processos realizados na etapa de pré-processamento estão melhores detalhados na seção 5. Pré-processamento dos Dados na documentação completa, disponível em [este link](https://github.com/Inteli-College/2024-1B-T10-SI06-G03/blob/main/docs/documentacao.md#c5).


## Etapas do Pré-processamento
Abaixo, foram realizadas as seguintes etapas de pré-processamento:
- Conversão de emojis para palavras;
- Remoção de URLs, tags HTML, caracteres especiais e números;
- Tokenização;
- Remoção de Stop-Words;
- Stemming e lematização.

In [4]:
# Carregando os dados
classification_labeled = pd.read_csv('classification-labeled.csv', delimiter=';', encoding='ISO-8859-1')

# Exibindo os primeiros registros do DataFrame
classification_labeled.head()

Unnamed: 0,id,comment,sentiment
0,1,"That, my friend, is why The Mighty Swift Ra...",0
1,2,Spent 20 minutes in an Uber listening to what ...,0
2,3,"via The Guardian Guardian front page, Monday ...",-1
3,4,My real job is being my girlfriends personal U...,0
4,5,i had a bad drive . i want my refund,-1


### Conversão de emojis para palavras

In [5]:
def convert_emojis(text):
    '''
    Converte emojis no texto para palavras.
    Input: texto original como uma string.
    Output: texto com emojis convertidos como uma string.
    '''
    for emot in UNICODE_EMOJI:
        text = text.replace(emot, "_".join(UNICODE_EMOJI[emot].replace(",", "").replace(":", "").split()))
    return text

# Aplicando a função convert_emojis e exibindo os resultados
classification_labeled['converted_emojis'] = classification_labeled['comment'].apply(convert_emojis)
classification_labeled[['comment', 'converted_emojis']].head()


Unnamed: 0,comment,converted_emojis
0,"That, my friend, is why The Mighty Swift Ra...","That, my friend, is why The Mighty Swift Ra..."
1,Spent 20 minutes in an Uber listening to what ...,Spent 20 minutes in an Uber listening to what ...
2,"via The Guardian Guardian front page, Monday ...","via The Guardian Guardian front page, Monday ..."
3,My real job is being my girlfriends personal U...,My real job is being my girlfriends personal U...
4,i had a bad drive . i want my refund,i had a bad drive . i want my refund


### Remoção de URLs, tags HTML, caracteres especiais e números

In [6]:
def clean_text(text):
    '''
    Limpa o texto removendo URLs, tags HTML, caracteres especiais e números através de expressões regulares.

    Input: texto original como uma string.
    Output: texto limpo, sem URLs, tags HTML, caracteres especiais e números, como uma string.
    '''
    text = re.sub(r'http\S+', '', text)  # Remove URLs
    text = re.sub(r'<[^>]+>', '', text)  # Remove tags HTML
    text = re.sub(r'[^a-zA-Z\s]', '', text)  # Remove caracteres especiais e números
    text = re.sub(r'\s+', ' ', text).strip() # Corrigir espaços extras

    return text

# Aplicando a função clean_text e exibindo os resultados
classification_labeled['cleaned_text'] = classification_labeled['comment'].apply(clean_text)
classification_labeled[['comment', 'cleaned_text']].head()

Unnamed: 0,comment,cleaned_text
0,"That, my friend, is why The Mighty Swift Ra...",That my friend is why The Mighty Swift Radio C...
1,Spent 20 minutes in an Uber listening to what ...,Spent minutes in an Uber listening to what I c...
2,"via The Guardian Guardian front page, Monday ...",via The Guardian Guardian front page Monday Ju...
3,My real job is being my girlfriends personal U...,My real job is being my girlfriends personal U...
4,i had a bad drive . i want my refund,i had a bad drive i want my refund


### Tokenização

In [7]:
def tokenize(text):
    '''
    Tokeniza o texto em palavras.
    
    Input: texto limpo como uma string.
    Output: lista de palavras (tokens).
    '''
    tokens = word_tokenize(text.lower())  # Convertendo para minúsculas e tokenizando
    return tokens

# Aplicando a função tokenize e exibindo os resultados
classification_labeled['tokenized_text'] = classification_labeled['comment'].apply(tokenize)
classification_labeled[['comment', 'tokenized_text']].head()

Unnamed: 0,comment,tokenized_text
0,"That, my friend, is why The Mighty Swift Ra...","[that, ,, my, friend, ,, is, why, the, mighty,..."
1,Spent 20 minutes in an Uber listening to what ...,"[spent, 20, minutes, in, an, uber, listening, ..."
2,"via The Guardian Guardian front page, Monday ...","[via, the, guardian, guardian, front, page, ,,..."
3,My real job is being my girlfriends personal U...,"[my, real, job, is, being, my, girlfriends, pe..."
4,i had a bad drive . i want my refund,"[i, had, a, bad, drive, ., i, want, my, refund]"


### Remoção de Stop-Words

In [8]:
def remove_stopwords(tokens):
    '''
    Remove stopwords do texto tokenizado.

    Input: lista de palavras (tokens).
    Output: lista de palavras sem stopwords.
    '''
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [token for token in tokens if token not in stop_words]
    return filtered_tokens

# Aplicando a função remove_stopwords e exibindo os resultados
classification_labeled['without_stopwords'] = classification_labeled['comment'].apply(tokenize).apply(remove_stopwords)
classification_labeled[['comment', 'without_stopwords']].head()


Unnamed: 0,comment,without_stopwords
0,"That, my friend, is why The Mighty Swift Ra...","[,, friend, ,, mighty, swift, radio, cars, sta..."
1,Spent 20 minutes in an Uber listening to what ...,"[spent, 20, minutes, uber, listening, best, de..."
2,"via The Guardian Guardian front page, Monday ...","[via, guardian, guardian, front, page, ,, mond..."
3,My real job is being my girlfriends personal U...,"[real, job, girlfriends, personal, uber/uber, ..."
4,i had a bad drive . i want my refund,"[bad, drive, ., want, refund]"


### Stemming e lematização

In [9]:
def stem_and_lemmatize(tokens):
    '''
    Aplica stemming e lematização nas palavras para reduzir à forma base.

    Input: lista de palavras (tokens).
    Output: lista de palavras processadas.
    '''
    stemmer = PorterStemmer()
    lemmatizer = WordNetLemmatizer()
    processed_tokens = [lemmatizer.lemmatize(stemmer.stem(token)) for token in tokens]
    return processed_tokens

# Aplicando a função stem_and_lemmatize e exibindo os resultados
classification_labeled['stemmed_and_lemmatized'] = classification_labeled['comment'].apply(tokenize).apply(remove_stopwords).apply(stem_and_lemmatize)
classification_labeled[['comment', 'stemmed_and_lemmatized']].head()


Unnamed: 0,comment,stemmed_and_lemmatized
0,"That, my friend, is why The Mighty Swift Ra...","[,, friend, ,, mighti, swift, radio, car, stal..."
1,Spent 20 minutes in an Uber listening to what ...,"[spent, 20, minut, uber, listen, best, describ..."
2,"via The Guardian Guardian front page, Monday ...","[via, guardian, guardian, front, page, ,, mond..."
3,My real job is being my girlfriends personal U...,"[real, job, girlfriend, person, uber/ub, eat, ..."
4,i had a bad drive . i want my refund,"[bad, drive, ., want, refund]"


### Pipeline de Pré-processamento

In [10]:
def preprocess_pipeline(dataframe, text_column):
    '''
    Pipeline de pré-processamento que aplica todas as funções acima ao texto.

    Input: DataFrame e o nome da coluna de texto.
    Output: DataFrame com o texto pré-processado.
    '''
    '''Aplicando funções de pré-processamento'''
    dataframe['processed_text'] = dataframe[text_column].apply(lambda x: convert_emojis(x))
    dataframe['processed_text'] = dataframe['processed_text'].apply(lambda x: clean_text(x))
    dataframe['processed_text'] = dataframe['processed_text'].apply(lambda x: tokenize(x))
    dataframe['processed_text'] = dataframe['processed_text'].apply(lambda x: remove_stopwords(x))
    dataframe['processed_text'] = dataframe['processed_text'].apply(lambda x: stem_and_lemmatize(x))
    dataframe['processed_text'] = dataframe['processed_text'].apply(lambda x: ' '.join(x))
    return dataframe

# Carregando os dados
classification_labeled = pd.read_csv('classification-labeled.csv', delimiter=';', encoding='ISO-8859-1')

# Executando o pipeline de pré-processamento
processed_df = preprocess_pipeline(classification_labeled, 'comment')

# Salvando os dados processados em um novo arquivo CSV
processed_df.to_csv('processed_text_data.csv', index=False)

processed_df

Unnamed: 0,id,comment,sentiment,processed_text
0,1,"That, my friend, is why The Mighty Swift Ra...",0,friend mighti swift radio car stalybridg retai...
1,2,Spent 20 minutes in an Uber listening to what ...,0,spent minut uber listen best describ eagl bsid...
2,3,"via The Guardian Guardian front page, Monday ...",-1,via guardian guardian front page monday juli u...
3,4,My real job is being my girlfriends personal U...,0,real job girlfriend person uberub eat driver e...
4,5,i had a bad drive . i want my refund,-1,bad drive want refund
...,...,...,...,...
2871,3519,"Top story: Uber broke laws, duped police and s...",-1,top stori uber broke law dupe polic secretli l...
2872,3521,"Top story: Uber broke laws, duped police and s...",-1,top stori uber broke law dupe polic secretli l...
2873,3522,"Top story: Uber broke laws, duped police and s...",-1,top stori uber broke law dupe polic secretli l...
2874,3523,reading about this uber leak reminded me how f...,-1,read uber leak remind frustrat repeatedli hear...


## Figura que Exemplifica o pré-processamento

A imagem a seguir apresenta uma ilustração detalhada do pipeline de pré-processamento utilizado neste projeto. A figura inclui descrições de cada etapa envolvida no pré-processamento, bem como exemplos que demonstram como os dados são transformados em cada fase. Esta visualização facilita a compreensão do fluxo de tratamento dos dados e destaca as técnicas aplicadas para preparar os dados para análises subsequentes. A descrição da figura está melhor detalhada na documentação do projeto, a seção em questão pode ser acessada [nesse link](https://github.com/Inteli-College/2024-1B-T10-SI06-G03/blob/main/docs/documentacao.md#c5.1).

![Exemplificação do pré-processamento](assets/pipeline.png)


# Bag of Words

O "Bag of Words" é uma etapa importante no processamento de linguagem natural, pois converte texto em uma **representação numérica** que os modelos de aprendizado de máquina processam com maior facilidade. Esta técnica contabiliza a frequência de todas as palavras presentes no conjunto de dados, ignorando a ordem das palavras mas mantendo a informação sobre sua ocorrência. Isso facilita a identificação de padrões e tendências no uso de palavras, que são fundamentais para tarefas como classificação de texto e análise de sentimentos.

Após a implementação desta métrica, aplicou-se o modelo **Naive Bayes** para análise dos dados e comparação dos resultados. Esta abordagem permite **avaliar a eficácia do modelo Naive Bayes** em classificar os dados com base na representação simplificada fornecida pelo "Bag of Words", destacando o impacto das características extraídas durante o pré-processamento.

Todas as etapas do método de Bag of Words, bem com sua análise, pode ser acessada com mais profundidade na seção 6. Modelo de Bag of Words (IPYNB) na documentação completa, disponível em [este link](https://github.com/Inteli-College/2024-1B-T10-SI06-G03/blob/main/docs/documentacao.md#c6).

## Modelo Bag of Words

Nesta seção, implementa-se o modelo Bag of Words nos dados pré-processados. A aplicação do Bag of Words aos dados pré-processados permite uma análise mais estruturada e quantitativa, facilitando a aplicação de técnicas de aprendizado de máquina para tarefas como classificação e análise de sentimentos.

In [11]:
processed_text_data = pd.read_csv('processed_text_data.csv')
processed_text_data.head()

Unnamed: 0,id,comment,sentiment,processed_text
0,1,"That, my friend, is why The Mighty Swift Ra...",0,friend mighti swift radio car stalybridg retai...
1,2,Spent 20 minutes in an Uber listening to what ...,0,spent minut uber listen best describ eagl bsid...
2,3,"via The Guardian Guardian front page, Monday ...",-1,via guardian guardian front page monday juli u...
3,4,My real job is being my girlfriends personal U...,0,real job girlfriend person uberub eat driver e...
4,5,i had a bad drive . i want my refund,-1,bad drive want refund


In [12]:
# A seguir é realizado o modelo Bag of Words nos dados pré-processados

def generate_bow(dataframe, text_column):
    """
    Gera um DataFrame Bag of Words a partir de uma coluna de texto especificada de um DataFrame.

    input:
    dataframe (pd.DataFrame): DataFrame contendo a coluna de texto.
    text_column (str): Nome da coluna de texto que será processada para criar o Bag of Words.

    output:
    pd.DataFrame: DataFrame representando o Bag of Words com cada palavra como uma coluna e cada documento como uma linha.
    """
    # Inicializa o vetorizador de contagem
    vectorizer = CountVectorizer()

    # Ajusta e transforma os dados da coluna de texto especificada
    X = vectorizer.fit_transform(dataframe[text_column])

    # Obtém o vocabulário
    vocab = vectorizer.get_feature_names_out()

    # Cria um DataFrame a partir da matriz esparsa, com o vocabulário como colunas
    vectorized_data = pd.DataFrame(X.toarray(), columns=vocab)

    return vectorized_data


# Aplicar a função ao DataFrame
vectorized_data = generate_bow(processed_text_data, 'processed_text')

# Exibir o DataFrame resultante
print(vectorized_data)

      aa  aal  aapl  ab  abbotsford  abbott  abet  abil  abl  abroad  ...  \
0      0    0     0   0           0       0     0     0    0       0  ...   
1      0    0     0   0           0       0     0     0    0       0  ...   
2      0    0     0   0           0       0     0     0    0       0  ...   
3      0    0     0   0           0       0     0     0    0       0  ...   
4      0    0     0   0           0       0     0     0    0       0  ...   
...   ..  ...   ...  ..         ...     ...   ...   ...  ...     ...  ...   
2871   0    0     0   0           0       0     0     0    0       0  ...   
2872   0    0     0   0           0       0     0     0    0       0  ...   
2873   0    0     0   0           0       0     0     0    0       0  ...   
2874   0    0     0   0           0       0     0     0    0       0  ...   
2875   0    0     0   0           0       0     0     0    1       0  ...   

      zero  zidi  zie  zimbabw  zimbabwean  zip  zisil  zone  zoom  zumba  

In [13]:
# Salvando os dados processados em um novo arquivo CSV
vectorized_data.to_csv('vectorized_text_data.csv', index=False)
vectorized_data.head()

Unnamed: 0,aa,aal,aapl,ab,abbotsford,abbott,abet,abil,abl,abroad,...,zero,zidi,zie,zimbabw,zimbabwean,zip,zisil,zone,zoom,zumba
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Análise de Métricas do Modelo Bag of Words

Este seção fornece uma análise das métricas associadas ao DataFrame do modelo Bag of Words. Avalia-se a predominância de zeros, a utilização de colunas e o tamanho do arquivo gerado a partir dos dados processados.

### 1. Número de Zeros
A matriz do modelo Bag of Words geralmente contém uma alta quantidade de zeros, indicando a ausência de certas palavras nos documentos. Este código calcula o total de elementos no DataFrame, identifica a quantidade de zeros e determina a porcentagem de zeros em relação ao total de elementos:

In [14]:
total_elements = vectorized_data.size
total_zeros = (vectorized_data == 0).sum().sum()
zero_percentage = (total_zeros / total_elements) * 100

print(f"A porcentagem de 0s na matriz é de {zero_percentage:.2f}%.")

A porcentagem de 0s na matriz é de 99.76%.



### 2. Colunas Utilizadas
O número de colunas em um DataFrame Bag of Words corresponde ao tamanho do vocabulário. Este código extrai o número de colunas do DataFrame, que também representa a quantidade de palavras distintas identificadas no conjunto de dados:

In [15]:
total_columns = vectorized_data.shape[1]

print(f"A tamanho do vocabulário criado é de {total_columns} palavras.")

A tamanho do vocabulário criado é de 5023 palavras.


### 3. Tamanho do Arquivo
O tamanho do arquivo gerado por este DataFrame é uma métrica para entender o armazenamento necessário. Para estimar o tamanho do arquivo é usanda a função `getsizeof` do módulo `sys`, estima-se o tamanho aproximado em bytes do DataFrame em memória, que pode ser um indicativo do tamanho quando salvo em disco.

In [16]:
from sys import getsizeof
file_size = getsizeof(vectorized_data)

print(f"O tamanho do arquivo com a matriz criada é de {file_size} bythes.")

O tamanho do arquivo com a matriz criada é de 115569348 bythes.


A análise do modelo Bag of Words revela informações sobre a eficiência e a viabilidade do modelo em termos de armazenamento e processamento. A predominância de zeros sugere uma matriz esparsa, o que é típico em modelos de texto. O número de colunas nos fornece uma ideia sobre a diversidade do vocabulário, enquanto o tamanho estimado do arquivo nos ajuda a avaliar requisitos de armazenamento.

## Naive Bayes
Nesta seção, apresenta-se o código utilizado para implementar o modelo Naive Bayes, utilizando os dados transformados pelo modelo Bag of Words. Este modelo é aplicado para classificar os dados com base nas características extraídas, permitindo avaliar a eficácia do Bag of Words na preparação dos dados para análises preditivas.

In [17]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
import pandas as pd

# Carrega os dados processados que contêm o Bag of Words
vectorized_data = pd.read_csv('vectorized_text_data.csv')

# Carrega os dados originais para adicionar a coluna 'sentiment'
original_data = pd.read_csv('processed_text_data.csv')

# Garante que os dados estão na mesma ordem, assumindo que as linhas não foram embaralhadas
vectorized_data['sentiment'] = original_data['sentiment']

# Divide os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(vectorized_data.drop('sentiment', axis=1), vectorized_data['sentiment'], test_size=0.2, random_state=42)

# Criação do modelo Naive Bayes
model = MultinomialNB()
model.fit(X_train, y_train)

# Fazendo previsões e avaliando o modelo
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

          -1       0.88      0.77      0.82       417
           0       0.39      0.61      0.48       122
           1       0.11      0.05      0.07        37

    accuracy                           0.69       576
   macro avg       0.46      0.48      0.46       576
weighted avg       0.73      0.69      0.70       576



## Análise das Métricas do Modelo Naive Bayes
Nesta seção, são apresentadas as métricas de avaliação do modelo Naive Bayes, com o desempenho alcançado. As métricas incluem acurácia, matriz de confusão, precisão, revocação e pontuação F1, fornecendo uma análise da eficiência do modelo em classificar os dados processados pelo Bag of Words.


In [None]:
# 1. Accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# 2. Confusion Matrix
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)

# 3. Precision, Recall, F1-Score
class_report = classification_report(y_test, y_pred)
print("Classification Report:")
print(class_report)

# 4. ROC Curve and AUC - Note: This requires binary or binary-converted labels
if len(set(y_test)) == 2:  # Check if the problem is binary classification
    fpr, tpr, thresholds = roc_curve(y_test, y_pred)
    auc_score = roc_auc_score(y_test, y_pred)

    plt.figure()
    plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (area = {auc_score:.2f})')
    plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('Receiver Operating Characteristic')
    plt.legend(loc="lower right")
    plt.show()
else:
    print("ROC and AUC not applicable for multi-class classification.")

## Resumo das Métricas do Modelo Naive Bayes

Abaixo está um breve resumo da análise das métricas, que podem ser melhor observadas dentro da documentação desenvolvida pela equipe *Thunder*.


### Acurácia:

- **Valor**: 0.69
- **Interpretação**: O modelo acerta em 69% dos casos em todo o conjunto de dados. Esta acurácia sugere que o modelo possui uma habilidade moderada de prever corretamente as classes.

### Matriz de Confusão:
``` python
[[322, 90, 5],
 [35, 75, 12],
 [7, 28, 2]]
```

- **Interpretação**: A matriz mostra que o modelo performa bem para a classe -1, conseguindo uma boa taxa de previsões corretas. No entanto, para as classes 0 e 1, o modelo enfrenta mais dificuldades, especialmente na classe 1, onde há um número significativamente baixo de previsões corretas.

### Relatórios de Classificação:

**Precision**
- Classe -1: 0.88 (Alta, eficaz em identificar positivos reais para esta classe)
- Classe 0: 0.39 (Moderada, com muitos falsos positivos)
- Classe 1: 0.11 (Baixa, indica muitos falsos positivos)

**Recall**
- Classe -1: 0.77 (Boa, a maior parte dos casos positivos são identificados corretamente)
- Classe 0: 0.61 (Moderada, falha em capturar alguns casos verdadeiros)
- Classe 1: 0.05 (Muito baixa, falha em identificar a maioria dos casos verdadeiros)

**F1-Score**
- Classe -1: 0.82 (Alto, indica um bom equilíbrio entre precisão e revocação)
- Classe 0: 0.48 (Moderado)
- Classe 1: 0.07 (Muito baixo, reflete o fraco desempenho em precisão e revocação)

## Médias:

- **Média Macro**: Precisão, revocação e F1-score são todos aproximadamente 0.46, o que indica um desempenho mais equilibrado quando não se considera o desbalanceamento entre as classes.
- **Média Ponderada**: A precisão ponderada, revocação e F1-score são cerca de 0.70, sugerindo um ajuste do modelo que favorece a classe com mais amostras.

## Curva ROC e AUC
- Não aplicável nessa situação, pois o problema envolve classificação multiclasse.

# Referências

Segue as referências utilizadas durante a execução deste Documento Jupyther.

1. AssemblyAI. "How to implement Naive Bayes from scratch with Python." YouTube, publicado por AssemblyAI. Acesso em: 05 maio 2024. Disponível em: https://www.youtube.com/watch?v=TLnuAorxqE

2. Ciência dos Dados. "COMO FAZER ANÁLISE DE SENTIMENTOS COM DADOS TEXTUAIS." YouTube, publicado por Ciência dos Dados. Acesso em: 06 maio 2024. Disponível em: https://www.youtube.com/watch?v=Wq-n7ZPce8k

3. Google Cloud Tech. "Getting started with Natural Language Processing: Bag of words." YouTube, publicado por Google Cloud Tech. Acesso em: 07 maio 2024. Disponível em: https://www.youtube.com/watch?v=UFtxy0KRvVI

4. Google Cloud LATAM. "Processamento de linguagem natural (PLN) | Decodificando a Nuvem | PT-BR." YouTube, publicado por Google Cloud LATAM. Acesso em: 08 maio 2024. Disponível em: https://www.youtube.com/watch?v=Dt2DRQN6uwg

5. Mendes, Eduardo. "spaCy: Introdução a Processamento de Linguagem Natural | Live de Python #226." YouTube, publicado por Eduardo Mendes. Acesso em: 09 maio 2024. Disponível em: https://www.youtube.com/watch?v=Vr9QXpELdrs

6. ProgrammingKnowledge. "Introduction To Natural Language Toolkit (NLTK) | NLTK Tutorial in Python." YouTube, publicado por ProgrammingKnowledge. Acesso em: 10 maio 2024. Disponível em: https://www.youtube.com/watch?v=WYgeOKZBhe0

7. "PLN Avançado com SpaCy: Capítulo 1: Selecionando palavras, frases, nomes e alguns conceitos." Acesso em: 29 abril 2024. Disponível em: https://course.spacy.io/pt/chapter1

8. "Dive into Deep Learning: 15.1. Análise de Sentimentos e o Dataset." Acesso em: 30 abril 2024. Disponível em: https://pt.d2l.ai/chapter_natural-language-processing-applications/sentiment-analysis-and-dataset.html

9. "Medium: A Simple Explanation of the Bag-of-Words Model." Acesso em: 01 maio 2024. Disponível em: https://towardsdatascience.com/a-simple-explanation-of-the-bag-of-words-model-b88fc4f4971

10. "FreeCodeCamp: An introduction to Bag of Words and how to code it in Python for NLP." Acesso em: 02 maio 2024. Disponível em: https://www.freecodecamp.org/news/an-introduction-to-bag-of-words-and-how-to-code-it-in-python-for-nlp-282e87a9da04

11. "GitHub Docs: Licenciar um repositório." Acesso em: 03 maio 2024. Disponível em: https://docs.github.com/pt/repositories/managing-your-repositorys-settings-and-features/customizing-your-repository/licensing-a-repository#disclaimer

12. "NLTK Documentation: Sample usage for portuguese_en." Acesso em: 04 maio 2024. Disponível em: https://www.nltk.org/howto/portuguese_en.html

13. "Medium: A Hitchhiker’s Guide to Sentiment Analysis using Naive-Bayes Classifier." Acesso em: 05 maio 2024. Disponível em: https://towardsdatascience.com/a-hitchhikers-guide-to-sentiment-analysis-using-naive-bayes-classifier-b921c0fb694

14. "geeksforgeeks: Programming Paradigms in Python." Acesso em: 06 maio 2024. Disponível em: https://www.geeksforgeeks.org/programming-paradigms-in-python/

15. "geeksforgeeks: Python Data Structures." Acesso em: 07 maio 2024. Disponível em: https://www.geeksforgeeks.org/python-data-structures/

16. ChatGPT 3.5. OpenAI, utilizado em várias interações e consultas durante o desenvolvimento do projeto. Acesso em: 08 maio 2024.

17. ChatGPT 4. OpenAI, utilizado em várias interações e consultas durante o desenvolvimento do projeto. Acesso em: 08 maio 2024.