<a href="https://colab.research.google.com/github/rafaelinfopiaui/analise-sentimentos-cpweekend/blob/main/notebooks/Desenvolvimento_Analise_Sentimentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üöÄ An√°lise de Sentimentos para a Campus Party Weekend Piau√≠ 2025

**Objetivo:** Desenvolver um prot√≥tipo de Machine Learning capaz de classificar o sentimento de textos em portugu√™s (positivo, negativo, neutro) a partir de dados coletados de redes sociais.

**Projeto de Extens√£o:** Engenharia de Computa√ß√£o com IA - UNI-CET

**Equipe de Desenvolvedores:**
* Rafael Oliveira
* Ailton Medeiros
* Lais Eul√°lio
* Ant√¥nio Wilker
* Isaac Arag√£o
* Paula Iranda

**Docente Orientador:** Prof. Dr. Artur Felipe da Silva Veloso

**Etapas deste Notebook:**
1.  **Configura√ß√£o do Ambiente:** Conex√£o com o Google Drive e importa√ß√£o de bibliotecas.
2.  **Carga e An√°lise dos Dados:** Carregar o dataset e fazer uma an√°lise explorat√≥ria inicial.
3.  **Pr√©-Processamento:** Limpeza e prepara√ß√£o dos textos para o modelo.
4.  **Treinamento do Modelo:** Constru√ß√£o, treino e avalia√ß√£o de um modelo de classifica√ß√£o.
5.  **Salvamento do Modelo:** Exportar o modelo treinado para ser usado na aplica√ß√£o com Streamlit.

## 1. Configura√ß√£o do Ambiente

Nesta primeira etapa, a equipe ir√° conectar o Colab ao Google Drive para acessar os dados, importar todas as bibliotecas que ser√£o utilizadas no projeto e definir os caminhos dos arquivos para manter o c√≥digo organizado e acess√≠vel a todos.

In [18]:
## 1. Configura√ß√£o do Ambiente

# 1.1 - INSTALA√á√ÉO E UPGRADE DE PACOTES (CRUCIAL PARA CORRE√á√ÉO)
!pip install pandas scikit-learn streamlit nltk joblib
!pip install numpy --upgrade
!pip install scikit-learn --upgrade
!pip install joblib --upgrade
print("Pacotes de ML instalados/atualizados com sucesso!")

# 1.2 - Conectar ao Google Drive
from google.colab import drive
drive.mount('/content/drive')

# 1.3 - LIMPEZA DE CACHE DO AMBIENTE (FINAL)
# Movemos para o in√≠cio para que pacotes sejam carregados corretamente
%reset -f
print("\nCache de pacotes limpo. Recarregando ambiente...")

# 1.4 - REDEFINIR Vari√°veis e Mudar diret√≥rio (AP√ìS O RESET)
# A vari√°vel PASTA_PROJETO precisa ser redefinida aqui
PASTA_PROJETO = '/content/drive/MyDrive/Projeto_CampusParty_Sentimentos'
%cd {PASTA_PROJETO}

# 1.5 - Importar bibliotecas essenciais (TUDO SER√Å IMPORTADO A PARTIR DAQUI)
import pandas as pd
import numpy as np
import re
import nltk
import joblib

# 1.6 - Importar m√≥dulos do Scikit-learn
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# 1.7 - Definir Caminhos (USANDO A PASTA_PROJETO CORRIGIDA)
CAMINHO_DADOS_BRUTOS = f'{PASTA_PROJETO}/data/dataset_bruto.csv'
CAMINHO_DADOS_LIMPOS = f'{PASTA_PROJETO}/data/dados_limpos.csv'
CAMINHO_MODELO = f'{PASTA_PROJETO}/saved_models/modelo_sentimento.joblib'

print("Ambiente configurado com sucesso!")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Ambiente configurado com sucesso!


## 2. Carga e An√°lise Explorat√≥ria dos Dados (EDA)

Nesta etapa, a equipe carrega o dataset e realiza uma verifica√ß√£o r√°pida para entender sua estrutura, a quantidade de dados e a presen√ßa de valores nulos.

**Nota sobre o Fluxo de Trabalho:** Para garantir a estabilidade e contornar um problema persistente de sincroniza√ß√£o com o Google Drive, o carregamento dos dados ser√° feito atrav√©s do **upload direto** para a sess√£o do Colab a cada vez que o notebook for iniciado. O c√≥digo a seguir j√° est√° preparado para ler o arquivo deste ambiente local tempor√°rio, utilizando os par√¢metros de leitura que se provaram eficazes durante os testes.

In [19]:
## 2. Carga e An√°lise Explorat√≥ria dos Dados (EDA)

# Define o nome do arquivo que esperamos que o usu√°rio envie
nome_do_arquivo = 'brasil_subreddit_comments.csv'

# Verifica se o arquivo j√° n√£o foi enviado para a sess√£o atual
if not os.path.exists(nome_do_arquivo):
  print(f"Por favor, fa√ßa o upload do arquivo '{nome_do_arquivo}'.")
  print("Aguardando o upload...")

  # Gera o bot√£o de upload
  uploaded = files.upload()

  # Verifica se o upload foi bem sucedido
  if nome_do_arquivo in uploaded:
    print(f"\n‚úÖ Upload de '{nome_do_arquivo}' conclu√≠do com sucesso!")
else:
  print(f"O arquivo '{nome_do_arquivo}' j√° existe na sess√£o. Pulando o upload.")

O arquivo 'brasil_subreddit_comments.csv' j√° existe na sess√£o. Pulando o upload.


In [20]:
import csv

# O nome do arquivo j√° foi definido e enviado na c√©lula anterior
nome_do_arquivo = 'brasil_subreddit_comments.csv'

try:
    # Leitura robusta do arquivo CSV com par√¢metros espec√≠ficos
    df = pd.read_csv(
        nome_do_arquivo,
        engine='python',
        quoting=csv.QUOTE_NONE,
        on_bad_lines='skip',
        encoding='latin-1'
    )

    print("‚úÖ SUCESSO! Dataset carregado do armazenamento local da sess√£o.")

    print("\nPrimeiras 5 linhas do dataset:")
    display(df.head())

    print("\nInforma√ß√µes do DataFrame:")
    df.info(show_counts=True)

except Exception as e:
    print(f"Ocorreu um erro ao ler o arquivo: {e}")

Dataset carregado com sucesso! Total de linhas: 872153

Primeiras 5 linhas do dataset (ap√≥s mapeamento):


Unnamed: 0,body,score,texto,sentimento
0,Limpa os cacos com um pano √∫mido e borrifa √†gu...,1,Limpa os cacos com um pano √∫mido e borrifa √†gu...,0
1,Eu autorizo Xand√£o,1,Eu autorizo Xand√£o,0
2,Tem tanta coisa esquisita acontecendo nessa ci...,1,Tem tanta coisa esquisita acontecendo nessa ci...,0
3,"N√£o √© caso de educa√ß√£o, car√°ter voc√™ nasce co...",1,"N√£o √© caso de educa√ß√£o, car√°ter voc√™ nasce co...",0
4,Flan √© pudim,1,Flan √© pudim,0



Informa√ß√µes do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 872153 entries, 0 to 872152
Data columns (total 14 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   author         872153 non-null  object
 1   body           872151 non-null  object
 2   created_utc    872153 non-null  object
 3   distinguished  8641 non-null    object
 4   edited         872153 non-null  object
 5   comment_id     872153 non-null  object
 6   is_submitter   872153 non-null  bool  
 7   parent_id      872153 non-null  object
 8   score          872153 non-null  int64 
 9   stickied       872153 non-null  bool  
 10  thread_id      872153 non-null  object
 11  version        872153 non-null  int64 
 12  texto          872151 non-null  object
 13  sentimento     872153 non-null  int64 
dtypes: bool(2), int64(3), object(9)
memory usage: 81.5+ MB

Distribui√ß√£o inicial dos sentimentos (0=Negativo/Neutro, 1=Positivo):
sentimento
1    0.64159

## 3. Limpeza Inicial do DataFrame

Com os dados brutos carregados no DataFrame `df`, o primeiro passo √© uma "faxina" estrutural para tornar o dataset mais limpo e f√°cil de trabalhar. As seguintes a√ß√µes ser√£o tomadas:

1.  **Limpeza dos Nomes das Colunas:** As aspas extras (`"`) presentes nos nomes das colunas ser√£o removidas.
2.  **Remo√ß√£o de Linhas Vazias:** As linhas que n√£o cont√™m coment√°rios (valores nulos na coluna `body`) ser√£o eliminadas, pois s√£o in√∫teis para a nossa an√°lise de sentimentos.
3.  **Sele√ß√£o de Colunas Relevantes:** Um novo DataFrame, `df_final`, ser√° criado contendo apenas as colunas mais importantes para o nosso estudo (`author`, `body`, `score`, `created_utc`).

In [21]:
print("--- Iniciando Limpeza Inicial do DataFrame ---")

# 1. Limpar os nomes das colunas (remover aspas)
# O .str.replace('"', '') encontra e substitui as aspas por nada.
df.columns = df.columns.str.replace('"', '')
print("‚úÖ Nomes das colunas limpos!")

# 2. Remover linhas onde o coment√°rio ('body') est√° vazio
# O .dropna() remove as linhas com valores nulos na coluna especificada.
df_limpo = df.dropna(subset=['body'])
print(f"Dataset original tinha {len(df):,} linhas.")
print(f"Dataset limpo (sem coment√°rios vazios) tem {len(df_limpo):,} linhas.")

# 3. Selecionar apenas as colunas que nos interessam para o projeto
# .copy() evita avisos futuros do pandas
df_final = df_limpo[['author', 'body', 'score', 'created_utc']].copy()

print("\n--- Limpeza Conclu√≠da! ---")
print("\nAmostra do dataset final (df_final):")
display(df_final.head())

print("\nNovas informa√ß√µes do DataFrame (df_final):")
df_final.info(show_counts=True)

--- Iniciando Limpeza Inicial do DataFrame ---
‚úÖ Nomes das colunas limpos!
Dataset original tinha 1,177,986 linhas.
Dataset limpo (sem coment√°rios vazios) tem 911,662 linhas.

--- Limpeza Conclu√≠da! ---

Amostra do dataset final (df_final):


Unnamed: 0,author,body,score,created_utc
"""fe52f47f-fccd-593a-934b-2912d8cdc9aa""","""Limpa os cacos com um pano √É¬∫mido e borrifa √É...",COM CUIDADO pra n√É¬£o queimar o forro do colch...,1,"""2025-09-30 17:05:13"""
"""05c74961-e915-5b52-a517-30716352cb8e""","""Eu autorizo Xand√É¬£o√Ç¬†""","""2025-09-30 17:04:31""",False,""""""
"""126f9c7d-5f8c-513f-9ec9-2ea7f70cde5a""","""Tem tanta coisa esquisita acontecendo nessa c...","""2025-09-30 17:04:17""",False,""""""
"""43e862df-c416-5ba9-a206-ba225543536e""","""N√É¬£o √É¬© caso de educa√É¬ß√É¬£o",car√É¬°ter voc√É¬™ nasce com ele para o bem ou p...,1,"""2025-09-30 17:03:37"""
"""7ef15e91-8b8c-50ff-a64d-013af21eebfb""","""Flan √É¬© pudim""","""2025-09-30 17:03:18""",False,""""""



Novas informa√ß√µes do DataFrame (df_final):
<class 'pandas.core.frame.DataFrame'>
Index: 911662 entries, "fe52f47f-fccd-593a-934b-2912d8cdc9aa" to De ante m√É¬£o j√É¬° te falo que se voc√É¬™ est√É¬° lendo bons livros
Data columns (total 4 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   author       911656 non-null  object
 1   body         911662 non-null  object
 2   score        729114 non-null  object
 3   created_utc  824458 non-null  object
dtypes: object(4)
memory usage: 34.8+ MB


## 4. Pr√©-processamento Profundo do Texto

Com o DataFrame estruturalmente limpo, o pr√≥ximo passo √© processar o conte√∫do da coluna `body`. Nesta etapa, vamos aplicar uma fun√ß√£o de limpeza em cada coment√°rio para:

- Padronizar o texto (converter para letras min√∫sculas).
- Remover "ru√≠dos" como URLs, men√ß√µes de usu√°rios e caracteres especiais.
- Remover palavras comuns que n√£o carregam sentimento (stopwords como 'o', 'a', 'de', 'que').

O resultado ser√° salvo em uma nova coluna, `body_limpo`, que servir√° de base para o nosso modelo de Machine Learning.

In [22]:
import nltk
import re

# Definindo a fun√ß√£o que far√° a limpeza profunda em cada texto
def limpar_texto(texto):
    # Converter para min√∫sculas
    texto = texto.lower()
    # Remover URLs
    texto = re.sub(r'https?://\S+|www\.\S+', '', texto)
    # Remover men√ß√µes (@) e hashtags (#) - comum em redes sociais
    texto = re.sub(r'@\w+|#\w+', '', texto)
    # Remover caracteres n√£o-alfab√©ticos (mant√©m apenas letras e espa√ßos)
    texto = re.sub(r'[^a-z\s]', '', texto)
    # Tokeniza√ß√£o (dividir em palavras)
    tokens = nltk.word_tokenize(texto)
    # Remover stopwords
    stopwords_pt = nltk.corpus.stopwords.words('portuguese')
    tokens_limpos = [palavra for palavra in tokens if palavra not in stopwords_pt]
    # Juntar os tokens de volta em uma string
    return ' '.join(tokens_limpos)

print("--- Iniciando Pr√©-processamento Profundo do Texto ---")
print("Isso pode levar um momento, pois estamos processando mais de 30,000 coment√°rios...")

# O .apply() executa a fun√ß√£o 'limpar_texto' em cada linha da coluna 'body'
df_final['body_limpo'] = df_final['body'].apply(limpar_texto)

print("\n‚úÖ Pr√©-processamento do texto conclu√≠do!")

# Vamos ver o resultado da limpeza
print("\nCompara√ß√£o do texto original vs. texto pr√©-processado:")
display(df_final[['body', 'body_limpo']].head())

[Passo 1/2] Aplicando limpeza profunda do texto...

‚úÖ Pr√©-processamento do texto conclu√≠do!

Compara√ß√£o do texto original vs. texto pr√©-processado:


Unnamed: 0,body,body_limpo
"""fe52f47f-fccd-593a-934b-2912d8cdc9aa""",COM CUIDADO pra n√É¬£o queimar o forro do colch...,cuidado pra queimar forro colcho
"""05c74961-e915-5b52-a517-30716352cb8e""","""2025-09-30 17:04:31""",
"""126f9c7d-5f8c-513f-9ec9-2ea7f70cde5a""","""2025-09-30 17:04:17""",
"""43e862df-c416-5ba9-a206-ba225543536e""",car√É¬°ter voc√É¬™ nasce com ele para o bem ou p...,carter voc nasce bem mal
"""7ef15e91-8b8c-50ff-a64d-013af21eebfb""","""2025-09-30 17:03:18""",


## 5. Constru√ß√£o, Treinamento e Avalia√ß√£o do Modelo

Esta √© a etapa central do projeto. Com os dados limpos e pr√©-processados no DataFrame `df_final`, vamos:

1.  **Criar a Vari√°vel Alvo (`y`):** Como nosso dataset n√£o possui uma coluna de sentimento, usaremos a coluna `score` (a pontua√ß√£o do coment√°rio) como um substituto (*proxy*). Coment√°rios com score alto (>1) ser√£o considerados "positivos", e os demais, "negativos/neutros".
2.  **Dividir os Dados:** Separar o dataset em um conjunto de **treino** (para o modelo aprender) e um conjunto de **teste** (para avaliarmos o qu√£o bem ele aprendeu).
3.  **Construir um `Pipeline`:** Criar uma esteira de produ√ß√£o que primeiro transforma o texto limpo em vetores num√©ricos (`TfidfVectorizer`) e depois os usa para treinar um modelo de classifica√ß√£o (`LogisticRegression`).
4.  **Treinar e Avaliar:** Executar o treinamento e verificar a performance do modelo com m√©tricas como a acur√°cia.

In [23]:
## 5. Constru√ß√£o, Treinamento e Avalia√ß√£o do Modelo

print("\n--- Iniciando a Constru√ß√£o e Treinamento do Modelo ---")

# 1. Definir X (features) e y (target)
# Usamos a coluna 'texto_limpo' (do Bloco 4) e a coluna 'sentimento' (do Bloco 3)
print("[Passo 1/4] Definindo vari√°veis X e y...")
X = df['texto_limpo']
y = df['sentimento']

# 2. Dividir em treino e teste
# O stratify=y garante que a divis√£o mantenha a propor√ß√£o de sentimentos
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)
print(f"Total de amostras de treino: {len(X_train):,} amostras. Total de teste: {len(X_test):,} amostras.")

# 3. Construir o Pipeline do modelo
print("\n[Passos 3/4] Construindo o pipeline do modelo...")
# O Pipeline aplica primeiro o TF-IDF (vetoriza√ß√£o) e depois a Regress√£o Log√≠stica (classifica√ß√£o)
modelo_pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),
    ('clf', LogisticRegression(max_iter=1000, random_state=42))
])

# 4. Treinar o modelo
print("\n[Passos 4/4] Iniciando o treinamento do modelo (isso leva alguns minutos)...")
modelo_pipeline.fit(X_train, y_train)
print("‚úÖ Treinamento conclu√≠do!")

# 5. Fazer previs√µes no conjunto de teste e avaliar o modelo
y_pred = modelo_pipeline.predict(X_test)
acuracia = accuracy_score(y_test, y_pred)

print("\n--- PERFORMANCE DO MODELO ---")
print(f"Acur√°cia: {acuracia:.4f}")

print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred))

--- Iniciando a Constru√ß√£o e Treinamento do Modelo ---

[Passo 1/5] Criando a vari√°vel de sentimento a partir do 'score'...
Distribui√ß√£o das nossas classes (baseado no score):
score
positivo           124093
negativo_neutro     65160
Name: count, dtype: int64

[Passo 2/5] Dividindo o dataset em treino e teste...
151,402 amostras de treino, 37,851 amostras de teste.

[Passo 3/5] Construindo o pipeline do modelo...

[Passo 4/5] Iniciando o treinamento do modelo (pode levar um momento)...
‚úÖ Treinamento conclu√≠do!

[Passo 5/5] Fazendo previs√µes e avaliando a performance...

--- PERFORMANCE DO MODELO ---
Acur√°cia: 0.6526

Relat√≥rio de Classifica√ß√£o:
                 precision    recall  f1-score   support

negativo_neutro       0.45      0.04      0.08     13032
       positivo       0.66      0.97      0.79     24819

       accuracy                           0.65     37851
      macro avg       0.56      0.51      0.43     37851
   weighted avg       0.59      0.65      0.54 

## 6. Salvando o Pipeline Final

Com o modelo treinado e avaliado, a etapa final √© salvar o objeto `modelo_pipeline` em um arquivo. Isso nos permite reutilizar o modelo treinado no futuro (por exemplo, em nosso dashboard com Streamlit) sem a necessidade de retrein√°-lo toda vez.

Usaremos a biblioteca `joblib` para salvar o modelo e, em seguida, a `google.colab.files` para baix√°-lo para nosso computador.

In [24]:
import joblib
from google.colab import files

# Define o nome do arquivo que vai guardar nosso modelo
nome_arquivo_modelo = 'modelo_sentimento.joblib'

print(f"--- Salvando o modelo treinado em: {nome_arquivo_modelo} ---")

# Salva o objeto completo do pipeline no armazenamento local da sess√£o do Colab
joblib.dump(modelo_pipeline, nome_arquivo_modelo)

print("\n‚úÖ Modelo salvo com sucesso no ambiente do Colab!")
print("Iniciando o download do modelo para o seu computador...")

# Gera o link para download do arquivo do modelo
files.download(nome_arquivo_modelo)


--- SALVAMENTO DO PIPELINE ---
‚úÖ Pipeline do modelo salvo com sucesso em: /content/drive/MyDrive/Projeto_CampusParty_Sentimentos/saved_models/modelo_sentimento.joblib


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>