# An√°lise de Sentimento de Reviews (MVP - Semana 2)

Este notebook cumpre os requisitos da Semana 2 do projeto de Big Data. O objetivo √© carregar os reviews de produtos coletados na Semana 1, realizar a limpeza e o pr√©-processamento do texto, aplicar um modelo de Processamento de Linguagem Natural (NLP) para classificar o sentimento de cada review e, por fim, salvar o resultado em um novo arquivo CSV.

**Processo:**
1.  **Carregamento dos Dados:** Leitura do arquivo `comentarios_produtos.csv`.
2.  **Limpeza e Pr√©-processamento:** Normaliza√ß√£o do texto para remover ru√≠dos.
3.  **An√°lise de Sentimento:** Aplica√ß√£o de um modelo h√≠brido para classifica√ß√£o.
4.  **Salvamento:** Grava√ß√£o do resultado final.

### Passo 0: Instala√ß√£o de Depend√™ncias

Esta c√©lula instala as bibliotecas Python necess√°rias para o notebook.

* `leia-br`: Biblioteca para an√°lise de sentimento em portugu√™s.
* `unidecode`: Ferramenta para normaliza√ß√£o de texto e remo√ß√£o de acentos.

Ap√≥s a instala√ß√£o, o kernel do Python √© reiniciado automaticamente para carregar as novas bibliotecas.

In [23]:
# Instala as bibliotecas necess√°rias para a an√°lise
%pip install leia-br unidecode

# Reinicia o kernel do Python para que as bibliotecas instaladas fiquem dispon√≠veis
# dbutils.library.restartPython()

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


### Passo 1: Setup e Carregamento dos Dados

A primeira etapa do nosso processo ETL (Extra√ß√£o, Transforma√ß√£o, Carga) √© a **Extra√ß√£o**. Nesta fase, vamos importar as bibliotecas Python que ser√£o utilizadas e carregar os dados brutos de coment√°rios que foram coletados na Semana 1.

O arquivo `comentarios_produtos.csv`, armazenado em um Volume do Databricks, ser√° lido e carregado em um DataFrame da biblioteca `pandas`, que √© a estrutura fundamental sobre a qual faremos todas as nossas manipula√ß√µes.

In [24]:
# Passo 1: Setup e Carregamento dos Dados

import pandas as pd
import sys
import os

# Pega o caminho do diret√≥rio onde o notebook est√° (a pasta 'notebooks/')
try:
    # Esta linha funciona na maioria dos ambientes de script
    notebook_dir = os.path.dirname(os.path.abspath("__file__"))
except NameError:
    # Este √© o fallback que funciona em notebooks interativos (Jupyter, Databricks)
    notebook_dir = os.getcwd()

# Navega um n√≠vel acima ('../') para chegar √† pasta raiz do projeto ('bi-web-scrapping/')
project_root = os.path.abspath(os.path.join(notebook_dir, '..'))

# Cria o caminho relativo para a pasta 'src/'
src_path = os.path.join(project_root, 'src')

# Adiciona a pasta 'src' ao path do sistema para permitir as importa√ß√µes
if src_path not in sys.path:
    sys.path.insert(0, src_path)

# Agora, a importa√ß√£o funcionar√° de forma relativa ao projeto
from processing.text_processor import limpar_texto, classificar_sentimento
print("M√≥dulo 'text_processor' importado com sucesso!")


# --- Carregamento do Arquivo com Caminho Relativo ---

# Constr√≥i o caminho relativo para o arquivo de dados
file_path = os.path.join(project_root, 'data', 'raw', 'comentarios_produtos.csv')

try:
    df_reviews = pd.read_csv(file_path, sep='|', on_bad_lines='skip')
    print("Arquivo de coment√°rios carregado com sucesso!")
    display(df_reviews.head())
except FileNotFoundError:
    print(f"\nERRO: Arquivo n√£o encontrado!")
    print("Por favor, verifique se a sua estrutura de pastas est√° assim:")
    print("bi-web-scrapping/ -> data/ -> raw/ -> comentarios_produtos.csv")
except Exception as e:
    print(f"\nOcorreu um erro ao carregar o arquivo: {e}")

M√≥dulo 'text_processor' importado com sucesso!
Arquivo de coment√°rios carregado com sucesso!


Unnamed: 0,id_produto,id_avaliacoes,id_comentario,rating_do_comentario,quantidade_avaliacoes_do_produto,comentario_about_produto,data_coleta
0,80054742,80054742,68ea88d327ae04a3a6680c51,5,2308,O smartphone parece ser muito bom apesar de ai...,2025-10-22 21:16:16
1,80054742,80054742,68ac9172bbb755975d29447a,5,2308,Achei uma √≥tima escolha. Muito √∫til para traba...,2025-10-22 21:16:16
2,80054742,80054742,68b60274312495cfd879bd61,5,2308,Muito bom e entrega super r√°pida no mesmo dia.,2025-10-22 21:16:16
3,80054742,80054742,68ac9190bbb755975d29ab31,5,2308,Excelente produto.,2025-10-22 21:16:16
4,80054742,80054742,68ac9172bbb755975d293822,4,2308,√ìtimo,2025-10-22 21:16:16


## Passo 2: Limpeza e Pr√©-processamento do Texto

A limpeza dos dados textuais √© uma etapa fundamental para garantir a qualidade da an√°lise. Um texto com ru√≠dos (pontua√ß√£o, letras mai√∫sculas, caracteres especiais) pode confundir o modelo de NLP.

Nesta etapa, vamos:
1.  Remover coment√°rios vazios.
2.  Converter todo o texto para min√∫sculas.
3.  Normalizar os caracteres, removendo acentos (ex: `√≥timo` vira `otimo`).
4.  Remover tudo que n√£o for letras ou espa√ßos.

Isso cria uma nova coluna, `comentario_limpo`, que servir√° de base para a nossa an√°lise.

In [25]:
df_cleaned = df_reviews.copy()
df_cleaned.dropna(subset=['comentario_about_produto'], inplace=True)

# Aplica a fun√ß√£o de limpeza importada do nosso m√≥dulo
df_cleaned['comentario_limpo'] = df_cleaned['comentario_about_produto'].apply(limpar_texto)

df_cleaned = df_cleaned[df_cleaned['comentario_limpo'].str.strip() != '']

print("Limpeza de texto conclu√≠da.")
display(df_cleaned[['comentario_about_produto', 'comentario_limpo']].head())

Limpeza de texto conclu√≠da.


Unnamed: 0,comentario_about_produto,comentario_limpo
0,O smartphone parece ser muito bom apesar de ai...,o smartphone parece ser muito bom apesar de ai...
1,Achei uma √≥tima escolha. Muito √∫til para traba...,achei uma otima escolha muito util para trabal...
2,Muito bom e entrega super r√°pida no mesmo dia.,muito bom e entrega super rapida no mesmo dia
3,Excelente produto.,excelente produto
4,√ìtimo,otimo


## Passo 3: Classifica√ß√£o de Sentimento com Abordagem H√≠brida

A an√°lise inicial mostrou que usar apenas um modelo de texto ou apenas a nota do usu√°rio gera inconsist√™ncias. Para obter um resultado mais preciso e profissional, implementamos uma **abordagem h√≠brida de m√∫ltiplas camadas**:

1.  **Camada 1 (Regras por Nota):** A nota do usu√°rio (`rating`) √© a fonte mais confi√°vel. Definimos que:
    * **4 ou 5 estrelas** s√£o classificadas como `Positivo`.
    * **1 ou 2 estrelas** s√£o classificadas como `Negativo`.

2.  **Camada 2 (NLP para Ambiguidade):** Coment√°rios com **3 estrelas** s√£o amb√≠guos. Nesses casos, usamos a biblioteca `LeIA` para analisar o texto e definir o sentimento.

3.  **Camada 3 (Corre√ß√£o de Inconsist√™ncias):** O principal desafio s√£o os usu√°rios que d√£o uma nota baixa (1 ou 2) mas escrevem um texto positivo (ex: "√ìtimo"). Nossa camada final corrige isso:
    * Ela reavalia todos os coment√°rios classificados como `Negativo`.
    * Se o texto contiver palavras-chave fortemente positivas (como "√≥timo", "perfeito", "adorei") ou se a an√°lise do `LeIA` mostrar um sentimento positivo, a classifica√ß√£o √© **corrigida** para `Positivo`.

In [26]:
print("Iniciando a classifica√ß√£o de sentimento com o m√≥dulo de processamento...")

# Aplica a fun√ß√£o de classifica√ß√£o completa importada do nosso m√≥dulo
df_final = classificar_sentimento(df_cleaned)

print("\nAn√°lise de sentimento conclu√≠da!")
display(df_final['sentimento'].value_counts())

Iniciando a classifica√ß√£o de sentimento com o m√≥dulo de processamento...

An√°lise de sentimento conclu√≠da!


sentimento
Positivo    2162
Negativo      43
Neutro         5
Name: count, dtype: int64

## Passo 4: Valida√ß√£o e Salvamento do Resultado Final

Com a classifica√ß√£o conclu√≠da, a √∫ltima etapa √© gerar o arquivo CSV final, que servir√° como entreg√°vel para a Semana 2 e como insumo para as pr√≥ximas fases do projeto. O arquivo ser√° salvo como `comentarios_classificados.csv` no mesmo Volume.

In [28]:
# Passo 4: Valida√ß√£o e Salvamento do Resultado Final

# Valida√ß√£o: exibe os primeiros 20 registros para uma √∫ltima verifica√ß√£o
print("Exibindo os primeiros 20 registros do DataFrame final para valida√ß√£o:")
display(df_cleaned[['rating_do_comentario', 'sentimento', 'comentario_about_produto']].head(20))

# O arquivo ser√° salvo em 'bi-web-scrapping/data/output/comentarios_classificados.csv'
output_path_absolute = os.path.join(project_root, 'data', 'output', 'comentarios_classificados.csv')

# Cria uma vers√£o do caminho relativa √† pasta do projeto para exibi√ß√£o
output_path_relative = os.path.relpath(output_path_absolute, project_root)

# Substitui as barras invertidas por barras normais para um visual mais limpo no print
output_path_display = output_path_relative.replace('\\\\', '/')

# Seleciona e ordena as colunas para o arquivo final
colunas_para_salvar = [
    'id_produto', 'id_avaliacoes', 'id_comentario', 'rating_do_comentario',
    'comentario_about_produto', 'sentimento', 'data_coleta'
]
df_final = df_cleaned[colunas_para_salvar]

# Salva o DataFrame em um novo arquivo CSV, usando '|' como separador
try:
    df_final.to_csv(output_path_absolute, sep='|', index=False, encoding='utf-8')
    print(f"\nSucesso! O arquivo com os sentimentos classificados foi salvo em:\n{output_path_display}")
except Exception as e:
    print(f"\nOcorreu um erro ao salvar o arquivo: {e}")

Exibindo os primeiros 20 registros do DataFrame final para valida√ß√£o:


Unnamed: 0,rating_do_comentario,sentimento,comentario_about_produto
0,5,Positivo,O smartphone parece ser muito bom apesar de ai...
1,5,Positivo,Achei uma √≥tima escolha. Muito √∫til para traba...
2,5,Positivo,Muito bom e entrega super r√°pida no mesmo dia.
3,5,Positivo,Excelente produto.
4,4,Positivo,√ìtimo
5,5,Positivo,Muito bom
6,5,Positivo,Samsung √© uma √≥tima marca de qualidade e eu se...
7,4,Positivo,O produto √© bom
8,5,Positivo,"Excelente produto, comprei para minha m√£e e el..."
9,5,Positivo,"Chegou adiantado, ele √© muito lindo, boa image..."



Sucesso! O arquivo com os sentimentos classificados foi salvo em:
data\output\comentarios_classificados.csv
