# 🧠 Sentiment Analyzer por Review ID
Este notebook implementa a ferramenta `sentiment_analyzer` que:
- Recebe um `review_id`
- Busca o review correspondente
- Analisa sentimentos com HuggingFace
- Retorna um resumo estruturado em JSON


In [4]:
import pandas as pd
import numpy as np
from transformers import pipeline
import json

  from .autonotebook import tqdm as notebook_tqdm


## 🔹 Carregar os dados do Olist

In [5]:
# Carregar o dataset de reviews
df = pd.read_csv('data/olist_order_reviews_dataset.csv')
df = df.dropna(subset=['review_comment_message'])
df = df[df['review_comment_message'].str.strip() != '']
df.reset_index(drop=True, inplace=True)
print(f'Total de reviews carregados: {len(df)}')
df.head()

Total de reviews carregados: 40950


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
1,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53
2,8670d52e15e00043ae7de4c01cc2fe06,b9bf720beb4ab3728760088589c62129,4,recomendo,aparelho eficiente. no site a marca do aparelh...,2018-05-22 00:00:00,2018-05-23 16:45:47
3,4b49719c8a200003f700d3d986ea1a19,9d6f15f95d01e79bd1349cc208361f09,4,,"Mas um pouco ,travando...pelo valor ta Boa.\r\n",2018-02-16 00:00:00,2018-02-20 10:52:22
4,3948b09f7c818e2d86c9a546758b2335,e51478e7e277a83743b6f9991dbfa3fb,5,Super recomendo,"Vendedor confiável, produto ok e entrega antes...",2018-05-23 00:00:00,2018-05-24 03:00:01


## 🔹 Carregar o modelo de sentimento

In [6]:
sentiment_model = pipeline("sentiment-analysis",
                            model="cardiffnlp/twitter-roberta-base-sentiment",
                            top_k=None)

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Device set to use cpu


## 🔹 Função `sentiment_analyzer(product_id)`

In [7]:
# Carregar o dataset de reviews
df = pd.read_csv('data/olist_order_reviews_dataset.csv')
df = df.dropna(subset=['review_comment_message'])
df = df[df['review_comment_message'].str.strip() != '']
df.reset_index(drop=True, inplace=True)
print(f'Total de reviews carregados: {len(df)}')
df.head()

Total de reviews carregados: 40950


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
1,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53
2,8670d52e15e00043ae7de4c01cc2fe06,b9bf720beb4ab3728760088589c62129,4,recomendo,aparelho eficiente. no site a marca do aparelh...,2018-05-22 00:00:00,2018-05-23 16:45:47
3,4b49719c8a200003f700d3d986ea1a19,9d6f15f95d01e79bd1349cc208361f09,4,,"Mas um pouco ,travando...pelo valor ta Boa.\r\n",2018-02-16 00:00:00,2018-02-20 10:52:22
4,3948b09f7c818e2d86c9a546758b2335,e51478e7e277a83743b6f9991dbfa3fb,5,Super recomendo,"Vendedor confiável, produto ok e entrega antes...",2018-05-23 00:00:00,2018-05-24 03:00:01


## 🔹 Testar a ferramenta

In [8]:
# Carregar o dataset de reviews
df = pd.read_csv('data/olist_order_reviews_dataset.csv')
df = df.dropna(subset=['review_comment_message'])
df = df[df['review_comment_message'].str.strip() != '']
df.reset_index(drop=True, inplace=True)
print(f'Total de reviews carregados: {len(df)}')
df.head()

Total de reviews carregados: 40950


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
1,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53
2,8670d52e15e00043ae7de4c01cc2fe06,b9bf720beb4ab3728760088589c62129,4,recomendo,aparelho eficiente. no site a marca do aparelh...,2018-05-22 00:00:00,2018-05-23 16:45:47
3,4b49719c8a200003f700d3d986ea1a19,9d6f15f95d01e79bd1349cc208361f09,4,,"Mas um pouco ,travando...pelo valor ta Boa.\r\n",2018-02-16 00:00:00,2018-02-20 10:52:22
4,3948b09f7c818e2d86c9a546758b2335,e51478e7e277a83743b6f9991dbfa3fb,5,Super recomendo,"Vendedor confiável, produto ok e entrega antes...",2018-05-23 00:00:00,2018-05-24 03:00:01


# Etapa 2B – Análise com LLM para Resumo e Extração de Pontos

Passo 1: Escolher o modelo apropriado
Usaremos o modelo:

bash
Copiar
Editar
facebook/bart-large-cnn
📌 Ele é eficaz para tarefas de summarization de textos longos, como conjuntos de reviews.

Passo 2: Instalar dependências 



In [None]:
no terminal: 

pip install transformers 

 Passo 3: Carregar o pipeline de resumo

In [11]:
from transformers import pipeline

# Carregar pipeline de sumarização
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")


Device set to use cpu


Passo 4: Função de análise do conteúdo

In [12]:
def analisar_reviews_com_llm(reviews):
    """
    Recebe uma lista de reviews e retorna:
    - Um resumo geral
    - Pontos positivos e negativos extraídos de forma simulada
    """
    texto_base = " ".join(reviews[:10])[:1024]  # Limite de tokens do modelo
    resultado = summarizer(texto_base, max_length=130, min_length=30, do_sample=False)

    # Simulação controlada de extração de pontos (pode ser refinado com classificação zero-shot)
    positivos = ["Entrega antes do prazo", "Produto com qualidade acima da média", "Bem embalado"]
    negativos = ["Pequena variação na cor", "Manual não veio em português"]

    return {
        "summary": resultado[0]['summary_text'],
        "positive_points": positivos,
        "negative_points": negativos
    }


 Passo 5: Exemplo de uso

In [13]:
reviews = [
    "Entrega super rápida, adorei!",
    "A qualidade do produto é excelente.",
    "A embalagem veio perfeita, muito protegido.",
    "A cor não era exatamente como na foto, mas gostei mesmo assim.",
    "Faltou o manual em português, mas o restante está ótimo."
]

resultado = analisar_reviews_com_llm(reviews)

import json
print(json.dumps(resultado, indent=2, ensure_ascii=False))


Your max_length is set to 130, but your input_length is only 89. Since this is a summarization task, where outputs shorter than the input are typically wanted, you might consider decreasing max_length manually, e.g. summarizer('...', max_length=44)


{
  "summary": "A embalagem veio perfeita, muito protegido. Faltou o manual em português, mas o restante está ótimo. Entrega super rápida, adorei!",
  "positive_points": [
    "Entrega antes do prazo",
    "Produto com qualidade acima da média",
    "Bem embalado"
  ],
  "negative_points": [
    "Pequena variação na cor",
    "Manual não veio em português"
  ]
}


✅ Saída esperada (simulada):

In [14]:
{
  "summary": "Os clientes elogiaram a qualidade e rapidez da entrega, com leves ressalvas sobre variações de cor e documentação.",
  "positive_points": [
    "Entrega antes do prazo",
    "Produto com qualidade acima da média",
    "Bem embalado"
  ],
  "negative_points": [
    "Pequena variação na cor",
    "Manual não veio em português"
  ]
}


{'summary': 'Os clientes elogiaram a qualidade e rapidez da entrega, com leves ressalvas sobre variações de cor e documentação.',
 'positive_points': ['Entrega antes do prazo',
  'Produto com qualidade acima da média',
  'Bem embalado'],
 'negative_points': ['Pequena variação na cor',
  'Manual não veio em português']}