Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [1]:
import json
import pandas as pd
from bertopic import BERTopic

# --- 1. CONFIGURAÇÃO ---
ARQUIVO_ALVO = "dataset_Marvel.json"  # Mudar para "dataset_DC.json" quando quiser analisar a DC

print(f"Carregando dados de: {ARQUIVO_ALVO}...")

# --- 2. CARREGAR E PREPARAR DADOS ---
with open(ARQUIVO_ALVO, "r", encoding="utf-8") as f:
    data = json.load(f)

# O BERTopic precisa de uma lista simples de textos: ["texto1", "texto2", ...]
# O seu JSON é complexo, então vamos extrair apenas os textos dos comentários.
todos_comentarios = []

for movie_name, movie_data in data.items():
    comments_list = movie_data.get("comments", [])
    for comment in comments_list:
        # Pega apenas o texto, ignorando likes e datas por enquanto
        texto = comment.get("text", "")
        # Filtro básico: ignora comentários muito curtos (ex: "Top", "Legal")
        if len(texto) > 10: 
            todos_comentarios.append(texto)

print(f"Total de comentários carregados para análise: {len(todos_comentarios)}")

# --- 3. APLICAR O BERTopic ---
print("Iniciando o modelo BERTopic Multilíngue... (Isso pode demorar alguns minutos)")

# Aqui está o truque do language="multilingual"
topic_model = BERTopic(language="multilingual", verbose=True)

# Treina o modelo
topics, probs = topic_model.fit_transform(todos_comentarios)

# --- 4. EXIBIR RESULTADOS ---
print("\n--- Principais Tópicos Encontrados ---")
# Transforma em tabela para ficar bonito
info_topicos = topic_model.get_topic_info()
print(info_topicos.head(10)) # Mostra os 10 principais tópicos

# Salva os resultados em uma planilha para depois
nome_saida = f"resultados_topicos_{ARQUIVO_ALVO.replace('.json', '.csv')}"
info_topicos.to_csv(nome_saida, index=False)
print(f"\nTabela de tópicos salva em: {nome_saida}")

  from .autonotebook import tqdm as notebook_tqdm


Carregando dados de: dataset_Marvel.json...


2026-02-01 16:09:19,783 - BERTopic - Embedding - Transforming documents to embeddings.


Total de comentários carregados para análise: 617539
Iniciando o modelo BERTopic Multilíngue... (Isso pode demorar alguns minutos)


Loading weights: 100%|██████████| 199/199 [00:00<00:00, 384.82it/s, Materializing param=pooler.dense.weight]                               
BertModel LOAD REPORT from: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.
Batches:   3%|▎         | 653/19299 [16:34<7:53:09,  1.52s/it] 


KeyboardInterrupt: 

In [None]:
import pandas as pd
from bertopic import BERTopic

# --- 1. CONFIGURAÇÃO ---
ARQUIVO_ALVO = "dataset_DC.json"

print(f"Carregando dados de: {ARQUIVO_ALVO}...")

# --- 2. CARREGAR E PREPARAR DADOS ---
with open(ARQUIVO_ALVO, "r", encoding="utf-8") as f:
    data = json.load(f)

# O BERTopic precisa de uma lista simples de textos: ["texto1", "texto2", ...]
# O seu JSON é complexo, então vamos extrair apenas os textos dos comentários.
todos_comentarios = []

for movie_name, movie_data in data.items():
    comments_list = movie_data.get("comments", [])
    for comment in comments_list:
        # Pega apenas o texto, ignorando likes e datas por enquanto
        texto = comment.get("text", "")
        # Filtro básico: ignora comentários muito curtos (ex: "Top", "Legal")
        if len(texto) > 10: 
            todos_comentarios.append(texto)

print(f"Total de comentários carregados para análise: {len(todos_comentarios)}")

# --- 3. APLICAR O BERTopic ---
print("Iniciando o modelo BERTopic Multilíngue... (Isso pode demorar alguns minutos)")

# Aqui está o truque do language="multilingual"
topic_model = BERTopic(language="multilingual", verbose=True)

# Treina o modelo
topics, probs = topic_model.fit_transform(todos_comentarios)

# --- 4. EXIBIR RESULTADOS ---
print("\n--- Principais Tópicos Encontrados ---")
# Transforma em tabela para ficar bonito
info_topicos = topic_model.get_topic_info()
print(info_topicos.head(10)) # Mostra os 10 principais tópicos

# Salva os resultados em uma planilha para você ler depois
nome_saida = f"resultados_topicos_{ARQUIVO_ALVO.replace('.json', '.csv')}"
info_topicos.to_csv(nome_saida, index=False)
print(f"\nTabela de tópicos salva em: {nome_saida}")

In [None]:
topic_model.visualize_topics()