In [1]:
import json
import pandas as pd
from bertopic import BERTopic

# --- 1. CARREGAR DADOS (Parte Rápida) ---
ARQUIVO_ALVO = "dataset_Marvel.json"
print(f"Carregando dados de: {ARQUIVO_ALVO}...")

with open(ARQUIVO_ALVO, "r", encoding="utf-8") as f:
    data = json.load(f)

todos_comentarios = []
for movie_name, movie_data in data.items():
    comments_list = movie_data.get("comments", [])
    for comment in comments_list:
        texto = comment.get("text", "")
        if len(texto) > 10: 
            todos_comentarios.append(texto)

print(f"Total carregado: {len(todos_comentarios)} comentários.")

# --- 2. TREINAR E SALVAR (Parte Demorada - A Noite Toda) ---
print("Iniciando o treino... Pode ir dormir.")

# Configura
topic_model = BERTopic(language="multilingual", verbose=True)

# Treina (Vai demorar horas)
topics, probs = topic_model.fit_transform(todos_comentarios)

# --- 3. SALVAMENTO DE SEGURANÇA (O Pulo do Gato) ---
print("Treino finalizado! Salvando o cérebro do modelo...")
topic_model.save("modelo_marvel_final")

# Salva também a tabela em Excel/CSV para garantir
info_topicos = topic_model.get_topic_info()
nome_saida = "tabela_topicos_marvel.csv"
info_topicos.to_csv(nome_saida, index=False)

print(f"TUDO PRONTO! Modelo salvo em 'modelo_marvel_final' e tabela em '{nome_saida}'")

  from .autonotebook import tqdm as notebook_tqdm


Carregando dados de: dataset_Marvel.json...


2026-02-01 22:39:04,136 - BERTopic - Embedding - Transforming documents to embeddings.


Total carregado: 617539 comentários.
Iniciando o treino... Pode ir dormir.


Loading weights: 100%|██████████| 199/199 [00:00<00:00, 496.95it/s, Materializing param=pooler.dense.weight]                               
BertModel LOAD REPORT from: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.
Batches: 100%|██████████| 19299/19299 [1:32:00<00:00,  3.50it/s] 
2026-02-02 00:11:15,536 - BERTopic - Embedding - Completed ✓
2026-02-02 00:11:15,537 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2026-02-02 00:56:49,957 - BERTopic - Dimensionality - Completed ✓
2026-02-02 00:56:49,972 - BERTopic - Cluster - Start clustering the reduced embeddings
2026-02-02 00:58:57,666 - BERTopic - Cluster - Completed ✓
2026-02-02 00:58:57,823 - BERTopic - Representation - Fine-tuning topics using rep

Treino finalizado! Salvando o cérebro do modelo...
TUDO PRONTO! Modelo salvo em 'modelo_marvel_final' e tabela em 'tabela_topicos_marvel.csv'


In [1]:
import json
import pandas as pd
from bertopic import BERTopic

# --- 1. CARREGAR DADOS DA DC ---
ARQUIVO_ALVO = "dataset_DC.json"
print(f"Carregando dados de: {ARQUIVO_ALVO}...")

with open(ARQUIVO_ALVO, "r", encoding="utf-8") as f:
    data = json.load(f)

todos_comentarios_dc = []
for movie_name, movie_data in data.items():
    comments_list = movie_data.get("comments", [])
    for comment in comments_list:
        texto = comment.get("text", "")
        # Filtro básico: ignora comentários muito curtos
        if len(texto) > 10: 
            todos_comentarios_dc.append(texto)

print(f"Total carregado (DC): {len(todos_comentarios_dc)} comentários.")

# --- 2. TREINAR E SALVAR (Pode demorar algumas horas) ---
print("Iniciando o treino para DC...")

# Configura
topic_model_dc = BERTopic(language="multilingual", verbose=True)

# Treina
topics_dc, probs_dc = topic_model_dc.fit_transform(todos_comentarios_dc)

# --- 3. SALVAMENTO ---
print("Treino DC finalizado! Salvando modelo...")
topic_model_dc.save("modelo_dc_final")

# Salva a tabela
info_topicos_dc = topic_model_dc.get_topic_info()
nome_saida = "tabela_topicos_dc.csv"
info_topicos_dc.to_csv(nome_saida, index=False)

print(f"TUDO PRONTO! Modelo salvo em 'modelo_dc_final' e tabela em '{nome_saida}'")

  from .autonotebook import tqdm as notebook_tqdm


Carregando dados de: dataset_DC.json...


2026-02-02 13:12:43,505 - BERTopic - Embedding - Transforming documents to embeddings.


Total carregado (DC): 225634 comentários.
Iniciando o treino para DC...


Loading weights: 100%|██████████| 199/199 [00:00<00:00, 593.90it/s, Materializing param=pooler.dense.weight]                               
BertModel LOAD REPORT from: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
Key                     | Status     |  | 
------------------------+------------+--+-
embeddings.position_ids | UNEXPECTED |  | 

Notes:
- UNEXPECTED	:can be ignored when loading from different task/architecture; not ok if you expect identical arch.
Batches: 100%|██████████| 7052/7052 [35:45<00:00,  3.29it/s]  
2026-02-02 13:48:37,148 - BERTopic - Embedding - Completed ✓
2026-02-02 13:48:37,149 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2026-02-02 13:58:14,667 - BERTopic - Dimensionality - Completed ✓
2026-02-02 13:58:14,674 - BERTopic - Cluster - Start clustering the reduced embeddings
2026-02-02 13:59:02,733 - BERTopic - Cluster - Completed ✓
2026-02-02 13:59:02,788 - BERTopic - Representation - Fine-tuning topics using repres

Treino DC finalizado! Salvando modelo...
TUDO PRONTO! Modelo salvo em 'modelo_dc_final' e tabela em 'tabela_topicos_dc.csv'


In [None]:
topic_model.visualize_topics()