In [3]:
# 05_exploracao_tematica_bertopic.ipynb

# ----------------------
# ETAPA 1 - INSTALAR AS BIBLIOTECAS NECESSÁRIAS NO COLAB
# ----------------------

!pip install bertopic[visualization]
!pip install umap-learn
!pip install hdbscan
!pip install sentence-transformers

# ----------------------
# ETAPA 2 - IMPORTAÇÃO DAS BIBLIOTECAS
# ----------------------

import pandas as pd
from bertopic import BERTopic
import matplotlib.pyplot as plt
import plotly.io as pio
pio.renderers.default = "colab"


# ----------------------
# ETAPA 3 - CARREGAR O DATASET
# ----------------------

# Antes de rodar, faça upload do arquivo dados_unificados_aosfatos.csv via aba Files do Colab
caminho_csv = '/content/dados_unificados_aosfatos.csv'
df = pd.read_csv(caminho_csv)

# Verifica as primeiras linhas
df.head()

# ----------------------
# ETAPA 4 - PREPARAR OS TEXTOS PARA O BERTopic
# ----------------------

# Usaremos o campo conteudo_completo para a extração de temas
# Remove registros vazios para evitar erros

df = df.dropna(subset=['conteudo_completo'])
texts = df['conteudo_completo'].tolist()

# ----------------------
# ETAPA 5 - EXECUTAR O BERTopic
# ----------------------

# Cria o modelo
model = BERTopic(language="multilingual")  # usa modelo multilingue (português incluso)

# Ajusta o modelo nos textos
topics, probs = model.fit_transform(texts)

# ----------------------
# ETAPA 6 - EXIBIR OS TÓPICOS GERADOS
# ----------------------

# Mostra os principais tópicos descobertos
topicos_gerados = model.get_topic_info()
topicos_gerados.head(10)

# ----------------------
# ETAPA 7 - VISUALIZAR OS TÓPICOS EM GRÁFICOS INTERATIVOS
# ----------------------

model.visualize_barchart(top_n_topics=10).show()
model.visualize_topics().show()

# ----------------------
# ETAPA 8 - EXPORTAR OS RESULTADOS PARA ANÁLISE FUTURA
# ----------------------

# Adiciona o tópico encontrado ao dataframe original
df['topico_bertopic'] = topics

# Salva o dataframe com os tópicos no Colab
caminho_saida = "/content/dados_unificados_com_topicos.csv"
df.to_csv(caminho_saida, index=False, encoding='utf-8-sig')

print("Arquivo exportado com sucesso: dados_unificados_com_topicos.csv")

# ----------------------
# FIM DO PIPELINE DE EXPLORAÇÃO TEMÁTICA
# ----------------------




Arquivo exportado com sucesso: dados_unificados_com_topicos.csv
