# üîç AN√ÅLISE DE T√ìPICOS COM BERTopic - INSTRU√á√ïES

Este notebook realiza an√°lise autom√°tica de t√≥picos em textos usando intelig√™ncia artificial.
Siga os passos abaixo para executar a an√°lise:

1. INSTALAR E IMPORTAR (Execute esta c√©lula primeiro)
2. CONFIGURA√á√ïES (Enviar o seu arquivo CSV)
3. MODELAGEM DE T√ìPICOS (An√°lise principal)
4. VISUALIZA√á√ïES (Gr√°ficos e resultados)
5. EXPORTA√á√ÉO (Salvar resultados)

Dica: Execute as c√©lulas de cima pra baixo, na ordem, usando o bot√£o ‚ñ∂ ao lado de cada uma.

# 1Ô∏è‚É£ INSTALAR E IMPORTAR DEPEND√äNCIAS

A c√©lula abaixo instala e importa todas as bibliotecas necess√°rias.

‚úèÔ∏è O que voc√™ precisa fazer:
- Apenas execute a c√©lula (n√£o precisa editar nada)
- Espere at√© ver a mensagem "Bibliotecas instaladas com sucesso!"

‚è≥ Tempo estimado: 1-2 minutos


In [None]:
# 1. Instala√ß√µes e Downloads
!pip install spacy bertopic wordcloud pandas
!python -m spacy download pt_core_news_sm
!python -m spacy download pt_core_news_md
!python -m spacy download pt_core_news_lg

# 1.1 Importa√ß√µes
import pandas as pd
import spacy
from sentence_transformers import SentenceTransformer
from bertopic import BERTopic
from sklearn.feature_extraction.text import CountVectorizer
from wordcloud import WordCloud, STOPWORDS
import matplotlib.pyplot as plt
from plotly.colors import qualitative

print("‚úÖ Bibliotecas instaladas e importadas com sucesso!")

**üìõ REINICIAR O KERNEL SE:**  
‚úîÔ∏è C√©lulas travando sem erro aparente  
‚úîÔ∏è Mensagens de "biblioteca n√£o encontrada"  
‚úîÔ∏è Sa√≠das inconsistentes entre execu√ß√µes  

**üîß COMO REINICIAR:**  
1. Menu: `Ambiente de execu√ß√£o` ‚Üí `Reiniciar ambiente...`  
2. Ou use o atalho: `Ctrl + M .` (ponto)  
3. Execute todas as c√©lulas novamente

# 2Ô∏è‚É£ CONFIGURA√á√ïES

‚úèÔ∏è AJUSTE NA C√âLULA ABAIXO OS PAR√ÇMETROS PRINCIPAIS:

1. Caminho do seu arquivo .CSV
(clique no √≠cone de pasta üìÅ na coluna √† esquerda, depois em üì§ upload,

   *   Clique no √≠cone de pasta üìÅ na coluna √† esquerda;
   *   Clique em üì§ upload;
   *   Selecione o .CSV do seu computador, aperte Open e OK;
   *   Clique com o bot√£o direito no nome do arquivo e aperte em "Copiar Caminho";
   *   Cole esse caminho entre as aspas na c√©lula abaixo.
2. Modelo de linguagem: pt_core_news_sm, pt_core_news_md e pt_core_news_lg, use md como padr√£o, sm para testes r√°pidos, lg apenas se precisar de alta precis√£o.
3. Palavras que deseja ignorar na an√°lise (stopwords), √© util para melhorar a qualidade dos t√≥picos identificados, remover ru√≠do, otimizar o tempo de processamento.
4. Porcentagem de palavras muito frequentes que ser√£o ignoradas.
4. Nome da coluna que cont√©m os textos a analisar (evite nomear as colunas com duas palavras separadas por espa√ßo).
5. Par√¢metros avan√ßados do modelo de t√≥picos, consulte a documenta√ß√£o em https://maartengr.github.io/BERTopic/api/bertopic.html (Ex.: min_topic_size: quanto menor o valor, mais t√≥picos s√£o criados.)

üîß Dicas:
- Altere apenas o que est√° entre aspas
- Para adicionar v√°rias stopwords, separe por v√≠rgulas, exemplo: ["palavra1", "palavra2", "palavra3"]


In [None]:
# 2. #### CONFIGUR√ÅVEIS ####

# 2.1 Defina o caminho para o seu CSV no Drive
CSV_PATH = '/content/nome-do-seu-arquivo.csv'  # ‚Üê ajuste para o seu caminho

# 2.2 Modelo spaCy para tokeniza√ß√£o e POS-tagging. # Ex.: "pt_core_news_sm", "pt_core_news_md", "pt_core_news_lg", "en_core_web_sm", etc.
SPACY_MODEL = "pt_core_news_md"

# 2.3 Lista de palavras adicionais que voc√™ quer **for√ßar** a excluir # Exemplo: ["exemplo", "teste", "palavradescartar"]
CUSTOM_STOP_WORDS = ["exemplo", "palavradescartar", "teste", "outrapalavra"]

# 2.4 Descarta tokens que ocorrem em mais de 70% dos documentos
MAX_DOC_FREQ = 0.70

# 2.5 Nome da coluna do DataFrame que cont√©m o texto a ser analisado. # Exemplo: "resenha", "descricao", "comentario"
TEXT_COLUMN = "nome_da_coluna"

# 2.6 Par√¢metros do BERTopic:
#     language: para stop-words e pr√©-processamento (pode ser None para auto-detec√ß√£o)
#     n_gram_range: (min, max) n-gramas a considerar
#     min_topic_size: n√∫mero m√≠nimo de documentos por t√≥pico
BERTOPIC_PARAMS = {
    "language": "portuguese",        # ‚Üê personalize: "english", "spanish"‚Ä¶
    "n_gram_range": (1, 2),          # ‚Üê personalize: (1,1) para s√≥ uni-gramas, (2,3) para bi-+tri
    "min_topic_size": 5              # ‚Üê personalize: 5, 10, 20‚Ä¶
}
print("‚úÖ Configura√ß√µes salvas! Pode prosseguir para a pr√≥xima c√©lula.")

In [None]:
# 2.n Carregue o DataFrame
df = pd.read_csv(CSV_PATH, sep=',', encoding='utf-8')

# 2.n Selecione a coluna de texto que ser√° trabalhada
#    Certifique-se de definir TEXT_COLUMN antes (ex.: "seu_texto")
texts = df[TEXT_COLUMN].dropna().astype(str).tolist()

# 2.n Pronto: agora 'texts' √© uma lista de strings que voc√™ pode passar ao seu pipeline
print(f"Carregados {len(texts)} itens da coluna '{TEXT_COLUMN}'.")

In [None]:
# 2.n Inicializar spaCy
nlp = spacy.load(SPACY_MODEL)

# 2.n Pr√©-processamento
def preprocess(text):
    doc = nlp(text)
    tokens = []
    for token in doc:
        lemma = token.lemma_.lower()
        if token.is_alpha and not token.is_stop and lemma not in CUSTOM_STOP_WORDS:
            tokens.append(lemma)
    return " ".join(tokens)

docs = df[TEXT_COLUMN].dropna().astype(str).map(preprocess).tolist()

# 4.3 Cria um CountVectorizer que j√° exclui as suas stopwords
vectorizer_model = CountVectorizer(
    ngram_range=BERTOPIC_PARAMS["n_gram_range"], # Use the value from the dictionary
    stop_words=CUSTOM_STOP_WORDS,
    max_df=MAX_DOC_FREQ      # ‚Üê filtra termos super-frequentes
)

# üåü NUVEM DE PALAVRAS - VERIFICA√á√ÉO DE STOPWORDS

üîç OBJETIVO DESTA C√âLULA:
Visualizar as palavras mais frequentes para ajudar a identificar termos irrelevantes que devem ser adicionados como stopwords.

üëâ COMO USAR:
1. Execute a c√©lula para gerar a nuvem
2. Observe as palavras destacadas
3. Se aparecerem termos irrelevantes:
   - Volte √† c√©lula de CONFIGUR√ÅVEIS
   - Adicione-os em CUSTOM_STOP_WORDS
   - Execute novamente as c√©lulas subsequentes

üìå EXEMPLOS COMUNS DE STOPWORDS A ADICIONAR:
- Nomes de institui√ß√µes
- Termos muito gen√©ricos
- Palavras repetitivas do seu contexto espec√≠fico

In [None]:
# 5 N√∫vem de palavras para visualizar o dataset.

# 5.1 Combine todos os textos num √∫nico string
text = " ".join(docs)

# 5.2. Monte o conjunto de stopwords (padr√£o + customizadas)
stopwords = STOPWORDS.union(set(CUSTOM_STOP_WORDS))

# 5.3. Gere a nuvem de palavras
wc = WordCloud(
    stopwords=stopwords,
    width=800,
    height=400,
    background_color="white"   # opcional: defina a cor de fundo
).generate(text)

# 5.4. Exiba o gr√°fico
plt.figure(figsize=(12, 6))
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.show()

# 3Ô∏è‚É£ MODELAGEM DE T√ìPICOS

ETAPA PRINCIPAL: Aqui o modelo ir√°:
1. Analisar todos os textos
2. Identificar padr√µes
3. Agrupar em t√≥picos tem√°ticos

‚è≥ Tempo estimado: Varia conforme quantidade de textos
   (2-10 minutos para conjuntos m√©dios)

üîç O que ser√° mostrado:
- Tabela com t√≥picos encontrados e suas frequ√™ncias
- Palavras-chave de cada t√≥pico
- Amostra dos dados classificados

In [None]:
# @title ‚öôÔ∏è Inicializa√ß√£o do BERTopic

# 3.1 Inicialize o BERTopic com TODAS as configura√ß√µes da c√©lula de par√¢metros
topic_model = BERTopic(
    language=BERTOPIC_PARAMS["language"],       # Usa o idioma definido nos par√¢metros
    vectorizer_model=vectorizer_model,          # Vectorizer que j√° criamos com MAX_DOC_FREQ
    min_topic_size=BERTOPIC_PARAMS["min_topic_size"],  # Tamanho m√≠nimo do t√≥pico
    n_gram_range=BERTOPIC_PARAMS["n_gram_range"]       # Faixa de n-gramas
)

# 3.2 Confer√™ncia de seguran√ßa para garantir que est√° usando as stopwords corretas
print(f"Configura√ß√µes atribu√≠das:")
print(f"- Idioma: {BERTOPIC_PARAMS['language']}")
print(f"- Tamanho m√≠nimo de t√≥pico: {BERTOPIC_PARAMS['min_topic_size']}")
print(f"- N-gram range: {BERTOPIC_PARAMS['n_gram_range']}")
print(f"- Stopwords personalizadas: {CUSTOM_STOP_WORDS[:3]}... (total: {len(CUSTOM_STOP_WORDS)})")
print(f" ")
print(f" Aguarde ...")
print(f" ")

# 3.3 Processamento dos documentos
topics, probs = topic_model.fit_transform(docs)

# 3.4 Armazenamento dos resultados
df_result = df.copy()
df_result["BERtopic"] = topics

print(f"‚úÖ Modelo de classifica√ß√£o aplicado com sucesso!")

In [None]:
# @title 4Ô∏è‚É£ VISUALIZA√á√ïES DOS T√ìPICOS

print("\n" + "="*60)
print("üìã TABELA DE T√ìPICOS (ORDENADOS POR FREQU√äNCIA)")
print("="*60)

# DataFrame com informa√ß√µes dos t√≥picos (Topic, Count, Name)
topic_info = topic_model.get_topic_info()

# Melhoria na exibi√ß√£o da tabela
display(topic_info.style
        .background_gradient(subset=['Count'], cmap='Blues')
        .set_caption("T√≥picos identificados pelo BERTopic"))

# --------------------------------------------
# üè∑Ô∏è MAPEAMENTO DE NOMES PARA T√ìPICOS
# --------------------------------------------

print("\n" + "="*60)
print("üî§ PALAVRAS-CHAVE POR T√ìPICO")
print("="*60)

# Dicion√°rio de mapeamento (ID t√≥pico ‚Üí Nome)
topic_map = {
    row['Topic']: row['Name']
    for _, row in topic_info.iterrows()
}

# Exibe palavras-chave de cada t√≥pico formatadas
for topic_id in sorted(topic_info['Topic']):
    palavras_chave = topic_model.get_topic(topic_id)

    # Formata√ß√£o melhorada
    palavras_formatadas = [
        f"{word} ({score:.2f})"
        for word, score in palavras_chave[:5]  # Top 5 palavras por t√≥pico
    ]

    print(f"\nüîπ T√≥pico {topic_id} ({topic_map.get(topic_id, 'Outlier')}):")
    print("   üìå Principais termos:", " | ".join(palavras_formatadas))
    print("   üìä Documentos:", topic_info[topic_info['Topic'] == topic_id]['Count'].values[0])

# --------------------------------------------
# üëÄ PR√âVIA DOS DADOS CLASSIFICADOS
# --------------------------------------------

print("\n" + "="*60)
print("üìÑ AMOSTRA DOS RESULTADOS (5 primeiras e √∫ltimas linhas)")
print("="*60)

# Configura pandas para mostrar mais colunas
pd.set_option('display.max_columns', None)

# Exibe in√≠cio e fim do DataFrame
print("\n‚¨ÜÔ∏è PRIMEIRAS LINHAS:")
display(df_result.head().style.set_properties(**{
    'background-color': '#f8f9fa',
    'border': '1px solid #dee2e6'
}))

print("\n‚¨áÔ∏è √öLTIMAS LINHAS:")
display(df_result.tail().style.set_properties(**{
    'background-color': '#f8f9fa',
    'border': '1px solid #dee2e6'
}))


# Recupera as estat√≠sticas originais do modelo
raw_topic_info = topic_model.get_topic_info()

# Calcula porcentagens
total_raw_docs = raw_topic_info['Count'].sum()
raw_topic_info['% do Total'] = (raw_topic_info['Count'] / total_raw_docs * 100).round(1)
# EXIBI√á√ÉO INTERATIVA
# --------------------------------------------------

print("\n" + "="*60)
print(f"üìà DISTRIBUI√á√ÉO DOS {total_raw_docs} DOCUMENTOS")
print("="*60)
display(raw_topic_info[['Topic', 'Name', 'Count', '% do Total']]
        .rename(columns={
            'Topic': 'ID T√≥pico',
            'Name': 'Palavras-Chave (Auto)',
            'Count': 'üìä Documentos'
        })
        .style
        .format({'% do Total': '{:.1f}%'})
        .bar(subset=['üìä Documentos'], color='#4b8bbe')
        .set_caption("Distribui√ß√£o dos T√≥picos"))


# VERIFICA√á√ÉO DOS RESULTADOS

‚úÖ SE OS RESULTADOS ACIMA ESTIVEREM SATISFAT√ìRIOS, PROSSIGA PARA AS PR√ìXIMAS C√âLULAS.

‚ö†Ô∏è CASO CONTR√ÅRIO, VOLTE √Ä SE√á√ÉO 'CONFIGURA√á√ïES' E AJUSTE:
1. CUSTOM_STOP_WORDS: Adicione termos irrelevantes que apareceram
2. MIN_TOPIC_SIZE: Aumente para menos t√≥picos ou diminua para mais detalhado
3. MAX_DOC_FREQ: Reduza para filtrar palavras muito frequentes

üîÑ PROCEDIMENTO:
1. Ajuste os par√¢metros
2. Execute novamente desde o pr√©-processamento
3. Verifique esta visualiza√ß√£o novamente

üîé O QUE ANALISAR:
1. T√≥picos com <5 docs podem ser fundidos ou descartados;
2. Outliers (>20%) podem indicar necessidade de ajuste no modelo;
3. Palavras-chave repetidas sugerem stopwords faltantes.

# üìä VISUALIZA√á√ïES INTERATIVAS DOS T√ìPICOS

Esta se√ß√£o gera 3 tipos de visualiza√ß√µes para ajudar na interpreta√ß√£o dos t√≥picos:

1Ô∏è‚É£ GR√ÅFICO DE BARRAS - Mostra as palavras mais relevantes de cada t√≥pico
2Ô∏è‚É£ MAPA DE DIST√ÇNCIA - Ilustra como os t√≥picos se relacionam entre si
3Ô∏è‚É£ MATRIZ DE SIMILARIDADE - Mostra o grau de similaridade entre t√≥picos

üîç Como usar:
- Passe o mouse sobre os elementos para ver detalhes
- Clique e arraste para explorar os gr√°ficos
- Use os menus interativos (quando dispon√≠veis)

In [None]:
# @title 1Ô∏è‚É£ GR√ÅFICO DE BARRAS - PALAVRAS-CHAVE POR T√ìPICO
# O que voc√™ est√° vendo:
# - Cada barra representa um t√≥pico (exceto outliers -1)
# - As palavras s√£o ordenadas por import√¢ncia (score)
# - O comprimento da barra mostra a relev√¢ncia do termo
#
# O que observar:
# - Se as palavras fazem sentido para o t√≥pico
# - Se h√° termos irrelevantes que deveriam ser stopwords
topic_model.visualize_barchart()

In [None]:
# @title 2Ô∏è‚É£ MAPA DE DIST√ÇNCIA - RELA√á√ÉO ENTRE T√ìPICOS
# O que voc√™ est√° vendo:
# - Cada bolha representa um t√≥pico
# - T√≥picos pr√≥ximos s√£o semanticamente similares
# - Tamanho da bolha = quantidade de documentos

# O que observar:
# - Agrupamentos naturais de t√≥picos
# - T√≥picos isolados (potencialmente √∫nicos)
# - Outliers distantes do n√∫cleo
# - M√≠nimo de 4 t√≥picos para funcionar
topic_model.visualize_topics()

In [None]:
# @title 3Ô∏è‚É£ MATRIZ DE SIMILARIDADE - AFINIDADE ENTRE T√ìPICOS
# O que voc√™ est√° vendo:
# - Tabela onde cada c√©lula mostra a similaridade (0-1)
# - 1 = t√≥picos id√™nticos, 0 = completamente diferentes
# - Diagonal principal sempre = 1 (autossimilaridade)

# O que observar:
# - T√≥picos com similaridade > 0.8 (potencial para fus√£o)
# - T√≥picos √∫nicos (baixa similaridade com os demais)
topic_model.visualize_heatmap()

# üè∑Ô∏è PERSONALIZA√á√ÉO DOS NOMES DOS T√ìPICOS (OPCIONAL)

üìå ETAPA DE NOMEA√á√ÉO DOS T√ìPICOS

Aqui voc√™ pode atribuir nomes descritivos aos t√≥picos identificados pelo modelo, substituindo os termos de palavras-chave por r√≥tulos significativos.

‚úèÔ∏è COMO USAR:
1. Analise as palavras-chave de cada t√≥pico (geradas anteriormente)
2. Edite o dicion√°rio abaixo com nomes que representem cada grupo
3. Execute a c√©lula para aplicar as mudan√ßas

üñçÔ∏è EXEMPLO PR√ÅTICO:
Se o t√≥pico 0 tem as palavras: "aluno, ensino, personaliza√ß√£o",
um bom nome seria "Personaliza√ß√£o do Ensino"

‚ö†Ô∏è IMPORTANTE:
- Mantenha o t√≥pico -1 como "Outliers" (dados n√£o classificados)
- Os n√∫meros devem corresponder aos IDs dos t√≥picos

In [None]:
# Dicion√°rio de mapeamento (ID -> Nome do t√≥pico)
labels_map = {
    -1: "Outliers",                       # Documentos n√£o classificados
     0: "Nome do T√≥pico 1",
     1: "Nome do T√≥pico 2",
     2: "Nome do T√≥pico 3",
     3: "Nome do T√≥pico 4",
     4: "Nome do T√≥pico 5",
}

# --------------------------------------------
# APLICA√á√ÉO DOS R√ìTULOS (n√£o precisa editar)
# --------------------------------------------
print("‚úÖ T√≥picos renomeados com sucesso!")
print("\nüìã Rela√ß√£o de t√≥picos atualizada:")
for topic_id, topic_name in labels_map.items():
    print(f"T√≥pico {topic_id}: {topic_name}")

# üìå RESUMO DOS T√ìPICOS RENOMEADOS E VISUALIZA√á√ïES

As c√©lulas abaixo geram resumos e visualiza√ß√µes dos t√≥picos com:
- Nomes personalizados dos t√≥picos (definidos anteriormente)
- Contagem de documentos associados a cada t√≥pico
- Dados percentuais impl√≠citos (calculados sobre o total)

‚ñ∏ O que voc√™ pode analisar:
1. Distribui√ß√£o dos documentos entre t√≥picos
2. Propor√ß√£o de outliers (t√≥pico -1)
3. T√≥picos dominantes e minorit√°rios

In [None]:
# Obt√©m estat√≠sticas brutas do modelo
topic_info = topic_model.get_topic_info()
# Aplica os nomes personalizados dos t√≥picos
topic_info['T√≥pico'] = topic_info['Topic'].map(labels_map)
# Formata o quadro final de exibi√ß√£o
quadro = topic_info.loc[:, ['T√≥pico', 'Count']].rename(
    columns={'Count': 'Quantidade de Documentos'}
)
# Adiciona coluna de porcentagem
total_docs = quadro['Quantidade de Documentos'].sum()
quadro['% do Total'] = (quadro['Quantidade de Documentos'] / total_docs * 100).round(1)

# EXIBI√á√ÉO FORMATADA (sa√≠da interativa)
# --------------------------------------------------
print(f"\nüîç Distribui√ß√£o dos {total_docs} documentos analisados")
print(f" ")
print(f" ")
display(quadro.style
        .format({'% do Total': '{:.1f}%'})
        .bar(subset=['Quantidade de Documentos'], color='#5fba7d')
        .set_caption("Frequ√™ncia de Documentos por T√≥pico"))


In [None]:
# Agora vamos fazer um gr√°fico com a distribui√ß√£o de itens por t√≥pico

# Obter o DataFrame com frequ√™ncia de t√≥picos
topic_info = topic_model.get_topic_info()
# Aplicar os labels
topic_info['Label'] = topic_info['Topic'].map(labels_map)
# Montar a paleta de cores, reservando cinza para o t√≥pico -1
palette = qualitative.Plotly  # ex: ['#636EFA', '#EF553B', '#00CC96', ...]
topic_colors = {
    -1:    'lightgrey',
     0:    palette[0],
     1:    palette[1],
     2:    palette[2],
     3:    palette[3],
     4:    palette[4],
}
# Preparar os dados para o gr√°fico de pizza
sizes  = topic_info['Count']
labels = topic_info['Label']
colors = [ topic_colors[t] for t in topic_info['Topic'] ]
# Desenhar o gr√°fico
fig, ax = plt.subplots(figsize=(8, 8))
ax.pie(
    sizes,
    labels=labels,
    colors=colors,
    autopct='%1.1f%%',
    startangle=90,
    textprops={'color':'black'}
)
ax.axis('equal')  # garante c√≠rculo
plt.title("Distribui√ß√£o de Itens por T√≥pico")
plt.show()

In [None]:
# Agora vamos visualizar a matrix de similaridade com os nomes dos topicos que voce atribuiu:
topic_model.set_topic_labels(labels_map)
# Gerar o bar chart
fig = topic_model.visualize_heatmap(custom_labels=True)
# Atualizar o t√≠tulo
fig.update_layout(
    title_text="Matriz de Similaridade",              # o texto que voc√™ quiser
    # title_x=0.5,                                    # opcional: centraliza horizontalmente
    # title_font_size=18                              # opcional: ajusta o tamanho da fonte
)
# Exibir
fig.show()

In [None]:
# Agora vamos visualizar o mapa de distancia entre topicos com os nomes dos topicos que voce sugeriu:
from plotly.colors import qualitative
topic_model.set_topic_labels(labels_map)
# Gerar o gr√°fico normalmente
fig = topic_model.visualize_topics(
    custom_labels=True,
    width=900,
    height=700,
    title="Mapa de Dist√¢ncia entre T√≥picos"
)
# Preparar a paleta padr√£o
palette = qualitative.Plotly
# Mapear t√≥pico ‚Üí cor
topic_colors = {topic: palette[i] for i, topic in enumerate(labels_map)}
# Recolorir e adicione r√≥tulos internos com texto preto
scatter = fig.data[0]
# Extrair o √≠ndice do t√≥pico de cada bolha
topics_in_fig = [int(row[0]) for row in scatter.customdata]
# Aplicar a cor das bolhas
scatter.marker.color = [topic_colors[t] for t in topics_in_fig]
# Exibir o texto dentro das bolhas
scatter.mode = 'markers+text'
scatter.text = [labels_map[t] for t in topics_in_fig]
scatter.textposition = 'middle center'
# Ajustar fonte do texto
scatter.textfont = dict(size=11, color='black')
# Mostrar o gr√°fico
fig.show()

# üìä ENTENDENDO OS SCORES DE PALAVRAS-CHAVE

O score (de 0 a 1) representa a import√¢ncia relativa de cada termo dentro de um t√≥pico, considerando:

* FREQU√äNCIA: Qu√£o comum a palavra √© no t√≥pico espec√≠fico
* DISTIN√á√ÉO: Qu√£o exclusiva ela √© desse t√≥pico (vs outros t√≥picos)

‚ñ∞ Score 0.9 ‚Üí Palavra MUITO caracter√≠stica do t√≥pico

‚ñ∞ Score 0.2 ‚Üí Palavra pouco representativa

AN√ÅLISE PR√ÅTICA:
* Barras mais longas = termos mais definidores do t√≥pico
* Compare scores entre palavras do mesmo t√≥pico

In [None]:
# Agora vamos plotar o score de palavras por t√≥pico.
import math
# === CONFIGURA√á√ÉO F√ÅCIL ===
n_topics = len([k for k in labels_map.keys() if k != -1])  # Exclui outliers (-1)
n_top_words  = 5   # quantas palavras principais exibir por t√≥pico
n_cols       = 3   # quantas colunas por linha
fig_width    = 4   # largura de cada subplot (em polegadas)
fig_height   = 4   # altura de cada subplot (em polegadas)
title        = "Score de Palavras por T√≥pico"

# Montar a paleta padr√£o e mapear t√≥pico ‚Üí cor
palette = qualitative.Plotly
topic_colors = {topic: palette[i] for i, topic in enumerate(labels_map)}
# Calcular layout
n_rows = math.ceil(n_topics / n_cols)
fig, axes = plt.subplots(
    n_rows, n_cols,
    figsize=(fig_width * n_cols, fig_height * n_rows),
    sharex=False
)
fig.suptitle(title, fontsize=16)
axes = axes.flatten()
for idx in range(n_topics):
    ax = axes[idx]
    # Extrair as top n_top_words de cada t√≥pico (j√° em ordem decrescente)
    topic_kw = topic_model.get_topic(idx)[:n_top_words]
    words, scores = zip(*topic_kw)
    # Plot horizontal e inverte eixo y para maior em cima
    ax.barh(words, scores, color=topic_colors[idx])
    ax.invert_yaxis()
    ax.set_title(labels_map[idx], fontsize=12)
    ax.set_xlabel("Score")
    ax.grid(axis="x", linestyle="--", alpha=0.5)

# Desligar eixos extras se houver
for j in range(n_topics, len(axes)):
    axes[j].axis('off')

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

# 5Ô∏è‚É£ EXPORTA√á√ÉO DOS RESULTADOS


üíæ ETAPA FINAL: EXPORTAR RESULTADOS

Aqui voc√™ pode salvar os resultados da an√°lise em formatos para:
1. Publica√ß√£o web (HTML interativo)
2. Compartilhamento (CSV)

Escolha as op√ß√µes que deseja utilizar:

In [None]:
# @title üåê OP√á√ÉO PARA WEB:
# Gera um arquivo HTML com a matriz de similaridade entre t√≥picos, que pode ser embedado em sites ou compartilhado.

# ‚ñ∏ Como usar:
# 1. Execute esta c√©lula
# 2. Encontre o arquivo 'topic_heatmap.html' no painel esquerdo
# 3. Fa√ßa o download ou copie para seu servidor web

heatmap_html = topic_model.visualize_heatmap()
heatmap_html.write_html("topic_heatmap.html")
print("‚úÖ HTML interativo salvo como 'topic_heatmap.html'")


In [None]:
# @title üìä EXPORTA√á√ÉO PARA CSV (AN√ÅLISE EM PLANILHAS)
# --------------------------------------------------

# Como usar:
# 1. Execute esta c√©lula
# 2. Clique no √≠cone üìÅ no menu esquerdo
# 3. Localize 'resultado_topics.csv'
# 4. Clique em ‚ãÆ ‚Üí Fazer download
# Garante que a coluna Nome_Topico existe e est√° correta


if 'Nome_Topico' not in df_result.columns:
    df_result['Nome_Topico'] = df_result['BERtopic'].map(labels_map).fillna("Outliers")
else:
    # Atualiza apenas os valores faltantes
    df_result['Nome_Topico'] = df_result['Nome_Topico'].fillna(
        df_result['BERtopic'].map(labels_map).fillna("Outliers")
    )

# --------------------------------------------------
# 2. EXPORTA√á√ÉO PARA CSV
# --------------------------------------------------
df_result.to_csv(
    'resultado_topics.csv',
    index=False,
    encoding='utf-8-sig',  # Codifica√ß√£o que preserva acentos
    columns=[col for col in df_result.columns if col != 'Unnamed: 0']  # Remove colunas indesejadas
)
print("\n‚úÖ Dados classificados salvos como 'resultado_topics.csv'")
print("   Encoding: UTF-8 com BOM (compat√≠vel com Excel)")

BERTopic: Neural topic modeling with a class-based TF-IDF procedure: https://doi.org/10.48550/arXiv.2203.05794