Fonte principal: https://github.com/MaartenGr/BERTopic

https://maartengr.github.io/BERTopic/algorithm/algorithm.html


    
https://hdbscan.readthedocs.io/en/latest/soft_clustering.html
    
https://hdbscan.readthedocs.io/en/latest/soft_clustering_explanation.html
    
   
   ***O que √© o BERTopic?***
   https://towardsdatascience.com/let-us-extract-some-topics-from-text-data-part-iv-bertopic-46ddf3c91622 (lido*)
   
   Problemas f√≥runs: https://github.com/MaartenGr/BERTopic/issues/763
   
Artigo base para escrita: https://www.mdpi.com/2071-1050/15/5/4166

# **Tutorial** - Topic Modeling with BERTopic

## BERTopic
BERTopic √© uma t√©cnica de modelagem de t√≥picos que utiliza transformadores ü§ó e um TF-IDF baseado em classe personalizado para criar clusters densos, permitindo t√≥picos facilmente interpret√°veis, mantendo palavras importantes nas descri√ß√µes do t√≥pico. 

<br>

<img src="https://raw.githubusercontent.com/MaartenGr/BERTopic/master/images/logo.png" width="10%">

<img src="https://github.com/MaartenGr/BERTopic/blob/master/docs/img/algorithm.png?raw=true" width="50%">

<img src="https://maartengr.github.io/BERTopic/algorithm/default.svg" width="20%">

# **Instalando o BERTopic**

Come√ßamos instalando o BERTopic do PyPi:

In [None]:
# %%capture
# !pip install bertopic

## Importando depend√™ncias

In [1]:
import pandas as pd
from bertopic import BERTopic

  @numba.jit()
  @numba.jit()
  @numba.jit()
  @numba.jit()


# Importando conjunto de dados

Para este projeto, usaremos um conjunto de dados de vagas de emprego na √°rea da bioinform√°tica.

In [2]:
docs = pd.read_csv('vagas_social_midia_preprocessado3.csv')
docs.head()

Unnamed: 0.3,Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,id,title,text,humanLanguage,pageUrl,requirements,tasks,word_count,language,text_result
0,0,0,0,JOB13030080891,Social Media & Web Management Internship,\nIntroduction\nThe Social Media & Web Managem...,en,https://www.nps.gov/hafe/getinvolved/supportyo...,"If not selected for this internship, please in...",Assist in creating and managing social media (...,501,en,introductionthe social media web management i...
1,1,1,1,JOB14899553632,Social Media Coordinator,ABOUT US\nThirty-Three Threads is an industry ...,en,https://www.linkedin.com/jobs/view/social-medi...,Bachelor‚Äôs degree in marketing or related fiel...,Responsible for daily content reaching followe...,710,en,usthirty three threads industry leader high p...
2,2,2,2,JOB25352725960,Web Strategy and Social Media Jobs,\nThe Web Manager will become part of an exper...,en,https://web.archive.org/web/20110413001938/htt...,,,570,en,web manager experienced interactive team hous...
3,3,3,3,JOB25520053244,Social Media and Communications Manager (m/f) ...,\nwith high affinity to life sciences\nfull ti...,en,http://www.nature.com/naturejobs/science/jobs/...,,Development and design of internal and externa...,714,en,high affinity life sciencesfull 40 hrs playin...
4,4,4,4,JOB31104822195,Job opening: Social Media Producer,"\nThis is a position on our core social team, ...",en,http://www.washingtonpost.com/wapo-audience-te...,2+ years of journalism experience. Reporting/b...,,407,en,core social team responsible post main brande...


In [3]:
len(docs)

7273

# **Modelagem de T√≥picos**

Neste exemplo, veremos os principais componentes do BERTopic e as etapas necess√°rias para criar um modelo de t√≥pico forte.

## Treinamento

Come√ßamos instanciando BERTopic. Definimos o idioma como 'ingl√™s', pois nossos documentos est√£o no idioma ingl√™s. Se voc√™ quiser usar um modelo multil√≠ngue, use `language="multilingual"`.

Tamb√©m calcularemos as probabilidades do t√≥pico. No entanto, isso pode tornar o BERTopic significativamente mais lento em grandes quantidades de dados (>100_000 documentos). √â aconselh√°vel desativ√°-lo se quiser acelerar o modelo.

# Ajustando par√¢metros do UMAP (https://medium.com/grabngoinfo/topic-modeling-with-deep-learning-using-python-bertopic-cf91f5676504)
# Dimension reduction
from umap import UMAP
umap_model = UMAP(n_neighbors=15, 
                  n_components=5, 
                  min_dist=0.0, 
                  metric='cosine', 
                  random_state=100)
# Initiate BERTopic
topic_model = BERTopic(umap_model=umap_model, language="english", calculate_probabilities=True)
topics, probs = topic_model.fit_transform(docs.text_result)

In [4]:
#PADR√ÉO (usar esse)
topic_model = BERTopic(language="english", calculate_probabilities=True, verbose=True) #, nr_topics = 20)
topics, probs = topic_model.fit_transform(docs.text_result)

Batches:   0%|          | 0/228 [00:00<?, ?it/s]

2023-07-13 17:07:20,177 - BERTopic - Transformed documents to Embeddings
2023-07-13 17:08:21,192 - BERTopic - Reduced dimensionality
2023-07-13 17:08:29,189 - BERTopic - Clustered reduced embeddings


In [None]:
# topic_model2 = topic_model.reduce_topics(docs.text_result, nr_topics=10)

**NOTA**: Use `language="multilingual"` para selecionar um modelo que suporte mais de 50 idiomas.

## Extraindo T√≥picos
Depois de ajustar nosso modelo, podemos come√ßar observando os resultados. Normalmente, examinamos primeiro os t√≥picos mais frequentes, pois eles representam melhor a cole√ß√£o de documentos.

In [5]:
len(topic_model.get_topic_info())

133

In [6]:
freq = topic_model.get_topic_info(); freq.head(51)

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,2933,-1_social_media_marketing_experience,"[social, media, marketing, experience, team, d...",[ description partner closely creative directo...
1,0,239,0_internship_intern_internships_india,"[internship, intern, internships, india, legit...",[ descriptionoverview summary social media int...
2,1,179,1_london_role_uk_manager,"[london, role, uk, manager, executive, across,...",[ client independent car dealership chelmsford...
3,2,122,2_circle_qualified_law_protected,"[circle, qualified, law, protected, applicants...",[ social media managerlocation miamistatus fre...
4,3,118,3_republic_islands_pierre_ivoire,"[republic, islands, pierre, ivoire, wallis, ki...",[ countriesunited statesunited kingdomaustrali...
5,4,116,4_design_skills_seo_web,"[design, skills, seo, web, marketing, knowledg...",[ qualificationsproven experience social media...
6,5,112,5_health_cancer_care_healthcare,"[health, cancer, care, healthcare, merck, hmdc...",[ requisition id ext000386the difference poten...
7,6,105,6_pr_role_agency_manchester,"[pr, role, agency, manchester, looking, charit...",[ social media manager looking broaden experie...
8,7,102,7_sports_sport_football_league,"[sports, sport, football, league, baseball, fa...",[ sports sunday night football social media co...
9,8,87,8_highlighted_picked_upgrade_moving,"[highlighted, picked, upgrade, moving, recruit...",[ see big development opportunities picked tea...


-1 refere-se a todos os outliers e normalmente deve ser ignorado. A seguir, vamos dar uma olhada em um t√≥pico frequente que foi gerado:

In [None]:
topic_model.get_topic(0)  

In [None]:
topic_model.get_topic(1)  

In [None]:
topic_model.get_topic(2)  

In [None]:
topic_model.get_topic(3)  

In [None]:
topic_model.get_topic(4)  

In [None]:
topic_model.get_topic(5)  

In [None]:
topic_model.get_topic(6)  

In [None]:
topic_model.get_topic(7)  

In [None]:
topic_model.get_topic(8)  

In [None]:
topic_model.get_topic(9)  

In [None]:
topic_model.get_topic(10)  

In [None]:
topic_model.get_topic(11)  

In [None]:
topic_model.get_topic(12)  

In [None]:
topic_model.get_topic(13)  

In [None]:
topic_model.get_topic(14)  

In [None]:
topic_model.get_topic(15)  

In [None]:
topic_model.get_topic(16)  

In [None]:
topic_model.get_topic(17)  

In [None]:
topic_model.get_topic(18)  

In [None]:
topic_model.get_topic(19)  

In [None]:
topic_model.get_topic(20)  

In [None]:
#30 antes e depois
# 'edu','zhiping weng', 'within', 'ta', stopwords 'new york', 'ithaca', 'cornell', 'albert', 'umass', 'nih','niab', 'afbi', st', jude', 'leibniz', 'hki', 'leibniz', 'dfci', 'dana', 'faber' institutos 'emilie' nomes proprios 'ensure' (garantir) verbos

window = 100

caracter = 'edu '
for index, row in docs.iterrows():
    a = row.text_result
    n = -1
    if(caracter in a):
        n = a.find(caracter)
        start_index = max(0, n - window)
        end_index = min(len(a), n + window)
        s = a[start_index:end_index]
        print(index, s, '\n')

**NOTA**: BERTopic √© estoc√°stico, o que significa que os t√≥picos podem diferir entre as execu√ß√µes. Isso se deve principalmente √† natureza estoc√°stica do UMAP.

In [None]:
### Attributes

## Atributos

Existem v√°rios atributos que voc√™ pode acessar depois de treinar seu modelo BERTopic:


| Attribute | Description |
|------------------------|---------------------------------------------------------------------------------------------|
| topics_               | The topics that are generated for each document after training or updating the topic model. |
| probabilities_ | The probabilities that are generated for each document if HDBSCAN is used. |
| topic_sizes_           | The size of each topic                                                                      |
| topic_mapper_          | A class for tracking topics and their mappings anytime they are merged/reduced.             |
| topic_representations_ | The top *n* terms per topic and their respective c-TF-IDF values.                             |
| c_tf_idf_              | The topic-term matrix as calculated through c-TF-IDF.                                       |
| topic_labels_          | The default labels for each topic.                                                          |
| custom_labels_         | Custom labels for each topic as generated through `.set_topic_labels`.                                                               |
| topic_embeddings_      | The embeddings for each topic if `embedding_model` was used.                                                              |
| representative_docs_   | The representative documents for each topic if HDBSCAN is used.                                                |

Por exemplo, para acessar os t√≥picos previstos para os 10 primeiros documentos, simplesmente executamos o seguinte:

In [None]:
topic_model.topics_[:10]

# **Visualiza√ß√£o**
Existem v√°rias op√ß√µes de visualiza√ß√£o dispon√≠veis no BERTopic, nomeadamente a visualiza√ß√£o de t√≥picos, probabilidades e t√≥picos ao longo do tempo. A modelagem de t√≥picos √©, at√© certo ponto, bastante subjetiva. As visualiza√ß√µes ajudam a entender os t√≥picos que foram criados.

## Visualizar T√≥picos
Depois de treinar nosso modelo `BERTopic`, podemos percorrer iterativamente talvez uma centena de t√≥picos para obter uma boa
compreens√£o dos t√≥picos que foram extra√≠dos. No entanto, isso leva algum tempo e carece de uma representa√ß√£o global.
Em vez disso, podemos visualizar os t√≥picos que foram gerados de maneira muito semelhante a
[LDAvis](https://github.com/cpsievert/LDAvis):

In [None]:
topic_model.visualize_topics()

## Visualize as probabilidades do t√≥pico

A vari√°vel `probabilities` que √© retornada de `transform()` ou `fit_transform()` pode
ser usado para entender o qu√£o confiante o BERTopic est√° de que certos t√≥picos podem ser encontrados em um documento. Em outras palavras √© aistribui√ß√£o de probabilidade de um determinado documento conter diferentes t√≥picos.

Para visualizar as distribui√ß√µes, simplesmente chamamos:

In [None]:
topic_model.visualize_distribution(probs[1], min_probability=0.015)

## Visualizar hierarquia de t√≥picos

Os t√≥picos que foram criados podem ser reduzidos hierarquicamente. Para entender a estrutura hier√°rquica potencial dos t√≥picos, podemos usar scipy.cluster.hierarchy para criar clusters e visualizar como eles se relacionam entre si. Isso pode ajudar a selecionar um nr_topics apropriado ao reduzir o n√∫mero de t√≥picos que voc√™ criou.

In [None]:
topic_model.visualize_hierarchy(top_n_topics=128)

## Visualizar termos

Podemos visualizar os termos selecionados para alguns t√≥picos criando gr√°ficos de barras a partir das pontua√ß√µes c-TF-IDF para cada representa√ß√£o de t√≥pico. Insights podem ser obtidos a partir das pontua√ß√µes relativas de c-TF-IDF entre e dentro dos t√≥picos. Al√©m disso, voc√™ pode facilmente comparar representa√ß√µes de t√≥picos entre si.

In [None]:
topic_model.visualize_barchart(top_n_topics=136, n_words=10, height=300)

## Visualize a similaridade do t√≥pico
Tendo gerado incorpora√ß√µes de t√≥picos, por meio de c-TF-IDF e incorpora√ß√µes, podemos criar uma matriz de similaridade simplesmente aplicando similaridades de cosseno por meio dessas incorpora√ß√µes de t√≥picos. O resultado ser√° uma matriz que indica a semelhan√ßa entre determinados t√≥picos.

In [None]:
topic_model.visualize_heatmap(top_n_topics=136, width=1000, height=1000)

## Encontre t√≥picos semelhantes ao termo especificado

In [None]:
# Retorna os 3 principais t√≥picos que s√£o semanticamente mais semelhantes 
# a um termo de consulta de entrada 

# 3 t√≥picos mais semelhantes √† palavra especificada
similar_topics, similarity = \
topic_model.find_topics("skills", top_n = 3) 


print("Informa√ß√µes sobre t√≥picos mais semelhantes: \n{}".format(topic_model.get_topic(similar_topics[0])))
print("Pontua√ß√£o de similaridade: {}".format(similarity[0]))

print("\n Most Similar Topic Info: \n{}".format(topic_model.get_topic(similar_topics[1])))
print("Similarity Score: {}".format(similarity[1]))

print("\n Most Similar Topic Info: \n{}".format(topic_model.get_topic(similar_topics[2])))
print("Similarity Score: {}".format(similarity[2]))

## Visualize o decl√≠nio da pontua√ß√£o do per√≠odo
Os t√≥picos s√£o representados por um n√∫mero de palavras come√ßando com a palavra mais representativa. Cada palavra √© representada por uma pontua√ß√£o c-TF-IDF. Quanto maior a pontua√ß√£o, mais representativa √© a palavra para o t√≥pico. Como as palavras do t√≥pico s√£o classificadas por sua pontua√ß√£o c-TF-IDF, as pontua√ß√µes diminuem lentamente a cada palavra adicionada. Em algum ponto, adicionar palavras √† representa√ß√£o do t√≥pico aumenta apenas marginalmente a pontua√ß√£o total do c-TF-IDF e n√£o seria ben√©fico para sua representa√ß√£o.

Para visualizar esse efeito, podemos plotar as pontua√ß√µes do c-TF-IDF para cada t√≥pico pela classifica√ß√£o do termo de cada palavra. Em outras palavras, a posi√ß√£o das palavras (classifica√ß√£o do termo), onde as palavras com a maior pontua√ß√£o c-TF-IDF ter√£o uma classifica√ß√£o de 1, ser√° colocada no eixo x. Considerando que o eixo y ser√° preenchido pelas pontua√ß√µes c-TF-IDF. O resultado √© uma visualiza√ß√£o que mostra o decl√≠nio da pontua√ß√£o c-TF-IDF ao adicionar palavras √† representa√ß√£o do t√≥pico. Ele permite que voc√™, usando o m√©todo do cotovelo, selecione o melhor n√∫mero de palavras em um t√≥pico.

In [None]:
topic_model.visualize_term_rank()

# **Representa√ß√£o do T√≥pico**
Depois de criar o modelo de t√≥pico, voc√™ pode n√£o ficar satisfeito com alguns dos par√¢metros escolhidos. Felizmente, o BERTopic permite que voc√™ atualize os t√≥picos depois de criados.

Isso permite ajustar o modelo de acordo com suas especifica√ß√µes e desejos.

## Atualizar T√≥picos
Depois de treinar um modelo e visualizar os t√≥picos e as palavras que os representam,
voc√™ pode n√£o estar satisfeito com a representa√ß√£o. Talvez voc√™ tenha esquecido de remover
stopwords ou voc√™ quer experimentar um `n_gram_range` diferente. Podemos usar a fun√ß√£o `update_topics` para atualizar
a representa√ß√£o do t√≥pico com novos par√¢metros para `c-TF-IDF`:

In [None]:
topic_model.update_topics(docs.text_result, n_gram_range=(1, 3))

In [None]:
topic_model.get_topic(0)   # We select topic that we viewed before

## Redu√ß√£o de T√≥pico
Tamb√©m podemos reduzir o n√∫mero de t√≥picos depois de treinar um modelo BERTopic. A vantagem de faz√™-lo,
√© que voc√™ pode decidir o n√∫mero de t√≥picos depois de saber quantos s√£o realmente criados. Isso √© dif√≠cil
preveja antes de treinar seu modelo quantos t√≥picos est√£o em seus documentos e quantos ser√£o extra√≠dos.
Em vez disso, podemos decidir depois quantos t√≥picos parecem realistas:

In [None]:
topic_model.reduce_topics(docs.text_result, nr_topics=20)

In [None]:
# Access the newly updated topics with:
print(topic_model.topics_)

In [None]:
len(topic_model.get_topic_info())

In [None]:
topic_model.get_topic(0)  

In [None]:
topic_model.get_topic(1)  

In [None]:
topic_model.get_topic(2)  

In [None]:
topic_model.get_topic(3)  

In [None]:
topic_model.get_topic(4)  

In [None]:
topic_model.get_topic(5)  

In [None]:
topic_model.get_topic(6)  

In [None]:
topic_model.get_topic(7)  

In [None]:
topic_model.get_topic(8)  

In [None]:
topic_model.get_topic(9)  

In [None]:
topic_model.get_topic(10)  

In [None]:
topic_model.get_topic(11)  

In [None]:
topic_model.get_topic(12)  

In [None]:
topic_model.get_topic(13)  

In [None]:
topic_model.get_topic(14)  

In [None]:
topic_model.get_topic(15)  

In [None]:
topic_model.get_topic(16)  

In [None]:
topic_model.get_topic(17)  

In [None]:
topic_model.get_topic(18)  

In [None]:
topic_model.get_topic(19)  

In [None]:
topic_model.get_topic(20)  

In [None]:
topic_model.visualize_barchart(top_n_topics=20, n_words=10, height=300)

# **Visualiza√ß√£o P√≥s Redu√ß√£o**
Existem v√°rias op√ß√µes de visualiza√ß√£o dispon√≠veis no BERTopic, nomeadamente a visualiza√ß√£o de t√≥picos, probabilidades e t√≥picos ao longo do tempo. A modelagem de t√≥picos √©, at√© certo ponto, bastante subjetiva. As visualiza√ß√µes ajudam a entender os t√≥picos que foram criados.

## Visualizar T√≥picos
Depois de treinar nosso modelo `BERTopic`, podemos percorrer iterativamente talvez uma centena de t√≥picos para obter uma boa
compreens√£o dos t√≥picos que foram extra√≠dos. No entanto, isso leva algum tempo e carece de uma representa√ß√£o global.
Em vez disso, podemos visualizar os t√≥picos que foram gerados de maneira muito semelhante a
[LDAvis](https://github.com/cpsievert/LDAvis):

In [None]:
topic_model.visualize_topics()

## Visualize as probabilidades do t√≥pico

A vari√°vel `probabilities` que √© retornada de `transform()` ou `fit_transform()` pode
ser usado para entender o qu√£o confiante o BERTopic est√° de que certos t√≥picos podem ser encontrados em um documento. Em outras palavras √© aistribui√ß√£o de probabilidade de um determinado documento conter diferentes t√≥picos.

Para visualizar as distribui√ß√µes, simplesmente chamamos:

In [None]:
topic_model.visualize_distribution(probs[1], min_probability=0.015)

## Visualizar hierarquia de t√≥picos

Os t√≥picos que foram criados podem ser reduzidos hierarquicamente. Para entender a estrutura hier√°rquica potencial dos t√≥picos, podemos usar scipy.cluster.hierarchy para criar clusters e visualizar como eles se relacionam entre si. Isso pode ajudar a selecionar um nr_topics apropriado ao reduzir o n√∫mero de t√≥picos que voc√™ criou.

In [None]:
topic_model.visualize_hierarchy(top_n_topics=128)

## Visualizar termos

Podemos visualizar os termos selecionados para alguns t√≥picos criando gr√°ficos de barras a partir das pontua√ß√µes c-TF-IDF para cada representa√ß√£o de t√≥pico. Insights podem ser obtidos a partir das pontua√ß√µes relativas de c-TF-IDF entre e dentro dos t√≥picos. Al√©m disso, voc√™ pode facilmente comparar representa√ß√µes de t√≥picos entre si.

In [None]:
topic_model.visualize_barchart(top_n_topics=136, n_words=10, height=300)

## Visualize a similaridade do t√≥pico
Tendo gerado incorpora√ß√µes de t√≥picos, por meio de c-TF-IDF e incorpora√ß√µes, podemos criar uma matriz de similaridade simplesmente aplicando similaridades de cosseno por meio dessas incorpora√ß√µes de t√≥picos. O resultado ser√° uma matriz que indica a semelhan√ßa entre determinados t√≥picos.

In [None]:
topic_model.visualize_heatmap(top_n_topics=136, width=1000, height=1000)

# **Pesquisar T√≥picos**
Depois de treinar nosso modelo, podemos usar `find_topics` para pesquisar t√≥picos semelhantes
para um search_term de entrada. Aqui, procuraremos t√≥picos que se relacionem intimamente com o
termo de pesquisa "omic". Em seguida, extra√≠mos o t√≥pico mais semelhante e verificamos os resultados:

In [None]:
similar_topics, similarity = topic_model.find_topics("omic", top_n=5); similar_topics

In [None]:
topic_model.get_topic(0)

# **Serializa√ß√£o do modelo**
O modelo e suas configura√ß√µes internas podem ser facilmente salvos. Observe que os documentos e incorpora√ß√µes n√£o ser√£o salvos. No entanto, UMAP e HDBSCAN ser√£o salvos.

In [None]:
# Save model
topic_model.save("my_model")	

In [None]:
# Load model
my_model = BERTopic.load("my_model")	

# **Incorporando modelos**
O par√¢metro `embedding_model` recebe uma string apontando para um modelo de transformadores de senten√ßa, um SentenceTransformer ou um modelo Flair DocumentEmbedding.

## Transformadores de Senten√ßa
Voc√™ pode selecionar qualquer modelo de transformadores de senten√ßa aqui e pass√°-lo por BERTopic com embedding_model:

In [None]:
topic_model = BERTopic(embedding_model="xlm-r-bert-base-nli-stsb-mean-tokens")

Ou selecione um modelo SentenceTransformer com seus pr√≥prios par√¢metros:

In [None]:
from sentence_transformers import SentenceTransformer

sentence_model = SentenceTransformer("distilbert-base-nli-mean-tokens", device="cpu")
topic_model = BERTopic(embedding_model=sentence_model, verbose=True)

Click [here](https://www.sbert.net/docs/pretrained_models.html) for a list of supported sentence transformers models.  


# Teste

In [None]:
from sentence_transformers import SentenceTransformer
from bertopic import BERTopic
from umap import UMAP

In [None]:
sentence_model = SentenceTransformer("all-MiniLM-L6-v2")

In [None]:
len(docs)

In [None]:
docs = docs['title_result']

In [None]:
# https://maartengr.github.io/BERTopic/getting_started/visualization/visualization.html#visualize-documents
embeddings = sentence_model.encode(docs, show_progress_bar=False)

In [None]:
# Train BERTopic
topic_model = BERTopic().fit(docs, embeddings)

# Run the visualization with the original embeddings
topic_model.visualize_documents(docs, embeddings=embeddings)

# Reduce dimensionality of embeddings, this step is optional but much faster to perform iteratively:
reduced_embeddings = UMAP(n_neighbors=10, n_components=2, min_dist=0.0, metric='cosine').fit_transform(embeddings)
topic_model.visualize_documents(docs, reduced_embeddings=reduced_embeddings)