Fonte principal: https://github.com/MaartenGr/BERTopic

https://maartengr.github.io/BERTopic/algorithm/algorithm.html


    
https://hdbscan.readthedocs.io/en/latest/soft_clustering.html
    
https://hdbscan.readthedocs.io/en/latest/soft_clustering_explanation.html
    
   
   ***O que é o BERTopic?***
   https://towardsdatascience.com/let-us-extract-some-topics-from-text-data-part-iv-bertopic-46ddf3c91622 (lido*)
   
   Problemas fóruns: https://github.com/MaartenGr/BERTopic/issues/763
   
Artigo base para escrita: https://www.mdpi.com/2071-1050/15/5/4166

# **Tutorial** - Topic Modeling with BERTopic

## BERTopic
BERTopic é uma técnica de modelagem de tópicos que utiliza transformadores 🤗 e um TF-IDF baseado em classe personalizado para criar clusters densos, permitindo tópicos facilmente interpretáveis, mantendo palavras importantes nas descrições do tópico. 

<br>

<img src="https://raw.githubusercontent.com/MaartenGr/BERTopic/master/images/logo.png" width="10%">

<img src="https://github.com/MaartenGr/BERTopic/blob/master/docs/img/algorithm.png?raw=true" width="50%">

<img src="https://maartengr.github.io/BERTopic/algorithm/default.svg" width="20%">

# **Instalando o BERTopic**

Começamos instalando o BERTopic do PyPi:

In [None]:
# %%capture
# !pip install bertopic

## Importando dependências

In [1]:
import pandas as pd
from bertopic import BERTopic

  @numba.jit()
  @numba.jit()
  @numba.jit()
  @numba.jit()


# Importando conjunto de dados

Para este projeto, usaremos um conjunto de dados de vagas de emprego na área da bioinformática.

In [2]:
docs = pd.read_csv('vagas_social_midia_preprocessado3.csv')
docs.head()

Unnamed: 0.3,Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,id,title,text,humanLanguage,pageUrl,requirements,tasks,word_count,language,text_result
0,0,0,0,JOB13030080891,Social Media & Web Management Internship,\nIntroduction\nThe Social Media & Web Managem...,en,https://www.nps.gov/hafe/getinvolved/supportyo...,"If not selected for this internship, please in...",Assist in creating and managing social media (...,501,en,introductionthe social media web management i...
1,1,1,1,JOB14899553632,Social Media Coordinator,ABOUT US\nThirty-Three Threads is an industry ...,en,https://www.linkedin.com/jobs/view/social-medi...,Bachelor’s degree in marketing or related fiel...,Responsible for daily content reaching followe...,710,en,usthirty three threads industry leader high p...
2,2,2,2,JOB25352725960,Web Strategy and Social Media Jobs,\nThe Web Manager will become part of an exper...,en,https://web.archive.org/web/20110413001938/htt...,,,570,en,web manager experienced interactive team hous...
3,3,3,3,JOB25520053244,Social Media and Communications Manager (m/f) ...,\nwith high affinity to life sciences\nfull ti...,en,http://www.nature.com/naturejobs/science/jobs/...,,Development and design of internal and externa...,714,en,high affinity life sciencesfull 40 hrs playin...
4,4,4,4,JOB31104822195,Job opening: Social Media Producer,"\nThis is a position on our core social team, ...",en,http://www.washingtonpost.com/wapo-audience-te...,2+ years of journalism experience. Reporting/b...,,407,en,core social team responsible post main brande...


# **Modelagem de Tópicos**

Neste exemplo, veremos os principais componentes do BERTopic e as etapas necessárias para criar um modelo de tópico forte.

## Treinamento

Começamos instanciando BERTopic. Definimos o idioma como 'inglês', pois nossos documentos estão no idioma inglês. Se você quiser usar um modelo multilíngue, use `language="multilingual"`.

Também calcularemos as probabilidades do tópico. No entanto, isso pode tornar o BERTopic significativamente mais lento em grandes quantidades de dados (>100_000 documentos). É aconselhável desativá-lo se quiser acelerar o modelo.

In [None]:
# Ajustando parâmetros do UMAP (https://medium.com/grabngoinfo/topic-modeling-with-deep-learning-using-python-bertopic-cf91f5676504)
# Dimension reduction
from umap import UMAP
umap_model = UMAP(n_neighbors=15, 
                  n_components=5, 
                  min_dist=0.0, 
                  metric='cosine', 
                  random_state=100)
# Initiate BERTopic
topic_model = BERTopic(umap_model=umap_model, language="english", calculate_probabilities=True)
topics, probs = topic_model.fit_transform(docs.text_result)

In [3]:
docs2 = docs.head(2000)

In [None]:
#PADRÃO (usar esse)
topic_model = BERTopic(language="english", calculate_probabilities=True, verbose=True) #, nr_topics = 20)
topics, probs = topic_model.fit_transform(docs2.text_result)

Batches:   0%|          | 0/63 [00:00<?, ?it/s]

In [None]:
# topic_model2 = topic_model.reduce_topics(docs.text_result, nr_topics=10)

**NOTA**: Use `language="multilingual"` para selecionar um modelo que suporte mais de 50 idiomas.

## Extraindo Tópicos
Depois de ajustar nosso modelo, podemos começar observando os resultados. Normalmente, examinamos primeiro os tópicos mais frequentes, pois eles representam melhor a coleção de documentos.

In [6]:
len(topic_model.get_topic_info())

284

In [7]:
freq = topic_model.get_topic_info(); freq.head(51)

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,1600,-1_productdescription30dayonlinetotaltalentrea...,[productdescription30dayonlinetotaltalentreach...,[productdescription30dayonlinetotaltalentreach...
1,0,730,0_yearssocialdigitalmarketingexperienceatleast...,[yearssocialdigitalmarketingexperienceatleast3...,[informationpositionpurposethemanagersocialmed...
2,1,138,1_mondayeconomicdigestsinceindustrystransforma...,[mondayeconomicdigestsinceindustrystransformat...,[mediagrouponeleadersmediamarketleveragingcons...
3,2,122,2_wwwfairytrailapphelpteamscalestartupsourcing...,[wwwfairytrailapphelpteamscalestartupsourcingc...,[descriptionassocialmediainternaccountabledriv...
4,3,104,3_4monthcontractoctober2018january2019maternit...,[4monthcontractoctober2018january2019maternity...,[socialmediacoordinatorlocationyorkfunctionmar...
5,4,58,4_generalsummaryundersupervisiondirectorpublic...,[generalsummaryundersupervisiondirectorpublicr...,[briefdevelopsocialmediastrategyyourstartslook...
6,5,55,5_wwwleafgroupbrandsyoullreportdirectorbrandco...,[wwwleafgroupbrandsyoullreportdirectorbrandcom...,[society6homehundredsthousandsartistsaroundglo...
7,6,52,6_applicationsrolealwaysopenenquiriespassionat...,[applicationsrolealwaysopenenquiriespassionate...,[specialistsocialmediateamprincipaldataanalyst...
8,7,49,7_alpinestarscurrentlyseekingtalentedsocialmed...,[alpinestarscurrentlyseekingtalentedsocialmedi...,[descriptionagencywantbuildvisioninsteadsomeon...
9,8,48,8_yearsprofessionalexperience_yearsprofessiona...,"[yearsprofessionalexperience, yearsprofessiona...",[descriptiontalentedknowledgeablecreativedigit...


-1 refere-se a todos os outliers e normalmente deve ser ignorado. A seguir, vamos dar uma olhada em um tópico frequente que foi gerado:

In [8]:
topic_model.get_topic(0)  

[('yearssocialdigitalmarketingexperienceatleast3yearsmarketingmanagementexperiencemustablesubmitexamplescampaignsmultifacetedinitiativesbachelordegreepreferablymarketingjournalismadvertisingknowledgeskillsabilitiescompetenciesdepthknowledgeunderstandingsocialmediaplatformsrespectiveparticipantsdeployeddifferentscenariosgoodknowledgeprinciplesseoplanningunderstandsbuildssocialstrategyinnovativeabilityexecutestartcompletionwellweeklydailymaintenanceupdateskeepeffortscurrentdemonstratedabilitycombinestrategicplanningpracticalsolutionsprojectmanagementexcelsestablishingcleardirectionssetsstretchingobjectiveslayswellplannedorganizedmannermaintainstwowaydialoghighlyorganizedabilitycombinestrategicdirectionhandstacticalexecutioncommunicationcommunicatesclearlysuccinctlyvarietycommunicationsettingsstylesmessagesacrossdesiredeffectstrongcommunicationskillsverbalwritteninterpersonalskillsrelateswellkindspeoplesidewaysinsideoutsidebuildsappropriaterapportbuildsconstructiveeffectiverelationshipsus

In [9]:
topic_model.get_topic(1)  

[('mondayeconomicdigestsinceindustrystransformationdigitaleraexpandeddigitalbusinessbreakingregionalboundariesmakingoneleadingplayersdigitalmedialandscapeupholdtitle5thvisitedmobileplatformmediagroupcommittedreinforcingpositioningmegaproviderstrengthenselfownedplatformsprintdigitalmeanwhilestrivesbroadenbusinessscopeexpandaudiencereachactperfectsupportmarketerscontinuetransformationstrongreputablemarketerembracingchallengescreatingbusinessopportunitieseverchangingdigitalmultimediaenvironmentsuitableexperiencesocialmediaplatformsmanagementincludingfbigyoutubelinkedinfreshgraduatesfamiliarsocialtrendsconsiderednaturefullyresponsiblesocialmediaactivitiesfbigyoutubelinkedindevelopmentexecutiondataanalysisstrategygrowthetccreatecorefitchannelnaturehandlemultipleprojectssimultaneouslymanagevariousaccountscampaignstimelyprofessionalmanneranalyzedatainsightsguidestrategyimplementationsolutionstomanagecampaignsdeliverablescoordinateinternalpartiesimplementdigitalcampaignscharactersqualification

In [10]:
topic_model.get_topic(2)  

[('wwwfairytrailapphelpteamscalestartupsourcingcollaboratingpartnerscreatingbuildingcommunityresponsibilitiesassistdesignexecutionsocialmediacampaignsfocusfacebookinstagrammanageeditorialcalendarspromotecompanyproductsvarioussocialmediaplatformscreatedistributeinstagramstoriesyoutubevideosblogpoststracksocialmediaengagementidentifyhighperformingideascampaignsscalabilitypreferredcandidatespassiontraveldatingspaceexperiencecreatingbuildingaudienceexperienceblogspodcastspublicationsinterestexperiencesalesbusinessdevelopmentthisvolunteerrole815hoursweekstartmayevolveemployeeroledependingwelltogetherpassionatepeopleapplegooglezyngatripadvisorlookforwardhearingresumecoverletterexplainingreasonswouldlikeinternfairytrailalsolinkssocialmediaapplicationswithoutconsideredfairytrailapplyingbonuspointstypesinternshipexperiencerelevant1yearpreferredworklocationonelocationfullyremoteskillssocialmediafacebookmarketinginstagrammarketingcreationbloggingwebpublicationssocialmediamarketingsocialnetworking

In [44]:
topic_model.get_topic(3)  

[('cancer', 0.028574644696459376),
 ('bioinformatics', 0.01929803188898917),
 ('fantastic', 0.01721452162087124),
 ('diagnostics', 0.01488833067099965),
 ('bioinformatician', 0.014436048849813135),
 ('skills', 0.013917494812297761),
 ('data', 0.013751106538984651),
 ('sequencing', 0.013330572997718582),
 ('new', 0.012979354310863061),
 ('recruitment', 0.012800792786949703)]

In [45]:
topic_model.get_topic(4)  

[('bioinformatics', 0.025593564345212334),
 ('software', 0.020485750677654426),
 ('web', 0.017529355462579145),
 ('development', 0.017192984588849592),
 ('cloud', 0.013222633249032527),
 ('data', 0.012678165695904747),
 ('applications', 0.012328040367287437),
 ('role', 0.011320305067599503),
 ('support', 0.011230546273547212),
 ('experience', 0.010850161490306732)]

In [46]:
topic_model.get_topic(5)  

[('therapeutic', 0.04407940780404685),
 ('computational', 0.0431915080793649),
 ('biology', 0.04117071576399913),
 ('various', 0.04066787634142299),
 ('principal', 0.036901220861037164),
 ('strategy', 0.031312659168197955),
 ('scientist', 0.026190402276492046),
 ('scientific', 0.024300992812708425),
 ('target', 0.023965786512740804),
 ('questions', 0.023747878631549788)]

In [47]:
topic_model.get_topic(6)  

[('celgene', 0.027468412142428632),
 ('analysis', 0.019362856618481646),
 ('computational', 0.018861706969409597),
 ('data', 0.018729618389502933),
 ('clinical', 0.018263599381305673),
 ('profiling', 0.017643472058313285),
 ('datasets', 0.016758799532920594),
 ('molecular', 0.01674378051328073),
 ('research', 0.015994477595647177),
 ('scientific', 0.014496058877652596)]

In [48]:
topic_model.get_topic(7)  

[('data', 0.018529129193571588),
 ('experience', 0.016704846272709472),
 ('software', 0.01437335252607052),
 ('development', 0.0136103986431642),
 ('duties', 0.013255633653589007),
 ('analysis', 0.012336375859853322),
 ('status', 0.011662973423150766),
 ('assigned', 0.010897293548540488),
 ('management', 0.010724111400367694),
 ('tools', 0.010545572196130316)]

In [49]:
topic_model.get_topic(8)  

[('microbiome', 0.02666323104130782),
 ('microbial', 0.018439689674625837),
 ('research', 0.01598661225624936),
 ('metagenomics', 0.012173259105978733),
 ('institute', 0.012095227502677528),
 ('microbiology', 0.011501136759021981),
 ('group', 0.010793380421619264),
 ('bioinformatics', 0.010668744636704572),
 ('infection', 0.010655175693801635),
 ('candidate', 0.010627869396363798)]

In [50]:
topic_model.get_topic(9)  

[('teaching', 0.030479287192050866),
 ('university', 0.03000595129969079),
 ('faculty', 0.022456363182020777),
 ('department', 0.018541112204315573),
 ('edu', 0.017491346142908933),
 ('position', 0.016769099358778055),
 ('biology', 0.016759820832537613),
 ('statistics', 0.016171061784296732),
 ('computational', 0.015537830783774098),
 ('diversity', 0.015534002253963843)]

In [51]:
topic_model.get_topic(10)  

[('england', 0.02456503186765565),
 ('project', 0.023631315498802086),
 ('nhs', 0.022665481652689255),
 ('bioinformatics', 0.02071680904759179),
 ('operational', 0.019752167319691732),
 ('genomics', 0.019271476168928388),
 ('operations', 0.018958965175528173),
 ('clinical', 0.018721399196215984),
 ('genomic', 0.01785130095544828),
 ('genome', 0.01604848320490878)]

In [52]:
topic_model.get_topic(11)  

[('brain', 0.028749000234169486),
 ('disease', 0.02516551123735966),
 ('alzheimers', 0.01740177285042315),
 ('diseases', 0.01395695041313256),
 ('research', 0.013456158584563586),
 ('postdoc', 0.012118491471756223),
 ('novel', 0.01166049802186613),
 ('rna', 0.011556059943563516),
 ('neurodegenerative', 0.010764542580555397),
 ('parkinson', 0.010731226851140004)]

In [53]:
topic_model.get_topic(12)  

[('jrf', 0.025966924464230278),
 ('cassava', 0.02591816587438745),
 ('post', 0.02315218019251137),
 ('bioinformatics', 0.022492012388837915),
 ('positions', 0.02068350135068519),
 ('india', 0.019265634970217677),
 ('breeding', 0.019265634970217677),
 ('jobs', 0.018633851220981525),
 ('agriculture', 0.018420605664972774),
 ('pant', 0.0183105195502587)]

In [54]:
topic_model.get_topic(13)  

[('developer', 0.0635953337605951),
 ('software', 0.055939242682330144),
 ('stack', 0.041511268136029685),
 ('full', 0.03725294249229557),
 ('cambridge', 0.03550593258460663),
 ('jobs', 0.03402769919824551),
 ('engineer', 0.03306751150704533),
 ('python', 0.03187158273394717),
 ('devops', 0.030551820296742003),
 ('biotech', 0.027083238263603676)]

In [55]:
topic_model.get_topic(14)  

[('proceed', 0.22274856236117938),
 ('done', 0.1973205169225093),
 ('asked', 0.19659504461288535),
 ('already', 0.1931696565401153),
 ('fill', 0.18346981066590407),
 ('academicjobsonline', 0.17922135863667377),
 ('universitywelcome', 0.16781619440314716),
 ('free', 0.1597304094086949),
 ('form', 0.15731350536266678),
 ('selected', 0.1542101536525792)]

In [56]:
topic_model.get_topic(15)  

[('mentorship', 0.038469855289506756),
 ('celgene', 0.03168687998744715),
 ('discover', 0.03118412498931743),
 ('probabilistic', 0.02980482329519681),
 ('integrate', 0.029408597910856475),
 ('patient', 0.029264285538129944),
 ('profiling', 0.028405950739002966),
 ('molecular', 0.02694015508039613),
 ('cancer', 0.024532367061550424),
 ('readily', 0.024126985131342964)]

In [57]:
topic_model.get_topic(16)  

[('cross', 0.026431394210918398),
 ('work', 0.023957585700513442),
 ('manchester', 0.023343432425486598),
 ('preferredstatistical', 0.02242758660160288),
 ('tasksstrong', 0.02242758660160288),
 ('detailsability', 0.02242758660160288),
 ('deadlinesproject', 0.02242758660160288),
 ('scriptingexperience', 0.02242758660160288),
 ('uktel', 0.02214388103674483),
 ('fieldsexcellent', 0.02214388103674483)]

In [58]:
topic_model.get_topic(17)  

[('program', 0.03408736247669109),
 ('biology', 0.030812026504264164),
 ('individuals', 0.026709284205406435),
 ('school', 0.023143140037017153),
 ('research', 0.022013365165051566),
 ('students', 0.02129753521678758),
 ('applicants', 0.02104879879055096),
 ('systems', 0.019371422980822502),
 ('medical', 0.018474428292156238),
 ('college', 0.0182593230461428)]

In [59]:
topic_model.get_topic(18)  

[('software', 0.03448644248627121),
 ('test', 0.03043602025907233),
 ('pipelines', 0.029577448841690755),
 ('jira', 0.029121299537298955),
 ('wgs', 0.028853586280977554),
 ('experience', 0.027538997015304295),
 ('java', 0.027255626871119557),
 ('tester', 0.02426346745115189),
 ('confluence', 0.02418741722620245),
 ('bitbucket', 0.023585385082971942)]

In [60]:
topic_model.get_topic(19)  

[('project', 0.07017790251803009),
 ('developers', 0.057802961672200795),
 ('software', 0.05386923621454269),
 ('customer', 0.05081748471678882),
 ('manager', 0.04521740645701126),
 ('projects', 0.0414648583957211),
 ('teams', 0.03747299068199203),
 ('clients', 0.036928123609092124),
 ('schedule', 0.03580905042279604),
 ('interesting', 0.03407911291474186)]

In [16]:
#30 antes e depois
# 'edu','zhiping weng', 'within', 'ta', stopwords 'new york', 'ithaca', 'cornell', 'albert', 'umass', 'nih','niab', 'afbi', st', jude', 'leibniz', 'hki', 'leibniz', 'dfci', 'dana', 'faber' institutos 'emilie' nomes proprios 'ensure' (garantir) verbos

window = 100

caracter = 'edu '
for index, row in docs.iterrows():
    a = row.text_result
    n = -1
    if(caracter in a):
        n = a.find(caracter)
        start_index = max(0, n - window)
        end_index = min(len(a), n + window)
        s = a[start_index:end_index]
        print(index, s, '\n')

3 s information postdoctoral training program benefits found postdoc handbook http www utsouthwestern edu postdocs interested individuals statement interests list three references jin chen ph ut southwe 

7 ccomplishments include contact information three references applications sent directly jgillis cshl edu cold spring harbor laboratory equal opportunity employer favorite 

19 s psychiatric disease institute genomic medicine uc san diego led jonathan sebat http sebatlab ucsd edu beyster center leader fields human genome research psychiatric genetics postdoctoral fellow carr 

22 ier understanding gene regulation cshl symposia quantitative biology 2019visit bcm website  www bcm edu people search furqan fazal 72901 information lab job dutiesunder general direction principal inv 

29 statement summarizing research interests experience ms vesselina panteva panteva pennmedicine upenn edu university pennsylvania equal opportunity affirmative action employer 

30 y housing attractive benefi

In [61]:
topic_model.get_topic(20)  

[('learning', 0.02297805556721839),
 ('data', 0.021946743803225907),
 ('machine', 0.0215539790939356),
 ('drug', 0.018187919613349993),
 ('ai', 0.01618052364979948),
 ('discovery', 0.015326142181843702),
 ('approaches', 0.012421046677245138),
 ('omics', 0.012245516912319346),
 ('kaust', 0.012220043144284834),
 ('scientist', 0.011724349469992802)]

**NOTA**: BERTopic é estocástico, o que significa que os tópicos podem diferir entre as execuções. Isso se deve principalmente à natureza estocástica do UMAP.

In [None]:
### Attributes

## Atributos

Existem vários atributos que você pode acessar depois de treinar seu modelo BERTopic:


| Attribute | Description |
|------------------------|---------------------------------------------------------------------------------------------|
| topics_               | The topics that are generated for each document after training or updating the topic model. |
| probabilities_ | The probabilities that are generated for each document if HDBSCAN is used. |
| topic_sizes_           | The size of each topic                                                                      |
| topic_mapper_          | A class for tracking topics and their mappings anytime they are merged/reduced.             |
| topic_representations_ | The top *n* terms per topic and their respective c-TF-IDF values.                             |
| c_tf_idf_              | The topic-term matrix as calculated through c-TF-IDF.                                       |
| topic_labels_          | The default labels for each topic.                                                          |
| custom_labels_         | Custom labels for each topic as generated through `.set_topic_labels`.                                                               |
| topic_embeddings_      | The embeddings for each topic if `embedding_model` was used.                                                              |
| representative_docs_   | The representative documents for each topic if HDBSCAN is used.                                                |

Por exemplo, para acessar os tópicos previstos para os 10 primeiros documentos, simplesmente executamos o seguinte:

In [None]:
topic_model.topics_[:10]

# **Visualização**
Existem várias opções de visualização disponíveis no BERTopic, nomeadamente a visualização de tópicos, probabilidades e tópicos ao longo do tempo. A modelagem de tópicos é, até certo ponto, bastante subjetiva. As visualizações ajudam a entender os tópicos que foram criados.

## Visualizar Tópicos
Depois de treinar nosso modelo `BERTopic`, podemos percorrer iterativamente talvez uma centena de tópicos para obter uma boa
compreensão dos tópicos que foram extraídos. No entanto, isso leva algum tempo e carece de uma representação global.
Em vez disso, podemos visualizar os tópicos que foram gerados de maneira muito semelhante a
[LDAvis](https://github.com/cpsievert/LDAvis):

In [None]:
topic_model.visualize_topics()

## Visualize as probabilidades do tópico

A variável `probabilities` que é retornada de `transform()` ou `fit_transform()` pode
ser usado para entender o quão confiante o BERTopic está de que certos tópicos podem ser encontrados em um documento. Em outras palavras é aistribuição de probabilidade de um determinado documento conter diferentes tópicos.

Para visualizar as distribuições, simplesmente chamamos:

In [None]:
topic_model.visualize_distribution(probs[1], min_probability=0.015)

## Visualizar hierarquia de tópicos

Os tópicos que foram criados podem ser reduzidos hierarquicamente. Para entender a estrutura hierárquica potencial dos tópicos, podemos usar scipy.cluster.hierarchy para criar clusters e visualizar como eles se relacionam entre si. Isso pode ajudar a selecionar um nr_topics apropriado ao reduzir o número de tópicos que você criou.

In [None]:
topic_model.visualize_hierarchy(top_n_topics=51)

## Visualizar termos

Podemos visualizar os termos selecionados para alguns tópicos criando gráficos de barras a partir das pontuações c-TF-IDF para cada representação de tópico. Insights podem ser obtidos a partir das pontuações relativas de c-TF-IDF entre e dentro dos tópicos. Além disso, você pode facilmente comparar representações de tópicos entre si.

In [None]:
topic_model.visualize_barchart(top_n_topics=56, n_words=10, height=300)

## Visualize a similaridade do tópico
Tendo gerado incorporações de tópicos, por meio de c-TF-IDF e incorporações, podemos criar uma matriz de similaridade simplesmente aplicando similaridades de cosseno por meio dessas incorporações de tópicos. O resultado será uma matriz que indica a semelhança entre determinados tópicos.

In [None]:
topic_model.visualize_heatmap(top_n_topics=50, width=1000, height=1000)

## Encontre tópicos semelhantes ao termo especificado

In [None]:
# Retorna os 3 principais tópicos que são semanticamente mais semelhantes 
# a um termo de consulta de entrada 

# 3 tópicos mais semelhantes à palavra especificada
similar_topics, similarity = \
topic_model.find_topics("skills", top_n = 3) 


print("Informações sobre tópicos mais semelhantes: \n{}".format(topic_model.get_topic(similar_topics[0])))
print("Pontuação de similaridade: {}".format(similarity[0]))

print("\n Most Similar Topic Info: \n{}".format(topic_model.get_topic(similar_topics[1])))
print("Similarity Score: {}".format(similarity[1]))

print("\n Most Similar Topic Info: \n{}".format(topic_model.get_topic(similar_topics[2])))
print("Similarity Score: {}".format(similarity[2]))

## Visualize o declínio da pontuação do período
Os tópicos são representados por um número de palavras começando com a palavra mais representativa. Cada palavra é representada por uma pontuação c-TF-IDF. Quanto maior a pontuação, mais representativa é a palavra para o tópico. Como as palavras do tópico são classificadas por sua pontuação c-TF-IDF, as pontuações diminuem lentamente a cada palavra adicionada. Em algum ponto, adicionar palavras à representação do tópico aumenta apenas marginalmente a pontuação total do c-TF-IDF e não seria benéfico para sua representação.

Para visualizar esse efeito, podemos plotar as pontuações do c-TF-IDF para cada tópico pela classificação do termo de cada palavra. Em outras palavras, a posição das palavras (classificação do termo), onde as palavras com a maior pontuação c-TF-IDF terão uma classificação de 1, será colocada no eixo x. Considerando que o eixo y será preenchido pelas pontuações c-TF-IDF. O resultado é uma visualização que mostra o declínio da pontuação c-TF-IDF ao adicionar palavras à representação do tópico. Ele permite que você, usando o método do cotovelo, selecione o melhor número de palavras em um tópico.

In [None]:
topic_model.visualize_term_rank()

# **Representação do Tópico**
Depois de criar o modelo de tópico, você pode não ficar satisfeito com alguns dos parâmetros escolhidos. Felizmente, o BERTopic permite que você atualize os tópicos depois de criados.

Isso permite ajustar o modelo de acordo com suas especificações e desejos.

## Atualizar Tópicos
Depois de treinar um modelo e visualizar os tópicos e as palavras que os representam,
você pode não estar satisfeito com a representação. Talvez você tenha esquecido de remover
stopwords ou você quer experimentar um `n_gram_range` diferente. Podemos usar a função `update_topics` para atualizar
a representação do tópico com novos parâmetros para `c-TF-IDF`:

In [None]:
topic_model.update_topics(docs.text_result, n_gram_range=(1, 3))

In [None]:
topic_model.get_topic(0)   # We select topic that we viewed before

## Redução de Tópico
Também podemos reduzir o número de tópicos depois de treinar um modelo BERTopic. A vantagem de fazê-lo,
é que você pode decidir o número de tópicos depois de saber quantos são realmente criados. Isso é difícil
preveja antes de treinar seu modelo quantos tópicos estão em seus documentos e quantos serão extraídos.
Em vez disso, podemos decidir depois quantos tópicos parecem realistas:

In [None]:
topic_model.reduce_topics(docs.text_result, nr_topics=10)

In [None]:
# Access the newly updated topics with:
print(topic_model.topics_)

In [None]:
len(topic_model.get_topic_info())

In [None]:
topic_model.visualize_barchart(top_n_topics=56, n_words=10, height=300)

# **Pesquisar Tópicos**
Depois de treinar nosso modelo, podemos usar `find_topics` para pesquisar tópicos semelhantes
para um search_term de entrada. Aqui, procuraremos tópicos que se relacionem intimamente com o
termo de pesquisa "omic". Em seguida, extraímos o tópico mais semelhante e verificamos os resultados:

In [None]:
similar_topics, similarity = topic_model.find_topics("omic", top_n=5); similar_topics

In [None]:
topic_model.get_topic(0)

# **Serialização do modelo**
O modelo e suas configurações internas podem ser facilmente salvos. Observe que os documentos e incorporações não serão salvos. No entanto, UMAP e HDBSCAN serão salvos.

In [None]:
# Save model
topic_model.save("my_model")	

In [None]:
# Load model
my_model = BERTopic.load("my_model")	

# **Incorporando modelos**
O parâmetro `embedding_model` recebe uma string apontando para um modelo de transformadores de sentença, um SentenceTransformer ou um modelo Flair DocumentEmbedding.

## Transformadores de Sentença
Você pode selecionar qualquer modelo de transformadores de sentença aqui e passá-lo por BERTopic com embedding_model:

In [None]:
topic_model = BERTopic(embedding_model="xlm-r-bert-base-nli-stsb-mean-tokens")

Ou selecione um modelo SentenceTransformer com seus próprios parâmetros:

In [None]:
from sentence_transformers import SentenceTransformer

sentence_model = SentenceTransformer("distilbert-base-nli-mean-tokens", device="cpu")
topic_model = BERTopic(embedding_model=sentence_model, verbose=True)

Click [here](https://www.sbert.net/docs/pretrained_models.html) for a list of supported sentence transformers models.  


# Teste

In [None]:
from sentence_transformers import SentenceTransformer
from bertopic import BERTopic
from umap import UMAP

In [None]:
sentence_model = SentenceTransformer("all-MiniLM-L6-v2")

In [None]:
len(docs)

In [None]:
docs = docs['title_result']

In [None]:
# https://maartengr.github.io/BERTopic/getting_started/visualization/visualization.html#visualize-documents
embeddings = sentence_model.encode(docs, show_progress_bar=False)

In [None]:
# Train BERTopic
topic_model = BERTopic().fit(docs, embeddings)

# Run the visualization with the original embeddings
topic_model.visualize_documents(docs, embeddings=embeddings)

# Reduce dimensionality of embeddings, this step is optional but much faster to perform iteratively:
reduced_embeddings = UMAP(n_neighbors=10, n_components=2, min_dist=0.0, metric='cosine').fit_transform(embeddings)
topic_model.visualize_documents(docs, reduced_embeddings=reduced_embeddings)