<a href="https://colab.research.google.com/github/UU-IM-EU/DEMO-ML-AI/blob/main/BERTopic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>




## BERTopic
BERTopic is a topic modeling technique that leverages ü§ó transformers and a custom class-based TF-IDF to create dense clusters allowing for easily interpretable topics whilst keeping important words in the topic descriptions.

<br>

<img src="https://raw.githubusercontent.com/MaartenGr/BERTopic/master/images/logo.png" width="40%">

# Starta en GPU session


- Navigera till Edit -> Notebook Settings Navigate to Edit‚ÜíNotebook Settings
- V√§lj GPU fr√•n Hardware Accelerator drop-down

[Reference](https://colab.research.google.com/notebooks/gpu.ipynb)

# **Installera BERTopic**

F√∂rst installeras BERTTopic fr√•n PyPi

In [1]:
%%capture
!pip install bertopic

## S√§tt upp √•tkomst till datafil

Eftersom filen √§r s√• stor s√• har jag sparat den p√• min gDrive. F√∂r att kunna excekvera notebooken och analysera data beh√∂ver ni skapa n√•gon typ av lagringsplats d√§r ni kan spara filen och l√§sa fr√•n den. Det kommer inte fungera att g√∂ra det fr√•n min gDrive.

In [2]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


## Starta om Notebook
N√§r BERTTopic √§r installerad s√• beh√∂ver vissa andra paket ocks√• uppdateras, detta kr√§ver en omstart.

Fr√•n menyn:

K√∂rning ‚Üí Starta om k√∂rning

## DATA

Vi anv√§nder en kurerad datam√§ngd fr√•n den ursprungliga datam√§ngd som tillhandah√•llits av Arbetsmilj√∂verket. Dock verkar n√•got fortfarande ligga i filen som jag inte ser och d√§rf√∂r fick jag g√∂ra en workaround f√∂r att f√• in texten fr√•n endast en kolumn.

In [1]:
import pandas as pd
temp = pd.read_csv('/content/drive/MyDrive/AI_AV/Webbstat_utdrag_AI_en_kolumn.csv', nrows=100000, names = [f'col{i+1}' for i in range(2)])
skador=temp['col1']
skador

0        Sociala och organisatoriska orsaker
1             Ergonomiska belastningsorsaker
2             Ergonomiska belastningsorsaker
3             Ergonomiska belastningsorsaker
4             Ergonomiska belastningsorsaker
                        ...                 
99995                                 Saknas
99996                                 Saknas
99997                                 Saknas
99998                                 Saknas
99999                                 Saknas
Name: col1, Length: 100000, dtype: object

Eftersom sentence transformers f√∂rv√§ntar sig text i form av en mening i taget i en lista skapas en lista som best√•r av alla texter.

In [3]:
skador.to_list

<bound method IndexOpsMixin.tolist of 0        Sociala och organisatoriska orsaker
1             Ergonomiska belastningsorsaker
2             Ergonomiska belastningsorsaker
3             Ergonomiska belastningsorsaker
4             Ergonomiska belastningsorsaker
                        ...                 
99995                                 Saknas
99996                                 Saknas
99997                                 Saknas
99998                                 Saknas
99999                                 Saknas
Name: col1, Length: 100000, dtype: object>

# **Temamodellering**

Nedan f√∂ljer ett exempel p√• hur en temamodell skapas utifr√•n den inl√§sta datam√§ngden som allts√• best√•r av en lista med 100 000 meningar som lagts en och en i en lista.




## Tr√§ning
**OBS:** *Temamodellering √§r en o√∂vervakad inl√§rningsmodell, den tr√§nas allts√• inte p√• m√§rkt data utan f√∂rv√§ntas hitta m√∂nster p√• egen hand.*

Vi b√∂rjar med att instansiera den sentence transformer vi vill anv√§nda och sparar den i en variabel. D√§refter instansierar vi sj√§lva BERTTopic. Vi anger att v√•r sentence transformer fr√•n KB-lab ska anv√§ndas eftersom det √§r svensk text vi ska analysera.  F√∂r att anv√§nda en sentence transformer som kan hantera 50+ spr√•k (men f√∂rmodligen s√§mre) kan ist√§llet en parameter f√∂r spr√•k multilingual `language="multilingual"`

Det √§r ocks√• m√∂jligt att s√§tta andra parametrar, exempelvis sannolikhetsparametrar f√∂r olika teman. Vissa av dessa g√∂r dock algoritmerna l√•ngsammare s√• har man mycket data √§r det klokt att inte sl√• p√• dessa parametrar.


In [4]:
#h√§mtar KB-lab sentence transformer och instansierar den i variabeln model_SWE
from sentence_transformers import SentenceTransformer
model_SWE = SentenceTransformer('KBLab/sentence-bert-swedish-cased')




In [5]:
#importera BERTTopic och instansiera  modellen i variablen 'topic_model'.
from bertopic import BERTopic

topic_model = BERTopic(embedding_model= model_SWE, calculate_probabilities=False)
#tr√§na modellen med den lista med meningar som finns i variablen 'skador' och spara resultatet i variablen 'topics'
topics = topic_model.fit_transform(skador)

# **Embedding Models**
Parametern  `embedding_model` tar en str√§ng som input som pekar p√• en viss sentence-transformers modell, en SentenceTransformer, eller en Flair DocumentEmbedding model. Det √§r d√§rmed mycket enkelt att testa olika embeddingmodeller. I grundutf√∂randet av BERTTopic anv√§nds SBERT. H√§r har KB:s modell 'KBLab/sentence-bert-swedish-cased' anv√§nts vilket √§r en sentence-transformer tr√§nad p√• svensk text som publicerats p√• Hugginface.

## Extrahera Teman (topics)
N√§r vi tr√§nat (fitted) v√•r modell s√• kan vi titta p√• resultaten. Ofta vill vi titta p√• de teman som √§r vanligast eftersom de b√§st representerar de texter vi analyserat. Nedan visas de fem teman som √§r vanligast

In [6]:
freq = topic_model.get_topic_info(); freq.head(5)

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,26590,-1_ergonomiska_belastningsorsaker_saknas_,"[ergonomiska, belastningsorsaker, saknas, , , ...","[Ergonomiska belastningsorsaker, Ergonomiska b..."
1,0,6846,0_sociala_organisatoriska_och_orsaker,"[sociala, organisatoriska, och, orsaker, , , ,...","[Sociala och organisatoriska orsaker, Sociala ..."
2,1,3760,1_kemiska_eller_biologiska_orsaker,"[kemiska, eller, biologiska, orsaker, , , , , , ]","[Kemiska eller biologiska orsaker, Kemiska ell..."
3,2,2206,2_fysikaliska_orsaker_vibrationer_,"[fysikaliska, orsaker, vibrationer, , , , , , , ]","[Fysikaliska orsaker, Fysikaliska orsaker, Fys..."
4,3,859,3_buller___,"[buller, , , , , , , , , ]","[Buller, Buller, Buller]"


-1 refererar till alla avvikande v√§rden (outliers) och ska oftast ignoreras.

In [7]:
topic_model.get_topic(0)  # Select the most frequent topic

[('sociala', 0.0013475158270583939),
 ('organisatoriska', 0.0013475158270583939),
 ('och', 0.0013475158270583939),
 ('orsaker', 0.0007209950825272812),
 ('', 1e-05),
 ('', 1e-05),
 ('', 1e-05),
 ('', 1e-05),
 ('', 1e-05),
 ('', 1e-05)]

**VIKTIGT**: BERTopic √§r en stokastisk modell vilket inneb√§r att teman kan skilja sig mellan olika k√∂rningar. Det beror fr√§mst p√• att UMAP √§r stokastisk.

## Attribut

Det finns ett antal attribut som g√•r att n√• efter att din BERTTopic modell har tr√§nats (dessa har inte √∂versatts eftersom det √§r attribut):


| Attribute | Description |
|------------------------|---------------------------------------------------------------------------------------------|
| topics_               | The topics that are generated for each document after training or updating the topic model. |
| probabilities_ | The probabilities that are generated for each document if HDBSCAN is used. |
| topic_sizes_           | The size of each topic                                                                      |
| topic_mapper_          | A class for tracking topics and their mappings anytime they are merged/reduced.             |
| topic_representations_ | The top *n* terms per topic and their respective c-TF-IDF values.                             |
| c_tf_idf_              | The topic-term matrix as calculated through c-TF-IDF.                                       |
| topic_labels_          | The default labels for each topic.                                                          |
| custom_labels_         | Custom labels for each topic as generated through `.set_topic_labels`.                                                               |
| topic_embeddings_      | The embeddings for each topic if `embedding_model` was used.                                                              |
| representative_docs_   | The representative documents for each topic if HDBSCAN is used.                                                |

Ett exempel nedan, h√§mtar f√∂rutsp√•dda teman f√∂r de f√∂rsta 10 dokumenten (raderna).

In [8]:
topic_model.topics_[:10]

[0, -1, 1693, -1, 2355, -1, -1, 2143, -1, 1]

# **Visualiseringar**

**OBS** *Det √§r viktigt att installera BERTTopic och sedan starta om den virtuella maskinen eftersom visualiseringar inte kommer fungera annars p√• grund av att BERTTopic beh√∂ver en √§ldre version av ett visualiseringsbibliotek √§n vad som √§r default i Colaboratory. Startas maskinen inte om s√•. fungerar fortfarande analysen men flera av visualiseringarna syns inte.*

Det finns flera olika m√∂jligheter f√∂r att visualisera resultatet. Fr√§mst handlar det om att visualisera teman, sannolikheter f√∂r olika teman och teman √∂ver tid.

Eftersom temagenerering √§r att betrakta som subjektivt kan visualiseringar hj√§lpa till att f√∂rst√• de teman som skapats.

## Visualisera Topics
Efter att vi tr√§nat `BERTopic` modellen, kan vi iterativt. g√• igenom ungef√§r de f√∂rsta 100 teman som skapats f√∂r att f√• en f√∂rst√•else f√∂r de teman som skapats. Det tar dock r√§tt mycket tid och det blir sv√•rt att f√• en god √∂verblick. D√§rf√∂r kan. man ist√§llet visualisera de teman som skapats. Visualiseringen √§r inspirerad av [LDAvis](https://github.com/cpsievert/LDAvis):

In [None]:
topic_model.visualize_topics()

## Visualisera Topic Probabilities OBS inte m√∂jligt att utf√∂ra med nuvarande modell

Vi har inte bett modellen att. ber√§kna `probabilities`  men hade vi gjort det kan vi anv√§nda resultatet f√∂r att unders√∂ka hur s√§ker modellen √§r p√• att ett visst tema finns i ett visst dokument. D√• hade vi dock beh√∂vt ber√§kna probability n√§r modellen skapas, vilket g√∂r den betydligt l√•ngsammare, vilket inte var m√∂jligt med den milj√∂ testerna utf√∂rts i. F√∂r att ber√§kna probablilty ska attributet 'calculate_probabilities' s√§ttas till True ist√§llet f√∂r False n√§r modellen instansieras.

F√∂r att skapa en s√•dan visualisering (givet att attributet inkluderats i tr√§ningen av modellen) anv√§nds f√∂ljande kod:

In [None]:
topic_model.visualize_distribution(probs[200], min_probability=0.015)

## Visualisera hierarkier i teman

De teman som skapats kan reduceras hierarkiskt. F√∂r att f√∂rst√• den potentiella hierarkiska strukturen kan kluster skapas som visar hur olika teman relaterar till varandra. Det kan hj√§lpa n√§r man vill minska antalet teman genom att sl√• samman dem.

In [16]:
topic_model.visualize_hierarchy(top_n_topics=10)

## Visualisera ord

Det g√•r ocks√• att visuellt visa de ord som valts ut av modellen f√∂r att skapa ett tema. Exempelvis kan vi visualisera n√•gra teman genom att skapa bargrafer av de c-TF-IDF po√§ng som genererats f√∂r varje temas representation. Detta kan generera ytterligare f√∂rst√•else genom att man kan j√§mf√∂ra po√§ngen mellan och inom olika teman.

In [17]:
topic_model.visualize_barchart(top_n_topics=10)

## Visualisera likhet mellan teman
N√§r vi genererat embeddings med b√•de c-TF-IDF and sentence_transformers, kan vi skapa en matris som visar likheten baserat p√• en cosinus formel. Resultatet blir d√• en matris som indikerar hur lika olika teman √§r varandra.

In [21]:
topic_model.visualize_heatmap(n_clusters=10, width=1000, height=1000)

## Visualisering av Term Score Decline
Teman representeras av ett antal ord d√§r det ord som b√§st representerar temat presenteras f√∂rst. Varje ord har en po√§ng som kommer fr√•n den embeddning som gjorts av c-TF-IDF algoritmen. Ju h√∂gre po√§ng, desto b√§ttre representerar ett visst ord det tema det ing√•r i. Eftersom orden som representerar temat √§r rangordnade efter sin po√§ng s√• kommer varje ord i ordningen har mindre koppling till sitt tema. Vid n√•gon punkt tillf√∂r inte l√§ngre tillagt ord n√•got till sitt tema och √§r d√§rmed inte en god representant f√∂r temat.

F√ñr att visualisera detta kan po√§ngen i enlighet med c-TF-IDF f√∂r varje tema plottas.

Med andra ord s√• plottas positionerna f√∂r varje ord i ett tema p√• x-axeln d√§r det ord som har b√§st po√§ng f√•r rankingen 1 medan s√§mre rankade ord hamnar l√§gre, och l√§gre p√• x-axeln. Vad vi d√• kan se √§r hur po√§ngen hela tiden minskar n√§r fler ord l√§ggs till i ett tema. Det kan vara till hj√§lp f√∂r att g√∂ra inst√§llningar f√∂r hur m√•nga ord som optimalt ska ing√• i ett tema f√∂r att temat ska vara enhetligt och f√∂rst√•eligt. En metod f√∂r att v√§lja antal ord √§r armb√•gsmetoden som beskrivs s√•h√§r p√• wikipedia [elbow method](https://en.wikipedia.org/wiki/Elbow_method_(clustering))


In [None]:
topic_model.visualize_term_rank()

# **Tema representation**
N√§r en modell med teman skapats kan dessa teman uppdateras f√∂r att b√§ttre f√•nga en text. D√§rmed finjusteras modellen efter specifika √∂nskem√•l.



## Att uppdatera teman
Exempel p√• anledningar att uppdatera teman kan vara att vissa teman inte √§r relevanta, kanske beroende p√• att de bygger p√• triviala ord (stoppord) som inte borde ing√•tt i analysen. Eller av andra anledningar. F√ñr att uppdatera modellen kan funktionen `update_topics` anv√§ndas. Det som d√• g√•r att √§ndra √§r parametrarna i `c-TF-IDF` som best√§mmer vilka ord som utg√∂r ett specifikt tema:


In [None]:
topic_model.update_topics(sampled_corpus, n_gram_range=(1, 2))

In [None]:
topic_model.get_topic(0)   # We select topic that we viewed before

[('call', 0.009435313911423536),
 ('phone', 0.008125493949572665),
 ('me', 0.0075528166790997655),
 ('calls', 0.007511304279367785),
 ('number', 0.007291605874965206),
 ('calling', 0.007076931103879009),
 ('she', 0.007069637205779178),
 ('they', 0.006978940636029365),
 ('he', 0.0066316271499559775),
 ('debt', 0.006513555143206685)]

## Minska antalet teman Topic Reduction
Det √§r ocks√• m√∂jligt att minska antalet teman efter att modellen tr√§nats. F√∂rdelen med detta √§r att du d√§rmed kan v√§lja antal teman efter att du tittat p√• vilka teman som skapats, ist√§llet f√∂r att gissa det mest l√§mpliga antalet baserat p√• fritexten som ing√•r i analysen:





In [None]:
topic_model.reduce_topics(sampled_corpus, nr_topics=60)

2023-08-27 19:32:27,434 - BERTopic - Reduced number of topics from 161 to 60


<bertopic._bertopic.BERTopic at 0x7fee6a2cfeb0>

In [None]:
# Access the newly updated topics with:
print(topic_model.topics_)

[0, 32, -1, -1, -1, -1, -1, 0, 0, -1, -1, -1, -1, -1, -1, 14, -1, -1, -1, 4, 6, -1, -1, 4, 0, -1, -1, -1, -1, 20, -1, 48, 5, 0, 25, 11, 24, -1, 4, -1, -1, 23, 51, -1, 0, -1, -1, 7, 1, 5, -1, -1, 48, 1, -1, 4, -1, -1, -1, -1, 0, -1, -1, -1, -1, -1, 0, -1, -1, -1, -1, 19, 35, -1, -1, -1, 0, 37, -1, 0, 54, 6, 58, 51, 30, -1, -1, 19, -1, -1, 0, 2, 45, 32, -1, -1, 21, -1, -1, -1, -1, -1, -1, 3, 2, 0, -1, -1, -1, -1, 11, -1, -1, 15, 14, -1, -1, -1, 0, 5, 5, -1, -1, -1, 9, -1, -1, 2, -1, -1, -1, -1, -1, 0, 55, 2, 21, 1, -1, -1, -1, 11, 31, -1, -1, -1, 11, 10, 0, 7, 4, 4, 55, -1, -1, -1, -1, 3, 8, 16, -1, 2, -1, -1, -1, -1, -1, -1, -1, 25, 24, -1, 28, -1, -1, -1, 0, -1, 4, 0, 6, 0, -1, -1, -1, 2, -1, 31, -1, -1, 5, -1, 2, 13, -1, -1, 14, -1, -1, 10, -1, -1, -1, -1, -1, -1, 18, -1, 53, 13, 4, 44, -1, 5, 4, -1, -1, -1, -1, 2, 0, 34, -1, 6, 1, -1, 1, 4, -1, 0, -1, -1, -1, 40, 0, -1, -1, 0, 0, -1, -1, -1, 25, 39, -1, 7, 2, 6, -1, 29, -1, -1, 40, -1, 23, -1, -1, -1, -1, -1, -1, -1, -1, -1, 32, 21, 

# **S√∂ka efter teman**
Efter att modellen tr√§nats kan funktionen `find_topics` anv√§ndas f√∂r att s√∂ka efter teman som liknar ett specifikt s√∂kord. I koden nedan s√∂ker funktionen efter teman som liknar s√∂ktermen "psykisk" och presenterar de teman som mest liknar ordet:

In [None]:
similar_topics, similarity = topic_model.find_topics("psykisk", top_n=5); similar_topics

[71, 45, 77, 9, 56]

In [None]:
topic_model.get_topic(71)

[('car', 0.03740731827314482),
 ('the car', 0.027790363401304377),
 ('dealer', 0.013837911908704722),
 ('the dealer', 0.009515109324321468),
 ('owner', 0.008430722097917726),
 ('previous owner', 0.008157988442865012),
 ('cars', 0.005827046491488879),
 ('the odometer', 0.00514870077683653),
 ('bought car', 0.004667512506960727),
 ('car with', 0.004498685875558186)]

# **Model serialization**
Modellen med dess interna inst√§llningar kan sparas enkelt. D√§remot sparas inte de data som ing√•r i analysen och inte heller de inb√§ddningar som skapas av BERT och c-TF_IDF. UMAP och HDBSCAN sparas dock.

In [None]:
# Save model
topic_model.save("my_model")

In [None]:
# Load model
my_model = BERTopic.load("my_model")

## Sentence-Transformers
Sokm n√§mts g√•r det att v√§lja vilken sentence-transformers modell som helst. Det g√∂rs genom att ange namnet p√• modellen i argumentet embedding_model.



In [None]:
#Exempel p√• BERTTopic med en annan embedding som klarar 50+ spr√•k
topic_model = BERTopic(embedding_model="xlm-r-bert-base-nli-stsb-mean-tokens")

[H√§r](https://www.sbert.net/docs/pretrained_models.html) finns en lista med supporterade sentence transformers modeller.  
