# Tematsko modeliranje - prezentacija

Problem kojim se tematsko modeliranje bavi je pronalaženje načina da se nađu teme nekog zadatog teksta. Ovde se podrazumeva da nam je na raspolaganju veliki skup (odnosno, *korpus*) tekstova.

Korpus tekstova koji je korišćen je `20 Newsgroup` koji je dostupan u `sklearn` biblioteci i on izgleda ovako:

In [36]:
from sklearn.datasets import fetch_20newsgroups
import pandas as pd

data = fetch_20newsgroups(shuffle=True, random_state=5).data
news_df = pd.DataFrame({"document":data})
print(news_df.head())

                                            document
0  Subject: Re: "Imaginary" Friends - Dragons & M...
1  From: ivan@IRO.UMontreal.CA (Catalin Ivan)\nSu...
2  From: JOEL@jach.hawaii.edu (Joel Aycock)\nSubj...
3  From: cds7k@Virginia.EDU (Christopher Douglas ...
4  From: drw3l@delmarva.evsc.Virginia.EDU (David ...


Jasno je da se dokumenti, kao ovakvi, ne mogu koristiti za metode tematskog modeliranja. Zbog toga je neophodno odstranjivanje svega što nije slovo, pa onda pretvaranje svih slova u mala slova. Brisanje kraćih reči je takođe poželjno.

Nakon predprocesiranja teksta, potrebno je korpus sa rečima transformisati u nekakav numerički oblik, tako da svaka reč bude reprezenovana težinom koja se odnosi na frekvenciju pojavljivanja te reči. Ovde je koriščen `TfidfVectorizer` iz `sklearn`, ali je moguće koristiti i `CountVectorizer` iz iste biblioteke. 

Na kraju dolazimo do metoda koje su korišćene: LSA i LDA. 

LSA se zasniva na pristupu smanjenja dimenzionalnosti tzv. dokument-term matrice dobijene nakon korišćenja `TfidfVectorizer` uz pomoć singularne dekompozicije.

U tekstu je nakratko pomenut i PLSA algoritam koji, za razliku od LSA, pravi probabilistički model u svrhe rešavanja problema.

LDA je pristup koji se drastično razlikuje od LSA po tome što svodimo problem tematskog modeliranja na problem optimizacije (detaljnije opisan u tekstu). Ovaj pristup je daleko manje intuitivan od LSA algoritma, budući da koristi kompleksne osobine Bajesove verovatnoće, ali postiže dobre rezultate u praksi.

I za LSA i za LDA postoje odgovarajući objekti u biblioteci `sklearn` koji omogućavaju jednostavnu upotrebu. Za LDA se takođe koristi i implementacija u okviru `gensim` biblioteke.

## Korišćeni materijali:

[Topic Modeling with LSA, PLSA, LDA & lda2Vec](https://medium.com/nanonets/topic-modeling-with-lsa-psla-lda-and-lda2vec-555ff65b0b05)

[Text Mining 101: A Stepwise Introduction to Topic Modeling using Latent Semantic Analysis (using Python)](https://www.analyticsvidhya.com/blog/2018/10/stepwise-guide-topic-modeling-latent-semantic-analysis/)

[Topic Modelling with LSA and LDA](https://forestforthetree.com/statistics/2018/01/28/topic-modelling-with-lsa-and-lda.html)

[Intuitive Guide to Latent Dirichlet Allocation](https://towardsdatascience.com/light-on-math-machine-learning-intuitive-guide-to-latent-dirichlet-allocation-437c81220158)

[Latent Dirichlet Allocation, original paper](https://ai.stanford.edu/~ang/papers/jair03-lda.pdf)