  Eldeki bir makale koleksiyonunda konuları keşfetmek için LDA kullanabiliriz. Örnek olarak, 10 farklı makaleyi içeren bir makale koleksiyonu düşünelim ve her bir makalenin içerdiği kelimeleri bir dizi vektör olarak temsil edelim. Ardından, LDA ile konu modelleri oluşturabiliriz.

In [11]:
import numpy as np
import pandas as pd
import gensim
from gensim import corpora, models
from nltk.corpus import stopwords

# Örnek makale koleksiyonu
documents = ['Bu makale bir makale örneğidir.',
             'Makale koleksiyonu LDA ile analiz edilebilir.',
             'LDA bir konu modelleme tekniğidir.',
             'LDA, makale koleksiyonunda gizli konuları keşfetmek için kullanılır.',
             'Makale koleksiyonunda kullanılan kelimeler vektörlerle temsil edilebilir.',
             'Bu örnek, LDA modelinin nasıl çalıştığını göstermektedir.',
             'LDA modeli, veri setindeki konuların keşfedilmesine yardımcı olabilir.',
             'Makale koleksiyonunda kullanılan kelimeler arasındaki ilişkiler LDA ile incelenebilir.',
             'LDA modeli, bir makale koleksiyonundaki konuların sınıflandırılmasına yardımcı olabilir.',
             'Makale koleksiyonunda LDA modeli kullanarak konuların görselleştirilmesi mümkündür.']

# Stopwords'leri kaldıralım
stop_words = stopwords.words('turkish')
texts = [[word for word in document.lower().split() if word not in stop_words] for document in documents]

# Kelimeleri vektörlere dönüştürelim
dictionary = corpora.Dictionary(texts)
#Bu kod, verilen texts listesi üzerinde bir sözlük (dictionary) oluşturuyor. corpora.Dictionary sınıfı, belirtilen metinleri alarak bir sözlük oluşturur ve her kelimeye bir benzersiz bir sayısal kimlik (ID) atar. Bu sözlük, ardından LDA modelinin girdisi olarak kullanılacaktır.
corpus = [dictionary.doc2bow(text) for text in texts]
#dictionary.doc2bow(text) metodu, bir belgenin metnini BoW gösterimine dönüştürür. Bu işlem sonucunda, corpus adlı bir BoW gösterimi oluşur, yani her bir belge, sözlükteki farklı kelimelerin sayısını içeren bir vektör olarak temsil edilir. Bu corpus daha sonra LDA modeli için kullanılabilir.

In [12]:
# LDA modelini oluşturalım
lda_model = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=5, passes=5)

# Konuları gösterelim
for idx, topic in lda_model.print_topics(-1):
    print('Konu: {} \nKelimeler: {}\n'.format(idx, topic))


Konu: 0 
Kelimeler: 0.080*"makale" + 0.080*"gizli" + 0.080*"konuları" + 0.080*"kullanılır." + 0.080*"lda," + 0.080*"koleksiyonunda" + 0.080*"keşfetmek" + 0.013*"lda" + 0.013*"bir" + 0.013*"konuların"

Konu: 1 
Kelimeler: 0.135*"makale" + 0.103*"lda" + 0.071*"bir" + 0.039*"konuların" + 0.039*"koleksiyonundaki" + 0.039*"sınıflandırılmasına" + 0.039*"örnek," + 0.039*"göstermektedir." + 0.039*"çalıştığını" + 0.039*"analiz"

Konu: 2 
Kelimeler: 0.075*"konuların" + 0.075*"lda" + 0.075*"modeli," + 0.075*"yardımcı" + 0.075*"olabilir." + 0.075*"setindeki" + 0.075*"veri" + 0.075*"keşfedilmesine" + 0.013*"makale" + 0.013*"bir"

Konu: 3 
Kelimeler: 0.103*"koleksiyonunda" + 0.103*"makale" + 0.071*"kelimeler" + 0.071*"kullanılan" + 0.071*"lda" + 0.039*"edilebilir." + 0.039*"ilişkiler" + 0.039*"temsil" + 0.039*"arasındaki" + 0.039*"vektörlerle"

Konu: 4 
Kelimeler: 0.092*"bir" + 0.092*"lda" + 0.092*"konu" + 0.092*"modelleme" + 0.092*"tekniğidir." + 0.015*"makale" + 0.015*"konuların" + 0.015*"koleksiy