In [4]:
from gensim import corpora
from gensim.models import LdaModel
from gensim.parsing.preprocessing import preprocess_string

# Пример текстовых данных
documents = [
    "Natural language processing is a subfield of artificial intelligence.",
    "Topic modeling is used to discover hidden topics in a collection of text documents.",
    "K-Means is a popular clustering algorithm.",
    "Latent Dirichlet Allocation (LDA) is a generative probabilistic model for topics."
]

# Предобработка текстовых данных
processed_docs = [preprocess_string(doc) for doc in documents]

# Создание словаря
dictionary = corpora.Dictionary(processed_docs)

# Создание корпуса
corpus = [dictionary.doc2bow(doc) for doc in processed_docs]

# Определение модели LDA
lda_model = LdaModel(corpus, num_topics=2, id2word=dictionary, passes=10)

# Вывод тем
print("Темы, выделенные моделью LDA:")
for idx, topic in lda_model.print_topics(-1):
    print(f"Тема {idx + 1}: {topic}")

# Вывод тем и их вероятностей для каждого документа
print("\nТемы для каждого документа:")
for i, doc in enumerate(corpus):
    print(f"Документ {i + 1} Темы: {lda_model[doc]}")

Темы, выделенные моделью LDA:
Тема 1: 0.070*"intellig" + 0.070*"natur" + 0.070*"subfield" + 0.070*"process" + 0.070*"languag" + 0.070*"artifici" + 0.069*"cluster" + 0.069*"algorithm" + 0.069*"popular" + 0.069*"mean"
Тема 2: 0.127*"topic" + 0.091*"model" + 0.054*"discov" + 0.054*"text" + 0.054*"document" + 0.054*"collect" + 0.054*"hidden" + 0.054*"probabilist" + 0.054*"alloc" + 0.054*"dirichlet"

Темы для каждого документа:
Документ 1 Темы: [(0, 0.9262333), (1, 0.0737667)]
Документ 2 Темы: [(0, 0.05794397), (1, 0.942056)]
Документ 3 Темы: [(0, 0.89665693), (1, 0.10334305)]
Документ 4 Темы: [(0, 0.058256816), (1, 0.9417432)]


In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# Пример текстовых данных
documents = [
    "Natural language processing is a subfield of artificial intelligence.",
    "Topic modeling is used to discover hidden topics in a collection of text documents.",
    "K-Means is a popular clustering algorithm.",
    "Latent Dirichlet Allocation (LDA) is a generative probabilistic model for topics."
]

# Преобразование текстов в TF-IDF векторы
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

# Определение модели K-Means
kmeans_model = KMeans(n_clusters=2, random_state=42)
kmeans_model.fit(X)

# Вывод меток кластеров для каждого документа
print("Кластеры для документов:")
for i, label in enumerate(kmeans_model.labels_):
    print(f"Документ {i + 1}: Кластер {label}")

Кластеры для документов:
Документ 1: Кластер 0
Документ 2: Кластер 0
Документ 3: Кластер 1
Документ 4: Кластер 1


In [12]:
# pip install -U pyLDAvis

  and should_run_async(code)


In [11]:
import pyLDAvis
import pyLDAvis.gensim_models

# Включение локального режима
pyLDAvis.enable_notebook(local=True)

# Подготовка данных для визуализации
vis = pyLDAvis.gensim_models.prepare(lda_model, corpus, dictionary)

# Отображение визуализации
pyLDAvis.display(vis)

  and should_run_async(code)
