# Практическая работа 7: Работа с текстом. Моделирование тем и кластеризация документов
### Цель: Изучить методы моделирования тем и кластеризации документов в текстовых данных и их применение для выявления скрытых тем в коллекции текстов.

### Шаги выполнения:
Изучение методов моделирования тем и кластеризации документов.

### Моделирование тем с помощью LDA (Latent Dirichlet Allocation).
### Кластеризация документов с помощью алгоритма K-Means.
### Программирование модели LDA для моделирования тем.

### Написание кода для создания модели LDA и выделения тем в коллекции текстовых документов.
### Программирование кластеризации документов с использованием K-Means.

### Написание кода для кластеризации документов с использованием алгоритма K-Means.
### Код для выполнения задания
### 1. Моделирование тем с использованием LDA

In [1]:
from gensim import corpora
from gensim.models import LdaModel
from gensim.parsing.preprocessing import preprocess_string

# Пример текстовых данных
documents = [
    "Natural language processing is a subfield of artificial intelligence.",
    "Topic modeling is used to discover hidden topics in a collection of text documents.",
    "K-Means is a popular clustering algorithm.",
    "Latent Dirichlet Allocation (LDA) is a generative probabilistic model for topics."
]

# Предобработка текстовых данных
processed_docs = [preprocess_string(doc) for doc in documents]

# Создание словаря
dictionary = corpora.Dictionary(processed_docs)

# Создание корпуса
corpus = [dictionary.doc2bow(doc) for doc in processed_docs]

# Определение модели LDA
lda_model = LdaModel(corpus, num_topics=2, id2word=dictionary, passes=10)

# Вывод тем и их вероятностей для каждого документа
for i, doc in enumerate(corpus):
    print(f"Document {i+1} Topics:", lda_model[doc])


Document 1 Topics: [(0, 0.07483284), (1, 0.92516714)]
Document 2 Topics: [(0, 0.0633363), (1, 0.9366637)]
Document 3 Topics: [(0, 0.8960166), (1, 0.10398339)]
Document 4 Topics: [(0, 0.9345904), (1, 0.06540956)]


 ### Кластеризация документов с использованием K-Means

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# Преобразование текстов в TF-IDF векторы
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(documents)

# Определение модели K-Means
kmeans_model = KMeans(n_clusters=2, random_state=42)
kmeans_model.fit(X)

# Вывод меток кластеров для каждого документа
print("Document Clusters:", kmeans_model.labels_)


Document Clusters: [1 1 0 1]




## Дополнительные задания
Исследование влияния различного количества тем (для LDA) и кластеров (для K-Means) на результаты моделирования тем и кластеризации документов.

In [3]:
# Моделирование тем с разным количеством тем для LDA
lda_model_3_topics = LdaModel(corpus, num_topics=3, id2word=dictionary, passes=10)
for i, doc in enumerate(corpus):
    print(f"Document {i+1} Topics (3 topics):", lda_model_3_topics[doc])

# Кластеризация документов с разным количеством кластеров для K-Means
kmeans_model_3_clusters = KMeans(n_clusters=3, random_state=42)
kmeans_model_3_clusters.fit(X)
print("Document Clusters (3 clusters):", kmeans_model_3_clusters.labels_)


Document 1 Topics (3 topics): [(0, 0.04784381), (1, 0.9042528), (2, 0.04790331)]
Document 2 Topics (3 topics): [(0, 0.038212962), (1, 0.03729205), (2, 0.92449504)]
Document 3 Topics (3 topics): [(0, 0.8653815), (1, 0.06735711), (2, 0.06726144)]
Document 4 Topics (3 topics): [(0, 0.92187774), (1, 0.037419416), (2, 0.040702853)]
Document Clusters (3 clusters): [1 1 0 2]


In [5]:
!pip install pyLDAvis

Collecting pyLDAvis
  Downloading pyLDAvis-3.4.1-py3-none-any.whl (2.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m11.3 MB/s[0m eta [36m0:00:00[0m
Collecting funcy (from pyLDAvis)
  Downloading funcy-2.0-py2.py3-none-any.whl (30 kB)
Installing collected packages: funcy, pyLDAvis
Successfully installed funcy-2.0 pyLDAvis-3.4.1


## Реализация визуализации тем с использованием библиотеки pyLDAvis.

In [6]:
import pyLDAvis
import pyLDAvis.gensim_models as gensimvis

# Подготовка данных для визуализации
lda_display = gensimvis.prepare(lda_model, corpus, dictionary)

# Визуализация
pyLDAvis.display(lda_display)

## Заключение
### В данной практической работе мы:

### Изучили методы моделирования тем и кластеризации документов.
### Создали модель LDA для выделения тем в коллекции текстовых документов.
### Применили алгоритм K-Means для кластеризации документов.
### Провели дополнительные задания для исследования влияния различных параметров на результаты и реализовали визуализацию тем.