# Обучение без учителя

## Кластеризация

В задачах обучения без учителя у нас есть только входные данные x(i) без меток, и мы хотим, чтобы алгоритм нашел некоторую структуру в данных.

Алгоритм кластеризации, такой как алгоритм k-средних, пытается сгруппировать данные в k «кластеров», которые имеют некоторое сходство.

Примеры: анализ социальных сетей, организация компьютерных кластеров и анализ астрономических данных.


K-Means
Алгоритм кластеризации K-Means использует итеративное уточнение для получения окончательного результата. Входными данными алгоритма являются количество кластеров К и набор данных. Набор данных представляет собой набор функций для каждой точки данных. Алгоритмы начинаются с начальных оценок для К-центроидов, которые могут быть либо сгенерированы случайным образом, либо случайным образом выбраны из набора данных. Затем алгоритм повторяется между двумя шагами:

1. Шаг присвоения данных:

Каждый центроид определяет один из кластеров. На этом этапе каждой точке данных присваивается ее ближайший центр тяжести на основе квадрата евклидова расстояния. Более формально, если ci представляет собой набор центроидов в наборе C, то каждая точка данных x назначается кластеру на основе

$$\underset{c_i \in C}{\arg\min} \; dist(c_i,x)^2$$

2. Шаг обновления Centroid:

На этом этапе центроиды пересчитываются. Это делается путем получения среднего значения всех точек данных, назначенных кластеру этого центроида.

$$c_i=\frac{1}{|S_i|}\sum_{x_i \in S_i x_i}$$


In [None]:
from sklearn.datasets import make_blobs
import numpy as np
import matplotlib.pyplot as plt

from sklearn.cluster import KMeans


plt.figure(figsize=(12, 12))

n_samples = 1500
random_state = 1760
X, y = make_blobs(n_samples=n_samples, random_state=random_state)

kmeans = KMeans(n_clusters=3)
kmeans.fit_predict(X)
y_pred = kmeans.predict(X)

plt.scatter(X[:, 0], X[:, 1], c=y_pred)
print(kmeans.score(X))
plt.show()

### Как выбрать количество кластеров

Метод Elbow


In [None]:
scores = []
for i in range(1,10):
    kmeans = KMeans(n_clusters=i, n_init="auto")
    kmeans.fit_predict(X)
    scores.append([i,kmeans.score(X)])
display(scores)
import pandas as pd
%matplotlib inline
plt.figure(figsize=(12,6))
plt.plot(pd.DataFrame(np.array(scores))[0],pd.DataFrame(np.array(scores))[1])
plt.show()

### Иерархическая (агломеративная) кластеризация

Данные: Информация об атрибутах:

1. длина чашелистика в см
2. ширина чашелистика в см
3. длина лепестка в см
4. ширина лепестка в см
5. класс:
   -- Ирис Сетоса
   -- Ирис разноцветный
   -- Ирис Вирджиния

- Изначально каждая точка сама является кластером.
- Два ближайших кластера неоднократно объединяются в один.
- Остановка, когда останется только один кластер.


In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)
plt.title("Датасет iris")
plt.xlabel("Длина Чашели́стика")
plt.ylabel("Ширина Чашели́стика")
plt.scatter(X[:, 0], X[:, 1], s=10, c=y, cmap="rainbow")

Z = linkage(X, "ward")

plt.figure(figsize=(25, 10))
plt.title("Дендрограмма иерархической кластеризации")
plt.xlabel("простой индекс")
plt.ylabel("дистанция")

dendrogram(Z, leaf_rotation=90.0, leaf_font_size=8.0)
plt.show()

plt.figure(figsize=(25, 10))
plt.title("Дендрограмма иерархической кластеризации")
plt.xlabel("простой индекс")
plt.ylabel("дистанция")
dendrogram(Z, leaf_rotation=90.0, leaf_font_size=8.0, truncate_mode="lastp")

### Пример неприменимости Иерархической кластеризации


In [None]:
from sklearn.datasets import make_moons, make_circles
from sklearn.cluster import AgglomerativeClustering

f, ax = plt.subplots(1, 2, figsize=(13, 5))

X, y = make_moons(1000, noise=0.05)
cl = AgglomerativeClustering(n_clusters=2).fit(X)
ax[0].scatter(X[:, 0], X[:, 1], c=cl.labels_, s=10, cmap="rainbow")

X, y = make_circles(1000, factor=0.5, noise=0.05)
cl = AgglomerativeClustering(n_clusters=2).fit(X)
ax[1].scatter(X[:, 0], X[:, 1], c=cl.labels_, s=10, cmap="rainbow")

### Спектральна кластеризация


In [None]:
from sklearn.datasets import make_moons, make_circles
from sklearn.cluster import SpectralClustering

f, ax = plt.subplots(1, 2, figsize=(13, 5))

X, y = make_moons(1000, noise=0.05)
cl = SpectralClustering(n_clusters=2, affinity="nearest_neighbors").fit(X)
ax[0].scatter(X[:, 0], X[:, 1], c=cl.labels_, s=10, cmap="rainbow")

X, y = make_circles(1000, factor=0.5, noise=0.05)
cl = SpectralClustering(n_clusters=2, affinity="nearest_neighbors").fit(X)
ax[1].scatter(X[:, 0], X[:, 1], c=cl.labels_, s=10, cmap="rainbow")

### DBSCAN


In [None]:
from sklearn.datasets import make_moons, make_circles
from sklearn.cluster import DBSCAN

f, ax = plt.subplots(1, 2, figsize=(13, 5))

X, y = make_moons(1000, noise=0.05)
cl = DBSCAN(eps=0.1).fit(X)
ax[0].scatter(X[:, 0], X[:, 1], c=cl.labels_, s=10, cmap="rainbow")

X, y = make_circles(1000, factor=0.5, noise=0.05)
cl = DBSCAN(eps=0.1).fit(X)
ax[1].scatter(X[:, 0], X[:, 1], c=cl.labels_, s=10, cmap="rainbow")

### Сравнительный анализ методов кластеризации


In [None]:
import time
import warnings

import numpy as np
import matplotlib.pyplot as plt

from sklearn import cluster, datasets, mixture
from sklearn.neighbors import kneighbors_graph
from sklearn.preprocessing import StandardScaler
from itertools import cycle, islice

np.random.seed(0)

# ============
# Создание наборов данных. Мы выбираем размер достаточно большим, чтобы увидеть масштабируемость
# алгоритмов, но не слишком большое, чтобы избежать слишком долгого времени выполнения
# ============
n_samples = 500
noisy_circles = datasets.make_circles(n_samples=n_samples, factor=0.5, noise=0.05)
noisy_moons = datasets.make_moons(n_samples=n_samples, noise=0.05)
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)
no_structure = np.random.rand(n_samples, 2), None

# Анизотропно распределенные данные
random_state = 170
X, y = datasets.make_blobs(n_samples=n_samples, random_state=random_state)
transformation = [[0.6, -0.6], [-0.4, 0.8]]
X_aniso = np.dot(X, transformation)
aniso = (X_aniso, y)

# капли с разной дисперсией
varied = datasets.make_blobs(
    n_samples=n_samples, cluster_std=[1.0, 2.5, 0.5], random_state=random_state
)

# ============
# Настройте параметры кластера
# ============
plt.figure(figsize=(9 * 2 + 3, 13))
plt.subplots_adjust(
    left=0.02, right=0.98, bottom=0.001, top=0.95, wspace=0.05, hspace=0.01
)

plot_num = 1

default_base = {
    "quantile": 0.3,
    "eps": 0.3,
    "damping": 0.9,
    "preference": -200,
    "n_neighbors": 3,
    "n_clusters": 3,
    "min_samples": 7,
    "xi": 0.05,
    "min_cluster_size": 0.1,
}

datasets = [
    (
        noisy_circles,
        {
            "damping": 0.77,
            "preference": -240,
            "quantile": 0.2,
            "n_clusters": 2,
            "min_samples": 7,
            "xi": 0.08,
        },
    ),
    (
        noisy_moons,
        {
            "damping": 0.75,
            "preference": -220,
            "n_clusters": 2,
            "min_samples": 7,
            "xi": 0.1,
        },
    ),
    (
        varied,
        {
            "eps": 0.18,
            "n_neighbors": 2,
            "min_samples": 7,
            "xi": 0.01,
            "min_cluster_size": 0.2,
        },
    ),
    (
        aniso,
        {
            "eps": 0.15,
            "n_neighbors": 2,
            "min_samples": 7,
            "xi": 0.1,
            "min_cluster_size": 0.2,
        },
    ),
    (blobs, {"min_samples": 7, "xi": 0.1, "min_cluster_size": 0.2}),
    (no_structure, {}),
]

for i_dataset, (dataset, algo_params) in enumerate(datasets):
    # обновить параметры со значениями, специфичными для набора данных
    params = default_base.copy()
    params.update(algo_params)

    X, y = dataset

    # нормализовать набор данных для облегчения выбора параметров
    X = StandardScaler().fit_transform(X)

    # estimate bandwidth for mean shift
    bandwidth = cluster.estimate_bandwidth(X, quantile=params["quantile"])

    # матрица связности для структурированного Ward
    connectivity = kneighbors_graph(
        X, n_neighbors=params["n_neighbors"], include_self=False
    )
    # обеспечить симметричную связность
    connectivity = 0.5 * (connectivity + connectivity.T)

    # ============
    # Создание кластерных объектов
    # ============
    ms = cluster.MeanShift(bandwidth=bandwidth, bin_seeding=True)
    two_means = cluster.MiniBatchKMeans(n_clusters=params["n_clusters"], n_init="auto")
    ward = cluster.AgglomerativeClustering(
        n_clusters=params["n_clusters"], linkage="ward", connectivity=connectivity
    )
    spectral = cluster.SpectralClustering(
        n_clusters=params["n_clusters"],
        eigen_solver="arpack",
        affinity="nearest_neighbors",
    )
    dbscan = cluster.DBSCAN(eps=params["eps"])
    optics = cluster.OPTICS(
        min_samples=params["min_samples"],
        xi=params["xi"],
        min_cluster_size=params["min_cluster_size"],
    )
    affinity_propagation = cluster.AffinityPropagation(
        damping=params["damping"], preference=params["preference"], random_state=0
    )
    average_linkage = cluster.AgglomerativeClustering(
        linkage="average",
        metric="cityblock",
        n_clusters=params["n_clusters"],
        connectivity=connectivity,
    )
    birch = cluster.Birch(n_clusters=params["n_clusters"])
    gmm = mixture.GaussianMixture(
        n_components=params["n_clusters"], covariance_type="full"
    )

    clustering_algorithms = (
        ("MiniBatch\nKMeans", two_means),
        ("Affinity\nPropagation", affinity_propagation),
        ("MeanShift", ms),
        ("Spectral\nClustering", spectral),
        ("Ward", ward),
        ("Agglomerative\nClustering", average_linkage),
        ("DBSCAN", dbscan),
        ("OPTICS", optics),
        ("BIRCH", birch),
        ("Gaussian\nMixture", gmm),
    )

    for name, algorithm in clustering_algorithms:
        t0 = time.time()

        # перехватить предупреждения, связанные с kneighbors_graph
        with warnings.catch_warnings():
            warnings.filterwarnings(
                "ignore",
                message="the number of connected components of the "
                + "connectivity matrix is [0-9]{1,2}"
                + " > 1. Completing it to avoid stopping the tree early.",
                category=UserWarning,
            )
            warnings.filterwarnings(
                "ignore",
                message="Graph is not fully connected, spectral embedding"
                + " may not work as expected.",
                category=UserWarning,
            )
            algorithm.fit(X)

        t1 = time.time()
        if hasattr(algorithm, "labels_"):
            y_pred = algorithm.labels_.astype(int)
        else:
            y_pred = algorithm.predict(X)

        plt.subplot(len(datasets), len(clustering_algorithms), plot_num)
        if i_dataset == 0:
            plt.title(name, size=18)

        colors = np.array(
            list(
                islice(
                    cycle(
                        [
                            "#377eb8",
                            "#ff7f00",
                            "#4daf4a",
                            "#f781bf",
                            "#a65628",
                            "#984ea3",
                            "#999999",
                            "#e41a1c",
                            "#dede00",
                        ]
                    ),
                    int(max(y_pred) + 1),
                )
            )
        )
        # добавить черный цвет для выбросов (если есть)
        colors = np.append(colors, ["#000000"])
        plt.scatter(X[:, 0], X[:, 1], s=10, color=colors[y_pred])

        plt.xlim(-2.5, 2.5)
        plt.ylim(-2.5, 2.5)
        plt.xticks(())
        plt.yticks(())
        plt.text(
            0.99,
            0.01,
            ("%.2fs" % (t1 - t0)).lstrip("0"),
            transform=plt.gca().transAxes,
            size=15,
            horizontalalignment="right",
        )
        plot_num += 1

plt.show()

## Тематическое моделирование


### Предобработка текста


In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
import string

# Загрузка инструментов NLTK
nltk.download("stopwords")
nltk.download("wordnet")
nltk.download("punkt")

# Инициализация лемматизатора и стоп-слов
lemmatizer = WordNetLemmatizer()
stop_words = set(stopwords.words("english"))


def preprocess_text(text):
    # Преобразование в нижний регистр
    text = text.lower()

    # Удаление пунктуации
    text = "".join([char for char in text if char not in string.punctuation])

    # Токенизация
    tokens = nltk.word_tokenize(text)

    # Удаление стоп-слов и лемматизация
    tokens = [
        lemmatizer.lemmatize(token) for token in tokens if token not in stop_words
    ]

    return " ".join(tokens)


# Пример использования
sample_text = "NLTK is a leading platform for building Python programs to work with human language data."
processed_text = preprocess_text(sample_text)
print(processed_text)

# Векторизация с использованием TF-IDF
vectorizer = TfidfVectorizer()
corpus = [
    processed_text
]  # Это пример; в реальной ситуации здесь может быть список обработанных документов
X = vectorizer.fit_transform(corpus)

### Создание рекомендательной системы на основе LDA


#### Тренировка LDA модели

Предполагается, что данные уже предобработаны с использованием вышеуказанного кода, и у нас есть список токенизированных документов texts.


In [None]:
# Тренировка LDA модели
from gensim import corpora, models
from gensim.similarities import MatrixSimilarity

# Создаем словарь и корпус
X = [
    "Actions speak louder than words.",
    "A picture is worth a thousand words.",
    "Better late than never.",
    "Birds of a feather flock together.",
    "Cleanliness is next to godliness.",
    "Don't bite the hand that feeds you.",
    "Don't count your chickens before they hatch.",
    "Don't put all your eggs in one basket.",
    "Every cloud has a silver lining.",
    "Honesty is the best policy.",
    "If it ain't broke, don't fix it.",
    "It's raining cats and dogs.",
    "Look before you leap.",
    "Practice makes perfect.",
    "The early bird catches the worm.",
    "The pen is mightier than the sword.",
    "Two heads are better than one.",
    "Where there's smoke, there's fire.",
    "You can't judge a book by its cover.",
    "When in Rome, do as the Romans do.",
]
# Применяем функцию предобработки к каждому тексту и получаем список токенов для каждого текста
processed_X = [preprocess_text(text).split() for text in X]

# Создаем словарь и корпус
dictionary = corpora.Dictionary(processed_X)
corpus = [dictionary.doc2bow(text) for text in processed_X]


# Тренируем LDA модель
lda_model = models.LdaModel(corpus, num_topics=15, id2word=dictionary, passes=15)

#### Рекомендация документов для запроса


In [None]:
top_n = 5


def recommend_docs(query, lda_model, corpus, texts, top_n=5):
    query_bow = dictionary.doc2bow(query)
    query_lda = lda_model[query_bow]

    # Вычисляем схожесть между запросом и документами
    index = MatrixSimilarity(lda_model[corpus])
    sims = index[query_lda]

    # Сортируем документы по убыванию схожести
    sims = sorted(enumerate(sims), key=lambda item: -item[1])
    # Используем фильтрацию
    # threshold = 0.7
    # sims = [s for s in sims if s[1] > threshold]
    recommended_docs = [texts[i[0]] for i in sims[:top_n]]
    return recommended_docs


texts = X

# Пример запроса
query = ["best", "policy"]
recommended_texts = recommend_docs(query, lda_model, corpus, texts, top_n)

for text in recommended_texts:
    print("Recommended text:", text)

### Обработка русского текста

1. Для русских стоп-слов вы можете использовать:

```python
stop_words = set(stopwords.words("russian"))
```

2. Лемматизация русского текста сложнее. NLTK не предоставляет хороших инструментов для лемматизации русского текста. Вместо этого вы можете использовать библиотеки, такие как pymorphy2 или mystem3.

3. Обратите внимание, что если вы используете LDA модель с русским текстом, вам также понадобится русскоязычный словарь и корпус.

4. Пример корпуса:

```python
X = ["Я помню чудное мгновенье:",
"Передо мной явилась ты,",
"Как мимолетное виденье,",
"Как гений чистой красоты.",
"В томленьях грусти безнадежной,",
"В тревогах шумной суеты,",
"Звучал мне долго голос нежный",
"И снились милые черты.",
"Шли годы. Бурь порыв мятежный",
"Рассеял прежние мечты,",
"И я забыл твой голос нежный,",
"Твои небесные черты.",
"В глуши, во мраке заточенья",
"Тянулись тихо дни мои",
"Без божества, без вдохновенья,",
"Без слез, без жизни, без любви."]
```
