# Кластеризация (Clustering)

---

**Тип**:

Обучение без учителя (unsupervised learning).

---

**Примеры использования**:

Универсальность применения привела к появлению большого количества несовместимых терминов, методов и подходов, затрудняющих однозначное использование и непротиворечивую интерпретацию кластерного анализа.

- **Понимание данных путём выявления кластерной структуры**. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа (стратегия «разделяй и властвуй»). В этом случае число кластеров стараются сделать поменьше.
- **Сжатие данных**. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера. В этом случае важнее обеспечить высокую степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно.  
- **Обнаружение новизны (англ. novelty detection)**. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров. В этом случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

---

**Дано**:

Признаки (features).

Примеры:
- возраст
- площадь
- температура тела
- средний доход
- объем
- цвет
- число покупок

---

**Результат**:

Кластеры.

- Кластеры покупателей магазина.
- Кластеры отзывов на приложение.
- Кластеры квартир и домов для продажи.
- Кластеры фотографий.

---

<img src="images/clustering_algorithms.png" width=1000/>

<img src="images/overview_of_clustering_taxonomy_article.png"/>

[The detailed and comprehensive comparisons of all the discussed clustering algorithms
](https://link.springer.com/article/10.1007/s40745-015-0040-1/tables/22)

---

**Модели:**

[Overview of clustering methods](https://scikit-learn.org/stable/modules/clustering.html)

- Вероятностный подход. Предполагается, что каждый рассматриваемый объект относится к одному из k классов.
    - K-средних
    - К-медиан
    - EM-алгоритм
    - Алгоритмы семейства FOREL
    - Дискриминантный анализ
- Подходы на основе систем искусственного интеллекта: весьма условная группа, так как методов очень много и методически они весьма различны.
    - Метод нечеткой кластеризации C-средних (C-means)
    - Нейронная сеть Кохонена
    - Генетический алгоритм
- Логический подход. Построение дендрограммы осуществляется с помощью дерева решений.
- Теоретико-графовый подход.
    - Графовые алгоритмы кластеризации
- Иерархический подход. Предполагается наличие вложенных групп (кластеров различного порядка). Алгоритмы в свою очередь подразделяются на агломеративные (объединительные) и дивизивные (разделяющие). По количеству признаков иногда выделяют монотетические и политетические методы классификации.
    - Иерархическая дивизивная кластеризация или таксономия. Задачи кластеризации рассматриваются в количественной таксономии.
- Другие методы. Не вошедшие в предыдущие группы.
    - Статистические алгоритмы кластеризации
    - Ансамбль кластеризаторов
    - Алгоритмы семейства KRAB
    - Алгоритм, основанный на методе просеивания
    - DBSCAN
    
Несмотря на значительные различия между перечисленными методами все они опираются на исходную **"гипотезу компактности"**: в пространстве объектов все **близкие объекты должны относиться к одному кластеру**, а все **различные объекты** соответственно должны находиться **в различных кластерах**.

---


Решение задачи кластеризации **принципиально неоднозначно**, и тому есть несколько причин:
- **Не существует однозначно наилучшего критерия качества кластеризации**. Известен целый ряд эвристических критериев, а также ряд алгоритмов, не имеющих чётко выраженного критерия, но осуществляющих достаточно разумную кластеризацию "по построению". Все они могут давать разные результаты. Следовательно, для определения качества кластеризации требуется эксперт предметной области, который бы мог оценить осмысленность выделения кластеров.
- **Число кластеров**, как правило, **неизвестно заранее** и устанавливается в соответствии с некоторым субъективным критерием. Это справедливо только для методов дискриминации, так как в методах кластеризации выделение кластеров идёт за счёт формализованного подхода на основе мер близости.
- Результат кластеризации существенно **зависит от метрики**, выбор которой, как правило, также субъективен и определяется экспертом. Но стоит отметить, что есть ряд рекомендаций к выбору мер близости для различных задач.