# **Метрики**

✍Итак, подбирать оптимальное количество кластеров мы научились. Но как оценить, насколько хорошие кластеры у нас получились?

Допустим, мы разделили кошек и собак на два кластера: в каждом из кластеров находятся либо только кошки, либо только собаки. Но может получиться так, что в ходе кластеризации мы разделим одинаковых собак по разным кластерам или кошки с собаками перемешаются, как на рисунке ниже:

![](https://lms.skillfactory.ru/assets/courseware/v1/165ace16885306ee414000bf085debca/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_25.png)

Поэтому было бы хорошо как-то оценивать, не создали ли мы лишние кластеры или одинаковые ли объекты в нашем кластере. В этом нам помогут метрики, которые мы рассмотрим далее.

Чтобы понять, правильно ли объекты распределились по кластерам, необходимо знать, в каких кластерах должны быть объекты.

→ Ранее мы говорили, что кластеризация относится к методу машинного обучения без учителя и применяется, когда нет размеченных данных, а значит мы не знаем правильных ответов. Однако иногда размеченные данные всё же есть. В таком случае мы можем провести дополнительный анализ получившихся кластеров.

Существует ряд метрик, которые можно подсчитать, если данные размечены. Мы рассмотрим четыре метрики, которые больше всего помогут нам при анализе результатов кластеризации:

## **ОДНОРОДНОСТЬ КЛАСТЕРОВ (HOMOGENEITY SCORE)**

**Данная метрика, как и три последующих, может применяться, только когда есть размеченные данные.**

Кластер **считается однородным**, если в нём содержатся **объекты, принадлежащие только к одному кластеру**.

Значение метрики уменьшается, если объединить два разных кластера, которые содержат непохожие объекты.

Например, нам нужно распределить кошек и собак по разным кластерам. В первом случае нам это удалось, а во втором одна собака «убежала» к кошкам, одна кошка — к собакам, и животные перемешались:

![](https://lms.skillfactory.ru/assets/courseware/v1/6a741b17a75cba91064eebcdc04e6ef8/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_26.png)

Таким образом, во втором случае в кластере оказались разные животные, поэтому однородность снизилась.

→ В первом кластере метрика однородности будет максимальной и равна 1, во втором значение однородности будет меньше, так как животные немного перемешались. Если бы кластер был максимально неоднородный, значение метрики было бы равно 0.

Теперь посмотрим, как рассчитать метрику однородности в sklearn:

In [7]:
# импортируем подсчёт метрики однородности кластеров
from sklearn.metrics.cluster import homogeneity_score

# передаём предсказанную информацию (к какому кластеру относятся объекты датасета) и правильные ответы
print(homogeneity_score(labels_true=[0, 0, 1, 1], labels_pred=[0, 0, 1, 1]))

print(homogeneity_score(labels_true=[1, 1, 0, 0], labels_pred=[0, 0, 1, 1]))

1.0
1.0


Во втором случае мы получаем метрику, равную 1, хотя предсказывали совершенно противоположный результат. Почему так получилось?

Допустим, наши 0 и 1 — это номера кластеров, в которых находятся кошки и собаки:

![](https://lms.skillfactory.ru/assets/courseware/v1/683e195cf5f2a36a95ba83ec8ad7fec5/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_27.png)

labels_true — это реальные значения: в кластере 0 — собаки, в кластере 1 — кошки. В первый раз мы предсказали, что в кластере 0 находятся две собаки, а в кластере 1 — две кошки. Метрика однородности равна 1, так как внутри кластеров разные объекты и наши ответы полностью совпали с labels_true.

Во втором случае, казалось бы, будет неверно, если в кластере 0 будут кошки, а в кластере 1 — собаки. Но, судя по составу кластеров, кошки и собаки не перемешались, поэтому однородность кластеров будет равна 1.

Рассмотрим метрику однородности на примере результатов кластеризации покемонов. Возьмём два случая — с тремя и четырьмя кластерами:

![](https://lms.skillfactory.ru/assets/courseware/v1/de8837941190e8780e6aa0248adb41a9/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-3_47.png)

Вы можете удивиться, что во втором случае метрика равна 1, но это нормально: хоть мы и разделили данные на большее количество кластеров, внутри кластеров данные остались однородными.

## **ПОЛНОТА КЛАСТЕРА (COMPLETENESS SCORE)**

Значение данной метрики показывает, насколько кластер заполнен объектами, которые в действительности должны принадлежать к этому кластеру.

Результат кластеризации удовлетворяет требованиям полноты, если все элементы данных, принадлежащие к одному классу, при кластеризации оказались в одном кластере.

Значение метрики уменьшается, если эталонный кластер разделить на части. Например, если кластер, в котором находятся только собаки, разделить на два более мелких кластера, то метрика полноты у такой кластеризации будет меньше:

![](https://lms.skillfactory.ru/assets/courseware/v1/f03c2ff48e0146f04fd2c794dc5ba316/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_28.png)

На рисунке выше c — это **completeness**, или полнота.

При максимальном заполнении кластеров схожими объектами полнота равняется 1 (когда есть один большой кластер со всеми собаками), при минимальном заполнении — 0.

In [14]:
# импортируем метрику полноты
from sklearn.metrics.cluster import completeness_score

# передаём предсказанную информацию (к какому кластеру относятся объекты датасета) и правильные ответы, подсчитываем метрику
completeness_score(labels_true=[0, 0, 1, 1], labels_pred=[0, 0, 1, 1])

1.0

Рассмотрим метрику полноты на примере результатов кластеризации покемонов. Возьмём два случая — с тремя и четырьмя кластерами:

![](https://lms.skillfactory.ru/assets/courseware/v1/05cfec8a46ae0b8999af953e30d4c88a/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_35.png)

Во втором случае третий кластер оказался неполным, так как предсказано, что половина объектов принадлежит к третьему кластеру, а другая половина — к четвёртому. Однако два других кластера предсказаны правильно, поэтому метрика полноты меньше 1, но всё же её значение не такое низкое.

## **V-МЕРА (V-MEASURE)**

Эта метрика — **комбинация метрик полноты и однородности**.

Значение V-меры варьируется от 0 до 1. Метрика будет равна 1 только в том случае, если кластеры будут однородными и полными одновременно.

V-мера рассчитывается по формуле:

![](data/f8.PNG)

По умолчанию ***β = 1***, но это значение можно варьировать, если хочется дать разный вес разным свойствам.

* Если однородность кластеров важнее, чем их полнота, следует указать значение ***β < 1***. Тогда значение ***β x homogenity*** в знаменателе получится небольшим и тем самым будет сильнее влиять на значение ***v***. Чем меньше ***β x homogenity***, тем выше ***v***.
* Если однородность кластеров не особо важна, но важно, чтобы каждый кластер содержал максимальное количество похожих объектов, тогда мы регулируем значение ***β*** так, чтобы ***β > 1***.
* Данную метрику можно сравнить с метрикой F-меры, которую вы изучили, когда проходили метрики для оценки моделей классификации. F-мера рассчитывается следующим образом:

Данную метрику можно сравнить с метрикой F-меры, которую вы изучили, когда проходили метрики для оценки моделей классификации. F-мера рассчитывается следующим образом:

![](data/f9.PNG)

где ***precision*** показывает точность, а ***recall*** — полноту.

При стандартном расчёте V-меры ***β*** равна 1:

![](data/f10.PNG)

Получается такая же формула, как и при расчёте F-меры.


*Данную метрику можно вычислять, когда одновременно важны и наполненность кластеров, и их однородность.*

Допустим, мы разделили данные следующим образом:

![](https://lms.skillfactory.ru/assets/courseware/v1/ccbe0a75b58bf4f101773f92495d2c6d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_29.png)

Если бы мы считали метрику однородности кластеров, то она была бы равна 1, так как кластеры однородны и собаки и кошки внутри них не перемешаны. Но очевидно, что кластеризация неидеальна: вместо одного кластера с собаками у нас целых два. Поэтому если бы мы неправильно выбрали метрику (считали бы однородность) для определения качества кластеризации, то сделали бы неверные выводы. Но если мы будем считать V-меру, то будем одновременно учитывать оба фактора (полноту и однородность кластеров). Если же какой-то из факторов для нас важнее, мы можем изменять значение ***β***, придавая больший вес однородности кластера или полноте.

Посчитаем V-меру для двух случаев кластеризации датасета с покемонами:

![](https://lms.skillfactory.ru/assets/courseware/v1/5cae6f4052a5cc14dab6fabfd765bc4d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_36.png)

В первом случае и полнота, и однородность кластеров были равны 1, поэтому V-мера, основанная на этих двух метриках, получила максимальное значение (1). Во втором случае полнота кластеризации была равна 0.83, так как один из кластеров был наполнен наполовину. Этот факт отразился и на значении V-меры, но, так как однородность кластеров имела максимальное значение,V-мера приняла значение 0.9.

## **ИНДЕКС РЭНДА**

Данный индекс сравнивает предсказанный датасет и размеченные данные и подсчитывает, **сколько образовалось пар объектов, которые оказались в одном кластере** (number of agreeing pairs), среди предсказанных и размеченных данных.

![](data/f11.PNG)

где ***number of pairs*** — общее количество пар, ***number of agreeing pairs ***— количество пар, для которых предсказание и истинные значения совпали.

По сути, данная метрика подсчитывает, для какой доли объектов датасета мы правильно определили кластер.

![](https://lms.skillfactory.ru/assets/courseware/v1/d2dfbf210e7669415b15d48b5357d0a2/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_30.png)

Вернёмся к нашим кошкам и собакам. Слева на рисунке выше — предсказанная кластеризация, справа — «правильные ответы».

Теперь для каждого объекта найдём пару предсказанное значение-реальное значение. 

***number of agreeing pairs*** = 5, т. е. для трёх собак и двух кошек кластеры были предсказаны верно, а для двух пар (они соединены красной линией) — неверно.

***number of pairs*** = 7

Таким образом, **Rand Index = 5/7 = 0.71**.

Запустим подсчёт индекса Рэнда в sklearn:

In [17]:
# импортируем из библиотеки sklearn подсчёт индекса Рэнда
from sklearn.metrics.cluster import rand_score
# передаём в rand_score размеченные и предсказанные данные
rand_score([0, 0, 1, 1], [0, 0, 1, 1])

1.0

## **ТАБЛИЦА**

![](data/f12.PNG)

***
Для пяти объектов вы провели кластеризацию k-means. Известно, что объекты должны относиться к следующим кластерам: 1, 2, 2, 1, 0. В ходе работы алгоритма вы получили следующие предсказания для каждого элемента: 1, 0, 2, 1, 2.

Рассчитайте метрику однородности полученных кластеров. Введите полученное значение, округлив его до второго знака после точки-разделителя.

In [19]:
# импортируем подсчёт метрики однородности кластеров
from sklearn.metrics.cluster import homogeneity_score

# передаём предсказанную информацию (к какому кластеру относятся объекты датасета) и правильные ответы
print(homogeneity_score(labels_true=[1, 2, 2, 1, 0], labels_pred=[1, 0, 2, 1, 2]).round(2))

0.74
