→ Ранее мы говорили, что *кластеризация* относится к методу машинного обучения без учителя и применяется, когда **нет размеченных данных**, а значит мы не знаем правильных ответов. **Однако иногда размеченные данные всё же есть**. В таком случае мы можем провести дополнительный анализ получившихся кластеров.

Существует ряд метрик, которые можно подсчитать, **если данные размечены**. Мы рассмотрим четыре метрики, которые больше всего помогут нам при анализе результатов кластеризации:

**ОДНОРОДНОСТЬ КЛАСТЕРОВ (HOMOGENEITY SCORE)**

Данная метрика, как и три последующих, может применяться, только когда есть размеченные данные.

Кластер считается однородным, если в нём содержатся объекты, принадлежащие только к одному кластеру.


![alt](https://lms.skillfactory.ru/assets/courseware/v1/6a741b17a75cba91064eebcdc04e6ef8/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_26.png)

In [3]:
# импортируем подсчёт метрики однородности кластеров
from sklearn.metrics.cluster import homogeneity_score

# передаём предсказанную информацию (к какому кластеру относятся объекты датасета) и правильные ответы
print(homogeneity_score(labels_true=[0, 0, 1, 1], labels_pred=[0, 0, 1, 1]))

1.0


В ноутбуке pokemon код по порядку

In [None]:
# передадим информацию о том, какие на самом деле должны быть кластеры и результаты предсказания
print(homogeneity_score(labels_true=df.RealClusters, labels_pred=df.Clusters_k3))
>1.0
print(homogeneity_score(labels_true=df.RealClusters, labels_pred=df.Clusters_k4))
>1.0

**ПОЛНОТА КЛАСТЕРА (COMPLETENESS SCORE)**

Значение данной метрики показывает, насколько кластер заполнен объектами, которые в действительности должны принадлежать к этому кластеру.

Значение метрики уменьшается, если эталонный кластер разделить на части. Например, если кластер, в котором находятся только собаки, разделить на два более мелких кластера, то метрика полноты у такой кластеризации будет меньше

На рисунке выше c — это completeness, или полнота.
![alt](https://lms.skillfactory.ru/assets/courseware/v1/f03c2ff48e0146f04fd2c794dc5ba316/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_28.png)

In [4]:
# импортируем метрику полноты
from sklearn.metrics.cluster import completeness_score

# передаём предсказанную информацию (к какому кластеру относятся объекты датасета) и правильные ответы, подсчитываем метрику
completeness_score(labels_true=[0, 0, 1, 1], labels_pred=[0, 0, 1, 1])
1.0

1.0

В ноутбуке pokemon код по порядку

Рассмотрим метрику полноты на примере результатов кластеризации покемонов. Возьмём два случая — с тремя и четырьмя кластерами:

![alt](https://lms.skillfactory.ru/assets/courseware/v1/05cfec8a46ae0b8999af953e30d4c88a/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_35.png)

In [None]:
# посчитаем, насколько полными получились кластеры с покемонами
print(completeness_score(labels_true=df.RealClusters, labels_pred=df.Clusters_k3))
> 1.0
# посчитаем, насколько полными получились кластеры с покемонами
print(completeness_score(labels_true=df.RealClusters, labels_pred=df.Clusters_k4))
> 0.829867483307009

**V-МЕРА (V-MEASURE)**

Эта метрика — комбинация метрик полноты и однородности.

Значение V-меры варьируется от 0 до 1. Метрика будет равна 1 только в том случае, если кластеры будут однородными и полными одновременно.

Метрику однородности кластера при кластеризации можно сравнить с метрикой *precision* из задачи классификации: метрика однородности также показывает, насколько точно мы предсказали, к какому классу принадлежит объект. Метрика полноты так же, как метрика *recall* из задачи классификации, показывает, насколько мы наполнили кластеры теми объектами, которые должны принадлежать к данным кластерам

Данную метрику можно вычислять, когда одновременно важны и наполненность кластеров, и их однородность.

![alt](https://lms.skillfactory.ru/assets/courseware/v1/ccbe0a75b58bf4f101773f92495d2c6d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_29.png)

**Если бы** мы считали метрику **однородности кластеров**, то она была бы равна 1, так как кластеры однородны и собаки и кошки внутри них не перемешаны. Но очевидно, что кластеризация неидеальна: вместо **одного** кластера с собаками у **нас целых два**. Поэтому если бы мы неправильно выбрали метрику (считали бы однородность) для определения качества кластеризации, то сделали бы неверные выводы. Но если мы будем считать **V-меру, то будем одновременно учитывать оба фактора (полноту и однородность кластеров)**. Если же какой-то из факторов для нас важнее, мы можем изменять значение , придавая больший вес однородности кластера или полноте.



В ноутбуке pokemon код по порядку

In [None]:
# импортируем из библиотеки sklearn подсчёт V-меры
from sklearn.metrics import v_measure_score

# посчитаем V-меру для кластеров с покемонами
print(v_measure_score(labels_true=df.RealClusters, labels_pred=df.Clusters_k3))
>1.0

print(v_measure_score(labels_true=df.RealClusters, labels_pred=df.Clusters_k4))
>0.9070246789753754

В первом случае и полнота, и однородность кластеров были равны 1, поэтому V-мера, основанная на этих двух метриках, получила максимальное значение (1). Во втором случае полнота кластеризации была равна 0.83, так как один из кластеров был наполнен наполовину. Этот факт отразился и на значении V-меры, но, так как однородность кластеров имела максимальное значение,V-мера приняла значение 0.9.

**ИНДЕКС РЭНДА**

Данный индекс сравнивает предсказанный датасет и размеченные данные и подсчитывает, сколько образовалось пар объектов, которые оказались в одном кластере (number of agreeing pairs), среди предсказанных и размеченных данных.

$$Rand \ Index = \frac{number \ of \ agreeing \ pairs}{number \ of \ pairs},$$

где $number \ of \ pairs$ — общее количество пар, $number \ of \ agreeing \ pairs$ — количество пар, для которых предсказание и истинные значения совпали.

По сути, данная метрика подсчитывает, для какой доли объектов датасета мы правильно определили кластер.


![alt](https://lms.skillfactory.ru/assets/courseware/v1/d2dfbf210e7669415b15d48b5357d0a2/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst3-ml4-2_30.png)

number of agreeing pairs = 5, т. е. для трёх собак и двух кошек кластеры были предсказаны верно, а для двух пар (они соединены красной линией) — неверно.

number of pairs = 7

Таким образом, $Rand \ Index = 5/7=0.71$.

Запустим подсчёт индекса Рэнда в sklearn:

In [5]:
# импортируем из библиотеки sklearn подсчёт индекса Рэнда
from sklearn.metrics.cluster import rand_score
# передаём в rand_score размеченные и предсказанные данные
rand_score([0, 0, 1, 1], [0, 0, 1, 1])
1.0

1.0

В данном случае мы получили индекс Рэнда, равный 1. Это означает, что все объекты в предсказанном кластере попали в те кластеры, в которые должны были попасть.

**Таблица с метриками и их предназначением в курсе на странице**

Задание 3.3

In [10]:
object_1 = [1, 2, 2, 1, 0]
object_2 = [1, 0, 2, 1, 2]

print(round(homogeneity_score(labels_true=object_1, labels_pred=object_2), 2))

0.74
