Интересной особенностью кластерного анализа является тот факт, что мы получаем только итоговый ответ, к какому кластеру принадлежит каждое наблюдение. Однако мы не знаем, по каким переменным различаются выделенные кластеры. Поэтому, если нас интересует не только сам факт того, что мы смогли выделить кластеры в наших данных, но мы также хотим понять, чем же они различаются, разумно сравнить кластеры между собой по имеющимся переменным.

Напишите функцию get_difference, которая получает на вход два аргумента: 

1. test_data — набор данных с произвольным числом количественных переменных.
2. n_cluster — число кластеров, которое нужно выделить в данных при помощи иерархической кластеризации.

Функция должна вернуть названия переменных, по которым были обнаружен значимые различия между выделенными кластерами (p < 0.05). Иными словами, после того, как мы выделили заданное число кластеров, мы добавляем в исходные данные новую группирующую переменную — номер кластера, и сравниваем получившиеся группы между собой по количественным переменным при помощи дисперсионного анализа.

Пример работы функции:

В первом наборе данных, очевидно, что два кластера будут значимо различаться только по переменной V2.

![](https://ucarecdn.com/c0ed6c01-e7e2-48c7-8603-48f9c4863a90/-/crop/391x276/6,67/-/preview/)

test_data <- read.csv("https://stepic.org/media/attachments/course/524/cluster_1.csv")

get_difference(test_data, 2)

[1] "V2" 

Во втором наборе данных при выделении двух кластеров значимые различия получаются по обеим переменным.
![](https://ucarecdn.com/9190c2a6-1ca8-4901-9a1f-323f3f2b990b/-/crop/342x278/0,69/-/preview/)

test_data <- read.csv("https://stepic.org/media/attachments/course/524/cluster_2.csv")

get_difference(test_data, 2)

[1] "V1" "V2"

Подсказки:

1. Не забудьте перевести переменную с номером кластера в фактор! 
2. Вы можете использовать вашу функцию из предыдущего задания.
3. Для поиска различий используйте ANOVA (функция aov). Давайте договоримся, что для наших целей мы не будем проверять данные на соответствие требованиями к применению этого критерия и не будем думать о поправке на множественные сравнения.

In [1]:
get_difference<-  function(test_data, n_cluster){
matr <- dist(test_data, method = "euclidean", diag = FALSE, upper = FALSE, p = 2)
   fit <- hclust(matr, method = "complete", members = NULL)
   cluster <- factor(cutree(fit, n_cluster))
   pe <- apply(X = test_data, MARGIN = 2, FUN = function(x){anova(aov(x ~ cluster, test_data))$P[1]})
   return(names(which(pe < 0.05)))
}