# Глава 19 Кластеризация(МО Крис Элбон)

# Введение

В большинстве случаев мы рассматривали контролируемое машинное самообучение - задачи, в которых имеется доступ как к признакам, так и к цели. Это к сожалению не всегда так. Часто мы сталкиваемся с ситуациями, когда нам известны только признаки. Например, представьте, что заданы записи  о продажах из продуктового магазина, и требуется разбить продажи по признаку, является ли покупател членом дисконтного клуба  или нет.

Это было бы невозможно при использовании контролируемого самообучения, потому, что у нас нет цели  для проведения тренировки и оценивания наших моделей.

Однако есть идругой вариант: неконтролируемое самообучение. Если поведение членов и нечленов дисконтного клуба в продуктовом магазине фактически разрозненное, то разница в поведении между двумя членами будет меньше, чем разница в поведении между покупателями-членами и нечленами.
Иными словами, будут две группы наблюдений.

Цель кластеризующих алгоритмов состоит в том, чтобы идентифицировать эти скрытые группы наблюдений, которые при приемлемом исполнении позволят предсказывать класс наблюдений даже без вектора целей. 

Существует множество кластеризующих алгоритмов, и они имеют широкий спектр подходов к идентификации кластеров в данных. В этой главе мы рассмотрим подборку класстеризующих алгоритмов с использованием библиотеки scikit-learn и то, как их применять на практике.

# Кластеризация с помощью k - средних

Требуется сгруппировать наблюдения в k - групп.

Использовать кластеризацию методом k средних.

In [1]:
#загрузить библиотеки
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data

In [5]:
#стандартизировать признаки
scaler = StandardScaler()
features_std = scaler.fit_transform(features)

In [6]:
#создать объект k средних
cluster = KMeans(n_clusters=3, random_state=0, n_jobs=-1)

In [7]:
#натренировать модель
model = cluster.fit(features_std)

Кластеризация методом k - является одним из наиболее распространенных методов кластеризации. В этом методе алгоритм пытается сгруппировать наблюдения в k групп, причем каждая группа имеет примерно равную дисперсию. Количество групп k задается пользователем в качестве гиперпараметра. В частности в алгоритме k средних:

1.В случайных позициях создается k "центральных" точек, по одной на кластер.

2.Для каждого наблюдения:

-вычисляется растояние между каждым наблюдением и k центральными точками;

-наблюдение назначается кластеру ближайшей центральной точки.

3.Центральные точки передвигаются в средние значения (те в центры) своих соответствующих кластеров.

4.Шаги 2 и 3 повторяются до тех пор, пока ни одно из наблюдений не изменит свою принадлежность к кластеру.

На этом этапе алгоритм считается достигшим схождения и останавливается.

Относительно алгоритма k средних важно отметить 3 момента.

1)Кластеризация методом k средних исходит из того, что кластеры имеют выпуклую форму (например, форму круга или сферы).

2)Все признаки шкалированы одинаково. В нашем решении для того, чтобы соблюсти это допущение, мы стандартизировали признаки.

3)Группы сбалансированы, т е имеют примерно одинаковое количество наблюдений. 
Если мы подозреваем, что не сможем выполнить эти допущения, мы можем попробовать другие подходы к кластеризации.

В библиотеке scikit-learn кластеризация методом k средних реализована в классе KMeans. Наиболее важным параметром является n_clusters, который задает количество кластеров k.

В некоторых ситуациях характер данных будет определять значение k (например, данные об учениках школы будут иметь один кластер на класс), но зачастую количество кластеров мы не знаем.

В этих случая требуется выбрать k на основе некоторых критериев.

Например, силуэтные коэффициенты измеряют подобие внутри кластеров по сравнению с подобием между кластерами.

Кроме того, поскольку кластеризация методом k средних является вчислительно дорогостоящей, можно воспользоваться всеми ядрами на нашем компьютере. 
Мы можем сделать это установив параметр n_jobs=-1.

В нашем решении мы пошли на небольшой обман иДля  воспользовались данными цветков ириса, о которых мы знаем, что они имеют 3 класса.
Поэтому мы устанавливаем k = 3. Для просмотра предсказанных классов каждого наблюдения  можно использовать атрибут labels_

In [8]:
#взглянуть на предсказанный класс
model.labels_

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 0,
       2, 2, 2, 2, 0, 2, 2, 2, 2, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 0, 0, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 0, 0, 0, 0, 2, 0, 0, 0,
       0, 0, 0, 2, 2, 0, 0, 0, 0, 2, 0, 2, 0, 2, 0, 0, 2, 0, 0, 0, 0, 0,
       0, 2, 2, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 2])

Если мы сравним этот результат с истинным классом наблюдений, то увидим, что, несмотря на разницу в метках классов( т е 1, 2, 3), алгоритм k средних справился с работой достаточно хорошо. 

In [9]:
#взглянуть на истинный класс
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

Однако, как Вы можете себе представить производительность алгоритма k средних значительно падает, и даже критически, если мы выберем неправильное количество кластеров.

Наконец, как и в случае с другими результатами библиотеки scikit-learn, мы можем использовать натренированный кластер для предсказания значения новых наблюдений.

In [10]:
#создать новое наблюдение
new_observation = [[0.8, 0.8, 0.8, 0.8]]

In [11]:
#предсказать кластер наблюдения
model.predict(new_observation)

array([0])

Согласно предсказаниям, наблюдение принадлежит тому кластеру, центральная точка которого находится ближе всего. Для того, чтобы увидеть эти центральные точки, мы даже можем воспользоваться атрибутом cluster_centers_

In [12]:
#взглянуть на центры кластеров
model.cluster_centers_

array([[ 1.13597027,  0.08842168,  0.99615451,  1.01752612],
       [-1.01457897,  0.85326268, -1.30498732, -1.25489349],
       [-0.05021989, -0.88337647,  0.34773781,  0.2815273 ]])

# Ускорение кластеризации методом k - средних

Требуется сгрупировать наблюдения  в k групп, но алгоритм k средних занимает слишком много времени.

Использовать мини-пакетный алгоритм k средних:

In [1]:
#загрузить библиотеки
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import MiniBatchKMeans

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data

In [3]:
#стандартизировать признаки
scaler = StandardScaler()
features_std = scaler.fit_transform(features)

In [4]:
#создать объект k средних
cluster = MiniBatchKMeans(n_clusters=3, random_state=0, batch_size=100)

In [6]:
#натренировать модель
model = cluster.fit(features_std)

Мини-пакетный алгоритм k средниих работает аналогично алгоритму k средних, описанному в предыдущем рецепте. Не вдаваясь в подробности, разница состоит в том, что в мини-пакетном алгоритме к средних наиболее вычислительно затратный шаг выполняется только на случайной выборке наблюдений в отличии от всех наблюдений, используемых в обычном алгоритме.

Такой подход позволяет значительно сократить время, необходимое алгоритму для нахождения сходимости ( т е подгонки данных) при небольшой стоимости в качестве.

Класс MiniBatchKMeans работает аналогично классу KMeans, но с одним существенным отличием: это параметр размера пакета batch_size. Параметр batch_size управляет количеством случайно отбираемых наблюдеий в каждом пакете. Чем больше размер пакета, тем более дорогостоящим является тренировочный процесс.

# Кластеризация методом сдвига к среднему

Требуется сгруппировать наблюдения без учета количества кластеров или их формы.

Использовать кластеризацию методом сдвига к среднему MeanShift.

In [1]:
#загрузить библиотеки
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import MeanShift

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data

In [3]:
#стандартизировать признаки
scaler = StandardScaler()
features_std = scaler.fit_transform(features)

In [4]:
#создать объект кластеризации методом сдвига к среднему
cluster = MeanShift(n_jobs=-1)

In [5]:
#натренировать модель
model = cluster.fit(features_std)

In [7]:
#создать новое наблюдение
new_observation = [[0.8, 0.8, 0.8, 0.8]]

In [8]:
#предсказать кластер наблюдения
model.predict(new_observation)

array([0], dtype=int64)

In [9]:
#взглянуть на центры кластеров
model.cluster_centers_

array([[ 0.50161528, -0.32287436,  0.65393539,  0.65261739],
       [-1.05954571,  0.75811468, -1.2998088 , -1.25401594]])

Один из недостатков кластеризации методом k -средних, который мы обсуждали выше, заключается в том, что нам нужно устанавливать количество кластеров к априорно до начала тренировки, и что этот метод делает допущения о форме кластеров. Одним из кластеризующих алгоритмов, в котором эти ограничения отсутствуют, называется сдвином к среднему.

В алгоритме сдвига к среднему заключена простая идея, которую, правда, несколько трудно объяснить. Поэтому наилучшим подходом может быть аналогия. Представьте себе очень туманное футбольное поле( т е двумерное пространство), на котором находится 100 человек( т е наши наблюдения). Из-за тумана человек может видеть только на небольшое расстояние. Каждую минуту каждый человек оглядывается и делает шаг в сторону большинства людей, которых он видит. С течением времени люди начинают собираться, поскольку они неоднократно предпринимают шаги в сторону все более крупных скоплений людей.  В конечном счете получаются кластеры людей  в пределах поля. Люди назначаются кластерам, в котором они оказываются.

Фактическая реализация алгоритма сдвига к среднему в scikit-learn (класс MeanShift) сложнее, но следует той же основной логике. Класс MeanShift имее два важных параметра, о которых мы должны знать.

1)Ширина полосы bandwidth задает радиус области ( т е ядро), который используется наблюдением для определения направления сдвига. По нашей аналогии ширина полосы, будет тем, как далеко человек может видеть сквозь туман.  Мы можем задать этот параметр вручную, но по умолчанию разумная ширина полосы вычисляется  автоматически(при значительном увеличении вычислительных затрат). 

2)Иногда в алгоритме сдвига к среднему внутри ядра наблюдения нет других наблюдений. T е человек на нашем футбольном поле  не может видеть ни одного живого человека. По умолчанию класс MeanShift присваивает все эти "сиротские" наблюдения ядру ближайшего наблюдения. Однако если требуется исключить этих сирот, то можно установить параметр cluster_all=False, при котором сиротским наблюдениям присваивается метка -1.

# Кластеризация методом DBSCAN

Требуется сгруппировать наблюдения в кластеры высокой плотности.

Использовать кластеризацию методом DBSCAN (Density-Based Spatial Clustering of Applications with Noise) - плотностный алгоритм пространственной кластеризации в присутствии шума.

In [10]:
#загрузить библиотеки
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN

In [11]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data

In [12]:
#стандартизировать признаки
scaler = StandardScaler()
features_std = scaler.fit_transform(features)

In [13]:
#создать объект плотностной кластеризации DBSCAN
cluster = DBSCAN(n_jobs=-1)

In [14]:
#натренировать модель
model = cluster.fit(features_std)

Алгоритм DBSCAN руководствуется идеей о том, что кластеры будут областями, где много наблюдений плотно упакованы вместе, и не делает никаких допущений о форме кластера. В частности в алгоритме DBSCAN:

1.Выбирается случайное наблюдение x_i

2.Если x_i имеет минимальное число близких соседей, то мы рассматриваем его как часть кластера

3.Шаг 2 повторяется рекурсивно для всех соседей x_i, затем для соседа соседа итд. Это основные наблюдения кластера.

4.После завершения шага 3 выбирается новая случайная точка ( т е перезапуск шага 1)

Когда все это будет завершено, мы получим набор ключевых наблюдений для ряда кластеров. Наконец, любое наблюдение, близкое к кластеру, но не являющееся ключевым образцом, считается частью кластера, в то время как любое наблюдение , не близкое к кластеру, помечается как выброс.

DBSCAN имеет 3 основных устанавливаемых параметра:

1)eps - максимальное расстояние от наблюдения, чтобы считать другое наблюдение его соседом.

2)min_samples - минимальное число наблюдейний, находящихся на расстоянии менее eps от наблюдения, для того, чтобы его можно было считать ключевым наблюдением.

3)metric - метрический показатель расстояния, используемый параметром eps, например minkowski или euclidean (обратите внимание, что если используется расстояние Минковского, то может быть использован параметр р для установки мощности метрического показателя Минковского).

Если мы посмотрим на кластеры в наших тренировочных данных, то увидим, что были идентифицированы 2 кластера, 0  и 1, в то время, как наблюдения выбросы помечены -1.

In [15]:
#показать принадлежность к кластерам
model.labels_

array([ 0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, -1, -1,  0,
        0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0,  0, -1, -1,
        0,  0,  0,  0,  0,  0,  0, -1,  0,  0,  0,  0,  0,  0,  0,  0,  1,
        1,  1,  1,  1,  1, -1, -1,  1, -1, -1,  1, -1,  1,  1,  1,  1,  1,
       -1,  1,  1,  1, -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,
       -1,  1, -1,  1,  1,  1,  1,  1, -1,  1,  1,  1,  1, -1,  1, -1,  1,
        1,  1,  1, -1, -1, -1, -1, -1,  1,  1,  1,  1, -1,  1,  1, -1, -1,
       -1,  1,  1, -1,  1,  1, -1,  1,  1,  1, -1, -1, -1,  1,  1,  1, -1,
       -1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1,  1, -1,  1],
      dtype=int64)

# Кластеризация методом иерархического слияния

Требуется сгрупировать наблюдения, используя иерархию кластеров.

Использовать агломеративную кластеризацию.

In [1]:
#загрузить библиотеки
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import AgglomerativeClustering

  return f(*args, **kwds)


In [2]:
#загрузить данные
iris = datasets.load_iris()
features = iris.data

In [3]:
#стандартизировать признаки
scaler = StandardScaler()
features_std = scaler.fit_transform(features)

In [4]:
#создать объект агломеративной кластеризации
cluster = AgglomerativeClustering(n_clusters=3)

In [5]:
#натренировать модель
model = cluster.fit(features_std)

  return f(*args, **kwds)


Агломеративная кластеризация - это мощный и гибкий алгоритм, который выполняет кластеризацию иерархически. В агломеративной кластеризации все наблюдения начинаются как одноэлементные кластеры. Далее кластеры, удовлетворяющие некоторым критериям , объединяются. Этот процесс повторяется, выращивая кластеры до тех пор, пока не будет достигнута некоторая конечная точка. В библиотеке scikit-learn  в классе AgglomerativeClustering используется параметр связи linkage для определения стратегии слияния, которая своит к минимуму следующее:

-дисперсию объединенных классов по методу Уорда(ward)

-среднее расстояние между наблюдениями от пар кластеров по  методу средней связи (average)

-максимальное расстояние между наблюдениями от пар кластеров по методу полной связи (complete)

Два других параметра полезно знать  тоже.

-параметр близости affinity определяет метрический показатель расстояния, используемый для параметра linkage(minkowski, euclidean)

-n_clusters - задает количество кластеров, которые кластеризующий алгоритм будет пытаться найти. 
Т е кластеры  последовательно объединяются до тех пор, пока количество оставшихся кластеров не будет равняться n_clusters.

Как и с дугими кластеризующими алгоритмами, которые мы рассмтрели выше, мы можем использовать атрибут labels_ , чтобы увидеть кластер, которому назначено каждое наблюдение.

In [6]:
#показать принадлежность к кластерам
model.labels_

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 2, 0, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2, 0,
       2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 0, 2, 0, 0, 2,
       2, 2, 2, 0, 2, 2, 2, 2, 2, 0, 2, 2, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int64)