# Анализ данных на Python

*Алла Тамбовцева* 

## Кластеризация количественных данных. Иерархический кластерный анализ: введение

Иерархический кластерный анализ решает задачу **классификации без обучения** на данных, распределение которых нам **неизвестно**. Другими словами, классический кластерный анализ распределяет имеющиеся в массиве данных наблюдения на группы, не предлагая при этом алгоритм для предсказания класса, к которому будет отнесено то или иное наблюдение. 

Для реализации иерархического кластерного анализа **на входе** необходимо иметь $p$-мерный массив данных (датафрейм из $n$ строк и $p$ столбцов), при этом заранее знать количество кластеров, которое мы хотим получить, необязательно.

**На выходе** получаем правило, которое позволяет наилучшим образом разбить имеющиеся наблюдения на однородные в определённом смысле группы. Иерархический кластерный анализ не предлагает единственного решения, некоторого оптимального разбиения на кластеры, поэтому именно на исследователя возлагается задача выбрать наилучший вариант классификации. Тем не менее, однородность групп достигается довольно понятным образом, в кластерном анализе реализуется довольно распространённый для сравнения групп принцип: внутригрупповой разброс значений должен быть минимальным, а межгрупповой разброс – довольно существенным.

Почему этот тип кластерного анализа называется иерархическим? В основе данного вида кластерного анализа лежат **два предположения**:

1. На самом первом шаге кластерного анализа количество кластеров совпадает с количеством наблюдений (имеем $n$ кластеров, состоящих ровно из одного наблюдения).

2. Количество кластеров заранее неизвестно, мы объединяем точки в кластеры до тех пор, пока не получим один большой кластер. Так, на первом шаге иерархического кластерного анализа у нас есть n кластеров, на втором шаге $(n − 1)$ кластеров, на третьем уже $(n − 2)$ кластеров, и так далее, а на последнем шаге остаётся один кластер. Другими словами, мы выстраиваем некоторую иерархию из кластеров, вложенных друг в друга, а потом решаем, на каком делении, более детальном (много маленьких кластеров) или более общем (мало больших кластеров), стоит остановиться.

**Пример.** Чтобы понять, какая идея стоит за алгоритмами реализации кластерного анализа, давайте рассмотрим следующую задачу. Пусть у нас есть небольшой двумерный массив данных, где $X$ – время, на которое преподаватель опаздывает на пару (в минутах), а $Y$ – время, на которое преподаватель опаздывает на личные встречи (в минутах):

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>X</th>
      <th>Y</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>2</td>
      <td>6</td>
    </tr>
    <tr>
      <th>1</th>
      <td>2</td>
      <td>8</td>
    </tr>
    <tr>
      <th>2</th>
      <td>8</td>
      <td>2</td>
    </tr>
    <tr>
      <th>3</th>
      <td>10</td>
      <td>3</td>
    </tr>
    <tr>
      <th>4</th>
      <td>5</td>
      <td>5</td>
    </tr>
  </tbody>
</table>

In [None]:
import numpy as np
from matplotlib import pyplot as plt

x = np.array([2, 2, 8, 10, 5])
y = np.array([6, 8, 2, 3, 5])

plt.scatter(x, y);

Возникает логичный вопрос: что нам понадобится, чтобы поделить все эти наблюдения на группы?

In [None]:
### предположения

In [None]:
A = np.column_stack((x, y))
print(A)

D = np.zeros((A.shape[0], A.shape[0]))
print(D)

In [None]:
from scipy.cluster.hierarchy import distance

for i in range(0, A.shape[0]):
    for j in range(0, A.shape[0]):
        if i >= j:
            D[i, j] = distance.euclidean(A[i], A[j]) 
print(D)

In [None]:
np.rot90(np.fliplr(D))

In [None]:
# итоговый шаг

In [None]:
from scipy.cluster.hierarchy import linkage, dendrogram

hc = linkage(A, metric = "euclidean", method = "complete")
dendrogram(hc);

In [None]:
print(hc)

In [None]:
dendrogram(hc, color_threshold = 3);

In [None]:
plt.figure(figsize = (16, 9))
dendrogram(hc, color_threshold = 0)
plt.hlines(y = 3.5, xmin = 0, xmax = 50, color = "red");