<div align="center">
    <img src="images/logo_fmkn.png" alt="logo_fmkn" />
</div>

# Машинное обучение

### Лекция 11. Кластеризация и частичное обучение

<br />
<br />
26 ноября 2021

### Пятиминутка

1. Приведите пример логической функции, которую нельзя реализовать одним нейроном
2. Нарисуйте графики известных вам функций активации
3. Перечислите преимущества метода обратного распространения ошибки

<div align="center">
    <img src="images/cluster_mem.jpg" />
</div>

### Постановка задачи кластеризации

**Дано**:
 
 $X$ — пространство объектов
 
 $X^\ell = \{x_1, \dots, x_\ell \}$ — обучающая выборка

 $\rho: X \times X \to [0, \infty)$ — функция расстояния между объектами

**Найти**:

 $Y$ — множество кластеров
 
 $a: X \to Y$ — алгоритм кластеризации

 такие, что:
 * каждый кластер состоит из близких объектов
 * объекты разных кластеров существенно различны 
 

Это задача **обучения без учителя** (unsupervised learning)!

### Некорректность задачи кластеризации

Решение задачи кластеризации принципиально неоднозначно
 * точной постановки задачи кластеризации нет
 * существует много критериев качества кластеризации
 * существует много эвристических методов кластеризации
 * число кластеров $|Y|$, как правило, неизвестно заранее
 * результат кластеризации сильно зависит от метрики $\rho$, выбор которой также является эвристикой

<div class="alert alert-info">
<b>Вопрос 1:</b> Сколько здесь кластеров?
</div>

<div align="center">
    <img src="images/cluster_example.jpg" alt="cluster_example" width=1000 />
</div>


### Цели кластеризации

 * **Упростить дальнейшую обработку данных**
   - разбить множество $X^\ell$ на группы схожих объектов, чтобы работать с каждой группой в отдельности (задачи классификации, регрессии, прогнозирования)
 * **Сократить объём хранимых данных**
   - оставить по одному представителю от каждого кластера (задачи сжатия данных)
 * **Выделить нетипичные объекты**
   - те, которые не подходят ни к одному из кластеров (задачи одноклассовой классификации)
 * **Построить иерархию множества объектов**
   - задачи таксономии


### Типы кластерных структур

<table style="width:60%">
  <tr>
    <td><img src="images/type1.jpg" alt="type" /></td>
    <td style="text-align:center">внутрикластерные расстояния, как правило, меньше межкластерных</td>
  </tr>
  <tr>
    <td><img src="images/type2.jpg" alt="type" /></td>
    <td style="text-align:center">ленточные кластеры</td>
  </tr>
  <tr>
    <td><img src="images/type3.jpg" alt="type" /></td>
    <td style="text-align:center">кластеры с центром</td>
  </tr>
</table>


### Типы кластерных структур

<table style="width:60%">
  <tr>
    <td><img src="images/type4.jpg" alt="type" /></td>
    <td style="text-align:center">кластеры могут соединяться перемычками</td>
  </tr>
  <tr>
    <td><img src="images/type5.jpg" alt="type" /></td>
    <td style="text-align:center">кластеры могут накладываться на разреженный фон из редко расположенных объектов</td>
  </tr>
  <tr>
    <td><img src="images/type6.jpg" alt="type" /></td>
    <td style="text-align:center">кластеры могут перекрываться</td>
  </tr>
</table>


### Типы кластерных структур

<table style="width:60%">
  <tr>
    <td><img src="images/type7.jpg" alt="type" /></td>
    <td style="text-align:center">кластеры могут образовываться не по близости, а по иным типам регулярностей</td>
  </tr>
  <tr>
    <td><img src="images/type8.jpg" alt="type" /></td>
    <td style="text-align:center">кластеры могут вообще отсутствовать</td>
  </tr>
</table>

 * каждый метод кластеризации имеет свои ограничения и выделяет кластеры лишь некоторых типов
 * понятие «тип кластерной структуры» зависит от метода и также не имеет формального определения
 * в многомерном случае всё это ещё более верно


### Постановка задачи частичного обучения

**Дано**:
 
 множество объектов $X$, множество классов $Y$
 
 $X^k = 
 \begin{array}{c}
 \{x_1, \dots, x_k \} \\
 \color{red}{\{y_1, \dots, y_k \}} \\
 \end{array}$ — размеченные объекты (labeled data)

 $U = \{x_{k+1}, \dots, x_\ell \}$ — неразмеченные объекты (unlabeled data)

**Два варианта постановки задачи**:
 
 _Частичное обучение_ (semi-supervised learning, SSL): 
 
 построить алгоритм классификации $a: X \to Y$

 _Трансдуктивное обучение_ (transductive learning): 
 
 зная $\color{red}{\text{все}}\ \{x_{k+1}, \dots, x_\ell \}$, получить метки $\{a_{k+1}, \dots, a_\ell\}$
 

**Типичные приложения**:

классификация и каталогизация текстов, изображений и т.п.


### SSL не сводится к классификации


**Пример 1**. Плотности классов, восстановленные:

<table style="width:80%">
  <tr>
    <td style="text-align:center">по размеченным данным $X^k$</td>
    <td style="text-align:center">по полным данным $X^\ell$</td>
  </tr>
  <tr>
    <td><img src="images/not_only_classification_1.jpg" alt="not_only_classification" /></td>
    <td><img src="images/not_only_classification_2.jpg" alt="not_only_classification" /></td>
  </tr>
</table>


### SSL не сводится к классификации


**Пример 2**. Методы классификации не учитывают кластерную структуру неразмеченных данных

<div align="center">
  <img src="images/two_moons.jpg" alt="two_moons" />
</div>

<div class="alert alert-info">
<b>Вопрос 2:</b> Сводится ли SSL к кластеризации?
</div>

### Однако и к кластеризации SSL также не сводится

**Пример 3**. Методы кластеризации не учитывают приоритетность разметки над кластерной структурой

<div align="center">
  <img src="images/two_moons_2.jpg" alt="two_moons_2" />
</div>

### Критерии качества кластеризации

Пусть известны **только** попарные расстояния между объектами.

Среднее внутрикластерное расстояние:

$F_0 = \frac{\sum\limits_{i<j}[a_i = a_j] \rho(x_i, x_j)}{\sum\limits_{i<j}[a_i = a_j] } \to \min$

Среднее межкластерное расстояние:

$F_1 = \frac{\sum\limits_{i<j}[a_i \neq a_j] \rho(x_i, x_j)}{\sum\limits_{i<j}[a_i \neq a_j] } \to \max$

Отношение пары функционалов:

$F_0 / F_1 \to \min$


### Критерии качества кластеризации в векторном пространстве

Пусть объекты $x_i$ задаются векторами $(f_1(x_i),\dots,f_n(x_i))$

 * Сумма средних внутрикластерных расстояний:

$\Phi_0 = \sum\limits_{a \in Y} \frac{1}{|X_a|} \sum\limits_{i: a_i = a} \rho(x_i, \mu_a) \to \min$

$X_a = \{x_i \in X^\ell | a_i = a\}$ — кластер $a$, $\mu_a$ — центр масс кластера $a$

 * Сумма межкластерных расстояний:

$\Phi_1 = \sum\limits_{a, b \in Y} \rho(\mu_a, \mu_b) \to \max$

 * Отношение пары функционалов:

$\Phi_0 / \Phi_1 \to \min$


### Кластеризация как задача дискретной оптимизации

Веса на парах объектов (близости): $w_{ij} = \exp(-\beta \rho(x_i, x_j))$,

где $\rho(x, x^\prime)$ — расстояние между объектами, $\beta$ — параметр

**Задача кластеризации**: найти метки кластеров $a_i$

$\sum\limits_{i=1}^\ell \sum\limits_{j=i+1}^\ell w_{ij} [a_i \neq a_j] \to \min\limits_{\{a_i \in Y\}}$

**Задача частичного обучения**: 

$\sum\limits_{i=1}^\ell \sum\limits_{j=i+1}^\ell w_{ij} [a_i \neq a_j] \color{red}{+ \lambda \sum\limits_{i=1}^k [a_i \neq y_i]}  \to \min\limits_{\{a_i \in Y\}}$

где $\lambda$ — ещё один параметр.


<div align="center">
  <img src="images/brace-yourself-kmeans.jpg" alt="brace-yourself-kmeans" width=800 />
</div>

### Метод k-means (k средних) для кластеризации

Минимизация суммы квадратов внутриклассовых расстояний:

$$\sum\limits_{i=1}^\ell \|x_i - \mu_{a_i} \|^2 \to \min\limits_{\{a_i\}, \{\mu_a\}},\ \ \ 
\|x_i - \mu_{a} \|^2 = \sum\limits_{j=1}^n (f_j(x_i) - \mu_{a_j})^2$$


**Алгоритм Ллойда**

**Вход**: $X^\ell, K = |Y|$.  **Выход**: центры кластеров $\mu_a$ и метки $a \in Y$

1. $\mu_a = $ начальное приближение центров, для всех $a \in Y$

2. **повторять**

3. **Первый шаг**: отнести каждый $x_i$ к ближайшему центру:

 $a_i = \arg\min\limits_{a \in Y} \|x_i - \mu_a \|, i = 1, \dots, \ell$

4. **Второй шаг**: вычислить новые положения центров:

 $ \mu_{a_j} = \frac{\sum\limits_{i = 1}^\ell [a_i = a] x_i}{\sum\limits_{i = 1}^\ell [a_i = a]}, a \in Y$

5. **пока** $a_i$ не перестанут изменяться

### k-means++

1: случайным равномерным образом из $X$ взять центр $c_1$

2: **повторять $k - 1$ раз**

3:   берём $x \in X$ за центр нового кластера с вероятностью $\frac{D^2(x)}{\sum\limits_{x \in X} D^2(x)}$

4:   используем обычный k-means

Здесь $D(x)$ — расстояние от $x$ до ближайшего кластера

----

David Arthur and Sergei Vassilvitskii. k-means++: The Advantages of Careful Seeding, 2007

### Примеры неудачной кластеризации k-means

Причина — неудачное начальное приближение и «ленточные» кластеры

<div align="center">
    <img src="images/k-means-1.jpg" alt="k-means-1" width=800 />
    <img src="images/k-means-3.jpg" alt="k-means-3" width=800 />
</div>


### Модификация k-means для частичного обучения

**Модификация алгоритма Ллойда**

<span style="color:red">при наличии размеченных объектов $\{x_1, \dots, x_k\}$</span>, при этом $\color{red}{U}$ — множество неразмеченных объектов

**Вход**: $X^\ell, K = |Y|$. **Выход**: центры кластеров $\mu_a, a \in Y$

1. $\mu_a = $ начальное приближение центров, для всех $a \in Y$

2. **повторять**

3. **Первый шаг**: отнести каждый $x_i \color{red}{\in U}$ к ближайшему центру:

 $a_i = \arg\min\limits_{a \in Y} \|x_i - \mu_a \|, i = \color{red}{k+1}, \dots, \ell$

4. **Второй шаг**: вычислить новые положения центров:

 $ \mu_{a_j} = \frac{\sum\limits_{i = 1}^\ell [a_i = a] x_i}{\sum\limits_{i = 1}^\ell [a_i = a]}, a \in Y$

5. **пока** $a_i$ не перестанут изменяться


### Алгоритм каластеризации DBSAN

DBSAN — Density-Based Spatial Clustering of Applications with Noise

Объект $x \in U$, его $\varepsilon$-окрестность $U_\varepsilon(x) = \{ u \in U: \rho(x,u) \leq \varepsilon\}$

Каждый объект может быть одного из трёх типов:
 * корневой: имеющий плотную окрестность, $|U_\varepsilon (x)| \geq m$
 * граничный: не корневой, но в окрестности корневого 
 * шумовой (выброс): не корневой и не граничный 
 

$ $ 
  

----
_Ester, Kriegel, Sander, Xu_. A density-based algorithm for discovering clusters in large spatial databases with noise. KDD-1996
 

<div align="center">
    <img src="images/DBSCAN-density-data.png" alt="DBSCAN" width=600 />
</div>

### Алгоритм каластеризации DBSAN

**Вход**: выборка $Х^\ell = \{х_1, \dots, х_\ell\}$, параметры $\varepsilon$ и $m$

**Выход**: разбиение выборки на кластеры и шумовые выбросы; $U = Х^\ell$ — непомеченные, $a = 0$

**пока** в выборке есть непомеченные точки, $U \neq \emptyset$:

  $\ \ \ $ взять случайную точку $x \in U$
  
  $\ \ \ $ **если** $|U_\varepsilon (x)| < m$ **то** пометить $x$ как, возможно, шумовой
  
  $\ \ \ $ **иначе** 

  $\ \ \ $ $\ \ \ $ создать новый кластер: $K = U_\varepsilon(x), a = a + 1$
  
  $\ \ \ $ $\ \ \ $ **для всех** $x^\prime \in K$, не помеченных или шумовых 
  
  $\ \ \ $ $\ \ \ \ \ \ $ **если** $|U_\varepsilon(x^\prime)| \geq m$ **то** $K = K \cup U_\varepsilon(x^\prime)$ 
  
  $\ \ \ $ $\ \ \ \ \ \ $ **иначе** пометить $x^\prime$ как граничный кластера $K$
  
  $\ \ \ $ $\ \ \ $ $a_i = a$ для всех $x_i \in K$
  
  $\ \ \ $ $\ \ \ $ $U = U/K$

<div class="alert alert-info">
<b>Вопрос 3:</b> Чем хорош DBSCAN?
</div>

### Преимущества алгоритма DBSCAN

 * быстрая кластеризация больших данных:
   - $O(\ell^2)$ в худшем случае
   - $O(\ell\ln \ell)$ при эффективной реализации $U_\varepsilon(x)$
 * кластеры произвольной формы (нет центров)
 * деление объектов на корневые, граничные и шумовые

<div align="center">
    <img src="images/DBSCAN.jpg" alt="DBSCAN" />
</div>


### Агломеративная иерархическая кластеризация

Алгоритм иерархической кластеризации (Ланс, Уильямс, 1967):

итеративный пересчёт расстояний $R_{UV}$ между кластерами $U, V$

1. $С_1 = \{\{х_1\},\dots, \{х_\ell\}\}$ — все кластеры 1-элементные

   $R_{\{х_i\}\{х_j\}} = \rho(x_i, x_j)$ — расстояния между ними
   
2. **для всех** $t = 2, \dots, \ell$ ($t$ — номер итерации): 

3. найти в $C_{t-1}$ пару кластеров $(U, V)$ с минимальным $R_{UV}$ 

4. слить их в один кластер: 

  $W = U \cup V$ 
  
  $С_t = С_{t-1} \cup \{W\}/\{U,V\}$
  
5. **для всех** $S \in C_t$

6. вычислить $R_{WS}$ по формуле Ланса-Уильямса: 

  $R_{WS} = \alpha_U R_{US} + \alpha_V R_{VS} + \beta R_{UV} + \gamma |R_{US} - R_{VS}|$


### Частные случаи формулы Ланса-Уильямса

<table style="width:60%">
  <tr>
    <td>
        
1. Расстояние ближнего соседа:

  $R^{\text{б}}_{WS} = \min_{w \in W, \in S} \rho (w,s)$

  $\alpha_{U} = \alpha_{V} = \frac12, \beta = 0, \gamma = -\frac12$    
    </td>
    <td><img src="images/R1.jpg" alt="R1" width=400 /></td>
  </tr>
  <tr>
    <td>
  2. Расстояние дальнего соседа:

  $R^{\text{д}}_{WS} = \max_{w \in W, \in S} \rho (w,s)$

  $\alpha_{U} = \alpha_{V} = \frac12, \beta = 0, \gamma = \frac12$
    </td>
    <td><img src="images/R2.jpg" alt="R2" width=400 /></td>
  </tr>
  <tr>
    <td>
  3. Групповое среднее расстояние:

  $R^{\text{г}}_{WS} = \frac{1}{|W| |S|} \sum\limits_{w \in W} \sum\limits_{s \in S} \rho(w, s)$

  $\alpha_{U} = \frac{|U|}{|W|}, \alpha_{V} = \frac{|V|}{|W|}, \beta = \gamma = 0$
    </td>
    <td><img src="images/R3.jpg" alt="R3" width=400 /></td>
  </tr>
</table>

### Частные случаи формулы Ланса-Уильямса

4. Расстояние между центрами:

  $R^{\text{ц}}_{WS} = \rho^2\left(\sum\limits_{w \in W} \frac{w}{|W|}, \sum\limits_{s \in S} \frac{s}{|S|} \right)$
  
  $\alpha_{U} = \frac{|U|}{|W|}, \alpha_{V} = \frac{|V|}{|W|}, \beta = -\alpha_{U}\alpha_{V} \gamma = 0$

5. Расстояние Уорда:

  $R^{\text{у}}_{WS} = \color{red}{\frac{|S||W|}{|S|+|W|}} \rho^2\left(\sum\limits_{w \in W} \frac{w}{|W|}, \sum\limits_{s \in S} \frac{s}{|S|} \right)$

  $\alpha_{U} = \frac{|S|+|U|}{|S|+|W|}, \alpha_{V} = \frac{|S|+|V|}{|S|+|W|}, \beta = \frac{-|S|}{|S|+|W|}, \gamma = 0$


### Визуализация кластерной структуры

1. Расстояние ближнего соседа

<table style="width:60%">
  <tr>
    <th style="text-align:center">Диаграмма вложения</th>
    <th style="text-align:center">Дендрограмма</th>
  </tr>
  <tr>
    <td style="text-align:center"><img src="images/diag1.jpg" alt="D1" width=600 /></td>
    <td style="text-align:center"><img src="images/dendr1.jpg" alt="D1" width=600 /></td>
  </tr>
</table>


### Визуализация кластерной структуры

2. Расстояние дальнего соседа

<table style="width:60%">
  <tr>
    <th style="text-align:center">Диаграмма вложения</th>
    <th style="text-align:center">Дендрограмма</th>
  </tr>
  <tr>
    <td><img src="images/diag2.jpg" alt="D2" width=600 /></td>
    <td><img src="images/dendr2.jpg" alt="D2" width=600 /></td>
  </tr>
</table>


### Основные свойства иерархической кластеризации

*Монотонность*: дендрограмма не имеет самопересечений, при каждом слиянии расстояние между объединяемыми кластерами только увеличивается: 

$R_2 \leq R_3 \leq \dots \leq R_\ell$

*Сжимающее расстояние*: $R_t \leq \rho(\mu_U, \mu_V), \forall t$

*Растягивающее расстояние*: $R_t \geq \rho(\mu_U, \mu_V), \forall t$

**Теорема** (Миллиган, 1979) 

Кластеризация монотонна, если выполняются условия 

$\alpha_U \geq 0, \alpha_V \geq 0, \alpha_U + \alpha_V + \beta \geq 1, \min\{\alpha_U, \alpha_V\} + \gamma \geq 0$

$R^\text{ц}$ не монотонно; $R^\text{б}$, $R^\text{д}$, $R^\text{г}$, $\color{red}{R^\text{у}}$ — монотонны

$R^\text{б}$ — сжимающее; $R^\text{д}, \color{red}{R^\text{у}}$ — растягивающие 


### Рекомендации и выводы

 * рекомендуется пользоваться расстоянием Уорда $R^\text{у}$
 * обычно строят несколько вариантов и выбирают лучший визуально по дендрограмме
 * определение числа кластеров — по максимуму $|R_{t+1} - R_t|$,
 
 тогда результирующее множество кластеров $= C_t$

<table style="width:80%">
  <tr>
    <td><img src="images/conc1.jpg" alt="conc" width=600 /></td>
    <td><img src="images/conc2.jpg" alt="conc" width=600 /></td>
  </tr>
</table>


### Метод частичного обучения self-training (1965-1970)

Пусть $\mu: X^k \to a$ — метод обучения классификации

Классификаторы имеют вид $a(x) = \arg\max\limits_{y \in Y} \Gamma_y(x)$

*Псевдоотступ* — степень уверенности классификации $a_i = a(x_i)$:

$M_i(a) = \Gamma_{a_i}(x_i) - \max\limits_{y \in Y/a_i} \Gamma_y(x_i)$


**Алгоритм self-training** — обёртка (wrapper) над методом $\mu$:

1. $Z = X^k$

2. **пока** $|Z| < \ell$

3. $\ \ \  a = \mu(Z)$

4. $\ \ \  \Delta = \{x_i \in U/Z | M_i(a) \geq \color{red}{M_0}\}$

5. $\ \ \  a_i = a(x_i)$ для всех $x_i \in \Delta$

6. $Z = Z \cup \Delta$

$\color{red}{M_0}$ можно определять, например, из условия $|\Delta| = 0.05 |U|$


### Метод частичного обучения co-learning (deSa, 1993)

Пусть $\mu_t: X^k \to a_t$ — разные методы обучения, $t = 1, \dots, T$

**Алгоритм co-learning** — это self-training для композиции — простого голосования базовых алгоритмов $a_1, \dots, a_T$:

 $a(x) = \arg\max\limits_{y \in Y} \Gamma_y(x),\ \Gamma_y(x_i) = \sum\limits_{t=1}^T[a_t(x_i) = y]$


### Метод частичного обучения co-training (Blum, Mitchell, 1998)

Пусть $\mu_1: X^k \to a_1,\ \mu_2: X^k \to a_2$ — два существенно различных метода обучения, использующих

 * либо разные наборы признаков
 * либо разные парадигмы обучения (inductive bias)
 * либо разные источники данных $X_1^{k_1}, X_2^{k_2}$


1. $Z_1 = X_1^{k_1}$, $Z_2 = X_2^{k_2}$

2. **пока** $|Z_1 \cup Z_2| < l$

3. $\ \ \  a_1 = \mu_1(Z_1), \Delta_1 = \{x_i \in U/Z_1/Z_2 | M_i(a_1) \geq \color{red}{M_{01}}\}$

4. $\ \ \  a_i = a_1(x_i)$ для всех $x_i \in \Delta_1$

5. $Z_2 = Z_2 \cup \Delta_1$

6. $\ \ \  a_2 = \mu_2(Z_2), \Delta_2 = \{x_i \in U/Z_1/Z_2 | M_i(a_2) \geq \color{red}{M_{02}}\}$

7. $\ \ \  a_i = a_2(x_i)$ для всех $x_i \in \Delta_2$

8. $Z_1 = Z_1 \cup \Delta_2$


### Резюме

 * Кластеризация — это обучение без учителя, некорректно поставленная задача, существует много оптимизационных и эвристических алгоритмов кластеризации
 * DBSCAN — популярный быстрый алгоритм кластеризации
 * Задача semi-supervised learning (SSL) занимает промежуточное положение между классификацией и кластеризацией, но не сводится к ним
 * Методы кластеризации легко адаптируются к SSL путём введения ограничений (constrained clustering)
 * Адаптация методов классификации реализуется сложнее, через дополнительную регуляризацию, и как правило, приводит к более эффективным методам
 * Регуляризация объединяет критерии на размеченных и неразмеченных данных в одну задачу оптимизации

### Алгоритм Ланга-Уильямса для частного обучения

Алгоритм иерархической кластеризации (Ланс, Уильямс, 1967):

итеративный пересчёт расстояний $R_{UV}$ между кластерами $U, V$. 

1. $С_1 = \{\{х_1\},\dots, \{х_l\}\}$ — все кластеры 1-элементные

   $R_{\{х_i\}\{х_j\}} = \rho(x_i, x_j)$ — расстояния между ними
   
2. **для всех** $t = 2, \dots, l$ ($t$ — номер итерации): 

3. найти в $C_{t-1}$ пару кластеров $(U, V)$ с минимальным $R_{UV}$ 

   <span style="color:red">при условии, что в $U \cup V$ нет объектов с разными метками</span>

4. слить их в один кластер: 

  $W = U \cup V$ 
  
  $С_t = С_{t-1} \cup \{W\}/\{U,V\}$
  
5. **для всех** $S \in C_t$

6. вычислить $R_{WS}$ по формуле Ланса-Уильямса: 

  $R_{WS} = \alpha_U R_{US} + \alpha_V R_{VS} + \beta R_{UV} + \gamma |R_{US} - R_{VS}|$
