# Кластеризация

### Постановка задачи кластеризации
Кластеризация - это обучение без учителя
Дано:
- Х - пространство объектов  
- $X^l=\{x_i\}_{i=1}^l$ - обучающая выборка   
- $\rho:X*X\to[0,\infty)$ - функция расстояния между объектами  

Найти:
- $y_i\in Y$ - метки кластеров объектов
- каждый кластер состоит из близких объектов
- объекты разных кластеров существенно различны

Решение задачи кластеризации принципиально неоднозначно:
- разлчиные критерии качества кластеризации
- различные эвричтические методы кластеризации
- различные варианты функции расстояния $\rho$


### Типы кластерных структур
- внутрикластерные расстояния, как правило, меньше межкластерных
- кластеры с центором
- кластеры могут соединяться перемычками
- кластеры могут накладываться на разреженный фон из редко расположенных объектов
- ленточные кластеры
- перекрывающиеся кластеры
- кластеры могут образовываться не по сходству, а по иным типам регулярноностей
- кластеры могут отсутствовать


### Метод k-means (k-средних)
Объекты $x_i$ задаются векторамии признаков $(f_1(x_i),...,f_n(x_i))$
Вход: $X^l$ - обучающая выборка параметр k  
Выход: центры кластеров $\mu_y, y\in Y$   
1) начальное приближение центров $\mu_y, y\in Y$   
2) повторять   
3) отнести каждый $x_i$ к ближайшему центру: $y_i:=argmin_{y\in Y}\rho(x_i, \mu_y),\ i=1,...,l$   
4) вычислить новые оложения ценров: $\mu_{yj}=\frac{\sum_{i=1}^l[y_i=y]f_j(x_i)}{\sum_{i=1}^l[y_i=y]},\ y\in Y,\ j=1,...,n$  
5) пока $y_i$ не перестанут изменяться  


### Мягкий вариант k-средних
Вход: $X^l$ - обучающая выборка параметр k  
Выход: центры кластеров $\mu_y, y\in Y$   
1) начальное приближение центров $\mu_y,\ y\in Y,\ w_y=\frac{1}{|Y|}$  
2) повторять  
3) оценить близость каждого $x_i$ ко всем центрам: $g_{yi}=w_y exp(-\frac{1}{2}\rho^2(x_i, \mu_y)),\ i=1,...,l,\ y\in Y$, $g_{iy}=\frac{g_{iy}}{\sum_{z\in Y}g_{iz}}$   
4) отнести каждый $x_i$ к ближайшему центру: $y_i:=argmin_{y\in Y}g_{iy},\ i=1,...,l$   
5) новые положения центров и мощности кластеров: $\mu_{yj}=\frac{1}{lw_y}\sum_{i=1}^lg_{iy}f_j(x_i),\ w_y=\frac{1}{l}\sum_{i=1}^lg_{iy},\ y\in Y,\ j=1,...,n$   
6) пока $g_{iy}$ не перестанут меняться  


### Формирование начального приближения для k-средних
Вход: $X^l$ - обучающая выборка, параметры $q, \delta, k$   
Выход: $U \subset X^l$ - начальное приближение центров $\mu_y, y\in Y$
1) среднее расстояние до q ближайших соседей: $R_i=\frac{1}{q}\sum_{j=1}^q\rho(x_i,x_i^{(j)})$ для всех $i=1,...,l$, где $x_i^{(j)}$ - j-й ближайший сосед объекта $x_i$   
2) отбросить шумовые объекты: $X'=\{x_i\in X^l | R_i\leq\Delta\}$ при $\Delta: |X'|=(1-\delta)l$   
3) выбрать пару самых удаленных объектов: $U=argmax_{x,x'\in X'}\rho(x,x')$, далее последовательно присоединять к U по одному объекту, самому удаленному от уже выбранных   
4) повторять (k-2) раз $U=U\cup argmax_{x\in X'}min_{u\in U}\rho(x,u)$


### Недостатки k-средних
- чувствительность к выбору начального приближения
- необходимость задавать k

Способы устранения недостатков:
- эвристики для выбора начального приближения
- мягкая кластеризация
- мультистарт: несколько случайных инициализаций, выбоор лучшей кластеризации по функционалу качества
- быстрые алгоритмы (k++б сэмплирование)
- варьирование числа кластеров k в ходе итерацийй


# Иерархическая кластеризация

### Постановка задачи кластеризации
Кластеризация - это обучение без учителя
Дано:
- Х - пространство объектов  
- $X^l=\{x_i\}_{i=1}^l$ - обучающая выборка   
- $\rho:X*X\to[0,\infty)$ - функция расстояния между объектами  

Найти:
- $y_i\in Y$ - метки кластеров объектов
- каждый кластер состоит из близких объектов
- объекты разных кластеров существенно различны

Необходимо научиться определять число кластеров


### Агломеративная иерархическая кластеризация
Алгоритм Ланса-Уильямса основан на оценивании расстояний R(U, V) между парами кластеров U, V  
1) сначала все кластеры одноэлементные: $t=1,\ C_t=\{\{x_1\},..., \{x_l\}\},\ R(\{x_i\}, \{x_j\})=\rho(x_i, x_j)$  
2) для всех t=2,...,l (t- номер итерации)
3) найти в $C_{t-1}$ два ближайших кластера: $(U, V)=argmin_{U\neq V} R(U,V),\ R_t=R(U,V)$  
4) слить их в один кластер: $W=U\cup V,\ C_t=C_{t-1}\cup \{W\}|\{U,V\}$  
5) для всех $S\in C_t$  
6) вычислить R(W, S) по формуле Ланса-Удьямса


### Формула Ланса-Уильямса
Определение расстояния R(W, S) между кластерами $W=U\cup V$ и S, зная расстояния R(U, S), R(V, S), R(U, V)

Формула обобщающая большинство разумных способов определения этого расстояния: $R(U\cup V, S)=\alpha_U R(U, S)+\alpha_V R(V, S)+\beta R(U, V) + \gamma |R(U,S)-R(V,S)|$, $\alpha_U,\alpha_V, \beta, \gamma$ - числовые параметры


### Частные случаи формулы Ланса-Уильямса
1) Расстояние ближайшего соседа  
2) Расстояние дальнего соседа  
3) Груповое среднеее расстояние  
4) Расстояние между центрами  
5) Расстояние Уорда: $R^У(W,S)=\frac{|S||W|}{|S|+|W|}\rho^2(\sum_{w\in W}\frac{w}{|W|}, \sum_{s\in S}\frac{s}{|S|}),\ \alpha_U=\frac{|S|+|U|}{|S|+|W|},\ \alpha_V=\frac{|S|+|V|}{|S|+|W|},\ \beta=\frac{-|S|}{|S|+|W|}, \gamma=0$  


### Основные свойства иерархической кластеризации
- Монотонность: дендрограмма не имеет самопересечений, при каждом слиянии расстояние между объединяемыми кластерами только увеличивается: $R_2\leq R_3\leq ... \leq R_l$. достаточное условие монотонности: $\alpha_U\geq0,\ \alpha_V\geq0,\ \alpha_U+\alpha_V+\beta\geq0,\ min\{\alpha_U, \alpha_V\}+\gamma\geq0$    
- Сжимающее расстояние: $R_t\leq\rho(\mu_U,\mu_V),\ \forall t$  
- Растягивающее расстояние: $R_t\geq\rho(\mu_U,\mu_V),\ \forall t$  
$R^У(W,S)$ - монотонно и растягивающе


### Рекомендации
- использовать расстояние Уорда
- строить несколько вариантов и выбирать лучший по дендрограмме
- определение числа кластеров - по максимуму $|R_{t+1}-R_t|$, тогда результирующее множество кластеров $C_t$

# Нелинейные методы понижения размерности

### Нелинейное понижение размерности
Дано: $\{x_1,...,x_l\}$ - выборка объектов
Задача: отобразить все объекты выборки в пространство малой размерности $x_i \mapsto \tilde{x_i}\in \mathbb{R}^d$
Требования к маломерному представлению: 
- должно хорошо отображать структуру данных в исходном пространстве
- сохраняет интересующие закономерности в данных


### Многомерное шкалирование (MDS)
Гипотеза: хорошее малоразмерное представление сохраняет попарные расстояния между объектами   
$d_{ij}$ - расстояние мужду $x_i,x_j$ (признаковые описания не нужны - достаточно расстояний)   
$d_{ij}=||\tilde{x_i}-\tilde{x_j}||$ - евклидово расстояние между маломерными представлениями   
Ищем представление аппроксимирующее $d_{ij}$: $\sum_{i<j}^l(||\tilde{x_i}-\tilde{x_j}||-d_{ij})^2\to min_{(\tilde{x_i})_{i=1}^l\subset\mathbb{R}^d}$  
Оптимизация: алгоритм SMACOF


### SNE: Stochastic Neighbor Embedding
- В точности воспроизвести расстояния - слишком сложно
- Достаточно сохранения пропорций: $\rho(x_1,x_2)=c\rho(x_1,x_3)\implies\rho(\tilde{x_1}, \tilde{x_2})=c\rho(\tilde{x_1}, \tilde{x_3})$
- Описание объектов с нормированными расстояниями до остальных объектов: $p(x_j|x_i)=\frac{exp(||x_i-x_j||^2/2\sigma^2)}{\sum_{k\neq i}exp(||x_i-x_k||^2/2\sigma^2)},\ q(\tilde{x_j}|\tilde{x_i})=\frac{exp(||\tilde{x_i}-\tilde{x_j}||^2/2\sigma^2)}{\sum_{k\neq i}exp(||\tilde{x_i}-\tilde{x_k}||^2)}$
- Минимизируем разницу между распределениями расстояний (мера - дивергенция Кульбака-Лейблера): $\sum_{i=1}^l\sum_{j\neq i}p(x_j|x_i)log\frac{p(x_j|x_i)}{p(\tilde{x_j}|\tilde{x_i})}\to min_{(\tilde{x_i})_{i=1}^l\subset\mathbb{R}^d}$



### t-SNE
t-Distributed Stochastic Neighbor Embedding - развитие SNE:
- чем выше размерность пространства, тем меньше расстояние между парами точек отличаются друг от друга
- невозможно воспроизвести это свойство в двух- или трехмерном пространстве
- значит нужно меньше штрафовать за увеличение пропорций в малоразмерном пространстве
- измененное распределение: $q(\tilde{x_j}|\tilde{x_i})=\frac{(1+||\tilde{x_i}-\tilde{x_j}||^2)^{-1}}{\sum_{k\neq i}(1+||\tilde{x_i}-\tilde{x_k}||^2)^{-1}}$
- такая визуализация позволяет увидеть внутреннюю структуру данных

# Постановка задачи частичного обучения

### Постановка задачи частичного обучения
Дано: 
- множество объектов Х, множество классов Y; 
- $X^l=\{x_1,...,x_l)\}$ - размеченная выборка
- $X^k=\{x_{l+1},..., x_{l+k}\}$ - неразмеченная выборка

Два варианта постановки задачи:
- частичное обучение (SSL-semi-supervised learning): построить алгоритм классификации $a: X\to Y$
- трансдуктивное обучение: зная все $\{x_{l+1},...,x_{l+k}\}$ полкчить метки $\{y_{l+1},..., y_{l+k}\}$


### SSL не сводится к задаче классификации и кластеризации


### Метод self-training
Пусть $\mu:X^l\to a$ - произвольный метод обучения; классификаторы имеют вид $a(x)=argmax_{y\in Y}\Gamma_y(x)$

Псевдоотступ - степень уверенности классификации $a_i=a(x_i)$: $M_i(a)=\Gamma_{a_i}(x_i)-max_{y\in Y|a_i}\Gamma_y(x_i)$

Алгоритм self-training - обертка над методом $\mu$:
1) $Z=X^l$   
2) пока |Z|<l+k  
3) $a=\mu(Z)$  
4) $\Delta=\{x_i\in X^k\setminus Z| M_i(a)\geq M_0\}$  
5) $y_i=a(x_i)$ для всех $x_i\in \Delta$  
6) $Z=Z \cup \Delta$  

$M_0$ - определяется например из условия $|\Delta|=0.05k$


### Метод co-training
Пусть $\mu_1:X^l\to a_1$, $\mu_2:X^l\to a_2$ два существенно различных метода обучения, использующих 
- либо различные наборы признаков
- либо разные парадигмы обучения
- либо разные источники данных $X_1 ^{l_1}, X_1 ^{l_1}$

1) $Z_1=X_1 ^{l_1},\ Z_2=X_1 ^{l_1}$   
2) пока $|Z_1\cup Z_2|<l+k$    
3) $a_1=\mu_1(Z_1)$, $\Delta_1=\{x_i\in X^k\setminus Z_1\setminus Z_2| M_i(a_1)\geq M_{01}\}$   
4) $y_i=a(x_i)$ для всех $x_i\in \Delta_1$  
5) $Z_2=Z_2 \cup \Delta_1$  
6) $a_2=\mu_2(Z_2)$, $\Delta_2=\{x_i\in X^k\setminus Z_1\setminus Z_2| M_i(a_2)\geq M_{02}\}$     
7) $y_i=a(x_i)$ для всех $x_i\in \Delta_2$   
8) $Z_1=Z_1 \cup \Delta_2$


### Метод co-learning
Пусть $\mu_t:X^l\to a_t$ - разные методы обучения, $t=1,...,T$.
Алгоритм co-learning - это self-training для композиции - простого голосования базовых алгоритмов $a_1,...,a_T$: $a(x)=argmax_{y \in Y}\Gamma_y(x),\ \Gamma_y(x)=\sum_{t=1}^T[a_t(x)=y]$, тогда $M_i(a)$ - степень уверенности классификации $a(x_i)$

1) $Z=X^l$   
2) пока $|Z|<l+k$   
3) $a=\mu(Z)$    
4) $\Delta=\{x_i\in X^k\setminus Z| M_i(a)\geq M_0\}$    
5) $y_i=a(x_i)$ для всех $x_i\in \Delta$    
6) $Z_1=Z_1 \cup \Delta$


# Применение кластеризации в решении задач частичного обучения

### Постановка задачи частичного обучения
Дано: 
- множество объектов Х, множество классов Y; 
- $X^l=\{x_1,...,x_l)\}$ - размеченная выборка
- $X^k=\{x_{l+1},..., x_{l+k}\}$ - неразмеченная выборка

Два варианта постановки задачи:
- частичное обучение (SSL-semi-supervised learning): построить алгоритм классификации $a: X\to Y$
- трансдуктивное обучение: зная все $\{x_{l+1},...,x_{l+k}\}$ полкчить метки $\{y_{l+1},..., y_{l+k}\}$


### Кластеризация как задача дискретной оптимизации
Пусть $\rho(x,x')$ - функция расстояния между объектами. Веса на парах объектов (близости): $w_{ij}=exp(-\beta \rho(x_i, x_j))$, где $\beta$ - параметр

Задача кластеризации: $\sum_{i=1}^{l+k}\sum_{j=i+1}^{l+k} w_{ij}[a_i\neq a_j]\to min_{a_i \in Y}$

Задача частичного обучения: $\sum_{i=1}^{l+k}\sum_{j=i+1}^{l+k} w_{ij}[a_i\neq a_j] + \lambda\sum_{i=1}^l[a_i\neq y_i]  \to min_{a_i \in Y}$, $\lambda$ - параметр


### Алгоритм КНП: кластеризация
Задано число кластеров К

Графовый алгоритм КНП (кратчайший незамкнутый путь)
1) найти пару вершин $(x_i, x_j)\in X^{k+l}$ с наименьшим $\rho(x_i,y_j)$ и соединить их ребром   
2) пока в выборке остаются изолированные точки   
3) найти изолированную точку, ближайшую к некоторой неизолированной   
4) соединить эти две точки ребром  
5) удалить К-1 самых длинных ребер  
  

### Алгоритм КНП: частичное обучение
Задано число кластеров К

Графовый алгоритм КНП (кратчайший незамкнутый путь)
1) найти пару вершин $(x_i, x_j)\in X^{k+l}$ с наименьшим $\rho(x_i,y_j)$ и соединить их ребром   
2) пока в выборке остаются изолированные точки   
3) найти изолированную точку, ближайшую к некоторой неизолированной   
4) соединить эти две точки ребром  
5) пока есть путь между двумя вершинами разных классов  
6) удалить самое длинное ребро на этом пути


### Алгоритм Ланса-Уильямса: частичное обучение

Алгоритм Ланса-Уильямса основан на оценивании расстояний R(U, V) между парами кластеров U, V  
1) сначала все кластеры одноэлементные: $t=1,\ C_t=\{\{x_1\},..., \{x_l\}\},\ R(\{x_i\}, \{x_j\})=\rho(x_i, x_j)$  
2) для всех t=2,...,l (t- номер итерации)
3) найти в $C_{t-1}$ два ближайших кластера: $(U, V)=argmin_{U\neq V} R(U,V),\ R_t=R(U,V)$, при условии, что в $U \cup V$ нет объектов с разными метками  
4) слить их в один кластер: $W=U\cup V,\ C_t=C_{t-1}\cup \{W\}|\{U,V\}$  
5) для всех $S\in C_t$  
6) вычислить R(W, S) по формуле Ланса-Удьямса: $R(U\cup V, S)=\alpha_U R(U, S)+\alpha_V R(V, S)+\beta R(U, V) + \gamma |R(U,S)-R(V,S)|$


### Метод k-means (k-средних): частичное обучение
Объекты $x_i$ задаются векторамии признаков $(f_1(x_i),...,f_n(x_i))$
Вход: $X^l$ - обучающая выборка параметр k  
Выход: центры кластеров $\mu_y, y\in Y$   
1) начальное приближение центров $\mu_y, y\in Y$   
2) повторять   
3) отнести каждый $x_i\in X^k$ к ближайшему центру: $y_i:=argmin_{y\in Y}\rho(x_i, \mu_y),\ i=l+1,...,l$   
4) вычислить новые оложения ценров: $\mu_{yj}=\frac{\sum_{i=1}^l[y_i=y]f_j(x_i)}{\sum_{i=1}^l[y_i=y]},\ y\in Y,\ j=1,...,n$  
5) пока $y_i$ не перестанут изменяться  


# Применение классификации в решении задач частичного обучения

### Постановка задачи частичного обучения
Дано: 
- множество объектов Х, множество классов Y; 
- $X^l=\{x_1,...,x_l)\}$ - размеченная выборка
- $X^k=\{x_{l+1},..., x_{l+k}\}$ - неразмеченная выборка

Два варианта постановки задачи:
- частичное обучение (SSL-semi-supervised learning): построить алгоритм классификации $a: X\to Y$
- трансдуктивное обучение: зная все $\{x_{l+1},...,x_{l+k}\}$ полкчить метки $\{y_{l+1},..., y_{l+k}\}$


### SVM: классификация
Обучающая выборка $X^l=(x_i, y_i)_{i=1} ^l$     
$x_i$ - объекты, векторы из множества $X=\mathcal{R}^n$     
$y_i$ - метки классов, элементы множества $Y=\{-1, +1\}$     
$M_i(w, w_0)=(\langle x, w \rangle-w_0)y_i$ - отступ    
$a(x, w, w_0)=sign(\langle x, w \rangle-w_0),\ x,w\in \mathbb{R}^n,\ w_0\in \mathbb{R}$    

Задача обучения весов $w_0,\ w$ по размеченной выборке: $Q(w, w_0)= \sum_{1 \leq i \leq}(1-M_i()w, w_0)_+ + \frac{1}{2C}||w||^2 \to min_{w, w_0}$

Функция $\mathcal{L}(M)=(1-M_i()w, w_0)_+$ штрафует за уменьшение отступа, штрафует за попадание в зазор, $|M_i|$ не зависит от $y_i$ и определен на неразмеченных объектах


### Trunsductive SVM: частичное обучение
Обучение весов $w_0,\ w$ по частично размеченной выборке: $Q(w, w_0)= \sum_{1 \leq i \leq}(1-M_i()w, w_0)_+ + \frac{1}{2C}||w||^2 + \gamma\sum_{i=l+1}^{l+k}(1-|M_i(w,w_0)|)_+ \to min_{w, w_0}$
Достоинства TSVM: 
- можно использовать ядра
- имеются эффективные реализации для больших данных

Недостатки TSVM:
- решение неустойчиво если нет области разреженности
- требуется настройка параметров $C,\ \gamma$


### Многоклассовая логистическая регрессия
Линейный классификатор на конечном множестве классов |Y|: $a(x)=argmax_{y\in Y}\langle w_y, x \rangle,\ x,w_y\in \mathbb{R}^n$

Вероятность того, что объект $x_i$ относится к классу y: $P(y|x_i,w)=\frac{exp(\langle w_y, x_i \rangle)}{\sum_{c\in Y}exp(\langle w_c, x_i \rangle)}$

Задача максимизации регуляризованного правдоподобия: $Q(w)=\sum_{i=1}^l log P(y|x_i,w)-\frac{1}{2C}\sum_{y\in Y}||w_y||^2\to max_{w}$. Оптимизация Q(w) методом стохастического градиента
 

### Логистическая регрессия с частичным обучением
Теперь учтем неразмеченные данные $X^k={x_{l+1},...,x_{k+l}}$
Пусть $b_j(x)$ - бинарные признаки, j=1,...,m
Оценим вероятности $P(y|b_j(x),w)=1$ двумя способами:
- эмпирическая оценка по размеченным данным $X^l$: $\hat{p_j(x)}=\frac{\sum_{i=1}^lb_j(x_i)[y_i=y]}{\sum_{i=1}^lb_j(x_i)}$
- оценка по неразмеченным данным $X^k$ и линейной модели: $p_j(y,w)=\frac{\sum_{i=l+1}^{l+k}b_j(x_i)P(y|x_i,w)}{\sum_{i=l+1}^{l+k}b_j(x_i)}$

Минимизируем расстояние между $\hat{p_j(x)}$ и $p_j(y,w)$, в качестве расстояния между распределениями возьмем дивергенцию Кульбака-Лейблера


### Построение функционала качества
Минимизация KL-дивергенции между $\hat{p_j(x)}$ и $p_j(y,w)$: $KL(\hat{p_j(x)}||p_j(y,w))=\sum_y\hat{p_j(x)}log\frac{\hat{p_j(x)}}{p_j(y,w)}\to min_{w}$

Вычитая сумму KL-дивергенции по всем признакам j=1,...,m из функционала регуляризованного правдоподобия Q(w): $\hat{Q}(w)=\sum_{i=1}^llogP(y_i|x_,w)-\frac{1}{2C}\sum_{y\in Y}||w_y||^2+\gamma\sum_{j=1}^{l+k}\sum_{y\in Y}\hat{p_j}(y)log\frac{\sum_{i=l+1}^{l+k}b_j(x)P(y|x_i,w)}{\sum_{i=l+1}^{l+k}b_j(x_i)}\to max_w$, $\gamma$ коэффициент регуляризации


### Особенности регуляризации для частичного обучения
- оптимизация $\tilde{Q}(w)$ - методом стохастического градиента
- возможные варианты задания переменных $b_j$:
    - $b_j(x)=1$, тогда $P(y|b_j(x)=1)$ - априорная вероятность класса y - хорошо подходит для задач с несбалансированными классами
    - $b_j(x)=$[термин j содержится в х] - для задач классификации и каталогизации текстов
- метод слабо чувствителен к выбору С, $\gamma$
- устойчив к погрешностям оценивания $\hat{p_j}(y)$
- не требует большого числа размеченых объектов l
- хорошо подходит для категоризации текстов
- в экериментах показывает высокую точность 


###  Итог
- задача частичного обучения занимает промежуточное положение между классификацией и кластеризацией, но не сводится к ним
- простые методы-обертки требуют многократного обучения, что вычислительно не выгодно
- методы кластеризации легко адаптируются путем введения ограничений но как правило вычислительно трудоемки
- методы классификации адаптируются сложнее но приводят к более эффективному частичному обучению