# Машинное обучение для лингвистов

## Екатерина Черняк

echernyak@hse.ru

чат в телеграме для вопросов: https://t.me/joinchat/EVGQlkTn6X4UQXxqbCKIlQ

Wiki-страница:  http://wiki.cs.hse.ru/Машинное_обучение_для_лингвистов

репозиторий: https://github.com/echernyak/ML-for-compling

канал в телеграме для объявлений: https://t.me/ml_for_compling

# Кластеризация текстов

## Постановка задачи

* $d \in D$ – документы
* кластер – такая группа документов, что внутри группы документы *похожи* друг на друга, а два документа из разных групп друг на друга непохожи 
* $D$ требуется разбить на подмножества: $D = D_1 \sqcup D_2 \sqcup \ldots \sqcup D_k$

<img src="clust_img/screen1.png" width="600">

<img src="clust_img/berkeley_campus.png" width="600">

Изображение: https://github.com/pksohn/tweet-clustering

<img src="clust_img/screen2.jpg" width="600">

Изображение: https://en.wikipedia.org/wiki/File:Self_oraganizing_map_cartography.jpg

<img src="clust_img/screen3.png" width="600">

Изображение: https://github.com/d3/d3-hierarchy

<img src="clust_img/screen4.png" width="600">

Изображение: http://brandonrose.org/clustering

## Представление документов для кластерного анализа 


Векторная модель: документ – вектор признаков 

* $d \in D$ – документы
* $w \in V$ – словарь, всего слов |V|

* традиционное представление: одно слово – одна размерность в векторной модели: $\vec{d_i} = <f_1, ... , f_{|V|}> $
* $f$ – компоненты вектора – могут быть:
    * 0 и 1
    * частотами
    * $tf-idf$ весами
* с использованием распределенных представлений слов [word embeddings]:
    * покомпонентное среднее векторов слов, входящих в текст
    * покомпонентный максимум векторов слов, входящих в текст
* с использованием распределенных представлений текстов [doc embeddings]:
    * doc2vec
    * fastText
    * снижение размерности в векторной модели, в т. ч. сингулярное разложение [singular value decomposition, SVD]

## Вычисление расстояния / близости между документами 

Евклидово расстояние: $ dist( \vec{d_i}, \vec{d_j}) = \sqrt { \sum_{k} ( d_i^k - d_j^k)^2 }$

Косинусная мера близости: $ sim( \vec{d_i}, \vec{d_j}) =  \cos(\theta )=  \frac{ \vec{d_i}\cdot \vec{d_j} }{\| \vec{d_i} \|_{2}\|\vec{d_j} \|_{2}}$

## Алгоритмы кластерного анализа

1. Иерархические алгоритмы [hierarchical algorithms] 
    * дивизимные алгоритмы [divisive / top down approach]
    * аггломеративные алгоритмы [agglomerative / bottom up approach]
2. Разделяющие алгоритмы [partitioning algorithms] 
    * Алгоритм k-средних [k-means algorithm]
3. Спектральные алгоритмы [spectral clustering]
4. Тематические модели как soft clustering [topic modelling]

## Иерархические алгоритмы кластерного анализа


<img src='http://www.statisticshowto.com/wp-content/uploads/2016/11/clustergram.png' align='right' style="margin-left:10px"> 

* Дендрограма – дерево вложенных кластеров

* Дивизимные алгоритмы строят дендрограму сверху вниз, аггломеративные – снизу вверх. 

* Не нужно задавать количество кластеров $K$

* Плоские кластеры тоже можно получить, разрезав:
    * все связи, имеющие значение сходства ниже заданного порога 
    * связи на $K$ первых уровнях 



Изображение: http://www.statisticshowto.com/

## Аггломеративный алгоритм 




&nbsp;
* Каждый документ – отдельный кластер 
* Объединяем похожие документы в один кластер
* Объединяем похожие кластеры в один кластер
* Как вычислить сходство между документом и кластером? Кластером и кластером?


<img src="clust_img/HAC.png" width="500" align='center'>

## Способы определения похожих кластеров

<img src="clust_img/linkage.png" width="500" align='right'>

* Single-link

расстояние между двумя ближайшими точками из разных кластеров

$sim(Cl_i, Cl_j) = \max_{x \in Cl_i, y \in Cl_j}  sim(x,y)$

* Complete-link

расстояние между двумя наиболее удаленными точками из разных кластеров

$sim(Cl_i, Cl_j) = \min_{x \in Cl_i, y \in Cl_j}  sim(x,y)$




<img src="clust_img/linkage.png" width="500" align='right'>



* Centroid-link

расстояние между центроидами разных кластеров

$sim(Cl_i, Cl_j) =   sim(c_i,c_j)$

* Average-link

$sim(Cl_i, Cl_j) =  \frac{  \sum_{x \in Cl_i, y \in Cl_j} sim(x,y) }{ |Cl_i \cup Cl_j| (|Cl_i \cup Cl_j| - 1)}$


<img src="clust_img/SL_CL.png" width="500" >

## Алгоритм k-средних

<img src="https://www.mathworks.com/matlabcentral/mlc-downloads/downloads/submissions/24616/versions/14/screenshot.jpg" width="400" align='center'>



    
demo: 
* http://syskall.com/kmeans.js/#
* http://stanford.edu/class/ee103/visualizations/kmeans/kmeans.html



* Разделение $D$ на $k$ кластеров
* Кластеры формируются вокруг центроидов: $\mu(Cl) = \frac {1} {|Cl|} \sum_{d \in D} \vec{d_i}$


1. Выбрать $k$ случайных документов в качестве первоначальных центроидов $\{s_1, ..., s_k\}$

2. Вокруг центроидов сформировать кластеры: $d_i$ относится к кластеру $Cl_j$, если расстояние $dist(d_i, s_j)$
минимально

3. Пересчитать центроиды кластеров: $s_j = \mu(Cl_j)$

4. Остановка алгоритма:
    * центроиды не изменились (с точностью до $\epsilon$)
    * достигнуто максимальное количество итераций
    * разбиение документов не изменилось 
    

## Проблема выбора первоначальных центроидов

<img src="clust_img/ClusterAnalysis_Mouse.png" width="600" >

## Алгоритм нормализованных сечений [normalized cuts] (алгоритм Ши-Малика)

* $A$ – матрица близости документов 
* ${\displaystyle L^{\text{norm}}:=I-D^{-1/2}AD^{-1/2}}$ – матрица Лапласа, где $D_{ii} = \sum_j A_{ij}$
* $v$ – второй собственный вектор (соответствующий второму по величине собственному числу)
* $m$ – медиана $v$ 
* В первый кластер помещают все документы, которым соответствуют значения вектора $v_i > m$, во второй – все остальные

## Нормализованный разрез на графах
<img src="clust_img/spec1.png" width="600" >

## Примеры
<img src="clust_img/spec2.png" width="400" >

## Меры качества кластеризации 

### Чистота [purity]

* Допустим, что для каждого документа известен его истинный класс ($C_i$)
* В каждом кластере $Cl_i$ найдем доминирующий (модальный) класс $C_j$

$\texttt{purity}(Cl_i) = \frac{\max_j n_{ij}}{n_i}$

<img src="clust_img/purity.png" width="400" >

## Rand Index 

|               | Общий кластер | Разные кластеры |
|---------------|---------------|-----------------|
| Общий класс   | A             | B               |
| Разные классы | C             | D               |

$RI = \frac{A+D}{A+B+C+D}$ 

По аналогии с accuracy: доля объектов правильно отнесенных к одному кластеру

## Тематические модели для кластерного анализа


<img src="clust_img/word2topic2doc.png" width="200" align='right'>

Традиционная формулировка:
* Тема – набор слов с вероятностями: $p(w|t)$
* Документ – набор тем с вероятностями: $p(t|d)$

$ p(w|d) = \sum_{t \in T} p(w|t) p(t|d)$

Обратная формулировка:
* Тема – множество документов, документ с определенной вероятностью принадлежит теме: $p(t|d)$

В терминах кластерного анализа:
* Тема – кластер, определена степень вхождения документа в каждый кластер: $p(t|d)$

Латентное размещение Дирихле (Latent Dirichlet Allocation) – самая распространенная тематическая модель 

### Что почитать:
    * IR Book, ch. 16, ch. 17