# Community detection using Spectral Clustering

Given graph $G$ with $n$ nodes, find non-overlapping node "communities": $k$ groups of nodes that are densely intra connected and have low number of inter connections.

- Compute square diagonal matrix of node degrees $D$. 
    $$D_{ii} = \sum_i A_{ij}, D_{ij} = 0, i \neq j$$
- Construct graph Laplacian 
    $$L_{unnormed} = D - A$$
Find $0 = \lambda_0 \leq \lambda_1 \leq \lambda_2 \leq \ldots \leq \lambda_m$ smallest eigenvalues of $L$ and construct matrix $X$ by stacking $m$ corresponding eigenvectors ($v_1, \ldots v_m$) as columns of $X$. Matrix $X$ has size $n \times m$, its rows are "spectral representaion" of graph nodes.
   
- Run k-means algorithm on matrix X and assign nodes with labels obtained by k-means.

---

Use 3 versions of a Laplacian:

- Unnormalized Laplacian: $L = D - A$
- Symmetric normalization: $L_{sym} = I - D^{-\frac{1}{2}} \cdot A \cdot D^{-\frac{1}{2}}$
- Random Walk normalization: $L_{rw} = I - D^{-1} \cdot A$
    
Sources:
1. Andrew Ng paper on spectral clustering https://ai.stanford.edu/~ang/papers/nips01-spectral.pdf
2. Tutorial on spectral clustering with multiple theoretical views on the problem https://arxiv.org/abs/0711.0189
3. Amazing explanation from James R. Lee https://www.youtube.com/watch?v=8XJes6XFjxM

## 1. Compare 3 versions of Spectral clustering on `Karate Club dataset`
    
Implement 3 algorithms described in https://arxiv.org/abs/0711.0189 :

1. Unnormalized spectral clustering 
2. Normalized spectral clustering according to Shi and Malik (2000)
3. Normalized spectral clustering according to Ng, Jordan, and Weiss (2002)

using `Adjusted Rand Index` (3 pairwise comparisons), `Modularity` (3 numbers) and visually, plotting points in a corresponding 2 dimensional spaces (spanned by eigenvectors).

Theoretical questions:

4. Why does the smallest eigenvalue of unnormalized Laplacian is always equal to 0? 
5. From network point of view, what does Symmetric normalization do? 
6. Under what conditions Symmetric and Random walk normalizations yield the same result? 
  

# 2. Кластеризация графа  VK

1. Воспользуйтесь имплементированными алгоритмами Spectral Clustering чтобы найти сообщества вершин своей эгоцентрической сети VK
2. Воспользуйтесь алгоритмом Louvain чтобы найти сообщества своей эгоцентрической сети VK https://github.com/taynaud/python-louvain ИЛИ из пакета igraph.
3. Сравните результаты в терминах ARI, AMI, Modularity, а так же прокомментируйте полученные сообщества самостоятельно, получились ли они интерпретируемыми? Реализации ARI и AMI есть в `sklearn`

# 3. Отправка решения.


1. Прогоните свой jupyter notebook: **Kernel** $\rightarrow$ **Restart & Run all**, нотбук **должен** запускаться линейно! Если вы считали эмбединги прямо в нотбуке, можете закоментить соответствующие ячейки. Во втором домашнем задании я **буду** снижать оценку если вы не сделали Restart & Run All.
2. Назовите нотбук `Имя_Фамилия_HW3_networks_2020`, например `Anvar_Kurmukov_HW3_networks_2021`
4. Сохраните нотбук в формате `ipython`.
5. Отправьте файл с нотбуком на почту kurmukovai@gmail.com с темой письма `iitp-networks-2021-Имя_Фамилия_HW3`.

---

## Комментарии к решению и выставлению оценки.
Ваш файл с решением должно быть **комфортно читать**:
- **комментируйте** происходящее, лучше всего для этого подходит markdown cells, но можно и в комментариях в ячейках с кодом. Под комментируйте имеется ввиду написание выводов на естественном языке доступном проверяющему (русский или английский). Например, вы нарисовали двумерное вложение и на картинке ничего не понятно, все смешано, это нормально (хотя во втором пункте можно получить более менее неплохое вложение), так и напишите "Не получилось построить...".
- не нужно оставлять все отладочные ячейки нотбука, сохраните свою работу отдельно, а в файле которые отправляете в качестве решения оставьте только нужное.
- **округляйте** значения характеристик точности и модулярности до нескольких значащих цифр (столько сколько целесообразно в каждом отдельном случае), но не более 6.