# Программа «Практический анализ данных и машинное обучение»
## Анализ социальных сетей: Введение в теорию графов и SNA

Преподаватели: Шестаков Андрей, Докукина София

На первой части занятия мы видели примеры сетевых структур, представленных в различных контекстах: транспорт, социальные сети, научные сообщества, информационные технологии и тп. 

Теперь перейдем к формальной и технической стороне вопроса: 
* Что из себя представляет сеть на математическом языке?
* Какие бывают сети и какими свойствами они могут обладать?
* Как её можно задать в памяти компьютера?
* Какими инстументами можно пользоваться для анализа сетевых структур?

# Графы

**Граф** - математическая модель представления сетевых структур. Впедь в курсе слова  *сеть* и *граф* будут обозначать одно и тоже.

Графом $\mathcal{G}$ называется пара множеств $\mathcal{G} = (V, E)$, где $V$ содержит в себе множество *вершин (узлов, vertices, nodes)*, а $E$ содержит множество *ребер (связей, edjes, links)*. <br/> 
Величины $n = |V|$ и $m = |E|$ называют *порядком (order of graph)* и *размером (size of graph)* графа. <br/> 


**Ребра, ориентированность, соседи**
* Ребро между вершинами $(v_i, v_j)$ обозначают $e_{ij}$. В нериентированном графе $e_{ij} = e_{ji}$ $\forall i,j$. <br/>
* В ориенированном графе ребро $e_{ij} = (v_i, v_j)$ показывает направление связи от $v_i$ к $v_j$.  <br/>
* Иногда ребрам в графе ставится в соответствие некоторое числовое значение $w_{ij} \in \mathbb{R}$, которое выражает силу связи между вершинами. Эти значения называют весами ребер, а графы с весами называют взвешенными. <br/>
* Вершины $v_i$ и $v_j$ называют соседями если ребро $(v_i, v_j) \in E$. Множество смежных с $v_i$ вершин образуют множество соседей $N(v_i)$. Степень вершины - количество соседей $k_i = |N(v_i)|$<br/>

**Расстояние на графах**
* Маршрутом из вершины $v$ в вершину $u$ называется конечная последовательность $(v, v_1), (v_1, v_2), \dots , (v_k, u)$. Если в последовательности нет повторяющихся ребер, то это путь (цепь).
* Если между $v$ и $u$ существует путь то эти вершины называются связанными. Граф называется связным, если для любой пары вершин найдется путь, иначе граф является несвязным.
* Длинной пути называется число ребер, из которых он состоит, а расстоянием называется длина кратчайшего пути между ними. Диаметр графа равен максимальному расстоянию в нем.

**Подграфы**
* Подграфом $\mathcal{G'}$ называется граф, содержащий некоторое подмножество вершин исходного графа $V' \subseteq V$ и инцидентные им ребра $E'$

<img src='clique_init.png' width="550"/>

Граф сверху:
* Неориентированный
* Невзвешенный
* Cвязный
* Подграф $\mathcal{G'}$ состоящий из вершин $v_1, \dots, v_5$ - полный подграф графа $\mathcal{G}$
* $V = \{v_1, \dots, v_{10} \}, |V| = 10$
* $E = \{(v_1, v_2), (v1, v3), \dots, (v_9, v_{10}) \}, |E| = ?$
* $N(v_2) = \{v_1, v_3, v_6, v_8\}$
* Степень вершины $v_2$: $k_2 = |N(v_2)| =  4$
* Расстояние между $v_5$ и $v_{7} = ?$
* Диаметр графа $\mathcal{G} = ?$

# Форматы представления графов

Форматов представления графов довольно много. Все форматы определяют топологию сети (т.е. её структуру), но некоторые могут не сохранять в себе все данные связанные с элементами сети (множество атрибутов ребер и вершин, динамические характеристики, рекоментованную прорисовку и тп).

Ниже мы рассмотрим наиболее распространенные форматы.

## Матрица смежности

Матрица связанности, Incidence matrix, Association matrix.

Матрица связанности - это квадратная матрица размера $n \times n$. Обозначим ее буквой $\mathbf{A}$ <br/>

**В невзвешенном графе:**<br/>
$\mathbf{A_{ij}} = 1$, если в графе есть ребро между вершинами $v_i$ и $v_j$ <br/>
$\mathbf{A_{ij}} = 0$, иначе

**Во взвешенном графе:**<br/>
$\mathbf{A_{ij}} = w_{ij}$, если в графе есть ребро между вершинами $v_i$ и $v_j$ <br/>
$\mathbf{A_{ij}} = 0$, иначе

Для графа выше матрица смежности имеет следующий вид:

<img src='clique_matrix.png'/>

**Преимущества:**
* Наглядность
* Удобно производить математические операции

**Недостатки:**
* Передает только структурную информацию (+ веса)
* При неправильном хранении может занимать много места в памяти и на жестком диске

## Список ребер

Edge list

Другой очевидный и популярный формат.

На каждой строчке указываются идентификаторы смежных вершин (числовые признаки этих связей - веса)

**Преимущества:**
* Достаточно легкий формат

**Недостатки:**
* Передает структурную информацию
* Может передавать несколько признаков связей (несколько весов)

## Список смежности

Adjacency list

Один из самых экономичных форматов. 

Каждая строчке соответствует вершине. Через запятую указываются идентификаторы смежных с ней вершин

**Преимущества:**
* Достаточно легкий формат

**Недостатки:**
* Передает только структурную информацию

## Pajek формат

Данный формат используется в программе для анализа больших сетей - [Pajek](http://mrvar.fdv.uni-lj.si/pajek/).
По сути это немного расширенный формат списка ребер (или списка смежности).

**Преимущества:**
* Поддерживаются комментарии
* Оптимальный формат хранения информации о ребрах и вершинах

**Недостатки:**
* ...

## GraphML

Довольно "толстый" формат хранения данных, основанный на языке разметки XML. Представляет их себя набор тэгов, которые могут описать в сети абсолютно все.

<?xml version="1.0" encoding="UTF-8"?>
<graphml xmlns="http://graphml.graphdrawing.org/xmlns"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns
         http://graphml.graphdrawing.org/xmlns/1.0/graphml.xsd">
<!-- Created by igraph -->
  <key id="v_label" for="node" attr.name="label" attr.type="string"/>
  <graph id="G" edgedefault="undirected">
    <node id="n0">
      <data key="v_label">v_1</data>
    </node>
    <node id="n1">
      <data key="v_label">v_2</data>
    </node>
    <node id="n2">
      <data key="v_label">v_3</data>
    </node>
    <node id="n3">
      <data key="v_label">v_4</data>
    </node>
    <node id="n4">
      <data key="v_label">v_5</data>
    </node>
    <node id="n5">
      <data key="v_label">v_6</data>
    </node>
    ....
    <edge source="n0" target="n1">
    </edge>
    <edge source="n0" target="n2">
    </edge>
    <edge source="n0" target="n3">
    </edge>
    ...
  </graph>
</graphml>

**Преимущества:**
* Возможно передать всю информацию о графе, его структуре и характеристиках элементов

**Недостатки:**
* Много весит...

## GML

GML (Graph Modelling Language) - так же гибкий формат представления графов. Однако он является чуть более "читабельным", чем GraphML

**Преимущества:**
* Возможно передать всю информацию о графе, его структуре и характеристиках элементов

**Недостатки:**
* Много весит...

## Другие форматы

Это далеко не все форматы представления сетевых структур, но самые основные. Некоторое сведение (так же неполное) форматов и их особенностей представлено на таблице ниже:

<img src='graphformattablecomparison.png'>

# Инструменты по работе с сетями

## Gephi

[Gephi](https://gephi.org/) - это очень крутой, недавно возрожденный, кнопочный, написанный на  Java, open-source проект для анализа и визуализации сетей. <br/> Вместо тысячи слов:

In [2]:
from IPython.display import VimeoVideo
VimeoVideo('9726202')

## Cytoscape

[Cytoscape](http://www.cytoscape.org/what_is_cytoscape.html) - приятный на вид, но довольно специфичный продукт, заточенный под нужны биологов.

## Pajek

[Pajek](http://mrvar.fdv.uni-lj.si/pajek/) - так же большой и популярный проект.
* Поддерживается академическими сообществами c 1996 года
* Применяется для работы с действительно большими сетями: *"The highest possible number of vertices that Pajek64-XXL can handle increased to 1.999.999.997 (for ordinary Pajek the limit stays 999.999.997"*
* Довольно много доступных туториалов
* Открыт для некоммерческого использования ;)
* Работает только под Windows =( (под Linux и Mac с некоторыми извращениями)

<img src='http://wiki.cns.iu.edu/download/attachments/1245862/pajek1.jpg?version=1&modificationDate=1360781227075&api=v2'>

<img src='http://wiki.cns.iu.edu/download/attachments/1245862/paek9jpg.jpg?version=1&modificationDate=1360781528235&api=v2'>

## Распределенные вычисления на графах

Есть решения для работы с графами с помощью распределенных вычислений, например [Spark GraphX](http://spark.apache.org/graphx/)

## Библиотеки для работы с сетями на Python

В языке `python` чаще всего используются следующие библиотеки:
* `NetworkX` - подходит для работы с небольшими сетями
* [`graph-tool`](https://graph-tool.skewed.de/) - Библиотека для работы с большими сетями при поддержке OpenMP и Boost c API для `python`
* [SNAP](http://snap.stanford.edu/snappy/index.html) - Библиотека от Stanford для работы с большими сетями с API для `python`
* [`igraph`](http://igraph.org/python/) - Библиотека для работы с большими сетями c API для `python`  и `R`

Для наших занятий мы выбрали последнюю библиотеку, так в ней эффективно реализовано большое число алгоритмов для работы с сетями, её проще установить, чем `graph-tool`, а сложность использования незначительно выше `NetworkX`.

FYI, можно посмотреть [бенчмарки](https://graph-tool.skewed.de/performance) для библиотек.

# Введение в igraph

In [1]:
import igraph as ig
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (16,8)

## Создадим граф

In [3]:
g = ig.Graph()

In [6]:
g

<igraph.Graph at 0x1171ed908>

In [7]:
print g

IGRAPH U--- 0 0 --


In [8]:
# Аттрибуты графа
g['name'] = 'our first graph'
print g

IGRAPH U--- 0 0 -- our first graph
+ attr: name (g)


In [9]:
g.is_directed()

False

## Добавим вершины

In [10]:
g.add_vertices(5)
print g

IGRAPH U--- 5 0 -- our first graph
+ attr: name (g)


In [12]:
g.vcount() # считаем число вершин в графе

5

## Добавим ребра

In [13]:
g.add_edge(0, 1)
print g

IGRAPH U--- 5 1 -- our first graph
+ attr: name (g)
+ edges:
0--1


In [14]:
g.add_edges([(0,2), (1,3), (4,3), (1,2), (2,2), (3,2)])
print g

IGRAPH U--- 5 7 -- our first graph
+ attr: name (g)
+ edges:
0 -- 1 2         2 -- 0 1 2 2 3   4 -- 3
1 -- 0 2 3       3 -- 1 2 4


In [15]:
g.ecount()

7

In [16]:
# Сейчас будет ошибка
g.add_edge(0, 6)

InternalError: Error at type_indexededgelist.c:272: cannot add edges, Invalid vertex id

## Различные операции с вершинами и ребрами

**Через `.vs` мы можем производить операции с вершинами и вычислять их различные характеристики**

In [17]:
g.vs.indices

[0, 1, 2, 3, 4]

In [18]:
g.vs.degree()

[2, 3, 5, 3, 1]

Ребрам можно задавать различные атрибуты (читай "признаки")

In [19]:
g.vs['label'] = ['v_%d' % (i+1) for i in range(g.vcount())]

In [20]:
g.vs.attribute_names()

['label']

In [21]:
g.vs['label']

['v_1', 'v_2', 'v_3', 'v_4', 'v_5']

In [22]:
g.vs[0,1]

<igraph.VertexSeq at 0x117257ba8>

In [23]:
g.vs[0,1]['label']

['v_1', 'v_2']

Удалять атрибуты тоже легко:

In [24]:
del g.vs['label']

In [25]:
g.vs.attribute_names()

[]

**Аналогично, через `.es` мы работаем с ребрами**

In [26]:
g.es.indices

[0, 1, 2, 3, 4, 5, 6]

In [27]:
g.es.is_loop()

[False, False, False, False, False, True, False]

In [28]:
print 'Это ребро из вершины %d в вершину %d ' % (g.es[0].source, g.es[0].target)

Это ребро из вершины 0 в вершину 1 


Вершины и ребра можно выбирать в соответствии с заданными критериями

In [29]:
g.es.select(_from = 1).indices
g.es(_from = 1).indices

[2, 4]

In [30]:
g.vs(_degree_gt = 2).indices

[1, 2, 3]

Создадим атрибут у вершин и выберем подгруппу, удовлетворяющую определенному условию

In [31]:
g.vs['number'] = np.random.randint(10, 20, size=g.vcount())

In [32]:
g.vs(number_le = 15).indices

[0, 1, 2, 3]

## Объединение графов

In [33]:
g1 = g.copy()
g2 = ig.Graph.Erdos_Renyi(5, 0.3)

In [34]:
print g1
print '=' * 10
print g2

IGRAPH U--- 5 7 -- our first graph
+ attr: name (g), number (v)
+ edges:
0 -- 1 2         2 -- 0 1 2 2 3   4 -- 3
1 -- 0 2 3       3 -- 1 2 4
IGRAPH U--- 5 2 --
+ edges:
0--2 3--4


In [35]:
g3 = g1 + g2
print g3

IGRAPH U--- 10 9 --
+ edges:
0--1 0--2 1--3 3--4 1--2 2--2 2--3 5--7 8--9


## Задание

Создайте граф, который был изображен в самом верху этого notebook. 

Hint:<br/>
* команда `Graph.Full(n)` создает клику размера `n`

In [41]:
# Your code here
g = ig.Graph.Full(6)

In [42]:
g.add_vertices(4)

In [43]:
print g

IGRAPH U--- 10 15 --
+ edges:
 0 --  1  2  3  4  5    4 --  0  1  2  3  5    8 --
 1 --  0  2  3  4  5    5 --  0  1  2  3  4    9 --
 2 --  0  1  3  4  5    6 --
 3 --  0  1  2  4  5    7 --


In [44]:
g.add_edges([(2,6), (1,7), (5,9), (6,7), (7,8), (6,8), (7,9), (9,8)])

In [46]:
print g

IGRAPH U--- 10 23 --
+ edges:
 0 --  1  2  3  4  5       4 --  0  1  2  3  5       8 --  6  7  9
 1 --  0  2  3  4  5  7    5 --  0  1  2  3  4  9    9 --  5  7  8
 2 --  0  1  3  4  5  6    6 --  2  7  8
 3 --  0  1  2  4  5       7 --  1  6  8  9


In [55]:
ig.plot(g)

TypeError: plotting not available

Выведем матрицу смежности, список смежности и список ребер этого графа

In [47]:
A = g.get_adjacency().data
A

[[0, 1, 1, 1, 1, 1, 0, 0, 0, 0],
 [1, 0, 1, 1, 1, 1, 0, 1, 0, 0],
 [1, 1, 0, 1, 1, 1, 1, 0, 0, 0],
 [1, 1, 1, 0, 1, 1, 0, 0, 0, 0],
 [1, 1, 1, 1, 0, 1, 0, 0, 0, 0],
 [1, 1, 1, 1, 1, 0, 0, 0, 0, 1],
 [0, 0, 1, 0, 0, 0, 0, 1, 1, 0],
 [0, 1, 0, 0, 0, 0, 1, 0, 1, 1],
 [0, 0, 0, 0, 0, 0, 1, 1, 0, 1],
 [0, 0, 0, 0, 0, 1, 0, 1, 1, 0]]

Сохраним что-нибудь из этого:

In [48]:
g.write_edgelist('graph.edglist')

In [49]:
!head graph.edglist

0 1
0 2
0 3
0 4
0 5
1 2
1 3
1 4
1 5
1 7


# Ваши соц-графы

Загрузите ваши соц-графы. Поупражняйтесь на них с `igraph`.

Если вы не успели, то один из ваших преподавателей любезно согласился поделится своим графом дружбы с Facebook.

In [50]:
g = ig.Graph()

filename = 'network.gml'
g = g.Read_GML(filename)

In [51]:
print g

IGRAPH U--- 142 713 --
+ attr: agerank (v), id (v), label (v), sex (v)
+ edges:
  0 --
  1 --   5  10  17  18  25  26  31  47  53  85 110 114 129 134
  2 --   6  22  24  28  29  33  35  36  37  57  70  73  78  80  82  92  97 113
119 124
  3 --   4  19  31  83  85 123 130
  4 --   3  10  13  17  18  19  31  40  83  85 129 134
  5 --   1  17  18  19  26  45  47  53  85 110 114 129 134
  6 --   2   9  14  22  28  29  33  35  38  44  52  64  80  82 124 127 128
  7 --  47  85 100
  8 -- 116
  9 --   6  29  35  78 119 120 124
 10 --   1   4  13  16  17  18  26  47  50  53  85 100 110 114 129 130 134
 11 --  41  60 111
 12 --  42  62  68 102 108 137
 13 --   4  10  19  31  83
 14 --   6  15  22  29  37  39  44  46  52  54  59  64  67  69  71  75  82  84
88  89  92  94  96 104 115 128 133
 15 --  14  43  46  54  59  67  69  71  75  88  89  94  96 104 115
 16 --  10  17  18  25  45  47  50  58  85 100 110 130 134 140
 17 --   1   4   5  10  16  18  25  31  32  47  50  53  58  85 100 110 114 129

In [57]:
g.vcount()

142

In [58]:
g.ecount()

713