### Графы  vs сети

Графы (Graphs) и сети (Networks) - термины во многом синонимичные. Когда исследуются абстрактные математические свойства, чаще используется термин граф. Когда изучаются прикладные аспекты реальных систем, чаще говорят о сетевом анализе. 

В теории графов (Graph theory) граф = множество вершин (vertex), соединенных ребрами (edge)

В сетевом анализе (Network science) сеть = множество узлов (node), между которыми заданы связи/отношения (link/relation)

На этом занятии будем испольовать обе терминологии

#### Примеры сетей
В реальном мире есть множество примеров, которые могут быть описаны сетями.
- social network - сети людей, между которым существуют различные отношения (отношения знакомства, фолловинга и прочее)
- knowledge graph - граф информации (позволяет выполнять слоные реляционные запросы)
- web graph - мнжество страниц во всемирной сети, обхединенных соотношением
- reference graph - множество документов, в , отношение - указание в качестве источника
- computation graph - граф вычислений, отношение - использование результата вычисления в качестве входа нового вычисления
- food network - питание биологических видов (кто кого ест)
- molecule graph - разработка новых молекулярных соединений
- state graph - математическое описание динамических систем, из одного осстояния можно перейти в другое, если есть между ними есть связь (задачи навигации)

#### Области практического применения
1. Дескприптивная аналитика и теоретические изыскания
  - выявление и описание особенностей структуры изучаемой сети
  - определение наиболее значимых узлов
  - определение наиболее значимых групп узлов
  - изучение распростарнения Fake News
2. Задачи оптимизации
  - поиск оптимального пути на графе
3. Machine Learning и прогнозирование
  - использование информации о связности объектов в задачах классификации
  - link prediction - рекомендации новых свзей
  - определение близости товаров для рекомендаций
  - расследование мошеннических схем (изучается как социальный граф, так и граф юридических лиц)
  - dimension reduction, любая выборка может быть представлена в виде графа, а его спектральное разложение дает сокращенное описание


### Базовая типология графов

<span style="color:blue">Undirected</span> (ненаправленные) графы - такие графы, у которых ребра не имеют направления, то есть две вершины X и Y могут быть соединены только одним ребром e(X,Y)

<span style="color:blue">Directed</span> (направленные) графы - графы, у которых ребро имеет направление, вершины X и Y могут быть соединены и как e(X,Y), и как e(Y,X)

<span style="color:blue">Weighted</span> (взвешенные) графы - такие графы, у которых с каждым ребром ассоциирован некоторый вес, характеризующий силу связи

<span style="color:blue">Bipartite</span> (двудольные) графы - графы, у которых каждая вершина относится к одному из двух типов и каждое ребро соединяет вершины разного типа

<img src="img/bipartite.gif" width=350>

Примеры двудольных графов (S1, S2 - вершины, R - отношения)
- S1 = картинки, S2 = коллекции картинок, R = картинка включена в коллекцию
- S1 = научные журналы, S2 = авторы, R = автор опубликовал статью в журнале
- S1 = продукты, S2 = пользователи, R = пользователь купил продукт

### Основные способы описания графов

**<span style="color:blue">Adjacency matrix</span>** (матрица смежности) - квадратная матрица, в которой строки и столбцы обозначают вершину графа, а элемент матрицы характеризует наличие (1) или отсутствие (0) ребра

<img src="img/adjacency.jpg" width=500>

Матрица смежности может быть аналогично задана и для направленных, и для взвешенных графов. 

Если граф направленный, матрица перестает быть симметричной:

<img src="img/adjacency_directed.png" width=500>

**<span style="color:blue">Incidence matrix</span>** - прямоугольная матрица, у которой по строкам отложены вершины, по столбцам - ребра. Каждый элемент матрицы описывает наличие (1) или отсутствие (0) ребра, соединяющего данные вершины

<img src="img/incidence.png" width=500>

Аналогичная матрица может быть построена для направленного графа. В этом случае каждый элемент матрицы может принимать не два значения (0:нет ребра, 1:есть ребро) а три (-1: входящее ребро, 0: нет ребра, 1: исходящее ребро).

<img src="img/incidence_directed.jpg" width=500>

<span style="color:blue">Node Degree</span> (степень вершины) - число ребер, проходящих через данную вершину (инцидентных данной вершине)

Для направленных графов также выделяют:
- in-degree, количество входящих ребер
- out-degree, количество исходящих ребер

in-degree легко посчитать, как поколоночную сумму матрицы смежности

out-degree считается, как построчная сумма матрицы смежности

**<span style="color:blue">Degree matrix</span>** - диагональная матрица, элементы которой описывают степень вершины

<img src="img/degree.png" width=500>

## Centrality

Одна из важных задач сетевого анализа - определить "вес" каждой вершины и выделить наиболее "значимые" с той или иной позиции. <span style="color:blue"> Centrality</span> - показатель “важности” вершины в графе. Так как “важность” - довольно абстрактный термин, существует несколько различных вариантов этого показателя:

### Distance centralities

<span style="color:blue">Degree centrality</span>, или насколько тесно данная вершина взаимодействует с другими вершинами

Считается просто как степень вершины

<span style="color:blue">Closeness centrality</span>, или насколько близка данная вершина к ”центру” графа

Считается, как среднее расстояние до других вершин

<span style="color:blue">Betweenness centrality</span>, или насколько данную вершину можно назвать связующим элементом сети

Счиатется как доля кратчайших путей между всеми парами вершин графа, которые проходят через данную вершину

### Spectral centralities

<span style="color:blue">Eigrnvalue centrality</span> - рассчитывается рекурсивно на основании соседей. Классическая имплементация - это алшгоритм PageRank.


Идея простая: значимость узла складывается из значимости соседей:
$$C_{eig}(x)=\frac{1}{\lambda}\sum_{y \ \rightarrow x}C_{eig}(y)$$

Оказывается, если k раз повторить описаный выше шаг распространения значимости, то оно сойдется к некоторому стабильному значению и его можно будет расписать в матричной форме:
$$Ax=\lambda x$$

Решением этого уравнения являются собственные вектора матрицы A, поэтому метод называется eigenvalue centrality.

<span style="color:blue">Katz centrality</span> - считает количество путей, которыми можно прийти из ноды в остальные ноды за 1..k шагов.
<img src="img/centrality_katz.png" width=200>
где:

- $\alpha$ - параметр затухания (attenuation factor). Реализует логику, что длинные пути в расчете метрики должны учитываться с меньшим весом, чем короткие
$(0,\frac{1}{\lambda})$, иначе подсчет Katz centrality не сойдется.


- $A^k$ - k-ая степень матрицы смежности, каждый элемент которой показывает число путей длины k, которые ведут из i в j (можно ходить взад-вперед). Если прийти в ноду за k шагов нельзя, то там 0 будет.


- $\beta$ - параметр, который задает, насколько большим будет разброс между центральностями


### Пример

На графе ниже отмечены наиболее значимые ноды с позиции различных метрик центральности

<img src="img/centrality.png">

Можно, конечно весьма условно, провести аналогию с классическими статистиками: средним, медианой и модой. Closeness centrality является аналогом среднего значения, betweenness centrality - медианы, а Degree centality является модой. 


## PageRank

PageRank - описанная в 1998 году основателем Google Сергеем Брином метрика, которая оценивает "важность" страницы в интернете. В то время метрика имела ключевое значение при определении порядка вывода в результатах поиска - наиболее "значимые" сайты должны были идти первыми. Метрика использовалась в google поиске вплоть до 2016 года.

Как оценить важность страницы?
Просто количество ссылок на страницу - плохой показатель, можно легко насоздавать фейковых страниц. Должно учитываться еще и качество этих страниц.

#### Принцип расчета
1. pagerank страницы суммируется из весов всех ссылающихся на нее соседних страниц
2. вес каждой такой ссылки считается как единица деленная на число исходящих ссылок. То есть, можно сказать, важность страницы делится в равной доле между всеми исходящими из нее ссылками.

В виде формулы это выглядит так:


Важно понимать, что pagerank конечно не единственный показатель, влияющий на порядок поисковой выдачи (в реальности их сотни или даже тысячи). Качество страницы может определяться множеством способов.

Эта же формула может быть выведена через Random Walk, так как блуждание происходит по Макрковской матрице случайных переходов, и получаемое в итоге стационарное распределение и есть вектор весов вершин


Эта же формула может быть выведена, как собственный вектор матрицы смежности веб-графа, так как именно собственный вектор матрицы при уможении на него этой матрицы сохраняет направление. Поэтому eigenvalue centrality и есть PageRank

#### Проблемы
В таком виде у алгоритм:
1. может зависнуть в цикле
2. может не быть исзходящих ссылок

Чтобы побороть первую - в алгоритм добавляется вероятностная телепортация (с веротяностью 10% random walk стратует из другой вершины) 
Чтобы обойти вторую - для страниц без исходящих ссылок добавляют равновероятный переход по всем страницам

#### Сходимость
В оригинальной версии (300млн страниц) было достаточно ~ 50 шагов power iteration для сходимости

#### Разновидности алгоритма
разновидности алгоритма - personalized pagerank и random walk with restart

#### PageRank для рекомендаций
неочевидный пример применения - оценка близости товаров/пользователей в двудольном графе товарных предпочтений в задаче рекомендаций


#### альтернативные метрики:
У Яндекса тематический индекс цитирования ТИЦ, который в 2018 году был заменен ИКС (индексом качества сайта)
HITS (hubs )


## HITS

HITS - это альтернативная (и менее распространенная) метрика.

Главные отличия от PageRank
1. считается не на всем множестве страниц, а только на подмоножестве страниц, релевантных некоторому запросу Q. 
    
    То есть этот механизм работает только в привязке к конектрному запросу


2. вычисляется не одна, а сразу две характеристики: authority-score (информационность) и hub-score (хабовость)

Использовалась в ask.com

#### Ключевая идея
В сети интернет преобладают страницы двух типов - 
- hubs (хабы) - страницы, основная цель которых перенаправлять на другие (более информативные) страницы 

    то есть если Out-degree >> In-degree


- authorities (авторитеты) - страницы, основная цель которых предоставлять полезную информацию

    то есть если In-degree >> Out-degree

<img src="img/hits1.jpg" width=300>

Кстати, как посчитать in-degree и out-degree матрицы?
out-degree = A * r, где A = adjacency и r = единичный вектор 
in-degree = AT * r, где A = adjacency и r = единичный вектор
Если r - не единичный вектор, а текущее распредение некоторой массы в графе, умножив на него матрицу A, можно получить следущий шаг итерации в модели переноса потока.

#### Алгоритм
1. сборка графа
    - сначала задаем root set (корневой набор) страниц, релевантных анализируемому запросу Q
    - формируем base set (базовый набор) - добавляем к набору страницы, ссылающиеся на этот root set
    <img src="img/hits0.jpg" width=300>
2. для каждой страницы будем итеративно обновлять 2 показателя: 
    - A = authority-score 
    - H = hub-score
3. инициалзиация
    - веса A и H по всем страницам ставятся равными единице
4. шаг алгоритма
    - новый A(v) страницы суммируется из H-весов ссылающихся на нее страниц
    - новый H(v) страницы суммируется из A-весов страниц, на которую страница ссылается
    - вектора весов A и H нормализуются => получается распределение авторитетности и  по вершинам графа
    <img src="img/hits2.jpg" width=300>

На первой итерации алгоритма показатели будут равны соотвественно:
- A(v) = In(v) 
- H(v) = Out(v)

Через некоторое количество итераций, вектора весов сходятся к реальному значению

### Clustering coefficient

Коэффициент кластеризации - показатель связности графа.

**<span style="color:blue">Local clustering coefficient</span>** - показатель кластеризации для отдельно взятой вершины

Рассмотрим окрестность вершины (neighborhood) и выведем все связи между вершинами этой окретсности. 
У нас может получиться либо звезда (star graph), либо полный граф (complete graph), либо что-то посередине. 

Если получается звезда, вершина слабо связана с соседями. Если полный граф, то наоборот вершина приндалжит некому сообществу.

<img src="img/clustering.jpg">

Коэффициент кластеризации считается как отношение числа ребер, соединяющих соседей от числа всех возможных ребер. В полном графе у нас $\frac{k(k-1)}{2}$ ребер. Соответственно, коэффициент считается как
$$\frac{N_v}{k(k-1)/2}$$

**<span style="color:blue">Average clustering coefficient</span>** - показатель кластеризации уровня графа, получается усреднением локальных коэффициентов

**<span style="color:blue">Global clustering coeffiient</span>** - еще один показатель кластеризации уровня графа, который считается иначе. 

Любой граф может быть представлен в виде комбинации троек вершин (<span style="color:blue">triplets</span>). Каждая тройка называется <span style="color:blue">открытой</span>, если в ней 2 ребра или <span style="color:blue">закрытой</span>, если в тройке 3 ребра. Глобальный коэффициент считается как отношение закрытых троек к числу любых троек.


### Connectivity

Связность графа (Connectivity) или, что то же самое, cohesion, считается как минмиальное количество вершин которое достаточно удалить из графа, что он перестад быть связным. Это тможнет быть важно для определения наличия узких мест и подсчета общей устойчивости графа. Удаление вершин называется node cut, ребер -  edge cut.


Если не указывается иного, расстоянием между вершинами графа является геодезическое расстояние, то есть минимальное количество ребер которые необходимо пройти чтобы попасть ихз вершины A в B.

Во многих алгоритмах уменьшения размерности (задача dimension reduction) для корректного сжатия сложных спиралевидных многообразий стандартное евклидово расстояние заменяется на геодезическое, посчитанное на построенном путем соединения ближайших соседей графе выборки.

Граф называется термином small world, если среднее расстояние меньше log(N).




### Assortiveness

Assortiveness - насколько вершины в графе имеют тенденцию соединяться с вершинами с той же степенью. Считается просто как корреляция (Пирсона) между степенями двух вершин, составляющих ребро.

В общем случае, измеряться может не только степень вершины, но и любое свойство (пол/возраст/марка машины). Термин применяется во многих доменах и означает предпочтение себе подобных, еще называется гомофилия (в противовес гомофобии).

# Node Embeddings

### Adjacency-based

Идея: ищем такие вложения вершин, чтобы их скалярное произведение было максимально близко матрице смежности графа

### Multi-hop

### Random Walk

Идея: для каждой вершины графа u мы генерируем множество случайных блужданий заданной длины, стартующих в данной вершине. В итоге для каждой вершины v мы можем оценить вероятность P(v|u). Далее мы ищем такие вложения вершин, чтобы скалярное произведение максимизировало эту веротяность

### Convolutional Graph Networks

1. выбираем глубину окрестности вершины
2. на дальнем слое на вход подаются значения вершин
3. на всех промежуточных слоях выполняется агрегация входов в одно значение (аналогия с пулингом с классических сверточных сетях)

In [None]:
Knowled

In [None]:
K

### Node Classification

Постановка: есть информация по некоторым нодам, к какому классу (label) эти ноды отноятся. Нужно экстраполировать эту классификацию на остальные ноды. Например, в социальной сети есть подвыборка любителей шоколада (про них точно знаем) и мы хотим предсказать по всем остальным пользователям насколько веротяно что они тоже .

#### Local Classifier
Класс ноды восстанавливается на основе параметров. То есть это стандартная постановка задача классификации, просто наблюдениями являются узлы графа.

####  Relational Classifier
Используется информация о связях между наблюдениями.
1. Инициализация - для нод, по которым мы точно знаем класс ставим веротяность (0.0 - для Negative примеров , 1.0 - для Positive примеров)
2. Случайно выбираем ноду
3. Обновляем вероятность POS класса как среднее от веротяностей соседей

Процесс довольно быстро сходится к искомому ответу.

Как скомбинировать два подхода? 
#### Local + Relative = Iterative Classification
1. Делается локальный прогноз
2. Классификатор применяется к тестовой выборке
3. Рассчитываются новые фичи, учитывающие прогнозы соседей
4. Обучается внешний классификатор, учитывающий и локальные, и соседские фичи
5. Классификатор применяется к интересующему графу

# Network Generation

Большинство реальных сетей подчиняются степенному закону убывания степени вершины. Это сети, в которых есть хабы (узлы с очень большой степенью) и большое количество рядовых страниц с небольшими степенями.

#### Модель генерации Erdos-Renyi
Это самый простой алгоритм генерации случайного графа $G_{m,p}$:
1. берем n точек
2. для каждой пары точек с вероятностью p соединяем их

Эта модель полностью лишена кластеризации. Здесь степень ноды в среднем равна np и распеределна биномиально, то есть нестандартные ноды в такой модели очень редки.

Большинство реальных графов приниципально другие - везде есть кластеризация. Вот, например, отличия от социальной сети MSN:
<img src="img/ng_er.png" width=300>

**Small World** сети - дословно сети типа "мир тесен", когда до любой ноды можно добраться за log(n) рукопожатий. Чем выше кластерзация сети, тем выше ее диаметр.

<img src="img/ng_er2.png" width=400>

Есть такой теоретический эксперимент - у сети можно довольно эффективно уменьшить диаметр. Это называется Small World Model (1998). Для этого надо добавить случайности в граф - случайно выбранную ноду пересвязываем (rewire) с другой нодой. Аналог - познакомить человека со случайно выбранным человеком из другой страны, тогда его связи быстро расширяются. 
<img src="img/ng_er3.png" width=550>

На картинке ниже видим, что при этом диаметр сети уменьшается гораздо быстрее, чем коэффициент кластеризации. Это означает, что мы можем оставить кластерную структуру сети, но за счет нескольких добавленных связей среднее кол-во рукопожатий сильно уменьшается.
<img src="img/ng_er4.png" width=450>


#### Degree distribution
Один из способов описания структуры графа - вывод распределения степеней вершин (по X - степень, по Y - количество вершин или доля вершин). Ниже приведено распределение для социального графа пользователей Flickr:
<img src="img/ng_1.png" width=450></img>

В большинстве реальных сетей если мы просто отрисуем это распрделеение (как в примере выше), ничего не будет видно - довольно мало узлов высокой степени. Поэтому при анализе распределнния обычно делают log-log преобразование:
<img src="img/ng_2.png" width=450></img>

Теперь, еслм степени врешин араспрделены по степеноному закону, получается прямая линия, а ее наклон соотвествует степени в степенном распрделении.

#### Heavy-tail распределения
При анализе сетей, и в целом в статистике, важно понятие толстого хвоста у распределения.
- Если у распределения тонкий хвост, выбросы маловеротяны и не влияют на основные характеристики этой случайной величины.
- Если у распределения толстый хвост, выбросы должны учитываться.

Формально, распределение имеет толстый хвост (heavy tail distribution), если не относится к классу экспоненциальных:
$$\lim_{x \rightarrow \infty} \frac{P(X>x)}{e^{-\lambda x}} = \infty $$

То есть например, хвост нормального распределения и хвост экспоненциального не толстые. 
Классический пример толостого хвоста - степенное распределение (Power Law).


__Scale-free__ сети - те, которые описываются степенным распределением. PDF степенного распрдедения (Power Law) выглядит так: 

У распределения есть один параметр  - это минус степень этого распредедния.

У Power Law есть важное свойство: матожидание определено только при >2, а дисперсия определена только при >3. То есть когда хвост совсем толстый, с ростом выборки, матожидание и дисперсия тоже будут расти.

Чтобы определить по данным степень Power Law распрделения (scale factor), регрессию на PDF делать не нужно. Лучше делать регрессию на CCDF. Либо решать задачу максмильного правдоподобия, у нее есть аналитическое решение.

#### Network Robustness
Робастность сети - свойство сохранения размера наибольшего связанного компонента сети при удалении узлов.

Scale-free сети с <3 робастны (устойчивы к удалению узлов). Причем как к случайным поломкам - random, так и злонамеренным атакам с удалением узлов с наибольшей степенью - target attacks.

#### Network Resilience
Network Resilience - устойчивость среднего пути к удалению узлов. Scale-free сети устойчивы к случайным поломкам (кдаление рядовых страниц сильно не вляиет) и неустойчивы к аттакам (удаление хабов сразу увеличивает средний путь).

#### Preferential Attachment
Preferential Attachment - это реализация принципа rich gets richer. При генерации сети, новые узлы присоединяются пропорционально текущим степеням узлов. В итоге получается самый что ни на есть Power Law.


Есть много подходов к генерации графа, задействующих принцип preferential attachment, чтобы на выходе получился Power Law. Все они основаны на случайном выборе узлов или связей для соединения, а имеющиеся на текщий момент степени сами трансформируют веростность, чтобы получился preferential attachment.


In [None]:
## RNN Generation



# Community structure

<span style="color:blue">Роль</span> - просто некий класс вершины, определяемый по структуре графа (например, может быть такая классификация: "хаб" / "информативная страница" / "не определено")

<span style="color:blue">Сообщество</span> - подграф, в котором наблюдается более плотная структура связей, чем в среднем по графу

### Алгоритм RolX (определение ролей)
Просто делается кластеризация нод на основе их положения в графе.
1. Берем локальные фичи, которые нам изначально даны
2. Добавляем базовые метрики ноды (все центральности, степени и прочее)
3. Добавляем аналогичные (агрегированные, sum/mean) метрики соседей

Далее делаем класетризацию.

<img src = "img/com1.png" width=500>

### Модулярность сети

Модулярность - метрика кластеризованности сети.
$$Q(G,S)=\frac{1}{2m}\sum_{s \in S} \sum_{i \in S} \sum_{j \in S} (A_{ij}-\frac{k_i k_j}{2m})$$

где $m$ - число ребер в сообществе $s$, $k_i$ - степень узла i, $k_j$ - степень узла j

Как получена эта формула:
- метрика Q считается как разность между наблюдаемым числом ребер и прогнозируемым числом ребер, если бы кластерной структуры в сети не было.
- элемент матрицы смежности $A_{ij}$ говорит о наличии ребра между i и j
- $\frac{k_i k_j}{2m} = P(i \rightarrow j)$ - вероятность наличия в графе ребра $i \rightarrow j$. Почему:
    - в сообществе с m ребрами 2m дырок (spokes)
    - у i-ой ноды $k_i$ дырок, у j-ой ноды $k_j$ дырок
    - вероятность выбрать для ребра дырки нод i и j равна $k_i * k_j / 2m$
- $\frac{1}{2m}$ - нормировочный коэффициент

### Алгоритм Luvain (определение сообществ)
Алгоритм:
1. каждая вершина - свое сообщество
2. соединяем ноду с соседней так, чтобы увеличилась модулярность сети
3. выбираем другую ноду, пересчитываем и так пока остаются варианты увеличить модулряность
4. объединяем полученные сообщества в суперноду и повторяем тот же процесс но уже с супернодами
В результате имеем дендрограмму сообщеcтв

## Knowledge Graphs

Графы знаний - большие графы, содержащие вершины разных типов объединенные отношениями разных типов и целью которых является хранение и эффективное предоставление информации по запросам любой сложности, сформулрованным в терминах отношений.


- Такие графы можно собирать руками, но в реальных проектах естественно,  они  наполняются автоматически (например в Google).


- Все эти отношения (знания) можно сформулировать в виде тройки object - relation - subject, где object/subject два узла (однотипных или разнотипных), а relation - узел, характеризующий конкретное отношение




<span style="color:blue">Метапуть</span> (metapath) - путь в графе знаний, записаный не через конкретные узлы, а через типы этих узлов. 

Например, зададим мета-путь "Musician" -> "Plays" -> "Instrument" и для него будет 2 разных релазиация:
- Paul plays guitar
- Ringo plays drums



Метапути - удобный способ формулирования запросов к графу знаний.

Возьмем граф цитирований в научных статьях и рассмотрим мета-пути стартующие из мета-ноды "автор" и заканчивающиеся в той же мета-ноде "автор":
<img src="img/kg_mp1.png" width=450>


### Knowledge Graph Link Prediction

Большинство графов знаний - неполные. Поэтому стандартная задача - предсказывать отношения между узлами.

Пусть дана пара нод (s=start, t=target) и нужно оценить вероятность наличия между ними связи выбранного типа (edge type).

Приведем пару алгоритмов заполнения связей.

#### Алгоритм Path Ranking
1. Перебираем все существующие мета-пути из $s$ в $t$
2. Для выбранного мета-пути с помощью Random Walk генерируем случайные пути из вершины start и считаем, сколько из них завершается в finish
3. С помощью логистической регрессии определяем веса мета-путей и выводим интегральный показатель


$$score(s,t)=\sum_{p \in P}P(s \rightarrow t | p) \theta_P$$
где $\theta$ - вес мета-пути, $p$ - мета-пути из $s$ в $t$

#### Алгоритм Path Predict

Более общий подход - вместо вероятности P(s \rightarrow t) в логистическую регрессию в качестве прищнаков добавляем всевозможные фичи, посчитанные на графе:
$$score(s,t)=logit \big( f(s \rightarrow t | P_1), f(s \rightarrow t | P_2) \cdots f(s \rightarrow t | P_n) \big) $$

### Node Similarity in Knowledge Graph 
Задача: для выбранной ноды s найти ближайший узел этого же типа в графе знаний. Типичный use-case - рекомендация схожих товаров.

PathSim - нормализованное кол-во путей между s и t

### Query Languages
Cypher - язык запросов к графу знаний.

Был реазиован в Neo4j.
Менее популярная альтернатива - SparQL (не имеет отношения к Spark SQL)
