<center><img src="images/header1.png" width=400></center>
<h1><center>Основы машинного обучения</center></h1>
<hr>
<h2><center>Анализ графов и социальных сетей</center></h2>
<h3><center>Шестаков Андрей</center></h3>

In [None]:
%matplotlib inline

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.style.use('seaborn-v0_8-talk')
plt.rcParams['figure.figsize'] = (12,8)

# Для кириллицы на графиках
font = {'family': 'serif',
        'weight': 'normal'}
plt.rc('font', **font)

try:
    from ipywidgets import interact, IntSlider, fixed, FloatSlider
except ImportError:
    print(u'Так надо')

In [None]:
import networkx as nx

In [None]:
# Uncomment if you are using colab
# !mkdir ./data
# !mkdir ./data/1504653

# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/chapters.csv -O ./data/chapters.csv
# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/characters.csv -O ./data/characters.csv
# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/events.csv -O ./data/events.csv
# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/teams.csv -O ./data/teams.csv
# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/nested_partition.gml -O ./data/nested_partition.gml
# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/Princeton.gml -O ./data/Princeton.gml
# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/network.gml -O ./data/network.gml
# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/1504653/friends_1504653.json -O ./data/1504653/friends_1504653.json
# !wget https://raw.githubusercontent.com/vadim0912/MLIntro2022_Spring/blob/master/lecture11/data/1504653/common_friends_1504653.json -O ./data/1504653/common_friends_1504653.json

# Создадим граф в [networkX](https://networkx.github.io/documentation/stable/)

In [None]:
g = nx.Graph()

In [None]:
g

In [None]:
# Как корабль назовешь..
g.graph['some title'] = 'first graph'

In [None]:
g.graph

## Добавим вершины

In [None]:
g.add_node(1)

In [None]:
g.number_of_nodes()

In [None]:
g.add_node('some_node') # можно создавать вершины с произвольным идентификатором

## Добавим ребра

In [None]:
g.add_edge(0, 1) # если вершины с идентификатором х еще не было, то она автоматически сгенерируется

In [None]:
g.edges()

In [None]:
g.nodes()

In [None]:
g.add_edges_from([(0,2), 
                  (1,3), 
                  (4,3), 
                  (1,2), 
                  (2,2), 
                  (3,2)])

In [None]:
g.edges()

## Различные операции с вершинами и ребрами

In [None]:
g.degree() # Степени вершин (количество связей для каждой вершины)

In [None]:
g.degree['some_node']

Вершинам можно задавать различные атрибуты (читай "признаки")

In [None]:
for n_id in g.nodes():
    g.nodes[n_id]['label'] = 'v_{}'.format(n_id)

In [None]:
nx.get_node_attributes(g, 'label')

In [None]:
g.nodes[1]

In [None]:
g.nodes.data()

Иногда это удобнее делать так:

In [None]:
some_attributes = {0: 'val1', 1: 'val2'}
nx.set_node_attributes(g, some_attributes, 'attr')

In [None]:
g.nodes.data()

Тоже самое для ребер

In [None]:
g.edges[1,0]['type'] = 'friendship'

In [None]:
g.edges[1,0]

In [None]:
# проверка различных свойств графа
g.is_directed() 

In [None]:
nx.is_connected(g)

## Объединение графов

In [None]:
g1 = g.copy()
g2 = nx.erdos_renyi_graph(10, 0.3)

In [None]:
# g3 = nx.disjoint_union(g1, g2)
g3 = nx.union(g1, g2, rename=('g1_', 'g2_'))

In [None]:
print(g1.number_of_nodes())
print(g2.number_of_nodes())
print(g3.number_of_nodes())

In [None]:
g1.nodes()

In [None]:
g3.nodes()

Создадите граф с рисунка

<img src='./images/clique_init.png' width="550"/>

In [None]:
g = nx.complete_graph(6)

In [None]:
g.nodes()

In [None]:
g.add_edges_from([
    [2, 6],
    [1, 7],
    [5, 9],
    [6, 7],
    [6, 8],
    [7, 8],
    [7, 9]
])

In [None]:
# Your Code Here

In [None]:
g.nodes()

In [None]:
g.edges()

In [None]:
nx.draw_networkx(g, with_labels=True)

Выведем матрицу смежности, список смежности и список ребер этого графа

In [None]:
A = nx.adjacency_matrix(g)
A

In [None]:
A.todense()

In [None]:
nx.adjacency_data(g)

Сохраним что-нибудь из этого:

In [None]:
nx.write_edgelist(g, 'graph.edglist')
nx.write_graphml(g, 'graph.gml')

In [None]:
!head graph.gml # на Windows не сработает

In [None]:
!head graph.edglist # на Windows не сработает

# (ваши) Соц-графы

* См. vk_friends.ipynb для выгрузки данных с помощью VKAPI

In [None]:
import json
import os

VKID = '68301181'

DATA_FOLDER = os.path.join('.', 'data')
VK_DATA_FOLDER = os.path.join(DATA_FOLDER, VKID)

In [None]:
filepath = os.path.join(VK_DATA_FOLDER, f'friends_{VKID}.json')

with open(filepath) as fin:
    friends = json.load(fin)

In [None]:
# Словарь с вашими друзьями
friends

In [None]:
filepath = os.path.join(VK_DATA_FOLDER, 'common_friends_{}.json'.format(VKID))

with open(filepath, 'r') as fin:
    common_friends = json.load(fin)

In [None]:
# Словарь с общими друзьями между вами и вашими друзьями
common_friends

In [None]:
g = nx.Graph()

In [None]:
# Делаем список из пар (vkid, словарь с характеристиками)

g.add_nodes_from((int(friend['id']),
                  {'sex': friend.get('sex', '-1'), 
                   'first_name': friend.get('first_name', '-1'), 
                   'last_name': friend.get('last_name', '-1'), 
                   'university_name': friend.get('university_name', '-1'),
                   'faculty_name': friend.get('faculty_name', '-1'),
                   'city': friend.get('city', {}).get('title', '-1')
                  }) for friend in friends)

In [None]:
g.number_of_nodes()

In [None]:
# Делаем список из пар (vkid1, vkid2)
g.add_edges_from((int(f1), f2) for f1, f_list in common_friends.items() for f2 in f_list)

In [None]:
g.number_of_edges()

In [None]:
nx.draw_networkx(g, nx.drawing.layout.kamada_kawai_layout(g), with_labels=False)

In [None]:
nx.write_graphml(g, f'vk_graph_{VKID}.graphml')

Попробуем открыть это дело в gephi!

##  Поиск и вывод наиболее значимых вершин в вашей сети

In [None]:
btw = nx.centrality.betweenness_centrality(g)

In [None]:
btw

In [None]:
nx.set_node_attributes(g, btw, name="btw_centrality")

## Выявление сообществ с помощью спектральной на матрице схожести
* Загрузим граф из `nested_partition.gml`. Это граф, построенный с помощью [генератора](https://sites.google.com/view/santofortunato/inthepress2) Benchmark сетей для тестов алгоритмов выявления сообществ.
* Визуализируем матрицу смежности графа с помощью метода `plt.spy(A)` (и саму сеть, если получится)
* Рассчитаем реализованные в `nexworkx` меры схожести вершин

По большому счету, полученные схожести можно подавать на вход любому алгоритму кластеризации, который изначально может работать со мерами близости (например аггломеративная кластеризация)

In [None]:
g = nx.read_gml('./data/nested_partition.gml', label='id')

In [None]:
g.number_of_nodes()

In [None]:
A = nx.adjacency_matrix(g)
plt.spy(A, markersize=2)

In [None]:
# Что бы мы увидили в реальной жизни
idx = np.random.permutation(range(128))
i = np.ix_(idx, idx)
plt.spy(A[i], markersize=2)

In [None]:
# Все положительные похожести по Жаккару
jac = nx.jaccard_coefficient(g)
jac = np.array(list(jac))

In [None]:
jac

In [None]:
# Немного магии, чтобы получить из этого матрицу попарных СХОЖЕСТЕЙ по жаккару
from scipy.sparse import coo_matrix

# Переводим все в формат разреженной матрицы
D = coo_matrix((jac[:,2], (jac[:,0], jac[:,1])), shape=(128,128))

# Делаем ее симметричной
D = D+D.T

In [None]:
plt.imshow(D.toarray())

In [None]:
D.shape

In [None]:
# Попробуем посчитать на этой близости спектральную кластеризацию
# Заодно еще раз вспомним как подбирать параметры для DBSCAN
from sklearn.cluster import SpectralClustering, DBSCAN
from sklearn.neighbors import NearestNeighbors

In [None]:
knn = NearestNeighbors(n_neighbors=5, metric='cosine')
knn.fit(D)

dist, _ = knn.kneighbors()
dist_max = np.sort(dist[:, -1])
dist_min = np.sort(dist[:, 0])

In [None]:
plt.plot(dist_max, label=["dist_max"])
plt.plot(dist_min, label=["dist_min"])
plt.legend()

In [None]:
model = DBSCAN(metric='cosine', eps=0.38, min_samples=5)
model.fit(D)

In [None]:
labels = model.labels_

In [None]:
labels

In [None]:
true_labeling = list(nx.get_node_attributes(g, 'label').values())

In [None]:
layout = nx.layout.spectral_layout(g)
nx.draw_networkx(g, pos=layout, node_color=true_labeling,)

In [None]:
nx.draw_networkx(g, pos=layout, node_color=labels)

## Label propagation

Методы для выявления сообществ, которые реализованы в networkX можно найти [тут](https://networkx.github.io/documentation/stable/reference/algorithms/community.html#module-networkx.algorithms.community.community_utils)

In [None]:
lp_partition = nx.community.asyn_lpa_communities(g) # должен быть seed

In [None]:
lp_partition = list(lp_partition) # разбиение на сообщества 

In [None]:
len(lp_partition)

In [None]:
# Функция, которая из разбиения получает разметку для каждого объекта
def get_labeling_from_partition(partition):
    
    all_nodes = set()
    for cluster in partition:
        all_nodes |= cluster
    num_nodes = len(all_nodes)
    labeling = np.ones((num_nodes,), dtype=int)

    for label, ids in enumerate(partition):
        ids = list(ids)
        labeling[ids] = label
        
    return labeling

In [None]:
lp_labeling = get_labeling_from_partition(lp_partition)

In [None]:
nx.draw_networkx(g, pos=layout, node_color=lp_labeling)

## Edge betweenness

In [None]:
eb_partitions = nx.community.girvan_newman(g)

In [None]:
k = 4 # Вернем разбиение на k сообщества
for partition in eb_partitions:
    if len(partition) == k:
        break

In [None]:
eb_partition = list(partition) # разбиение на сообщества 

In [None]:
eb_partition

In [None]:
eb_labeling = get_labeling_from_partition(eb_partition)

In [None]:
eb_labeling

In [None]:
nx.draw_networkx(g, pos=layout, node_color=eb_labeling)

### Modularity

In [None]:
# Просто функция, которая считает модулярность
from itertools import product
def modularity(G, communities, weight='weight'):
    multigraph = G.is_multigraph()
    directed = G.is_directed()
    m = G.size(weight=weight)
    if directed:
        out_degree = dict(G.out_degree(weight=weight))
        in_degree = dict(G.in_degree(weight=weight))
        norm = 1 / m
    else:
        out_degree = dict(G.degree(weight=weight))
        in_degree = out_degree
        norm = 1 / (2 * m)

    def val(u, v):
        try:
            if multigraph:
                w = sum(d.get(weight, 1) for k, d in G[u][v].items())
            else:
                w = G[u][v].get(weight, 1)
        except KeyError:
            w = 0
        # Double count self-loops if the graph is undirected.
        if u == v and not directed:
            w *= 2
        return w - in_degree[u] * out_degree[v] * norm

    Q = sum(val(u, v) for c in communities for u, v in product(c, repeat=2))
    return Q * norm

In [None]:
eb_partitions = nx.community.girvan_newman(g)

In [None]:
# Посчитаем модулярность для разбиений на 1,2,..10 сообществ
for partition in eb_partitions:
    num_com = len(partition)
    if num_com < 10:
        mod = modularity(g, partition)
        print('For {} communities modularity = {}'.format(num_com, mod))
    else:
        break

## Сообщества на графе друзей

Попробуйте найти сообщества на графе друзей

Перед этим, возможно, стоит "почистить граф"

# Пример расчета Асортативности

В файле `Princeton.gml` содержится граф дружбы студентов соответствующих, собранных в 2005 году из Facebook. Каждая вершина обладает следующими аттрибутами:
* Факультет
* Пол
* Основное направление подготовки
* Дополнительный направление подготовки (если есть)
* Общежитие проживания, домашнее проживание
* Год поступления
* Школа

Пропуски помечены значением `0`.

#### Задание
Посчитайте ассортативность для каждого из аттрибутов и ассортативность по степени узлов.

Сравните результаты между сетями и проинтерпретируйте их.

In [None]:
!head ./data/Princeton.gml

In [None]:
g = nx.read_gml('./data/Princeton.gml', label='id')

In [None]:
attributes = g.nodes[0]

In [None]:
attributes = g.nodes[0].keys()

In [None]:
for attr in attributes:
    print('{} assortativity = {}'.format(attr, 
                                         nx.assortativity.attribute_assortativity_coefficient(g, attr)))

In [None]:
# Матрица перемешивания e_ij
E = nx.assortativity.attribute_mixing_matrix(g, 'year')

In [None]:
plt.imshow(E)

In [None]:
nx.assortativity.degree_assortativity_coefficient(g)

# Сеть на основе вселенной Игры Престолов (spoiler alert!)

Рассмотрим две таблички: `characters.csv` и `events.csv`. Названия говорят сами за себя - в  `characters.csv` содержится информация о персонажах серии романов, а в `events.csv` описание событий. Мы будем рассматривать события, которыми славится Игры Престолов - убийства.

В первом файле, помимо индетификатора персонажа (`characterID`), нас будут интересовать поля имени (`Name`) и его группы (`Team`). <br/>
Во втором - события убийства  (`event = killed`) и поле с указанием убитого (`characterID`) и убийцы (`withID`)

#### Задание
* Постройте сеть (направленный граф nx.DiGraph) убийств персонажей. В каждой вершине должен быть сохранен атрибут имени и группы
* Оставим только персонажей из самых частых групп (для наглядности): `['Stark', 'Night Watch', 'Lannister', 'Robert', 'none', 'Wildlings (north of wall)', 'Greyjoy']`
* Переобозначте значения атрибута Team числами начиная с `0`
* Нарисуйте граф со стрелочками, раскрасив каждую вершину в цвет, в зависимости от их фрацкии
* Посчитайте коэффициент ассортативности по отношению к атрибуту "Team", который в данном контексте можно интерпретировать как "склонность убивать своих или чужих". Проинтерпретируйте полученный результат

In [None]:
df_char = pd.read_csv('./data/characters.csv')
df_events = pd.read_csv('./data/events.csv')

In [None]:
df_events.head()

In [None]:
df_char.head()

In [None]:
df_kill = df_events.query('event == "killed"').loc[:, ['characterID', 'withID']].dropna()
df_kill.loc[:, 'withID'] = df_kill.loc[:, 'withID'].astype(int)

In [None]:
# Оставим только самые частые категории (для наглядности)
teams = ['Stark', 'Night Watch', 'Lannister', 'Robert', 'none', 'Wildlings (north of wall)', 'Greyjoy']

In [None]:
idx = df_char.Team.isin(teams)
df_char = df_char.loc[idx, ['characterID', 'Name', 'Team']]

idx = df_kill.characterID.isin(df_char.characterID) & df_kill.withID.isin(df_char.characterID)
df_kill = df_kill.loc[idx, :]

In [None]:
id_team_mapper = dict(zip(df_char.Team.unique(), range(df_char.Team.nunique())))

In [None]:
idx = ( df_char.characterID.isin(df_kill.characterID) | df_char.characterID.isin(df_kill.withID) )
df_char_kill = df_char.loc[idx, :].reset_index(drop=True)
df_char_kill.loc[:, 'Team'] = df_char_kill.loc[:, 'Team'].replace(id_team_mapper)

In [None]:
id_mapper = dict(zip(df_char_kill.characterID.values, df_char_kill.index.values))

In [None]:
df_char_kill.loc[:, 'characterID'] = df_char_kill.loc[:, 'characterID'].replace(id_mapper)

In [None]:
df_char_kill.head()

In [None]:
df_kill.loc[:, 'characterID'] = df_kill.loc[:, 'characterID'].replace(id_mapper)
df_kill.loc[:, 'withID'] = df_kill.loc[:, 'withID'].replace(id_mapper)

In [None]:
df_kill.head()

Теперь можно сделать граф и посчитать ассортативность с атрибутом Team

In [None]:
g = nx.DiGraph()

In [None]:
g.add_edges_from(df_kill.values)

In [None]:
print(g)

In [None]:
g.edges.data()

In [None]:
g.is_directed()

In [None]:
attrs = df_char_kill.set_index("characterID").to_dict(orient="index")

In [None]:
attrs

In [None]:
nx.set_node_attributes(g, attrs)

In [None]:
g.nodes.data()

In [None]:
nx.assortativity.attribute_assortativity_coefficient(g, "Team")