In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import networkx as nx
import seaborn as sns

## Вспоминаем прошлый семинар

Считаем данные о станциях московского метрополитена в 2014 году:

In [None]:
metro_data = #YOUR CODE

Формат такой: две станции записаны в одной строке, если между ними есть перегон.

Загрузим данные в граф из подготовленной таблицы:



In [None]:
metro_graph = #YOUR CODE

# Указываем, что направление перегона между станциями нас не интересует.
# (как правило, можем поехать в обе стороны)
metro_graph = nx.to_undirected(metro_graph)

print(nx.info(metro_graph))

### Метрики на графе

In [None]:
degree = nx.degree_centrality(metro_graph)
betweenness = nx.betweenness_centrality(metro_graph)
closeness = nx.closeness_centrality(metro_graph)

In [None]:
graph_measures = {
    'degree': degree,
    'betweenness': betweenness,
    'closeness': closeness,
}

pd.DataFrame(graph_measures)

Посмотрим, какие станции обладают максимальными показателями и проинтерпретируем:

In [None]:
pd.DataFrame(graph_measures).sort_values(by='betweenness', ascending=False)

## Реальные данные

Подгрузка данных из файла-не таблицы осуществляется достаточно просто, если данные записаны в правильном формате. 

Примеры наиболее популярных форматов для чтения и сохранения графов (больше можно найти в документации NetworkX):
- список смежных вершин (`nx.read_adjlist`, `nx.write_adjlist`, именно так хранятся графы в NetworkX)
- список всех рёбер (`nx.read_edgelist`, `nx.write_edgelist`)

Первые строки нашего файла `facebook_combined.txt` выглядят так:
```
214328887 34428380
17116707 28465635
380580781 18996905
221036078 153460275
107830991 17868918
151338729 222261763
```

Каждое число обозначает имя вершины (грубо говоря, id пользователя) в графе. Если в одной строке записана пара чисел, значит, пользователи с соответствующими номерами находятся друг у друга в списке друзей.

In [None]:
facebook_users = nx.read_edgelist("facebook_combined.txt")

Узнайте, сколько граф содержит вершин и связей:

In [None]:
print('Number of nodes:', #YOUR CODE)
print('Number of edges:', #YOUR CODE)

Попробуем нарисовать граф (может занять около минуты, поскольку вершин достаточно много):

In [None]:
%%time
plt.figure(figsize=(16, 16))
nx.draw_networkx(facebook_users, node_color='lightblue', with_labels=False, node_size=50, alpha=0.5)
plt.axis('off')

Нарисуем график, отражающий распределение степеней вершины:

In [None]:
degrees = dict(facebook_users.degree()) # dictionary node:degree
values = sorted(set(degrees.values()))
g_hist = [list(degrees.values()).count(x) for x in values]

plt.figure(figsize=(7, 5))
plt.plot(values, g_hist, 'o-') # degree

plt.xlabel('Degree')
plt.ylabel('Number of nodes')
plt.title('Facebook users connectivity degrees')

Это считается быстро:

In [None]:
%%time
degree = nx.degree_centrality(facebook_users)

In [None]:
%%time
eigen = nx.eigenvector_centrality(facebook_users)

А это -- несколько минут, можно запустить заранее:

In [None]:
%%time
betweenness = nx.betweenness_centrality(facebook_users)

In [None]:
%%time
closeness = nx.closeness_centrality(facebook_users)

In [None]:
graph_measures = {
    'degree': degree,
    'betweenness': betweenness,
    'closeness': closeness,
    'eigenvector': eigen,
}

pd.DataFrame(graph_measures).head()