# Функции и библиотеки

In [1]:
import networkx as nx
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline

# Загрузка данных, количество ребер и вершин; плотность

In [2]:
vk_dataset = pd.read_csv('../datasets/vk.csv')
edges = [(str(node1), str(node2)) for node1, node2 in zip(vk_dataset.u.tolist(), vk_dataset.v.tolist())]

In [3]:
%%time

G = nx.Graph(edges)

Wall time: 15min 33s


In [4]:
print('Количество вершин: ', G.number_of_nodes())
print('Количество ребер: ', G.number_of_edges())
print('Плотность графа: ', nx.density(G))

Количество вершин:  3215720
Количество ребер:  17414510
Плотность графа:  3.368099681514005e-06


# Количество компонент связности, характеристики наибольшей компоненты

In [5]:
%%time
cc_number = nx.number_connected_components(G)
largest_component = G.subgraph(nodes=max(nx.connected_components(G), key=len))

Wall time: 26min 14s
Parser   : 752 ms


In [6]:
print(f'Число компонент связности - {cc_number}')
print(f'Наибольшая компонента состоит из {largest_component.number_of_nodes()} вершин ' \
      f'и {largest_component.number_of_edges()} ребер')

Число компонент связности - 24337
Наибольшая компонента состоит из 3162217 вершин и 17378782 ребер


# Метрические характеристики графа: диаметр, радиус

In [7]:
%%time
# diam = nx.diameter(largest_component)
# radius = nx.radius(largest_component)

Wall time: 0 ns


In [8]:
# print(f'Диаметр наибольшей компоненты - {diam}')
# print(f'Радиус наибольшей компоненты - {radius}')

# Функция вероятности для степени узла в графе
Минимальная, максимальная, средняя степень узла в графе. Надо построить функцию вероятности (можно в виде гистограммы относительных частот)

In [9]:
%%time
degrees = list(map(lambda elem: elem[1], list(G.degree())))
max_deg = max(degrees)
min_deg = min(degrees)
mean_deg = int(sum(degrees)/ len(degrees))

Wall time: 2min 22s
Compiler : 23 s


In [10]:
print('Максимальная степень узла:', max(degrees))
print('Минимальная степень узла:', min(degrees))
print('Средняя степень узла:', int(sum(degrees)/len(degrees)))

Максимальная степень узла: 6503
Минимальная степень узла: 1
Средняя степень узла: 10


# Число треугольников, глобальный и кластерный коэффициенты

In [11]:
%%time
n_of_triangles = sum(nx.triangles(G).values()) / 3

Wall time: 1h 26min 4s


In [12]:
%%time
average_coef = nx.average_clustering(G)

Wall time: 1h 22min 1s


In [13]:
print(f'Число треугольников в графе - {n_of_triangles}')
print(f'Средний кластерный коэффициент сети - {average_coef}')

Число треугольников в графе - 108030337.0
Средний кластерный коэффициент сети - 0.04938048748192238
