In [None]:
!git clone https://github.com/rapidsai/rapidsai-csp-utils.git
!python rapidsai-csp-utils/colab/pip-install.py

!pip install dask_cuda dask-cudf-cu12

In [None]:
import cudf
import cugraph as cg

import networkx as nx
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

## Networkx

Создадим простой граф при помощи networkx

In [None]:
G = nx.Graph()

добавим 1 ноду к графу

In [None]:
G.add_node(1)

In [None]:
G.nodes

Можно также добавить несколько нод сразу

In [None]:
G.add_nodes_from([2, 3])
G.nodes

Добавим также связи между узлами

In [None]:
G.add_edges_from([(1, 2), (1, 3)])

In [None]:
G.edges

## cuGraph

Давайте повторим это все в cugraph

In [None]:
G_gpu = cg.Graph()

Добавить ноды к графу нельзя по одной, нужно через dataframe

In [None]:
edge_list = cudf.DataFrame({
    'source': [1, 2],
    'destination': [2, 3]
})

G_gpu = cg.Graph()
G_gpu.from_cudf_edgelist(edge_list, source='source', destination='destination')

In [None]:
G_gpu.nodes()

Нюанс, ноды перезаписываются, так как считается, что мы передаем все необходимые ноды

Чтобы добавить что-то новое придется заново инициализировать граф

Можно через pandas, numpy, cudf, dask-cudf

In [None]:
edge_list = cudf.DataFrame({
    'source': [1, 1],
    'destination': [2, 3]
})

In [None]:
G_gpu = cg.Graph()
G_gpu.from_cudf_edgelist(edge_list, source='source', destination='destination')

In [None]:
G_gpu.nodes()

In [None]:
G_gpu.edges()

Например, если захотим добавить что-то новое, то можно сделать так:

In [None]:
appended_values = cudf.DataFrame({
    'source': [2],
    'destination': [3]
})

edge_list = cudf.concat([edge_list, appended_values], ignore_index = True)

In [None]:
edge_list

In [None]:
G_gpu = cg.Graph()
G_gpu.from_cudf_edgelist(edge_list, source='source', destination='destination')
G_gpu.edges()

## Давайте загрузим известный датасет карате клуб и попробуем поанализировать его в разных фреймворках

## Networkx

https://raw.githubusercontent.com/rapidsai/notebooks/branch-0.8/cugraph/data/karate-data.csv

In [None]:
edges = pd.read_csv('karate-data.csv', sep='\t', names=['source', 'destination'])

In [None]:
edges

In [None]:
G = nx.Graph()
G = nx.from_pandas_edgelist(edges, source='source', target='destination')

In [None]:
nx.draw(G, with_labels=True)

Давайте поисследуем сам граф

Средняя степень узлов сети и общие характеритики

In [None]:
def mean_nodes_degree(g):
    return 2 * len(g.edges) / len(g.nodes)

In [None]:
def get_statistics(g):
    print(f'Number of nodes = {len(g.nodes)}')
    print(f'Number of edges = {len(g.edges)}')

In [None]:
get_statistics(G)

In [None]:
mean_nodes_degree(G)

In [None]:
G.degree

Каждый узел важен для сети по разному и для определения важности есть меры центральности. Мы рассмотрим центральность по степени и центральность по посредничеству

In [None]:
def get_centrality_by_degree(g):
    centrality = nx.algorithms.centrality.degree_centrality(g)
    return sorted(list(centrality.items()), key=lambda x: x[1], reverse=True)

In [None]:
get_centrality_by_degree(G)

In [None]:
def get_centrality_by_betweenness(g):
    centrality = nx.algorithms.centrality.betweenness_centrality(g)
    return sorted(list(centrality.items()), key=lambda x: x[1], reverse=True)

In [None]:
get_centrality_by_betweenness(G)

PageRank

In [None]:
nx.pagerank(G,alpha=0.9)

Пора сделать аналогичное в cuGraph

## CuGraph

In [None]:
edges_gpu = cudf.read_csv('karate-data.csv', sep='\t', names=['source', 'destination'])

In [None]:
edges_gpu

In [None]:
G_gpu = cg.Graph()
G_gpu.from_cudf_edgelist(edges_gpu, source='source', destination='destination')

Посчитаем статистики, как и в networkx

In [None]:
def mean_nodes_degree(g):
    return 2 * len(g.edges()) / len(g.nodes())

In [None]:
def get_statistics(g):
    print(f'Number of nodes = {len(g.nodes())}')
    print(f'Number of edges = {len(g.edges())}')

In [None]:
get_statistics(G_gpu)

In [None]:
mean_nodes_degree(G_gpu)

Надо быть внимательным, так как cugraph считает, что связь между нодами дает не 1 степень, а 2 (in и out)

In [None]:
G_gpu.degree()

Меры центральности

Центральность по степени не запрогали за нас, сделаем сами=)

In [None]:
def get_centrality_by_degree(g):
    centrality = g.degree()
    centrality['degree_centrality'] = centrality['degree'] / (len(g.nodes())-1) / 2
    centrality = centrality.sort_values(by='degree_centrality', ascending=False)
    return centrality

In [None]:
get_centrality_by_degree(G_gpu)

In [None]:
def get_centrality_by_betweenness(g):
    centrality = cg.centrality.betweenness_centrality(g)
    centrality = centrality.sort_values(by='betweenness_centrality', ascending=False)
    return centrality

In [None]:
get_centrality_by_betweenness(G_gpu)

PageRank

In [None]:
cg.link_analysis.pagerank(G_gpu)

Много чего нет в cuGraph, но есть и преимущества)
Например, в Networkx не реализованы алгоритмы кластеризации (их мало), а многие из существующих есть в cuGraph

Метод louvain на основе меры модулярности

In [None]:
def louvain_clusters(g):
    result = cg.community.louvain(g)
    modularity = result[1]
    clusters = result[0]
    return modularity, clusters

In [None]:
modularity, clusters = louvain_clusters(G_gpu)

In [None]:
modularity

In [None]:
clusters = clusters.to_pandas()
clusters = clusters.sort_values(by='vertex')

In [None]:
clusters = pd.DataFrame(G.nodes).merge(clusters, left_on=0, right_on='vertex')

Отрисуем граф при помощи Networkx

In [None]:
nx.draw(G,node_color=clusters['partition'],node_size=200)

Ниже представлен алгоритм Гирвана-Ньюмена по поиску сообществ. Его идея:

    1) Находим такое ребро, через которое проходит наибольшее количество кратчайших путей
    2) Удаляем данное ребро из графа
    3) После удаления ребра проверяем, не появились ли у нас изолированные сообщества
    4) Повторяем алгоритм до получения нужного количества сообществ

# Girvan-Newman (NetworkX)

In [None]:
def most_central_edge(G):
    centrality = nx.algorithms.centrality.edge_betweenness_centrality(G)
    return max(centrality, key=centrality.get)

In [None]:
def get_n_cluster(G, n_clusters):
    G_new = G.copy()
    while len(list(nx.connected_components(G_new))) < n_clusters:
        edge_to_remove = most_central_edge(G_new)
        G_new.remove_edge(edge_to_remove[0], edge_to_remove[1])
    return list(nx.connected_components(G_new))

In [None]:
def get_color_map(G, connected_components):
    b = {}
    for i, values in enumerate(connected_components):
        for value in values:
            b[value] = i
    color_map = []
    for node in G.nodes():
        color_map.append(b[node])
    return color_map

In [None]:
clusters = get_n_cluster(G, 4)
nx.draw(G,node_size=200, with_labels=True, node_color=get_color_map(G, clusters))

# Домашнее задание

В NetworkX есть алгоритм определения центральности через собственные вектора nx.algorithms.centrality.eigenvector_centrality(G). Сейчас мы рассмотрим реализацию данного алгоритма.
Заданием будет следующее:

    1) Переписать реализацию под GPU (cupy, numba, cudf, cugraph...)
    2) Для графа карате клуба вычислить degree centrality, betweenness centrality, eigenvector centrality и pagerank.
    3) Сравнить 4 характеристики между собой, на сколько они похожи \ отличаются и в чем
    
# Срок 02.12.2024
# Напоминаю, что курс про GPU и домашка также про GPU

In [None]:
nx.algorithms.centrality.eigenvector_centrality(G)

In [None]:
M = nx.to_numpy_array(G)
eigenvalue, eigenvector = np.linalg.eig(M)
largest = np.array(eigenvector[:, 0].flatten().real)
norm = np.sign(largest.sum()) * np.linalg.norm(largest)
eigen = largest / norm


In [None]:
import numpy as np
def eigen_centrality(G):
    #переведем в матрицу numpy
    M = nx.to_numpy_array(G)
    #получим собственные вектора и собственные значения
    eigenvalue, eigenvector = np.linalg.eig(M)
    #берем вектор, соответсвующий наибольшему собственному значению
    largest = np.array(eigenvector[:, 0].flatten().real)
    #нормируем
    norm = np.sign(largest.sum()) * np.linalg.norm(largest)
    eigen = largest / norm
    return dict(zip(G, eigen))

In [None]:
eigen_centrality(G)

Немного помощи с ДЗ

In [None]:
#если не добавить веса, то будет все ломаться
edges_gpu['weights'] = 1

In [None]:
G_gpu = cg.Graph()
G_gpu.from_cudf_edgelist(edges_gpu, source='source', destination='destination', edge_attr='weights')

P.S. будьте внимательны с тем, где находится наибольшее собственное значение