In [1]:
import networkx as nx
import pandas as pd
import numpy as np
import random 
import scipy.stats as stats
import matplotlib.pyplot as plt
import sys, os
import warnings
import processing_module as pm
import scipy.stats as stats
from tqdm import tqdm

warnings.filterwarnings("ignore")

<span style="color:orange">
    
## Preferential attachment ##

In [2]:
def gen_graph_PA(G_input: nx.Graph, num_nodes: int, num_neigh: int) -> nx.Graph:
    """
    Функция генерации вершин графа методом предпочтительного присоединения.
    Используются библиотеки tqdm, networkx.
    
    Input:
        G_input - изначальный неориентированный граф к которому присоединяются новые вершины.
        num_nodes - количество присоединяемых вершин.
        num_neigh - количество соседий, к которым присоединяется новая вершина.
        
    Output:
        Изначальный неориентированный граф к которому присоеденены вершины.
    """
    i_start = len(list(G_input.nodes))
    print(i_start)
    for i in tqdm(range(i_start + 1, i_start + num_nodes)):
        k = []
        for i1 in range(num_neigh):
            k.append((random.choices(list(dict(G_input.degree()).keys()), weights=list(dict(G_input.degree()).values())))[0])
        for i1 in range(num_neigh):
            G_input.add_edge(k[i1], i)     
    return G_input

In [3]:
"""
Ячейка отвечает за генерацию и тестирование графа.
"""

data_pa = {
    'Source': [1, 2, 3],
    'Target': [2, 3, 1],
}

row_labels = [1, 2, 3]

PA_graph = pd.DataFrame(data=data_pa, index=row_labels)

G_pa = nx.Graph()
G_pa.add_edges_from(PA_graph.values.tolist())


num_neigh = 5
num_nodes = 100


if (False):
    G_pa_1 = gen_graph_PA(G_pa, num_nodes, num_neigh)
    print(G_pa_1)

<span style="color:orange">
    
## Clustering attachment ##

In [4]:
def gen_graph_CA(G_input: nx.Graph, num_nodes: int, num_neigh: int) -> nx.Graph:
    """
    Функция генерации вершин графа методом кластерного присоединения.
    Используются библиотеки tqdm, networkx.
    Содержит циклы так как k.append((random.choices)) может выдавать 2 одинаковых числа. 
    
    Input:
        G_input - изначальный неориентированный граф к которому присоединяются новые вершины.
        num_nodes - количество присоединяемых вершин.
        num_neigh - количество соседий, к которым присоединяется новая вершина.
        
    Output:
        Изначальный неориентированный граф к которому присоеденены вершины.
    """
    i_start = len(list(G_input.nodes))
    for i in tqdm(range(i_start + 1, i_start + num_nodes)):
        local_calst = list(nx.clustering(G_input).values())
        for j in range(len(local_calst)):
            local_calst[j] += 0.001
        k = []
        for i1 in range(num_neigh):
            k.append((random.choices(list(nx.clustering(G_input).keys()), weights=local_calst))[0])
        for i1 in range(num_neigh):
            G_input.add_edge(k[i1], i)
    return G_input

In [5]:
"""
Ячейка отвечает за генерацию и тестирование графа.
"""

data_ca = {
    'Source': [1, 2, 3],
    'Target': [2, 3, 1],
}

row_labels = [1, 2, 3]

CA_graph = pd.DataFrame(data=data_ca, index=row_labels)

G_ca = nx.Graph()
G_ca.add_edges_from(CA_graph.values.tolist())

num_neigh = 5
num_nodes = 100


if (False):
    G_ca_1 = gen_graph_CA(G_ca, num_nodes, num_neigh)
    print(G_ca_1)

In [6]:
if (False):
    my_path = os.path.abspath("") + "/.."
    (nx.to_pandas_edgelist(G_ca)).to_csv(my_path + "/Data_postproc" + '/CA_graph.csv', index=False)

<span style="color:orange">
    
## Alpha Betta Gamma scheme ##

In [7]:
def gen_graph_ABG(G_input: nx.DiGraph, num_iterations: int, alpha: float, beta: float, \
                  d_in: float, d_out: float) -> nx.DiGraph:
    """
    Функция генерации вершин графа методом альфа, бетта, гамма присоединения.
    Используются библиотеки tqdm, networkx.
    gamma = 1 - (alpha + beta).
    
    Input:
        G_input - изначальный ориентированный граф к которому присоединяются новые вершины.
        num_iterations - количество итераций алгоритма.
        alpha - float вероятность.
        beta - float вероятность. 
        d_in - float.
        d_out - float.
        
    Output:
        Изначальный граф к которому присоеденены вершины.
    """
    assert ((alpha + beta) <= 1)

    i_start = len(list(G_input.nodes))
    gamma = 1 - alpha - beta
    print(alpha, beta, gamma, G_input)

    for i in tqdm(range(0, num_iterations + 1)):
        iter_prob = random.choices([1, 2, 3], weights=[alpha, beta, gamma])[0]
        
        I_n1 = list(dict(G_input.in_degree()).values())
        O_n1 = list(dict(G_input.out_degree()).values())
        
        N_I = list(dict(G_input.in_degree()).keys())
        N_O = list(dict(G_input.out_degree()).keys())
        
        N = len(I_n1)
        n = sum(list(dict(G_input.in_degree()).values()))
        u = list(G_input.nodes)[-1] + 1

        assert (N_I == N_O)
        
        if (iter_prob == 1):
            denominator = n - 1 + d_in * N
            local_eq = []
            for j in range(len(I_n1)):
                local_eq.append((I_n1[j] + d_in) / denominator)
            w = (random.choices(N_I, weights=local_eq))[0]
            G_input.add_edge(i, w)

        if (iter_prob == 2):
            denominator_1 = n - 1 + d_in * N
            denominator_2 = n - 1 + d_out * N
            local_eq = []
            for j in range(len(I_n1)):
                local_eq.append(((I_n1[j] + d_in) / denominator_1) * ((O_n1[j] + d_out) / denominator_2))
            w = (random.choices(N_I, weights=local_eq))[0]
            u = (random.choices(N_I, weights=local_eq))[0]
            G_input.add_edge(u, w)
        
        if (iter_prob == 3):
            denominator = n - 1 + d_out * N
            local_eq = []
            for j in range(len(O_n1)):
                local_eq.append((O_n1[j] + d_out) / denominator)
            w = (random.choices(N_O, weights=local_eq))[0]
            G_input.add_edge(w, i)

    return G_input

In [8]:
"""
Ячейка отвечает за генерацию и тестирование графа.
"""

data_abg = {
    'Source': [1, 2, 3],
    'Target': [2, 3, 1],
}

row_labels = [1, 2, 3]

ABG_graph = pd.DataFrame(data=data_abg, index=row_labels)

G_abg = nx.DiGraph()
G_abg.add_edges_from(ABG_graph.values.tolist())

num_nodes = 3

if (False):
    G_abg_1 = gen_graph_ABG(G_abg, num_iterations = 10000, alpha = 0.5, beta = 0.4, d_in = 0.1, d_out = 0.1)

<span style="color:orange">
    
## Graph generation ##

In [11]:
def gen_save_CA(G_input: nx.Graph, num_nodes: int, num_neigh: int, blocks: int, folder_name: str) -> nx.Graph:
    """
    Генерация графа до половины времени по схеме CA.
    С автоматическим сохранением снимков графа.
    """
    my_path = os.path.abspath("") + "/.."
    for t in range(0, blocks):
        G_input = gen_graph_CA(G_input, num_nodes, num_neigh)
        # pr[t] = list((nx.pagerank(G_init)).values())[-num_nodes:-1]
        (nx.to_pandas_edgelist(G_input)).to_csv(my_path + "/Data_postproc/" + folder_name + "/Graph_CA" \
                                               + str(t) + "_part.csv", index=False)
    return G_input



def gen_save_PA(G_input: nx.Graph, num_nodes: int, num_neigh: int, blocks: int, folder_name: str) -> nx.Graph:
    """
    Генерация графа до половины времени по схеме PA.
    С автоматическим сохранением снимков графа.
    """
    my_path = os.path.abspath("") + "/.."
    for t in range(0, blocks):
        G_input = gen_graph_PA(G_input, num_nodes, num_neigh)
        # pr[t] = list((nx.pagerank(G_init)).values())[-num_nodes:-1]
        (nx.to_pandas_edgelist(G_input)).to_csv(my_path + "/Data_postproc/" + folder_name + "/Graph_PA" \
                                               + str(t) + "_part.csv", index=False)
    return G_input


def gen_save_ABG(G_input: nx.DiGraph, blocks: int, folder_name: str, param: list) -> nx.DiGraph:
    """
    Генерация графа до половины времени по схеме ABG.
    С автоматическим сохранением снимков графа.
    param = [num_iterations, alpha, beta, d_in, d_out]
    """
    
    num_iterations = param[0]
    alpha = param[1]
    beta = param[2]
    d_in = param[3]
    d_out = param[4]
    my_path = os.path.abspath("") + "/.."
    for t in range(0, blocks):
        G_input = gen_graph_ABG(G_input, num_iterations, alpha, beta, d_in, d_out)
        # pr[t] = list((nx.pagerank(G_init)).values())[-num_nodes:-1]
        (nx.to_pandas_edgelist(G_input)).to_csv(my_path + "/Data_postproc/" + folder_name + "/Graph_ABG" \
                                               + str(t) + "_part.csv", index=False)
    return G_input


def load_graph_pr(blocks: int, folder_name: str, gen_name: str) -> list:
    """
    Загрузка цепочек данных по пейджрангам по определённым блокам.
    """
    for t in range(0, blocks):
        my_path = os.path.abspath("") + "/.."
        CA_graph_df = pd.read_csv(my_path + "/Data_postproc/" + folder_name + "/Graph" + gen_name \
                                                   + str(t) + "_part.csv")
        G_init = nx.from_pandas_edgelist(CA_graph_df)
        pr[t] = list((nx.pagerank(G_init)).values())[-num_nodes:-1]
    return pr


def load_graph(blocks: int, folder_name: str, gen_name: str) -> nx.Graph:
    """
    Загрузка графа.
    """
    for t in range(0, blocks):
        my_path = os.path.abspath("") + "/.."
        CA_graph_df = pd.read_csv(my_path + "/Data_postproc/" + folder_name + "/Graph" + gen_name \
                                                   + str(t) + "_part.csv")
        G_init = nx.from_pandas_edgelist(CA_graph_df)
        pr[t] = list((nx.pagerank(G_init)).values())[-num_nodes:-1]
    return pr


def load_graph_di(t: int, folder_name: str, gen_name: str) -> nx.DiGraph:
    """
    Загрузка направленного графа.
    """
    my_path = os.path.abspath("") + "/.."
    CA_graph_df = pd.read_csv(my_path + "/Data_postproc/" + folder_name + "/Graph" + gen_name \
                                                   + str(t) + "_part.csv")
    G_init = nx.from_pandas_edgelist(CA_graph_df, source='source', target='target', \
                                   create_using=nx.DiGraph())
    return G_init

In [10]:
"""
Ячейка отвечает за генерацию и тестирование графа.
"""

data_abg = {
    'Source': [1, 2, 3],
    'Target': [2, 3, 1],
}

row_labels = [1, 2, 3]

ABG_graph = pd.DataFrame(data=data_abg, index=row_labels)

G_abg = nx.DiGraph()
G_abg.add_edges_from(ABG_graph.values.tolist())


blocks = 10
pr = []
param = [10000, 0.5, 0.4, 0.1, 0.1]

folder_name = "ABG_graph"


# gen_save_ABG(G_abg, blocks, folder_name, param)

<span style="color:orange">
    
## Graph analysis CA + PA ##

In [11]:
print(len(pr[19]))

IndexError: list index out of range

In [None]:
x_gr = list()
y_gr = list()
for i in range(blocks):
    x = pm.hill(pr[i])
    eye_val = (pm.eye_ball(x))[0]
    x_gr.append(i)
    y_gr.append(eye_val)
    print(i, eye_val)

In [None]:
plt.plot(x_gr, y_gr, marker='o', markersize=7)
plt.xlabel('Временной шаг') #Хвостовые ингде
plt.ylabel('EVI') #Подпись для оси y
plt.title('Зависимость EVI от временного шага') #Название
plt.show()

In [12]:
med = []
for i in range(30):
    med.append(np.median(pr[i]))

plt.plot(x_gr, med, marker='o', markersize=7)
plt.xlabel('Временной блок') #Хвостовые ингде
plt.ylabel('Медиана данных в блоке') #Подпись для оси y
plt.title('Медиана данных в блоке от времени') #Название
plt.show()

IndexError: list index out of range

In [13]:
def phillips_loretan(x1, x2):
    """
    Функция теста phillips_loretan для двух последовательностей
    """
    tail_ind_1, tail_num_1 = pm.eye_ball(pm.hill(x1))
    tail_ind_2, tail_num_2 = pm.eye_ball(pm.hill(x2))
    s = (tail_num_1*(tail_ind_2)**2 * (tail_ind_1/tail_ind_2 - 1)**2)/ \
    (tail_ind_1**2 + (tail_num_1/tail_num_2)*tail_ind_2**2)
    return s

In [14]:
"""
Тесты Филлипса Лоретана для разных блоков.
"""

group_1 = []
for i in range(0, 10):
    for j in range(0, 10):
        # print(i, j, phillips_loretan(pr[i], pr[j]))
        group_1.append(phillips_loretan(pr[i], pr[j]))

group_1_2 = []
# print('\n')
for i in range(0, 10):
    for j in range(10, 20):
        # print(i, j, phillips_loretan(pr[i], pr[j]))
        group_1_2.append(phillips_loretan(pr[i], pr[j]))

group_2 = []
# print('\n')
for i in range(10, 20):
    for j in range(10, 20):
        # print(i, j, phillips_loretan(pr[i], pr[j]))
        group_2.append(phillips_loretan(pr[i], pr[j]))

print('group_1 \n', min(group_1), max(group_1), '\n')
print('group_2 \n', min(group_2), max(group_2), '\n')
print('group_1_2 \n', min(group_1_2), max(group_1_2), '\n')

IndexError: list index out of range

In [15]:
phillips_loretan(pr[14], pr[15])

IndexError: list index out of range

<span style="color:orange">
    
## Graph analysis ABG ##

In [12]:
blocks = 10
pr = []
param = [10000, 0.5, 0.4, 0.1, 0.1]

folder_name = "ABG_graph"
gen_name = '_ABG'
t = 1

G_ABG_1 = load_graph_di(t, folder_name, gen_name)

In [18]:
print(G_ABG_1)
comm = nx.community.louvain_communities(G_ABG_1, resolution=1)
comm = sorted(comm, key=len, reverse=True)

DiGraph with 8365 nodes and 12415 edges


In [19]:
print(len(comm))
for i in range(10):
    print(i, len(comm[i]))

1971
0 351
1 333
2 325
3 282
4 63
5 46
6 41
7 38
8 38
9 37


In [74]:
in_data = pd.DataFrame(data = G_ABG_1.in_degree(), columns=['node', 'node_degree'])
for i in range(5):
    ser_comm = pd.DataFrame(data=list(comm[i]), columns=['node'])
    print('\n', i)
    print(pd.merge(ser_comm, in_data).sort_values(by = 'node_degree', ascending = False)[0:5])


 0
     node  node_degree
0       3         1063
199   516            9
126   320            7
64   2217            5
309  9092            2

 1
     node  node_degree
1       1          856
122   374           26
68    218            9
19   1098            9
258  1801            8

 2
     node  node_degree
0       0          727
30     90           22
100   298           14
153  1494            7
197  2659            4

 3
     node  node_degree
0       2          730
22     67           91
23     77           21
231  1850            5
212  7903            3

 4
    node  node_degree
49    99          153
23  2858            1
0   1281            0
46  2528            0
34   323            0


In [77]:
print(in_data.sort_values(by = 'node_degree', ascending = False)[0:20])

     node  node_degree
4       3         1063
0       1          856
1       2          730
2       0          727
13     99          153
6      50          123
11    135           94
115    67           91
29    285           85
165    91           82
21     27           81
323   270           72
20     47           72
237   973           64
18    361           60
270    30           60
15    377           59
9      16           56
72    206           47
90    235           47


<span style="color:orange">
    
## Old code ##

In [None]:
# for t in range(0, blocks//2):
#     G_init = gen_graph_CA(G_init, num_nodes, num_neigh)
#     pr[t] = list((nx.pagerank(G_init)).values())[-num_nodes:-1]
#     (nx.to_pandas_edgelist(G_init)).to_csv(my_path + "/Data_postproc" + "/Big_graph" + "/CA_PA_" \
#                                                + str(t) + "_nodes" + ".csv", index=False)


# for t in range(0, blocks//2):
#     my_path = os.path.abspath("") + "/.."
#     CA_graph_df = pd.read_csv(my_path + "/Data_postproc" + "/Big_graph" + "/CA_PA_" \
#                                                + str(t) + "_nodes" + ".csv")
#     G_init = nx.from_pandas_edgelist(CA_graph_df)
#     pr[t] = list((nx.pagerank(G_init)).values())[-num_nodes:-1]

In [6]:
# for i in range(len(edges_ca['source'])):
#     print(i, edges_ca[edges_ca['source'] == i].size)
# print(edges_ca[edges_ca['source'] == 1])

In [7]:
# data = {
#     'Source': [1, 2],
#     'Target': [2, 1],
#     'Node_degree': [1, 1]
# }

# row_labels = [1, 2]

# PA_graph = pd.DataFrame(data=data, index=row_labels)

# flg_PA = 0

# l = []
# if(flg_PA == 1):
#     for i in tqdm(range(3, 10000)):
#         k = (random.choices(PA_graph['Source'].values, weights=PA_graph['Node_degree'].values))[0]
#         if (i == 3):
#             l = [PA_graph['Source'].values, PA_graph['Node_degree'].values]
#         # print(k)
#         PA_graph.loc[i] = [i, k, 1]
#         PA_graph['Node_degree'][k] += 1

# print(l)

In [49]:
# генерация графа CA старая версия
# 
# if(flg_CA == 1):
#     for i in tqdm(range(4, num_nodes_ca)):
#         local_calst = list(nx.clustering(G_ca).values())
#         for j in range(len(local_calst)):
#             local_calst[j] += 0.001
#         k = []
#         for i1 in range(num_neigh):
#             k.append((random.choices(list(nx.clustering(G_ca).keys()), weights=local_calst))[0])
#         for i1 in range(num_neigh):
#             G_ca.add_edge(k[i1], i)
