In [4]:
import networkx as nx
import random
import heapq
import matplotlib.pyplot as plt
import numpy as np
import time
from tqdm import tqdm
import pandas as pd

In [5]:

def average_edge_probability(G):
    """ Tính xác suất trung bình của các cạnh trong đồ thị G. """
    total_probability = sum(nx.get_edge_attributes(G, 'probability').values())
    num_edges = G.number_of_edges()
    return total_probability / num_edges if num_edges > 0 else 0

def calculate_edge_density_v2(G):
    """Tính mật độ cạnh kỳ vọng của đồ thị G. τ"""
    num_vertices = len(G.nodes())
    num_possible_edges = num_vertices * (num_vertices - 1) if num_vertices > 1 else 1
    sum_weighted_probabilities = sum(G[u][v]['weight'] * G[u][v]['probability'] for u, v in G.edges())
    return sum_weighted_probabilities / num_possible_edges

def expected_degree_out(G, v):
    return sum(G[v][w]['weight'] *G[v][w]['probability'] for w in G.successors(v) if w in G)

def expected_degree_in(G, v):
    return sum(G[u][v]['weight'] *G[u][v]['probability'] for u in G.predecessors(v) if u in G)

# Hàm tính mật độ mong đợi
def expected_density_v3(G, S, T):
    if G.number_of_edges() == 0:
        return 0
    probability_sum = sum(G[u][v]['weight'] * G[u][v]['probability'] for u, v in G.edges() if u in S and v in T)
    return probability_sum / (len(S) * len(T))**0.5



# Hàm tính xác suất trung bình của các cạnh trong đồ thị
def average_edge_probability(G):
    total_probability = sum(nx.get_edge_attributes(G, 'probability').values())
    num_edges = G.number_of_edges()
    return total_probability / num_edges if num_edges > 0 else 0

def weighted_average_edge_probability(G):
    total_weighted_probability = sum(G[u][v]['weight'] * G[u][v]['probability'] for u, v in G.edges())  
    num_edges = G.number_of_edges()
    return total_weighted_probability / num_edges if num_edges > 0 else 0


def greedy_approximation(G, c, S, T):
    H = G.copy()
    best_graph = H.copy()
    S_temp = S.copy()
    T_temp = T.copy()    
    highest_density = expected_density_v3(H, S_temp, T_temp)
    
    num_iterations = len(S_temp) + len(T_temp)  # Tổng số đỉnh ban đầu trong cả hai tập
    with tqdm(total=num_iterations, desc="Processing", unit="node") as pbar:
        while S_temp and T_temp:
            i_min = min(S_temp, key=lambda i: expected_degree_out(H, i))
            d_S = expected_degree_out(H, i_min)

            j_min = min(T_temp, key=lambda j: expected_degree_in(H, j))
            d_T = expected_degree_in(H, j_min)
            
            if c * d_S <= d_T / c:
                # Loại bỏ i_min khỏi S_temp, nhưng giữ lại trong T_temp nếu có
                S_temp.remove(i_min)
                if i_min not in T_temp:  # Nếu i_min không có trong T_temp, loại nó khỏi đồ thị
                    H.remove_node(i_min)
                else:
                    # Nếu i_min vẫn còn trong T_temp, chỉ loại bỏ các cạnh đi ra từ i_min
                    for w in list(H.successors(i_min)):
                        if w in T_temp:
                            H.remove_edge(i_min, w)
            else:
                # Loại bỏ j_min khỏi T_temp, nhưng giữ lại trong S_temp nếu có
                T_temp.remove(j_min)
                if j_min not in S_temp:  # Nếu j_min không có trong S_temp, loại nó khỏi đồ thị
                    H.remove_node(j_min)
                else:
                    # Nếu j_min vẫn còn trong S_temp, chỉ loại bỏ các cạnh đi vào j_min
                    for u in list(H.predecessors(j_min)):
                        if u in S_temp:
                            H.remove_edge(u, j_min)
            
            current_density = expected_density_v3(H, S_temp, T_temp)
            
            # Cập nhật lại S_temp và T_temp với những đỉnh hiện có trong H
            S_temp = {u for u in S_temp if u in H}
            T_temp = {v for v in T_temp if v in H}
            
            if current_density > highest_density:
                highest_density = current_density
                best_graph = H.copy()  # Lưu bản sao của H với mật độ cao nhất

            if not S_temp or not T_temp:
                break
            
            pbar.update(1)  # Cập nhật tiến trình mỗi khi một đỉnh được loại bỏ
    
    return best_graph


# Facebook

In [6]:
# Đọc đồ thị từ file và gán xác suất ngẫu nhiên cho các cạnh
random.seed(99)
G = nx.DiGraph()

with open('data/facebook_combined.txt', 'r') as file:
    for line in file:
        if line.startswith('#'):
            continue
        source, target = map(int, line.split())
        probability = random.random()  # Xác suất ngẫu nhiên giữa 0 và 1
        weight = random.random()
        if random.choice([True, False]):
            G.add_edge(source, target, probability=probability, weight=weight)
        else:
            G.add_edge(target, source, probability=probability, weight=weight)
        

print("Number of nodes:", G.number_of_nodes())
print("Number of edges:", G.number_of_edges())
S = set()
T = set()
for u, v in G.edges():
    S.add(u)
    T.add(v)


# Optional: Print some edges with their attributes to verify
# for u, v, data in G.edges(data=True):
#     print(f"Edge ({u}, {v}) - Probability: {data['probability']}, Weight: {data['weight']}")


# Lấy các giá trị xác suất từ các cạnh
probabilities = [G[u][v]['probability'] for u, v in G.edges()]
weights = [G[u][v]['weight'] for u, v in G.edges()]
# Tính giá trị trung bình
mean_probability = np.mean(probabilities)
mean_weight = np.mean(weights)


# Tính độ lệch chuẩn
std_deviation = np.std(probabilities)
std_weight = np.std(weights)

print("Mật độ cạnh kì vọng của đồ thị là: ", calculate_edge_density_v2(G))
print("Độ lệch chuẩn xác xuất :", std_deviation)
print("Độ lệch chuẩn trọng số :",std_weight)
print("Giá trị cạnh trung bình của đồ thị protein579138:", mean_probability)
print("Trọng số cạnh trung bình của đồ thị là:",mean_weight)
print("Trung bình trọng số xác xuất :",weighted_average_edge_probability(G))



Number of nodes: 4039
Number of edges: 88234
Mật độ cạnh kì vọng của đồ thị là:  0.0013468005287093304
Độ lệch chuẩn xác xuất : 0.2885560933098177
Độ lệch chuẩn trọng số : 0.2891885145847438
Giá trị cạnh trung bình của đồ thị protein579138: 0.49955353391381374
Trọng số cạnh trung bình của đồ thị là: 0.4992135267039643
Trung bình trọng số xác xuất : 0.2489473330074043


In [7]:
c = len(S) / len(T)
uds_wiki_vote = greedy_approximation(G, c, S, T)

S = set()
T = set()
for u, v in uds_wiki_vote.edges():
    S.add(u)
    T.add(v)
# Lấy các giá trị xác suất từ các cạnh
probabilities = [uds_wiki_vote[u][v]['probability'] for u, v in uds_wiki_vote.edges()]
weights = [uds_wiki_vote[u][v]['weight'] for u, v in uds_wiki_vote.edges()]

# Tính giá trị trung bình
mean_probability = np.mean(probabilities)
mean_weight = np.mean(weights)


# Tính độ lệch chuẩn
std_deviation = np.std(probabilities)
std_weight = np.std(weights)

print("Mật độ kì vọng của đồ thị con do thuật toán obs sinh ra là:", expected_density_v3(uds_wiki_vote, S, T))
print("Mật độ cạnh kì vọng của đồ thị con được tạo ra bởi thuật toán uds là:",calculate_edge_density_v2(uds_wiki_vote))
print("Xác xuất cạnh trung bình của đồ thị con được tạo ra bởi thuật toán uds là:",average_edge_probability(uds_wiki_vote))
print("Độ lệch chuẩn xác xuất:", std_deviation)
print("Độ lệch chuẩn trọng số:", std_weight)
print("Trọng số cạnh trung bình của thuật toán obs là:",mean_weight)
print("số đỉnh của uds_wiki_vote:", len(uds_wiki_vote.nodes))
print("Số cạnh của uds_wiki_vote:", len(uds_wiki_vote.edges))
print("Trung bình trọng số xác xuất :",weighted_average_edge_probability(uds_wiki_vote))



Processing: 100%|███████████████████████████████████████████████████████████████▉| 7917/7919 [57:29<00:00,  2.29node/s]


Mật độ kì vọng của đồ thị con do thuật toán obs sinh ra là: 19.364040298891744
Mật độ cạnh kì vọng của đồ thị con được tạo ra bởi thuật toán uds là: 0.09283551954348453
Xác xuất cạnh trung bình của đồ thị con được tạo ra bởi thuật toán uds là: 0.5026813185759257
Độ lệch chuẩn xác xuất: 0.2875696292033621
Độ lệch chuẩn trọng số: 0.2902461143813888
Trọng số cạnh trung bình của thuật toán obs là: 0.4995870144483069
số đỉnh của uds_wiki_vote: 205
Số cạnh của uds_wiki_vote: 15480
Trung bình trọng số xác xuất : 0.2507998338054601
