In [1]:
import networkx as nx
import pandas as pd
import matplotlib.pyplot as plt
import urllib.request
import io
import numpy as np


In [2]:
def fetch_and_parse_dataset():
    # Tải và xử lý dữ liệu mạng xã hội từ SNAP
    dataset_url = 'https://snap.stanford.edu/data/facebook_combined.txt.gz'
    response = urllib.request.urlopen(dataset_url)
    raw_data = response.read()

    network_df = pd.read_csv(io.BytesIO(raw_data), compression='gzip', sep=' ', names=['node_a', 'node_b'])
    return network_df


In [3]:
def compute_graph_metrics(graph):
    # Tính toán các chỉ số của đồ thị
    graph_stats = {}
    graph_stats['total_nodes'] = graph.number_of_nodes()
    graph_stats['total_edges'] = graph.number_of_edges()

    graph_stats['network_density'] = nx.density(graph)

    graph_stats['mean_degree'] = np.mean([deg for node, deg in graph.degree()])
    node_degrees = dict(graph.degree())
    graph_stats['degree_avg'] = sum(node_degrees.values()) / len(node_degrees)
    graph_stats['degree_max'] = max(node_degrees.values())
    graph_stats['all_degrees'] = node_degrees

    degree_centrality = nx.degree_centrality(graph)
    graph_stats['degree_centrality'] = {
        'values': degree_centrality,
        'max_value': max(degree_centrality.values()),
        'mean_value': sum(degree_centrality.values()) / len(degree_centrality),
        'max_node': max(degree_centrality, key=degree_centrality.get)
    }

    betweenness_centrality = nx.betweenness_centrality(graph)
    graph_stats['betweenness_centrality'] = {
        'values': betweenness_centrality,
        'max_value': max(betweenness_centrality.values()),
        'mean_value': sum(betweenness_centrality.values()) / len(betweenness_centrality),
        'max_node': max(betweenness_centrality, key=betweenness_centrality.get)
    }

    closeness_centrality = nx.closeness_centrality(graph)
    graph_stats['closeness_centrality'] = {
        'values': closeness_centrality,
        'max_value': max(closeness_centrality.values()),
        'mean_value': sum(closeness_centrality.values()) / len(closeness_centrality),
        'max_node': max(closeness_centrality, key=closeness_centrality.get)
    }

    page_rank = nx.pagerank(graph, alpha=0.85)
    graph_stats['page_rank'] = {
        'values': page_rank,
        'max_value': max(page_rank.values()),
        'mean_value': sum(page_rank.values()) / len(page_rank),
        'max_node': max(page_rank, key=page_rank.get)
    }

    return graph_stats


In [4]:
def display_metrics_details(graph_metrics):
    # In thông tin chi tiết của các chỉ số
    print("\n======== KẾT QUẢ PHÂN TÍCH ĐỒ THỊ ========= ")
    print("1. Thông tin cơ bản")
    print(f"- Số lượng nút: {graph_metrics['total_nodes']}")
    print(f"- Số lượng cạnh: {graph_metrics['total_edges']}")
    print(f"- Mật độ mạng: {graph_metrics['network_density']}")
    print(f"- Độ trung bình: {graph_metrics['mean_degree']}")
    print(f"- Độ lớn nhất: {graph_metrics['degree_max']}")

    centrality_metrics = {
        'Degree Centrality': 'degree_centrality',
        'Betweenness Centrality': 'betweenness_centrality',
        'Closeness Centrality': 'closeness_centrality',
        'PageRank': 'page_rank'
    }

    print("2. Các chỉ số Centrality")
    for metric_name, key in centrality_metrics.items():
        print(f"- {metric_name}")
        print(f"  - Giá trị lớn nhất: {graph_metrics[key]['max_value']:.4f}")
        print(f"  - Giá trị trung bình: {graph_metrics[key]['mean_value']:.4f}")
        print(f"  - Node có giá trị cao nhất: {graph_metrics[key]['max_node']}")

In [5]:

# Chạy chương trình
network_data = fetch_and_parse_dataset()
network_graph = nx.from_pandas_edgelist(network_data, 'node_a', 'node_b')
network_metrics = compute_graph_metrics(network_graph)
display_metrics_details(network_metrics)


1. Thông tin cơ bản
- Số lượng nút: 4039
- Số lượng cạnh: 88234
- Mật độ mạng: 0.010819963503439287
- Độ trung bình: 43.69101262688784
- Độ lớn nhất: 1045
2. Các chỉ số Centrality
- Degree Centrality
  - Giá trị lớn nhất: 0.2588
  - Giá trị trung bình: 0.0108
  - Node có giá trị cao nhất: 107
- Betweenness Centrality
  - Giá trị lớn nhất: 0.4805
  - Giá trị trung bình: 0.0007
  - Node có giá trị cao nhất: 107
- Closeness Centrality
  - Giá trị lớn nhất: 0.4597
  - Giá trị trung bình: 0.2762
  - Node có giá trị cao nhất: 107
- PageRank
  - Giá trị lớn nhất: 0.0076
  - Giá trị trung bình: 0.0002
  - Node có giá trị cao nhất: 3437
