In [None]:
import networkx as  nx
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Giới thiệu về karate_club_graph
Đồ thị "karate_club_graph()" được cung cấp bởi thư viện NetworkX và đại diện cho mạng xã hội của một câu lạc bộ karate. Một số chi tiết chính về nó:

- Chứa 34 nút (thành viên của câu lạc bộ karate)
- Có 78 cạnh (quan hệ bạn bè giữa các thành viên)
- Đây là tập dữ liệu được nghiên cứu nhiều trong lĩnh vực phân tích mạng, thường được sử dụng như một ví dụ để minh họa các số đo và thuật toán mạng.

Tập dữ liệu này cung cấp một mạng xã hội thực tế, quy mô nhỏ, có thể được sử dụng để thực hành và khám phá các kỹ thuật phân tích mạng bằng Python và NetworkX.


In [None]:
# Load dataset
G = nx.karate_club_graph()

In [None]:
# In thông tin cơ bản
print(f"Số nút: {G.number_of_nodes()}")
print(f"Số cạnh: {G.number_of_edges()}")

In [None]:
# Vẽ đồ thị
# spring_layout
# circular_layout
# kamada_kawai_layout
# fruchterman_reingold_layout
# shell_layout
# spectral_layout
pos = nx.circular_layout(G)
plt.figure(figsize=(10,10))
nx.draw(G, pos, with_labels=True, node_size=500, edge_color='lightgray')
plt.title("Karate Club Network")
plt.show()

# 1. Tính mật độ (density)

In [None]:
density = nx.density(G)
density

# 2. Tính degree centrality
Số đo bậc đánh giá tầm quan trọng dựa trên số lượng kết nối của một nút. \\
Số đo bậc là tỷ lệ các nút trong mạng mà một nút được kết nối. \\
Một nút có càng nhiều kết nối, thì tỷ lệ các nút mà chúng được kết nối sẽ càng cao, vì vậy số lượng kết nối và số đo bậc thực sự có thể được sử dụng thay thế cho nhau.

In [None]:
deg_cent = nx.degree_centrality(G)
deg_cent

In [None]:
degcent_df = pd.DataFrame(deg_cent, index=[0]).T
degcent_df.columns = ['degree_centrality']
print(degcent_df)

In [None]:
degcent_df = degcent_df.sort_values(by='degree_centrality', ascending=False)
degcent_df.head()

In [None]:
title = 'Top 20:'
_ = degcent_df[0:20].plot.barh(title=title, figsize=(12, 7))
plt.gca().invert_yaxis()

# 3. Tính betweenness centrality

Số đo trung tâm (Betweenness centrality) liên quan đến cách thông tin lưu thông qua một mạng lưới. Nếu một nút nằm giữa hai nút khác, thì thông tin từ bất kỳ nút nào trong hai nút đó đều phải đi qua nút nằm giữa chúng. Thông tin di chuyển qua nút nằm ở giữa. Nút đó có thể được coi là một nút thắt cổ chai, hoặc là một vị trí thuận lợi. Việc nắm giữ thông tin mà người khác cần có thể mang lại lợi thế chiến lược. \\

Tuy nhiên, thông thường, các nút có số đo trung tâm cao nằm giữa nhiều nút, không chỉ giữa hai nút. Điều này thường được thấy trong một mạng lưới khởi nghiệp, nơi một nút trung tâm được kết nối với hàng tá nút khác. Hãy lấy ví dụ về một người có ảnh hưởng trên mạng xã hội. Người đó có thể được kết nối với 22 triệu người theo dõi, nhưng những người theo dõi đó có thể không biết nhau. Chắc chắn họ biết người có ảnh hưởng (hoặc là một bot không chính thống). Người có ảnh hưởng đó là một nút trung tâm và số đo trung tâm sẽ cho thấy điều đó. \\

Trước khi chúng ta xem cách tính số đo trung tâm, cần lưu ý rằng việc tính toán số đo trung tâm rất tốn thời gian đối với các mạng lưới lớn hoặc dày đặc. Nếu mạng lưới của bạn quá lớn hoặc dày đặc và khiến việc tính toán số đo trung tâm quá chậm đến mức không còn hữu ích nữa, hãy cân nhắc sử dụng một số đo khác để tính mức độ quan trọng.

In [None]:
betwcent = nx.betweenness_centrality(G)
betwcent

In [None]:
# Chuyển đổi từ dictionary `betwcent` sang DataFrame và chuyển đổi index thành các keys của dictionary
betwcent_df = pd.DataFrame(betwcent, index=[0]).T

# Đặt tên cột duy nhất là 'betweenness_centrality' để biểu diễn giá trị độ trung tâm trung gian
betwcent_df.columns = ['betweenness_centrality']

# Sắp xếp các hàng trong DataFrame theo giá trị cột 'betweenness_centrality' theo thứ tự giảm dần
betwcent_df.sort_values('betweenness_centrality', inplace=True, ascending=False)

# Hiển thị 5 hàng đầu tiên trong DataFrame sau khi sắp xếp
betwcent_df.head()

In [None]:
# Đặt tiêu đề biểu đồ là 'Top 20'
title = 'Top 20'

# Tạo biểu đồ cột ngang (barh) với 20 tài khoản đầu tiên trong DataFrame `betwcent_df`, với tiêu đề và kích thước (12, 7)
_ = betwcent_df[0:20].plot.barh(title=title, figsize=(12, 7))

# Đảo ngược trục y để các giá trị cao hơn nằm trên cùng
plt.gca().invert_yaxis()


# 4.  Tính closeness centrality

Số đo gần gũi (Closeness centrality) liên quan đến mức độ gần của các nút với các nút khác, và điều đó liên quan đến một khái niệm được gọi là đường dẫn ngắn nhất (shortest path). Tuy nhiên, việc tính toán đường đi ngắn nhất lại rất tốn nhiều tính toán (và chậm) đối với các mạng lưới lớn hoặc dày đặc.
Do đó, tính số đo gần gũi thậm chí còn chậm hơn tính số đo trung gian (betweenness centrality). Nếu việc nhận kết quả từ tính số đo gần gũi quá chậm do quy mô và mật độ của mạng lưới, có thể chọn một số đo khác để đánh giá tầm quan trọng.

In [None]:
closecent = nx.closeness_centrality(G)
closecent

In [None]:
# Chuyển đổi từ dictionary `closecent` sang DataFrame và chuyển đổi index thành các keys của dictionary
closecent_df = pd.DataFrame(closecent, index=[0]).T

# Đặt tên cột duy nhất là 'closeness_centrality' để biểu diễn giá trị độ trung tâm gần
closecent_df.columns = ['closeness_centrality']

# Sắp xếp các hàng trong DataFrame theo giá trị cột 'closeness_centrality' theo thứ tự giảm dần
closecent_df.sort_values('closeness_centrality', inplace=True, ascending=False)

# Hiển thị 5 hàng đầu tiên trong DataFrame sau khi sắp xếp
closecent_df.head()

In [None]:
# Đặt tiêu đề biểu đồ là 'Top 20'
title = 'Top 20'

# Tạo biểu đồ cột ngang (barh) với 20 tài khoản đầu tiên trong DataFrame `betwcent_df`, với tiêu đề và kích thước (12, 7)
_ = closecent_df[0:20].plot.barh(title=title, figsize=(12, 7))

# Đảo ngược trục y để các giá trị cao hơn nằm trên cùng
plt.gca().invert_yaxis()

# 2.5.4 PageRank
Công thức toán học PageRank tính đến số lượng liên kết đến và đi ra của không chỉ một nút đang xét mà còn cả các nút liên kết.  \\
PageRank là một thuật toán rất nhanh, phù hợp cho các mạng lưới lớn và nhỏ, và rất hữu ích như một thước đo tầm quan trọng. PageRank hữu ích ngay cả đối với các mạng lưới lớn và dày đặc. \\
Có thể tính toán điểm PageRank của mỗi nút trong mạng.

\\
Pagerank là một thuật toán được phát triển bởi Google để xác định tầm quan trọng của các trang web trong mạng lưới Internet. Ý nghĩa chính của pagerank là:

1. Đo lường uy tín và độ quan trọng của một nút (trang web) trong một mạng lưới.
2. Được tính toán dựa trên số lượng và chất lượng các liên kết hướng vào một nút.
3. Các nút có nhiều liên kết hướng vào (từ các nút quan trọng khác) sẽ có pagerank cao hơn.
4. Pagerank là một số từ 0 đến 1, thể hiện mức độ quan trọng tương đối của nút so với các nút khác trong mạng.
5. Pagerank được sử dụng rộng rãi trong các công cụ tìm kiếm để xếp hạng và hiển thị các trang web quan trọng nhất liên quan đến một truy vấn.

Tóm lại, pagerank cung cấp một cách đo lường định lượng sự quan trọng và uy tín của các nút (trang web) dựa trên cấu trúc liên kết của mạng. Đây là một kỹ thuật phân tích mạng quan trọng được ứng dụng rộng rãi trong thực tế.

In [None]:
pagerank = nx.pagerank(G)
pagerank

In [None]:
pagerank_df = pd.DataFrame(pagerank, index=[0]).T
pagerank_df.columns = ['pagerank']
pagerank_df.sort_values('pagerank', inplace=True, ascending=False)
pagerank_df.head()

In [None]:
# Đặt tiêu đề biểu đồ là 'Top 20'
title = 'Top 20'

# Tạo biểu đồ cột ngang (barh) với 20 tài khoản đầu tiên trong DataFrame `betwcent_df`, với tiêu đề và kích thước (12, 7)
_ = pagerank_df[0:20].plot.barh(title=title, figsize=(12, 7))

# Đảo ngược trục y để các giá trị cao hơn nằm trên cùng
plt.gca().invert_yaxis()

In [None]:
# Calculate basic network metrics
density = nx.density(G)
degrees = dict(G.degree())
avg_degree = sum(degrees.values()) / len(G)
adj_matrix = nx.adjacency_matrix(G).todense()

# Visualize degree distribution
plt.figure(figsize=(8, 6))
plt.hist(list(degrees.values()), bins=20)
plt.title('Degree Distribution')
plt.xlabel('Degree')
plt.ylabel('Count')
plt.show()

# Calculate centrality measures
deg_cent = nx.degree_centrality(G)
close_cent = nx.closeness_centrality(G)
bet_cent = nx.betweenness_centrality(G)

# Create a summary DataFrame
summary = pd.DataFrame({
    'node': list(G.nodes()),
    'degree': [degrees[node] for node in G.nodes()],
    'deg_cent': [deg_cent[node] for node in G.nodes()],
    'close_cent': [close_cent[node] for node in G.nodes()],
    'bet_cent': [bet_cent[node] for node in G.nodes()]
})
summary = summary.sort_values('bet_cent', ascending=False)
print(summary.head())

# Visualize the network
pos = nx.spring_layout(G)
plt.figure(figsize=(12, 12))
nx.draw(G, pos, with_labels=True, node_size=[v*1000 for v in deg_cent.values()],
       cmap=plt.cm.Blues)
plt.title('Karate Club Network')
plt.show()