# 生成数据

In [1]:
import random
import numpy as np

# 生成 100 个唯一的 10 位数字 UID
uids = [str(random.randint(10**9, 10**10 - 1)) for _ in range(200)]

# 生成 200 组，每组 5 个 UID，放回抽样
weights = random.choices([1, 4, 10], k=100)
weights = [w / sum(weights) for w in weights]
sampled_data = [np.random.choice(uids[:100], size=5, p=weights, replace=False) for _ in range(200)]
sampled_data1 = [np.random.choice(uids[100:], size=5, p=weights, replace=False) for _ in range(200)]
sampled_data.extend(sampled_data1)

data = pd.DataFrame(sampled_data, columns=['leader', 'm1', 'm2', 'm3', 'm4'])
data

data.to_csv('./team.csv', index=False)

Unnamed: 0,leader,m1,m2,m3,m4
0,8410764258,4164110863,7612964690,4594840554,5733963306
1,9986129213,1497681976,9469329277,7820955574,2694216985
2,9469329277,4134261511,5644145125,4390718794,2452424988
3,4134261511,9573232816,3034845536,3461010921,2694216985
4,3082087225,2317600076,3240116990,4594840554,5012434117
...,...,...,...,...,...
395,6534966562,8685259896,9361685281,2667933157,3714763078
396,3106825957,9689218457,2209090845,7918913445,4452283412
397,1578721532,4491347293,2750145071,1106497742,8608476983
398,1648275680,5524786239,9361685281,4318300690,5609460652


# load data

In [2]:
dtype = {'leader': str, 'm1': str, 'm2': str, 'm3': str, 'm4': str}
tdata = pd.read_csv('./team.csv', dtype=dtype)
tdata

Unnamed: 0,leader,m1,m2,m3,m4
0,8410764258,4164110863,7612964690,4594840554,5733963306
1,9986129213,1497681976,9469329277,7820955574,2694216985
2,9469329277,4134261511,5644145125,4390718794,2452424988
3,4134261511,9573232816,3034845536,3461010921,2694216985
4,3082087225,2317600076,3240116990,4594840554,5012434117
...,...,...,...,...,...
395,6534966562,8685259896,9361685281,2667933157,3714763078
396,3106825957,9689218457,2209090845,7918913445,4452283412
397,1578721532,4491347293,2750145071,1106497742,8608476983
398,1648275680,5524786239,9361685281,4318300690,5609460652


In [3]:
def get_member(data: DataFrame, member: str):
    m = tdata[['leader', 'm1']]
    m.columns = ['l', 'm']
    return m

m1 = get_member(tdata, 'm1')
m2 = get_member(tdata, 'm2')
m3 = get_member(tdata, 'm3')
m4 = get_member(tdata, 'm4')


tmdata = pd.concat([m1, m2, m3, m4])
tmdata

Unnamed: 0,l,m
0,8410764258,4164110863
1,9986129213,1497681976
2,9469329277,4134261511
3,4134261511,9573232816
4,3082087225,2317600076
...,...,...
395,6534966562,8685259896
396,3106825957,9689218457
397,1578721532,4491347293
398,1648275680,5524786239


In [4]:
import sys
sys.path.append('d:/SynologyDrive/Sincetimes/workscripts')

import networkx as nx
from graph import NXGraph
# 使用jupyter lab时必须在顶部生命Notebook类型
from pyecharts.globals import CurrentConfig, NotebookType
CurrentConfig.NOTEBOOK_TYPE = NotebookType.JUPYTER_LAB

G = nx.Graph()
G.add_edges_from(tmdata.values)

In [14]:
# from pyecharts.charts import Bar
# from pyecharts import options as opts

# bar = (
#     Bar()
#     .add_xaxis(["A", "B", "C", "D", "E"])
#     .add_yaxis("Series 1", [10, 20, 30, 40, 50])
#     .set_global_opts(title_opts=opts.TitleOpts(title="Test Chart"))
# )
# bar.render_notebook()  # 在Jupyter Lab中显示

# 网络社交分析

在网络结构指标分析中，平均度（Average Degree）、聚集系数（Clustering Coefficient）和网络密度（Network Density）是三个常用的指标，它们用于描述和衡量一个网络的结构特征。

+ 平均度（Average Degree）：

    + 平均度表示网络中每个节点平均连接到多少个其他节点。它是一个反映网络中节点连接性的重要指标。平均度越高，表示网络中的节点之间连接更密切。

    + 举例：考虑一个社交网络，其中每个节点表示一个人，边表示两个人之间的友谊关系。如果平均度为10，这意味着每个人平均有10个朋友。

+ 聚集系数（Clustering Coefficient）：

    + 聚集系数衡量了网络中节点聚集在一起的程度。它表示一个节点的邻居节点之间的连接比例。聚集系数可以帮助我们理解网络中的群组结构和社交圈子。

    + 举例：在一个社交网络中，如果某个人的聚集系数很高，意味着他的朋友之间也互相认识。这可能表示他所在的社交圈子非常紧密。

+ 网络密度（Network Density）：

    + 网络密度是表示网络中实际连接的边数与可能的最大连接边数之间比例的指标。它可以帮助我们了解网络中信息传播的效率和紧密度。

    + 举例：在一个通信网络中，网络密度高可能意味着信息传播更迅速，因为大部分节点之间都有直接的通信连接。

## 基础指标

In [6]:
# 计算平均度
average_degree = sum(dict(G.degree()).values()) / len(G)
print("平均度：", average_degree)

# 计算聚集系数
clusterings = nx.clustering(G)
clusterings = sorted(clusterings.items(), key=lambda x: x[1], reverse=True)
clusterings[:10]

clustering_coefficient = nx.average_clustering(G)
print("聚集系数：", clustering_coefficient)

# 计算网络密度
density = nx.density(G)
print("网络密度：", density)

平均度： 4.770186335403727


[('6644266171', 1.0),
 ('1811694039', 1.0),
 ('1874183375', 1.0),
 ('8666512069', 1.0),
 ('4491347293', 0.38095238095238093),
 ('5644145125', 0.3333333333333333),
 ('6456279293', 0.3333333333333333),
 ('4557246556', 0.3333333333333333),
 ('1411717124', 0.3333333333333333),
 ('5013873984', 0.3333333333333333)]

聚集系数： 0.0960099252024718
网络密度： 0.02981366459627329


## N度人脉(公会会长)

In [7]:
uid = clusterings[2][0]
list(nx.neighbors(G, uid))

# N度人脉
nxg = NXGraph(G, uid)
showuids = random.sample(list(G.nodes), 3)
nxg.draw(*showuids, short_path=2, show_feature='degree', show_num=200, layout='Spring')

['1342926732', '9919830681']

2025-02-13 13:37:05.711 - MainThread - graph - INFO - graph.py - 103 - [32mlabel show feature can be ['short_path', 'degree'][0m


## 核心成员

In [8]:
# 度中心性（度的数量）
degree_centrality = nx.degree_centrality(G)
degree_centrality = sorted(degree_centrality.items(), key=lambda x: x[1], reverse=True)
degree_centrality[:5]

[('1497681976', 0.08125),
 ('9469329277', 0.08125),
 ('4134261511', 0.08125),
 ('4164110863', 0.07500000000000001),
 ('9170595974', 0.07500000000000001)]

In [9]:
# PageRank（一个网页的权重取决于指向它的其他网页的权重，以及这些指向网页的数量和质量。累计值为1）
pagerank = nx.pagerank(G)
pagerank = sorted(pagerank.items(), key=lambda x: x[1], reverse=True)
pagerank[:5]

[('1497681976', 0.015610825577776927),
 ('9469329277', 0.014651721144363014),
 ('4134261511', 0.014495936691425699),
 ('1265233527', 0.014451882220676214),
 ('2419765946', 0.014035824016989553)]

In [10]:
# Betweenness Centrality 衡量节点在图中作为其他节点之间路径的 "中介" 的重要性。一个节点的 betweenness centrality 计算其在所有最短路径中作为中介节点出现的次数。节点的 betweenness centrality 越高，表示它在图中扮演着更重要的桥梁角色。
betweenness = nx.betweenness_centrality(G)
betweenness = sorted(betweenness.items(), key=lambda x: x[1], reverse=True)
betweenness[:5]

[('1265233527', 0.02953252856225248),
 ('3240116990', 0.028083319641027494),
 ('4164110863', 0.02717928683588373),
 ('1495411425', 0.025725004980745883),
 ('1497681976', 0.02464825768317578)]

## 团（互有关系的人）

In [11]:
# 团，紧密关系圈
cliques = nx.enumerate_all_cliques(G)
for idx, clique in enumerate(cliques):
    length = len(clique)
    if length >= 4:
        print(length, clique)

4 ['9170595974', '6534966562', '8721496039', '4017672665']
4 ['9170595974', '2750145071', '7918913445', '9533227460']
4 ['9919830681', '4491347293', '2419765946', '1875380823']


In [12]:
nxg2 = NXGraph(G, *clique)
nxg2.draw(short_path=1, layout='circular-spring', show_num=10)

2025-02-13 13:37:05.867 - MainThread - graph - INFO - graph.py - 103 - [32mlabel show feature can be ['short_path', 'degree'][0m


## 核心度分析（核心团队）

核心度分析（K-core Decomposition）是一种常见的社交网络分析方法，旨在识别网络中 核心 的部分，也就是在该子图中，所有节点都至少与 k 个邻居相连。k-core 是一个包含所有度数至少为 k 的节点的子图。通过逐步删除度数小于 k 的节点，最终会得到网络中的一个 k-core。

In [13]:
kcores = nx.k_core(G, k=4)

nxg3 = NXGraph(G, *list(kcores.nodes))
nxg3.draw(short_path=0, layout='spring', show_num=20)

2025-02-13 13:37:05.991 - MainThread - graph - INFO - graph.py - 103 - [32mlabel show feature can be ['short_path', 'degree'][0m
