# <center> 基于路径的结构指标  </center>

## 什么是路径
<img src='fig\3-1.png' width='800'> 

以上图可以看成两个部分，第一部分：v1,v2,v3,v4,v5,v6组成的完全图；第二部分：v7,v8,v9的连边。

完全图：图中任意两个节点都有连边。如v1到v2,v3,v4,v5,v6都有连边。故而在完全图里面，每一对节点的之间距离都是1.即都可以通过一条边直接到达。

__路径__：点边交替序列，序列中相邻的两个点之间都有连边。往往在一个图里面，从v1到v8中的路径不止一条。如上图所示。

__最短路径$d_{ij}$__：路径中最短的一条。

## 求解最短路径
* DIJKSTRA算法          单源最短路径
* BELLMANFORO算法          
* FLOYD算法             多源节点的最短路径
* JOHNSON算法

__如果网络的规模很大，要找出网路中所有（每对节点之间的）最短路径是非常耗时，这也是基于路径算法的一个缺点，但是理论却十分完美。__

所以说基于路径的算法，理论十分完美，但是应用性却不是很强。现在一个网络动辄上千万个节点，计算起来非常耗时。

# 中心性指标

## 离心率 & 接近中心行
<img src='fig\3-2.png' width='800'> 

1. 离心率： 关注最大的距离，对于某一个单个节点，考察它与其他所有节点之间的最短路径，从而找出它与其他节点最远的距离是多少。

     例如： v1与v2,v3,v4,v5,v6的距离都是1
            与v7 距离 2
            与v8 距离 3
            与v9 距离 4
     所以v1的离心率就是4
     依次类推 v2，v3，v4，v5的离心率是4，v6的离心率是3，v7的离心率是2，v8、v9的离心率3.
     
   这样合理吗，从直观上看v6比v7更加重要。v6不仅有更多的邻居，而且离其他5个节点（v1，v2，v3，v4，v5）更加近一些。
   
   如果上述观点被大家认可，那么也就是说离心率单单考虑最大距离是不合适的。
   
   那么我们需要其他的应对的方法，比如我们不知识考虑某一条路径，比如某一条最长的距离，或者一条最短的距离。我们要去看平均的距离。考察平均的距离其实有很多方法，其中又一个方法就叫做__接近中心性__
   
2.接近中心性：考察平均距离

定义：从定义上看很简单，对于节点i来讲，要计算出它与其他所有节点的距离之和，然后再求一个倒数。
  
意思就是这个节点它距离其他节点距离越近，那么它就越接近与网络中心
   
这里提出一个__问题__：假如在一个网络里边，两个节点之间是没有联通的（即不可达），怎么办呢 

比如说把v7和v8之间的连线去掉。那么v8，v9就和这些节点都不相连了，它们的距离是不是无限大了，其实是这样的，如果这个时候，把他们的距离看成是无限大，那么在这个接近中性的指标里面，它的分母就是无限大了，它就__失效__了。为了解决这个问题，我看可以做一个__变通__。就是在$\sum_{j \not= i}d_{ij}$求和的时候，我不直接把它的距离相加，而是直接把它距离的倒数进行一个求和$\sum{i \not= j} \frac{1}{d_{ij}}$。那么这样的话就能够避免不连通的时候，对于整个节点，接近中心性的影响.

## 介数中心性
<img src='fig\3-3.png' width='800'> 

观察上图的网络，有一部分的节点处于网络中比较关键的位置，被标了红色。大家来看这个网络，它具有非常明显的社团结构，属于一个社团的节点就聚类在一起。我们画出大概的社团结构图后，就可以看见这些被标红的节点（重要节点）往往是处于不同的社团之间的。当然这里我们可以联系到之前一节课上所讲的基于社团数目的节点中心性指标。这里我们不是从它所属的社团数目来考虑，而是从__住进__的角度。
<img src='fig\3-5.png' width='800'> 
当我们去检查或者考察两个节点之间的距离的话，如下图所示，就比如说其中一个节点在这个社团A里边，而另外一个节点在B社团里面，我们要去找他们的最短路径，那么这个最短路径就一定要经过AB社团之间的重要节点。依次类图，任意两个社团A和社团B节点之间的最短路径都要经过那个重要节点（红色）。所以说红色节点所处的位置就比较重要了。
<img src='fig\3-6.png' width='800'> 

为了量化这些节点的重要性，学者们就提出了__介数中心性指标__

定义：简单来讲介数中心性就是考察节点在最短路径中的重要程度
$$ BC(i) = \sum_{i \not= s, i \not= t, s \not= t} \frac{g^i_{st}}{g_{st}}$$
考察节点i的介数中心性，我们要去统计网络里边（所有）每一对节点之间的最短路径。

注意每对节点之间所有的最短路径有多少条。 每对节点的最短路径可能不止一条。
* $g^i_{st} 从s到t且经过节点i的最短路径条数$
* $g_{st} 从s到t的最短路径的条数$

值越大说明它的介数中心性越强，说明这个节点越重要。

由于每算一个节点，都要考察他们在每一对节点的最短路径的重要程度，所有这个算法十分耗时。
这个指标有很多扩展心的指标。比如增加了一些什么元素。请看论文Linyuan Lu ...


__还有两个指标，需要引入网络的邻接矩阵 对其进行介绍__

## 邻接矩阵
<img src='fig\3-4.png' width='500'> 

矩阵乘法。我们可以依次类推，用我 $(A^n)_{ij}$ 得出他的距离为n的路径数目，

## Katz中心性
不仅仅是考虑最短路径，而是考虑所有路径
* 定义：
$$K = (k_{ij}) = sA + s^2A^2 +s^3A^3 + ... + s^pA^p + ... = (I-sA)^{-1}-I$$
    * $A^p$节点i到节点j长度为p的路径数目
    * Katz中心性认为，距离越短的路径重要程度越高。距离越长的它们的重要程度应该越低。从而它们就计入了一个系数$s$来降低长阶路径的贡献。即如果路径越长，那么$s^p$就越小。s通常是小于1的值。它是不大于__网络最大特征值的倒数__
    * Katz等人通过计算证明，将公式近一步化简成为这样的形式$K = = (I-sA)^{-1}-I$，来减少计算的时间复杂度，即使这样化简，但是求矩阵的逆还是复杂度比较高的事情。 
    
上述工作是为了重新度量节点i到节点j之间的距离

于是有 
$$Katz(i) = \sum_{j \not= i}k_{ij}$$
节点i的Katz中心性，是目标节点i于其他所有节点之间的重新定义的距离的和

记录：（靠斯 中心性）Katz中心性不仅考虑到网络中的节点之间的最短路径，而是考虑网络中所有路径，（不管是不是最短的我们都把它考虑在内，）。于是结合刚才邻接矩阵的定义，我们可以写出Katz中心性的一个计算方法。
定义Katz中心性的第一步，应用所有的路径去重新量化，每一度节点之间的路径长度的大小，这里的将的路径$k_{ij}$是由不同长度的路径加权求和所得到的一个新的距离。

## 对于Katz如果路径加权呢？

赋权值：e(1,2)=2,e(1,3)=3,e(2,3)=4,e(3,4)=5
邻接矩阵定义的是路径的数目，而katz也是定义的路径数目，只有01的领结矩阵满足这样的性质。带权不满足。

In [3]:
import numpy as np

In [4]:
Adi = np.mat([
    [0,2,3,0],
    [2,0,4,0],
    [3,4,0,5],
    [0,0,5,0]
])

In [12]:
print pow(Adi, 2)
print pow(Adi, 3)

[[13 12  8 15]
 [12 20  6 20]
 [ 8  6 50  0]
 [15 20  0 25]]
[[ 48  58 162  40]
 [ 58  48 216  30]
 [162 216  48 250]
 [ 40  30 250   0]]


A到A长度为3的路径有两条，和不是48

In [6]:
print Adi * Adi

[[13 12  8 15]
 [12 20  6 20]
 [ 8  6 50  0]
 [15 20  0 25]]


In [11]:
Adi2 = np.mat([
    [0,1,1,0],
    [1,0,1,0],
    [1,1,0,1],
    [0,0,1,0]
])
print pow(Adi2, 2)
print pow(Adi2, 3)

[[2 1 1 1]
 [1 2 1 1]
 [1 1 3 0]
 [1 1 0 1]]
[[2 3 4 1]
 [3 2 4 1]
 [4 4 2 3]
 [1 1 3 0]]


同样是考虑所有路径，这里有一个叫做子图中心性的方法，它的侧重点和Katz中心性不一样，katz指标和其他指标类似，所观察的就是这个节点于其他节点之间的距离。那么子图中心性所观察的是另外一个角度。它看到的是一个节点，从它自己出发，然后找出有多少条能过回到自己的这些路径的数目（即，回路的数目）

# 图中路径的名称的总结
* 1.通路：点边交替序列，点和边都可重复
* 2.回路：点边交替序列，点和边都可重复，且起点和终点相同。
* 3.迹（简单通路）：所有的边E都不能重复。点没说
* 4.闭迹（简单回路）：所有的边E都不能重复，的回路。
* 5.路径（初级通路）：所有的点V都不相同（所有的顶点不相同。从而边也不同）。
* 6.圈（初级回路）：所有的点V都不相同（所有的顶点不相同。从而边也不同）。且起点和终点相同。
* 7.欧拉通路（欧拉迹）：经过图中每条边一次且仅一次并且行遍图中的每个顶点的通路
* 8.欧拉回路（欧拉闭迹）：经过图中每条边一次且仅一次并且行遍图中的每个顶点的回路
* 9.哈密顿通路：经过图中每个顶点一次且仅一次的通路
* 10.哈密顿回路（哈密顿圈）：经过图中每个顶点一次且仅一次的回路

##  子图中心性
考虑从节点本身出发，再回到本身的路径数
故，可定义
$$SC(i) = \sum^{\infty}_{p=1} \frac{(A^p)_{ii}}{p!}$$

* p从1到正无穷。$A^1$长度为1的路径的数目，$A^2$长度为2的路径的数目，依次类推。。。
* $(A^p)_{ii}$自己到自己的路径长度

由于基于网络路径的指标通常有较高的复杂度，下一节介绍一些更加经典的基于迭代的方法。