# PageRank概述

Web中，每个网页当做一个节点，网页间的链接当做一条线，组成了Web网络。

Web网络中，很重要的一点就是对Web进行排序。
一般来说，重要的网页有以下特征：
1. in-link很多
2. in-link的网页rank很高

PageRank用矩阵的形式可以表达成：
$$r=Mr$$

上式的求解可以用`power iteration`，通过不断地迭代最终达到稳定值。

# PageRank遇到的问题

然而，求解的过程不一定顺利，主要原因有：  
* dead point，导致rank的丢失
* spider trap，导致rank的不断波动，不收敛

解决办法如下：
* 在$M$中，对全为0的列增加权值，解决dead point
* $M$转移的概率为$\beta$（一般为0.8、0.9），同时增加random teleport

# Teleports的理论依据


PageRank的迭代过程，实际上就是`Markov Chains`。

>For any **start vector**, the power method
applied to a Markov transition matrix P will
**converge** to a **unique** positive stationary
vector as long as P is **stochastic**, **irreducible**
and **aperiodic**.

1. Stochastic：具体是指$M$的每一列和必须为1
2. Aperiodic: 具体指每个点必须可以跳到自己本身
3. Irreducible: 具体指每个点必须可以跳到其他的点

综上，肯定可以收敛的PageRank的迭代公式为：
$$A = \beta M +\frac{1-\beta}{N}ee^T$$
$$r^{t+1} = Ar^{t}$$

其中，$\beta$一般取值0.8，0.9。

另外如果有dead point的话，解决方法有两种：
* 在$M$中修改全为0的列，改成均匀分布，和为1
* 计算出新的$r$后，重新正则化使和为1

# 大规模计算遇到的问题

上面的矩阵$A$是密集的矩阵，如果Web站点过多的话，计算的复杂度过大。  
需要想办法，转换成稀疏矩阵的计算问题。

$$r = \beta M r + [\frac{1-\beta}{N}]_{N}$$

实际计算的过程中，$M$中可能存在dead point，因此会造成rank的流失。所以可以改进为：

$$r = \beta M r + [\frac{1-S}{N}]_{N}$$
$$S =1- \sum r$$


# 实例

In [2]:
ls

PageRank.ipynb  web-Google.txt


In [12]:
import numpy as np
import random

In [44]:
# 读取Web中的数据
f = open("web-Google.txt",'r')
L = []
for line in f:
    l = line.split()
    if len(l)==2:
        L.append(map(int,l))
f.close()
print f.closed

True


In [45]:
L = np.array(L)

In [None]:
#构建M矩阵
N = L.max()
M = np.zeros([N+1,N+1])
#将所有的数据打入标签，第一项为From，第二项为To
for i in L:
    xfrom = i[0]
    xto = i[1]
    M[xto,xfrom] = 1


In [68]:
x = np.array([[1,2],[3,4],[5,6]])

In [69]:
x

array([[1, 2],
       [3, 4],
       [5, 6]])

In [80]:
L.max()

916427

In [74]:
x2 = 0
for i in x:
      x2 = i

In [78]:
x2[1]

6

In [47]:
L1 = L[:,0]
L2 = L[:,1]

In [48]:
np.unique(L1).shape

(739454,)

In [23]:
np.unique(L2).shape

(714545,)

In [50]:
Lall = np.r_[L1,L2]

In [51]:
np.unique(Lall).shape

(875713,)

In [54]:
print Lall.max(),Lall.min()

916427 0


In [40]:
Lall

array(['0', '0', '0', ..., '632916', '637936', '837379'], 
      dtype='|S6')

In [20]:
L2.shape

(5105039,)