# Page Rank

#### Atualmente, a pesquisa na Web usa uma variedade de tecnologias, mas o algoritmo original que levou o Google ao topo dos mecanismos de pesquisa é o algoritmo PageRank. Vamos ver como é a ideia desse algoritmo agora.

O PageRank funciona contando o número e a qualidade dos links de uma página para determinar uma estimativa aproximada da importância do site. A suposição subjacente é que os sites mais importantes provavelmente receberão mais links de outros sites.

Queremos classificar sites nos resultados de seus mecanismos de pesquisa. Existem dois  algoritmos populares para classificar as páginas da web por popularidade:

|**Algoritmos populares:**|
|---|
|1) HITS - Hypertext Induced Topic Search|
|2) PageRank - Algoritmo do Google|

A estrutura hiperlink WWW forma um enorme gráfico direcionado , onde os nós representam páginas da Web e as bordas direcionadas são os hiperlinks.

||||
|---|---|---|
|Page 1|&harr;|Page 2|
||&#8599;|&uarr;|
|Page 3|&larr;|Page 4|

O grau de importância de uma página da web é calculado a partir do número de links para ele e da importância das páginas que apontam para ele. A regra é que uma página com links para $ n $ outras páginas passe para eles $ 1 / n $ de sua importância. O ranking de uma página é a soma de toda a importância que recebe de outras páginas vinculadas a ele.

Para uma rede de páginas da web $ n $, você forma uma matriz cuja entrada $ i, j $ é a página de importância que $ j $ passa para $ i $. Aqui está um exemplo com quatro páginas da web, conectadas por links, como mostra a figura abaixo.

|**Organização de Links das Páginas**|
|----|
|A página $A$ possui 3 links: passa $ \frac{1}{3} $ de sua classificação para $ B, C, D $|
|A página $B$ possui 2 links: passa $ \frac{1}{2} $ de sua classificação para $ C, D $|
|A página $C$ possui 0 links|
|A página $D$ possui 2 links: passa $ \frac{1}{2} $ de sua classificação o $ A, C $|


|**Matriz de Importância**|A            |B            |C|D            |
|-------------------------|-------------|-------------|-|-------------|
|A                        |0            |0            |0|$\frac{1}{2}$|
|B                        |$\frac{1}{3}$|0            |0|0            |
|C                        |$\frac{1}{3}$|$\frac{1}{2}$|0|$\frac{1}{2}$|
|D                        |$\frac{1}{3}$|$\frac{1}{2}$|0|0            |

Essa seria uma matriz estocástica, exceto a coluna de zeros, devido a uma página da Web sem links. Corrija esse problema substituindo os zeros nessa coluna por $ 1 / n $ (sendo $n$ o número total de páginas disponíveis). Essa matriz de importância modificada, $ A ^ {\ prime} $ é sempre estocástica. Agora escolha um valor $ p \ in (0,1) $, chamado fator de amortecimento, para criar a matriz do Google da seguinte maneira:

$$G = (1-p)A^{'} + pB$$

onde $ B $ é uma matriz $ n x n $ com $ 1 / n $ em cada entrada.

###### Ideia chave:

A matriz do Google é uma matriz estocástica positiva. O vetor PageRank é o vetor de estado estacionário da cadeia de Markov com esta matriz.

Vamos jogar com uma rede de quatro páginas como a ilustrada acima, mas preencha a coluna correspondente a $ C $ com $ 1/4 $. Escolha $ p = 0,15 $ para o fator de amortecimento.

In [4]:
# importando a biblioteca de funções numpy do Python
import numpy as np

In [6]:
# definindo a matriz A
A = np.array([[0,0,1/4, 1/2], [1/3,0,1/4,0], [1/3,1/2,1/4,1/2],[1/3,1/2,1/4,0]])

In [7]:
# imprimindo a matriz A
print("A matriz A é:\n\n{}".format(A))

A matriz A é:

[[0.         0.         0.25       0.5       ]
 [0.33333333 0.         0.25       0.        ]
 [0.33333333 0.5        0.25       0.5       ]
 [0.33333333 0.5        0.25       0.        ]]


Vamos escrever uma função Python com o algoritmo PageRank, tendo como entradas a matriz de importância modificada, o fator de amortecimento e uma tolerância para sair da cadeia de Markov. A função inicializa um vetor inicial aleatório (normalizado), calcula a matriz do Google e aplica-a repetidamente até que dois vetores de estado sucessivos estejam "próximos o suficiente" um do outro (ou seja, menos do que a tolerância).

In [None]:
# vamos definir a função pagerank
def pagerank(A, p=0.15, eps=1e-3):
    '''Implementa o algoritmo PageRank
    Argumentos:
    Matriz numpy A, matriz de importância modificada
    p float, fator de amortecimento
    eps flutuar, tolerância para sair das iterações
    
    Devoluções:
    v matriz numpy (normalizada), vetor PageRank
    '''
    # n recebe o total de linhas da matriz
    n = A.shape[0]
    # cria um vetor-coluna aleatório com 4 linhas 
    v = numpy.random.rand(n,1)
    # normaliza os vetores, de forma que o módulo de v é aproximadamente 1
    v = v/np.linalg.norm(v)
    # calcula G da fórmula acima
    G = (1-p)*A + p*1/n*np.ones((n,n))
    # a matriz vold é um vetor coluna de n(4) linhas, assim como n foi definido acima
    vold = np.zeros((n,1))
    
    while np.linalg.norm(v-vold, 2)>eps:
        vold = v.copy()
        v = G.dot(v)
        
    return v/numpy.sum(v)

In [39]:
# n recebe o total de linhas da matriz
n = A.shape[0]
    # cria um vetor-coluna aleatório com 4 linhas 
v = np.random.rand(n,1)
v

array([[0.24655452],
       [0.11472766],
       [0.37916964],
       [0.91133166]])

In [53]:
v = v/np.linalg.norm(v)
v

array([[0.24081373],
       [0.11205633],
       [0.37034103],
       [0.89011215]])

In [52]:
vold = np.zeros((n,1))
vold

array([[0.],
       [0.],
       [0.],
       [0.]])

In [44]:
cf = np.linalg.norm(v, 2)
cf

0.9999999999999999

In [45]:
vold = v.copy()
vold

array([[0.24081373],
       [0.11205633],
       [0.37034103],
       [0.89011215]])

In [48]:
eps=1e-3
eps

0.001

In [61]:
ass = np.linalg.norm(v-vold, 2)
ass

0.9999999999999999