\* Notebook adaptado do material da professora Cynthia de Oliveira Lage

# Google Page Rank - Versão Simplificada

Páginas da Web podem ser representadas como um grafo direcionado. A visão probabilística (estocástica) do PageRank determina a probabilidade de uma página web ser visitada em certo instante de tempo durante um passeio aleatório.

- Uma página é importante se páginas importantes têm link para ela;
- Eleição: um link de $A \rightarrow B$ é um voto de $A$ para $B$.

![](./grafo.png)

Dispondo as quantidades de links _saindo_ de uma página para as demais em _colunas_, temos a seguinte matriz:

$$
P =
\begin{bmatrix}
0 & 0 & 1 & 0 & 0 & 0 \\
1 & 0 & 1 & 0 & 0 & 0 \\
1 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 1 & 1 \\
0 & 0 & 1 & 1 & 0 & 0 \\
0 & 0 & 0 & 1 & 1 & 0 \\
\end{bmatrix}
$$

Transformando a matriz em uma matriz estocástica:

$$
P' =
\begin{bmatrix}
0           & 0 & \frac{1}{3} & 0           & 0           & 0 \\
\frac{1}{2} & 0 & \frac{1}{3} & 0           & 0           & 0 \\
\frac{1}{2} & 0 & 0           & 0           & 0           & 0 \\
0           & 0 & 0           & 0           & \frac{1}{2} & 1 \\
0           & 0 & \frac{1}{3} & \frac{1}{2} & 0           & 0 \\
0           & 0 & 0           & \frac{1}{2} & \frac{1}{2} & 0 \\
\end{bmatrix}
$$

A fim de impedir o bloqueio em páginas "sem saída", preenchemos seus valores com uma probabilidade de transição uniforme para as demais páginas:

$$
P'' =
\begin{bmatrix}
0           & \frac{1}{6} & \frac{1}{3} & 0           & 0           & 0 \\
\frac{1}{2} & \frac{1}{6} & \frac{1}{3} & 0           & 0           & 0 \\
\frac{1}{2} & \frac{1}{6} & 0           & 0           & 0           & 0 \\
0           & \frac{1}{6} & 0           & 0           & \frac{1}{2} & 1 \\
0           & \frac{1}{6} & \frac{1}{3} & \frac{1}{2} & 0           & 0 \\
0           & \frac{1}{6} & 0           & \frac{1}{2} & \frac{1}{2} & 0 \\
\end{bmatrix}
$$

Por fim, para impedir a formação de ciclos infinitos, somamos uma nova matriz, tornando o grafo irredutível:

$$
G =
\alpha
\begin{bmatrix}
0           & \frac{1}{6} & \frac{1}{3} & 0           & 0           & 0 \\
\frac{1}{2} & \frac{1}{6} & \frac{1}{3} & 0           & 0           & 0 \\
\frac{1}{2} & \frac{1}{6} & 0           & 0           & 0           & 0 \\
0           & \frac{1}{6} & 0           & 0           & \frac{1}{2} & 1 \\
0           & \frac{1}{6} & \frac{1}{3} & \frac{1}{2} & 0           & 0 \\
0           & \frac{1}{6} & 0           & \frac{1}{2} & \frac{1}{2} & 0 \\
\end{bmatrix}
+
(1 - \alpha)
\begin{bmatrix}
\frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} \\
\frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} \\
\frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} \\
\frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} \\
\frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} \\
\frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} & \frac{1}{6} \\
\end{bmatrix}
$$

Originalmente, o valor escolhido para o peso $\alpha$ foi $0.85$.

In [None]:
import numpy as np

# Criação da matriz de transição:
P = np.array([
    [0,   1/6, 1/3, 0,   0,   0],
    [1/2, 1/6, 1/3, 0,   0,   0],
    [1/2, 1/6, 0,   0,   0,   0],
    [0,   1/6, 0,   0,   1/2, 1],
    [0,   1/6, 1/3, 1/2, 0,   0],
    [0,   1/6, 0,   1/2, 1/2, 0]
])

# Criação da matriz Google:
alpha = 0.85
G = alpha * P + (1 - alpha) * np.ones(P.shape) / P.shape[0]

In [None]:
''' 
    Estamos interessados em Px = 1x (vetor estacionário). Em
    outras palavras, qual é o autoveto associado ao autovalor 1?
'''

# Cálculo dos autovetores e autovalores:
autovalores, autovetores = np.linalg.eig(G)

print(autovalores)  # 1 sempre existirá (Teorema de Perron-Frobenius)

In [None]:
# Determinação do autovetor associado ao autovalor 1:
indice_autovetor_1 = np.argsort(autovalores)[-1]
auto_vetor_1 = autovetores[:,indice_autovetor_1]

print(auto_vetor_1)

In [None]:
# Determinação do vetor estacionário estocástico:
vetor_estacionario = auto_vetor_1 / np.sum(auto_vetor_1)

print(vetor_estacionario)

In [None]:
# Cálculo da ordem de importância das páginas:
ordem_importancia_piores = np.argsort(vetor_estacionario) + 1  # 1-based
ordem_importancia_melhores = ordem_importancia_piores[::-1]

print('Ordem:', ordem_importancia_melhores)
print('Importâncias:', vetor_estacionario[ordem_importancia_melhores-1])