# PageRank: Uma visão de Álgebra Linear

### Introdução

(Muitos dos quais lerão esse texto, quase nunca em sua vida, se depararam com o problema de ter que utilizar outro site de busca, além do Google, para encontrar algo que procura na internet. Porém, quando ela ainda estava em sua fase "jovem", isso era um problema comum.)
    
Praticamente todo mundo que você conhece usa o Google. Uns ou outros utilizam o Bing e algumas pessoas perdidas no tempo usam o Yahoo!. É verdade. Admita. Mas, algo razoável a se perguntar é: sempre foi assim? Provavelmente a resposta à essa pergunta é o que a maioria das pessoas responderiam: Nem sempre. [posso reler a introdução do livro para ter ideias boas do que adicionar aqui.]
    
Mas então, **por que** o Google é _o Google_? A resposta disso em uma palavra é: PageRank.
    
    
    
### PageRank
    
PageRank é um algoritmo criado por Sergey Brin e Larry Page, os fundadores da Google, no final de década de 90, o qual utiliza a estrutura de _links_ da internet para dar uma classificação à páginas dela.

A ideia central do algoritmo é resumida na seguinte frase: Uma página é importante se páginas importantes levam à ela. Em minha opinião, isso parece um pouco "paradoxal [recursivo?]". Por que páginas importantes que levam à uma página são importantes? Porque páginas importantes levam à essas páginas importantes. Agora, por que essas páginas importantes que levam à páginas importantes os quais levam à uma página são importantes? (e por aí vai...). Esse "paradoxo [recursão]", na verdade, é algo imbutido no algoritmo, algo que é trabalhado para se calcular as classificações de cada página. Conforme o texto, mais especificamente na seção de matemática, for progredindo, essa ideia ficará mais clara.

    
Um fato curioso sobre o PageRank é que ele utiliza conceitos básicos da Álgebra Linear. Qualquer um que já fez algum curso de Álgebra Linear possui as ferramentas básicas para entender _como_ e o _por que_ o PageRank funciona. Isso é justo o foco central deste texto.
    
    
    
### A Matemática por trás

Para começarmos, suponha um conjunto $P$ com $n=7$ páginas da internet dadas por $P_i \ (i = 1,2,\cdots,7)$. Suponha também que as páginas desse conjunto possuem _links_ que vão para páginas do mesmo conjunto. Uma forma interessante de visualizar as páginas de $P$ e os _links_ entre elas é por meio de um grafo encontrado na imagem abaixo.
![Grafo](https://raw.githubusercontent.com/rangelalbuq/PageRank/main/Imagens/Grafo_1.png)
Na imagem, os nós (círculos) representam as páginas e as arestas (setas) representam os _links_ entre as páginas.

Podemos representar esse grafo em um formato matricial. Seja $H´$ uma matriz tal que $H´_{ij}$ = 1 se a página $i$ possuí
um link para a página $j$, e $H´_{ij}$ = 0 caso contrário (a página i não possui um _link_ para a página j). Acabamos de criar uma chamada matriz de _Adjacência_ do grafo.
Assim, a matriz $H´$ do grafo do conjunto de páginas $P$ é dada por,

$$ H´ =
\begin{bmatrix}
            0&1&0&0&0&0&0 \\
            0&0&1&0&0&0&0\\
            1&0&0&1&0&0&1\\
            0&0&0&0&1&0&0\\
            0&0&0&0&0&1&0\\
            0&0&0&1&0&0&0\\
            0&0&0&0&0&0&0
\end{bmatrix}
.
$$

Agora, vamos olhar para a matriz $H´$ de uma forma diferente. E se o elemento $H´_{ij}$ representasse a probabilidade de um 
usuário da internet ir à página $j$ considerando o fato dele estar, agora no momento, na página $i$? Observando $H´$ vemos
que essa interpretação nova não está em conformidade com $H´$ e que um problema já visível está em sua linha 3. Segundo
nossa interpretação, se um usuário estiver na página 3, a probabilidade dele ir para página 1 é igual à 1. Porém a chance 
dele ir para as páginas 4 e 7 também é 1, algo que não faz sentido. Um modo de contornar esse problema é criar uma _nova_ 
matriz que tenha a mesma "cara" de  $H´$ e que também, esteja de acordo com nossa nova interpretação probabilística.

Um modo de criar essa nova matriz, digamos $H$, de forma que, as probabilidades sejam "justas" ou "sem viés" é pela
seguinte definição: o elemento $H_{ij}$ é igual à $(\sum_{k=1}^{n}H_{ik})^{-1}$ se a página $i$ possuí um _link_ para 
a página $j$ e $H_{ij} = 0$ caso contrário. Embora pareça um pouco complicado essa nova definição, saiba que a 
única diferença entra ela e a de $H´$ é que estamos "normalizando" as linhas não-nulas para que a soma entre seus
elementos seja igual à 1. Assim, $H$ será dada por,

$$ H = 
\begin{bmatrix}
            0&1&0&0&0&0&0 \\
            0&0&1&0&0&0&0\\
            1/3&0&0&1/3&0&0&1/3\\
            0&0&0&0&1&0&0\\
            0&0&0&0&0&1&0\\
            0&0&0&1&0&0&0\\
            0&0&0&0&0&0&0
\end{bmatrix}
.
$$

A matriz $H$ agora é uma _matriz subestocástica_. Porém, ainda na matriz $H$ temos um problema. E a linha 7? Ela, por sua
vez, possuí uma linha completa de zeros, o que quer dizer pela nossa interpretação que, se um usuário estiver na página 7,
a probabilidade dele ir para qualquer outra página (de $P$) é zero. O que intuitivamente quer dizer que ele ficará na
página 7 **para sempre**. Obviamente, isso é algo que não queremos que aconteça com nosso modelo, que a página 7 seja um 
"buraco negro" para nossos usuários, em que, se eles chegarem lá, viverão para sempre.

Vamos fazer o seguinte para contornar esse fato: se uma linha conter apenas zeros, ela será alterada de forma que, todos 
seus elementos sejam iguais à $\frac{1}{n}$, em que $n$ é o número de páginas de $P$ (dimensão de $H$). O que isso
interpretativamente faz é que caso um usuário chegue à uma página que não "_linka_" para ninguém, ele escolhe
"aleatoriamente" (com a mesma probabilidade) alguma página de $P$ para ir.

Assim, a matriz $H$ "atualizada", o qual chamaremos de $S$, é dada por

$$ S = 
\begin{bmatrix}
            0&1&0&0&0&0&0 \\
            0&0&1&0&0&0&0\\
            1/3&0&0&1/3&0&0&1/3\\
            0&0&0&0&1&0&0\\
            0&0&0&0&0&1&0\\
            0&0&0&1&0&0&0\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7 
\end{bmatrix}
.
$$

A matriz $S$ agora é uma _matriz estocástica_.

Porém, _increvelmente_, ainda há mais um problema (e o último) com nosso modelo! Se, você leitor, observasse a matriz $S$ 
por um tempo suficientemente grande, provavelmente iria notar a seguinte propriedade da matriz: Se um usuário estiver na 
página 4, ele irá para a página 5. Se estiver na página 5, ele irá para a página 6. E se estiver na página 6, ele irá para
a
página 4. E assim por diante, para sempre. Criando assim um _loop_ eterno da navegação do nosso usuário. E com isso, a 
partir do momento em que entra pela primeira vez em uma dessas páginas, as outras ($P_i$ com $i= 1,2,3,7$) efetivamente 
"não existirão" mais em nosso modelo, assim, não será possível quantificar algum tipo de _rank_ para as mesmas, apenas para
as quais estão no caminho do _loop_.

Para que o fato discutido acima não ocorra, consideraremos mais uma, e última modificação no comportamento do nosso usuário
. Agora, antes de simplesmente _clickar_ em um link na página que atualmente se encontra, o usuário terá uma probabilidade
$1 - \alpha$ (com $\alpha \in (0,1)$) de ir para uma página qualquer de $P$.

A nova matriz criada a partir de $S$ será a chamada de _matriz Google $G$_. Ela é dada pela seguinte equação:

$$ G = \alpha S + (1 - \alpha)1/nee^T $$

Em que $1/nee^T \in \mathbb{R}^{n \times n}$ é uma matriz de "teleportação aleatória", o qual todos seus elementes são 
iguais à $\frac{1}{n}$.
Em nosso exemplo, escolhendo $\alpha = 0.85$ a matriz G é

$$
G = 0.85
\begin{bmatrix}
            0&1&0&0&0&0&0 \\
            0&0&1&0&0&0&0\\
            1/3&0&0&1/3&0&0&1/3\\
            0&0&0&0&1&0&0\\
            0&0&0&0&0&1&0\\
            0&0&0&1&0&0&0\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7 
\end{bmatrix}
+ 0.15
\begin{bmatrix}
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7
\end{bmatrix}
.
$$