# PageRank: Uma visão de Álgebra Linear

### Introdução

(Muitos dos quais lerão esse texto, raramente em sua vida, se depararam com o problema de ter que utilizar outro site de busca, além do Google, para encontrar algo que procura na internet. Porém, quando ela ainda estava em sua fase “jovem”, isso era um problema comum.)
    
Praticamente todo mundo que você conhece usa o Google. Uns ou outros utilizam o Bing e algumas pessoas perdidas no tempo 
usam o Yahoo!. Mas, algo razoável de se perguntar é: sempre foi assim? Provavelmente a resposta a essa pergunta é: Nem 
sempre. [posso reler a introdução do livro para ter ideias boas do que adicionar aqui.]
    |
Mas então, **por que** o Google é _o Google_? A resposta disso em uma palavra é: PageRank.
  
    
    
    
### PageRank
    
PageRank é um algoritmo criado por Sergey Brin e Larry Page, os fundadores da Google, no final de década de 90, que utiliza
a estrutura de _links_ da Internet para dar uma classificação a suas páginas.

A ideia central do algoritmo é resumida na seguinte frase: uma página é importante se páginas importantes levam a ela. Em
minha opinião, isso parece um pouco recursivo demais. Uma página será importante se outras páginas que ligam a ela forem 
importantes. Agora, essas páginas são importantes porque outras páginas importantes ligam a elas. Seguindo nesse 
raciocínio, chegamos na seguinte pergunta: quem são "as primeiras" páginas importantes? Essa recursão, na verdade, é algo
embutido no algoritmo, algo que é trabalhado para se calcular a classificação de cada página. Conforme o texto, mais 
especificamente na seção de matemática, for progredindo, essa ideia ficará mais clara e veremos que, na verdade, não
precisam existir "as primeiras" páginas importantes.

Um fato curioso sobre o PageRank é que ele utiliza, praticamente, somente conceitos básicos da Álgebra Linear. Sim, um dos 
grandes motivos do porquê a _Google_ ser tão poderosa no mercado tecnológico de hoje em dia é devido, no seu início como 
empresa, à implementação de Álgebra Linear básica em algoritmos. Qualquer um que já fez algum curso de Álgebra Linear 
possui as ferramentas básicas para entender _como_ e o _por que_ o PageRank funciona. Esse é justo o foco central deste 
texto.
    
    
    
## A Matemática por trás

### A Matriz G

Para começarmos, suponha um conjunto $P$ com $n$ páginas da Internet dadas por $P_i \ (i = 1,2,\cdots,n)$. Suponha também
que as páginas desse conjunto possuem _links_ que vão para páginas do mesmo conjunto. Uma forma interessante de visualizar 
as páginas de $P$ e as ligações entre elas é por meio de um grafo. Por motivos didáticos, usaremos um conjunto $P$ com 
$n = 7$ páginas dadas pelo grafo abaixo.
![Grafo](https://raw.githubusercontent.com/rangelalbuq/PageRank/main/Imagens/Grafo_1.png)
Na imagem, os nós (círculos) representam as páginas e as arestas (setas) representam as ligações entre as páginas.

Podemos representar esse grafo em um formato matricial. Seja $A$ uma matriz tal que $A_{ij}$ = 1, se a página $i$ possuí
um link para a página $j$, e $A_{ij}$ = 0 caso contrário (a página i não possui um _link_ para a página j). Acabamos de 
criar uma chamada matriz de _Adjacência_ do grafo.
Assim, a matriz $A$ do grafo do conjunto de páginas $P$ é dada por

$$ A =
\begin{bmatrix}
            0&1&0&0&0&0&0 \\
            0&0&1&0&0&0&0\\
            1&0&0&1&0&0&1\\
            0&0&0&0&1&0&0\\
            0&0&0&0&0&1&0\\
            0&0&0&1&0&0&0\\
            0&0&0&0&0&0&0
\end{bmatrix}
.
$$

Agora, vamos olhar para a matriz $A$ de uma forma diferente. E se o elemento $A_{ij}$ representasse a probabilidade de um 
usuário da internet ir à página $j$ considerando o fato dele estar, agora no momento, na página $i$? Observando $A$, vemos
que essa interpretação nova não está consoante com ela e que um problema já visível está em sua linha 3. Segundo
nossa interpretação, se um usuário estiver na página 3, a probabilidade dele ir para página 1 é igual à 1. Porém, a chance 
dele ir para as páginas 4 e 7 também é 1, algo que não faz sentido. Um modo de contornar esse problema é criar uma _nova_ 
matriz que tenha a mesma “cara” de  $A$ e que também, corresponda com essa nova interpretação probabilística.

Um modo de criar essa nova matriz, digamos $H$, de forma que, as probabilidades sejam “justas” ou “sem viés” é pela
seguinte definição: o elemento $H_{ij}$ é igual à $(\sum_{k=1}^{n}H_{ik})^{-1}$ se a página $i$ possuí um _link_ para 
a página $j$ e $H_{ij} = 0$ caso contrário. Embora pareça um pouco complicado essa nova definição, saiba que a 
única diferença entra ela e a de $A$ é que estamos “normalizando” as linhas não-nulas para que a soma entre seus
elementos seja igual à 1 e assim, faça sentido pensar nela como probabilidade. Assim, $H$ será dada por,

$$ H = 
\begin{bmatrix}
            0&1&0&0&0&0&0 \\
            0&0&1&0&0&0&0\\
            1/3&0&0&1/3&0&0&1/3\\
            0&0&0&0&1&0&0\\
            0&0&0&0&0&1&0\\
            0&0&0&1&0&0&0\\
            0&0&0&0&0&0&0
\end{bmatrix}
.
$$

A matriz $H$ agora é uma _matriz subestocástica_. Porém, ainda na matriz $H$ temos um problema. E a linha 7? Ela, por sua
vez, possuí uma linha completa de zeros, o que quer dizer pela nossa interpretação que, se um usuário estiver na página 7,
a probabilidade dele ir para qualquer outra página (de $P$) é zero. O que intuitivamente quer dizer que ele ficará na
página 7 **para sempre**. Obviamente, isso é algo que não queremos que aconteça com nosso modelo, que a página 7 seja um 
“buraco negro” para nossos usuários, em que, se eles chegarem lá, viverão para sempre.

Faremos o seguinte para contornar esse fato: se uma linha contiver apenas zeros, ela será alterada de forma que, todos 
seus elementos sejam iguais à $\frac{1}{n}$, em que $n$ é o número de páginas de $P$ (dimensão de $H$). O que isso
interpretativamente faz é que caso um usuário chegue a uma página que não possua ligação alguma com outra, ele escolhe
“aleatoriamente” (com a mesma probabilidade) uma página qualquer de $P$ para ir.

Assim, a matriz $H$ “atualizada”, o qual chamaremos de $S$, é dada por

$$ S = 
\begin{bmatrix}
            0&1&0&0&0&0&0 \\
            0&0&1&0&0&0&0\\
            1/3&0&0&1/3&0&0&1/3\\
            0&0&0&0&1&0&0\\
            0&0&0&0&0&1&0\\
            0&0&0&1&0&0&0\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7 
\end{bmatrix}
.
$$

A matriz $S$ agora é uma _matriz estocástica_.

Porém, _incrivelmente_, ainda há mais um problema (e o último) com nosso modelo! Se, você leitor, observasse a matriz $S$ 
por um tempo suficientemente grande, provavelmente iria notar a seguinte propriedade da matriz: Se um usuário estiver na 
página 4, ele irá para a página 5. Se estiver na página 5, ele irá para a página 6. E se estiver na página 6, ele irá para
a
página 4. E assim por diante, para sempre. Criando assim um _loop_ eterno da navegação do mesmo. E com isso, a 
partir do momento em que entra pela primeira vez em uma dessas páginas, as outras ($P_i$ com $i= 1,2,3,7$) efetivamente 
“não existirão” mais em nosso modelo, assim, não será possível quantificar algum tipo de classificação para as mesmas, mas 
apenas para aquelas que estão no ciclo.

Para que o fato discutido acima não ocorra, consideraremos mais uma, e última modificação no comportamento do nosso 
usuário. Agora, antes de simplesmente selecionar um _link_ na página que atualmente se encontra, o usuário terá uma 
probabilidade $1 - \alpha$ (com $\alpha \in (0,1)$) de ir para uma página qualquer de $P$. Isso, além trazer propriedades
que garantirão o exito de nosso modelo, algo que veremos posteriormente, ela também traz a ele um comportamento
esperado de qualquer um que navega a Internet. É razoável esperar de uma pessoa que ela não somente vá sendo levada site a
site seguindo apenas os _links_ da página em que se encontra. Ela também pode, por exemplo, entrar em algum site em que a
aba está aberta em seu navegador, ou também, abrir um de seu histórico por livre e espontânea vontade.

A nova matriz criada a partir de $S$ será a chamada _matriz Google $G$_. Ela é dada pela seguinte equação:

$$ G = \alpha S + (1 - \alpha)1/nee^T . $$

Em que $1/nee^T \in \mathbb{R}^{n \times n}$ é uma matriz de “teleportação aleatória”, o qual todos seus elementos são 
iguais à $\frac{1}{n}$.
Em nosso exemplo, escolhendo $\alpha = 0.85$ a matriz G é

$$
G = 0.85
\begin{bmatrix}
            0&1&0&0&0&0&0 \\
            0&0&1&0&0&0&0\\
            1/3&0&0&1/3&0&0&1/3\\
            0&0&0&0&1&0&0\\
            0&0&0&0&0&1&0\\
            0&0&0&1&0&0&0\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7 
\end{bmatrix}
+ 0.15
\begin{bmatrix}
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7\\
            1/7&1/7&1/7&1/7&1/7&1/7&1/7
\end{bmatrix}
.
$$

(Agora o que nos resta é, de fato, calcular a tanta aclamada classificação das páginas de $P$ numericamente utilizando a 
matriz $G$ para certo $\alpha$. Para isso veremos uma rápida introdução do método (usualmente mais) utilizado para o
cálculo do PageRank: O Método da Potência.)

### Fórmula para o PageRank

Seguindo a filosofia de que _uma página é importante se páginas importantes direcionam a ela_, vamos definir uma 
fórmula para calcular o $PageRank$ de uma página. Uma possível fórmula poderia simplesmente ser a soma dos PageRanks das
outras páginas que apontam para ela, assim sendo
$$
r(P_i) = \sum_{P_j \in B_{P_i}}{r(P_j)},
$$
em que $r(P_i)$ é o PageRank da página $i$, $r(P_j)$ o da página $j$ e $B_{P_i}$ é o conjunto das páginas que apontam 
para a página $i$. Porém, se questione do seguinte: imagine duas páginas os quais possuem o mesmo PageRank. Uma dessas 
páginas possui apenas um link para uma página qualquer, enquanto a outra possui links para cem páginas. O peso do link
da primeira página deve ser o mesmo que o peso de cada link da segunda?

Para os criadores do Google, a resposta é não. Quanto mais links uma página há, a "importância" de cada um
desses links deve valer menos. Portanto, para a fórmula do PageRank, é preciso ter um fator de peso o qual mede o quão
"expressivo" é um link.

Assim, a fórmula usada por Sergey Brin e Larry Page é
$$
r(P_i) = \sum_{P_j \in B_{P_i}}\frac{r(P_j)}{|P_j|},
$$
em que $|P_j|$ é o número de links de $P_j$.

O problema óbvio com essa fórmula é a de que simplesmente não sabemos os valores de $r(P_j)$. Uma forma de lidar com
isso é supor, inicialmente, que todas as páginas possuem o mesmo rank, definiremos que a soma dos ranks de cada página
será igual à 1, assim tem-se $r(P_i) = \frac{1}{n}$ para $i=1,\dots,n$, e aplicar a fórmula sucessivamente para as páginas
torcendo para que o valor de cada $r(P_i)$ convirja para _algo_.

[introduzir a equação $\pi_{k+1}^t = \pi_k^tH$ -> $\pi^t = \pi^tH$ -> $\pi^t = \pi^tG$ e falar sobre autovalor e autovetor
aqui em vez do que na seção O Método da Potência (é mais "fluido")]

### O Método da Potência [seção foi escrita antes do que a seção Fórmula para o PageRank]

Até ao momento no texto, não vimos algo "muito" relacionado à Álgebra Linear. Diria que poderia ser mais encaixado nos 
conceitos básicos de Geometria Analítica (matrizes, o conceito de dimensão, etc). Porém a partir de agora, e até ao final 
do texto, iremos ver ideias mais sofisticadas de Algelin.

Antes de falar sobre o Método da Potência aplicada à matriz G, precisamos discutir sobre autovalores e autovetores. Você
leitor, provavelmente está acostumado com a seguinte definição de autovalor e autovetor: dada uma matriz qualquer $A \in 
\mathbb{R}^{n \times n}$ e um vetor $v \in \mathbb{R}^n$, com $v \neq 0$. $v$ é autovetor de $A$ associado ao autovalor $\lambda$ se
$$ Av = \lambda v,$$
para algum $\lambda \in \mathbb{R}$, que pode ser ser calculado pelo _polinômio característico_  de $A$, $p(A)$.

Porém, mesmo A possuindo apenas entradas reais, as raízes de $p(A)$ podem assumir valores complexos. Assim, caso nos
restringirmos a apenas valores reais para os autovalores $\lambda$, é possível que haja a "perda" de certos $\lambda$. Isso 
implicaria que a "quantidade" (multiplicidade algébrica) de autovalores de $A$ seja menor do que $n$, sua dimensão, o que 
implicaria em problemas para nossa análise. Portanto, para que nenhum autovalor $\lambda$ fique de fora, vamos adotar a 
seguinte definição de autovalor e autovetor:

Dada uma matriz $A \in \mathbb{C}^{n \times n}$ e um vetor $v \in \mathbb{C}^n$, com $v \neq 0$. $v$ é autovetor de $A$ 
associado ao autovalor $\lambda$ se
$$ Av = \lambda v,$$
para algum $\lambda \in \mathbb{C}$.

Será visto mais adiante que o autovalor principal que nos preocuparemos será real. Assim, como G, _a matriz Google_, assume 
apenas entradas reais, os vetores em que $G$ é aplicada sobre também só possuirá valores reais, acarretando no uso somente 
da aritmética real usual, que estamos mais acostumados a trabalhar sobre.

