# Google PageRank
#### Atualmente, a pesquisa na Web usa uma variedade de tecnologias, mas o algoritmo original que levou o Google ao topo dos mecanismos de pesquisa √© o algoritmo PageRank. Vamos analisar como √© a ideia desse algoritmo.

O PageRank funciona contando o n√∫mero e a qualidade dos links de uma p√°gina para determinar uma estimativa aproximada da import√¢ncia do site. A suposi√ß√£o subjacente √© que os sites mais importantes provavelmente receber√£o mais links de outros sites.

Dentro de sites h√° in√∫meros **hiperlinks** cuja fun√ß√£o √© nos direcionar para outros sites. Se formos considerar todas as p√°ginas que temos acesso atrav√©s do mecanismo de pesquisa do Google, temos um emaranhado de liga√ß√µes entre sites atrav√©s de **hiperlinks**. Dizemos que um determinado site **A** aponta para um site **B** quando o site **A** possui pelo menos um **hiperlink** que nos direciona a p√°gina **B**.

Veja o exemplo abaixo, esse que vamos desenvolver ao longo do progama:

|**Rela√ß√£o de hiperlinks entre quatro sites:**            |
|---------------------------------------------------------|
|A p√°gina **A** aponta para a p√°gina **B**, **C** e **D**;|
|A p√°gina **B** aponta para a p√°gina **C** e **D**;       |
|A p√°gina **C** n√£o aponta para nigu√©m;                   |
|A p√°gina **D** aponta para a p√°gina **A** e **C**;       |

S√≥ de analisar o quadro acima, vemos que a p√°gina com mais classifica√ß√£o √© a p√°gina **C**, pois ela possui mais **Links de Entrada**.

> **Links de Entrada:** s√£o links para o site fornecido de fora para outras p√°ginas.

> **Links de Sa√≠da:** s√£o links de uma determinada p√°gina para p√°ginas no mesmo site ou em outro sites.

#### F√≥rmula Original

Inicialmente, tinhamos a f√≥rmula recursiva para determinar qual p√°gina era mais popular:

$$PR(A) = (1 - d) + d( \frac{PR(T_{1})}{C(T_{1})} + \frac{PR(T_{2})}{C(T_{2})} + ... + \frac{PR(T_{n})}{C(T_{n})} )$$

- **PR(A)** = **PageRank** da p√°gina **A**;
- **PR($T_{i}$)** = **PageRank** das p√°ginas $T_{i}$ que apontam para a p√°gina **A**;
- **C($T_{i}$)** = N√∫mero de **Links de Sa√≠da** de uma determinada p√°gina $T_{i}$;
- **d** = tamb√©m conhecido como **Fator de Amortecimento**, √© um n√∫mero arbitr√°rio entre 0 e 1;

No in√≠cio da f√≥rmula, todas as p√°ginas recebem o mesmo n√∫mero $\frac{1}{n}$, esse que vamos chamar de **PageRank** e **n** √© o n√∫mero total de p√°ginas dispon√≠veis naquele espa√ßo amostral da pesquisa. Desse modo, no in√≠cio do algoritmo, todas as p√°ginas ter√£o o mesmo n√≠vel de popularidade. Conseguintemente, teremos que realizar diversas intera√ß√µes at√© chegar na converg√™ncia do resultado, essa que indicar√° um ranking de p√°ginas populares entre as demais.

A f√≥rmula acima pode ser simplificada da seguinte forma:

$$PR_{t + 1}(P_{i}) = \sum_{P_{j}}\frac{PR_{t}(P_{j})}{C(T_{j})}$$

O **Grau de Import√¢ncia** de uma p√°gina da web √© calculado a partir do n√∫mero de **Links de Entrada** nesse site e da import√¢ncia das p√°ginas que est√£o apontando para ele. A regra √© que uma p√°gina com links para $n$ outras p√°ginas passe para eles $\frac{1}{n}$ de sua import√¢ncia. O ranking de uma p√°gina √© a soma de todas as import√¢ncias que recebe de outras p√°ginas vinculadas a ele.

#### Exemplo:

Vamos aplicar a f√≥rmula anterior e utilizar o mesmo exemplo de sites que estamos trabalhando desde o in√≠cio.

|Sites|0 intera√ß√£o|1 intera√ß√£o|2 intera√ß√µes|PageRank|
|-----|-----------|-----------|------------|--------|
|A|$\frac{1}{4}$|$\frac{\frac{1}{4}}{2}$ = $\frac{1}{8}$|$\frac{\frac{1}{8}}{2}$ = $\frac{1}{16}$|0.0625|
|B|$\frac{1}{4}$|$\frac{\frac{1}{4}}{3}$ = $\frac{1}{12}$|$\frac{\frac{1}{8}}{3}$ = $\frac{1}{24}$|0.0416|
|C|$\frac{1}{4}$|$\frac{\frac{1}{4}}{3}$ + $\frac{\frac{1}{4}}{2}$ + $\frac{\frac{1}{4}}{2}$ = $\frac{1}{3}$|$\frac{\frac{1}{8}}{3}$ + $\frac{\frac{1}{12}}{2}$ + $\frac{\frac{1}{8}}{2}$ = $\frac{7}{48}$|0.1458|
|D|$\frac{1}{4}$|$\frac{\frac{1}{4}}{2} = \frac{1}{8}$|$\frac{\frac{1}{12}}{2}$ = $\frac{1}{24}$|0.0416|

Veja que todas as p√°ginas no in√≠cio receberam o mesmo **PageRank** de $\frac{1}{4}$. Na pr√≥xima intera√ß√£o, consideramos a soma dos **PageRank** de todos sites que apontam para o site **n** dividido pelo n√∫mero de **Links de Sa√≠da** dos mesmos, e assim sucessivamente para cada intera√ß√£o.

Desse modo, pode-se perceber que a p√°gina mais influente √© de fato a p√°gina **C**. Em segundo lugar, temos a p√°gina **A** e empatados em terceiro lugar temos as p√°ginas **B** e **D**. Caso fosse um ranking de p√°ginas sobre algum assunto que voc√™ pesquisou no Google, certamente a pagina **C** lideraria o topo de sua pesquisa, pois ela √© a mais influente neste **Networking**.

Mas perceba que o resultado n√£o foi justo. A p√°gina **C** realmente √© a mais influente de todas, por√©m a p√°gina **D** √© mais influente que a p√°gina **A**, dado que **D** possui 2 **Links de Sa√≠da** e tamb√©m 2 **Links de Entrada**, ao passo em que a p√°gina **A** possui 3 **Links de Sa√≠da** e apenas 1 **Link de Entrada**. Assim, teremos que aprimorar nosso algoritmo, mas para isso, necessitamos desenvolver algumas ideias antes.

#### Curiosidade

| |
|--|
|Certamente todos n√≥s conhecemos a empresa **Wikip√©dia**. A sua popularidade adv√©m da intelig√™ncia dos desenvolvedores originais em usar o **PageRank** ao seu favor. Ao clicar em uma p√°gina qualquer da Wikip√©dia, podemos encontrar in√∫meros **Links de Sa√≠da** para outras p√°ginas da mesma empresa e, obviamente, essa mesma p√°gina possui muitos **Links de Entrada** apontando para ele. Desse modo, quando n√≥s utilizamos o mecanismo de pesquisa do Google para procurar algum assunto, a Wikip√©dia certamente estar√° em primeiro lugar nos sites recomendados para tal assunto, se o mesmo estiver catalogado no site. Al√©m disso, tal algoritmo foi inspira√ß√£o para in√∫meras outras plataformas. Um exemplo maior dessa inspira√ß√£o √© o aplicativo de fotos **Instagram** e o aplicativo de v√≠deos **YouTube** que, al√©m de usar in√∫meras tecnologias de recomenda√ß√£o, usa tamb√©m um recurso chamado **tags**.|

> **Tags:** Uma tag, ou em portugu√™s etiqueta, √© uma palavra-chave ou termo associado com uma informa√ß√£o que o descreve e permite uma classifica√ß√£o da informa√ß√£o baseada em palavras-chave. 

#### Usando Matrizes no Algoritmo PageRank

podemos usar opera√ß√µes matriciais ao inv√©s do **Algoritmo Iterativo** acima. Desse modo, podemos fazer diversas opera√ß√µes ao mesmo tempo, fato esse mais vi√°vel para o mecanismo de pesquisa do Google, dado que em uma √∫nica pesquisa temos milhares de p√°ginas que competem a aten√ß√£o do usu√°rio.

Para uma rede de p√°ginas da web **n**, voc√™ forma uma matriz cuja entrada **i** e **j** √© a p√°gina de import√¢ncia que **j** passa para **i**. Vamos usar o mesmo exemplo acima √© montar sua **Matriz de Transi√ß√£o**.

|**Organiza√ß√£o de Links das P√°ginas**                                                             |
|-------------------------------------------------------------------------------------------------|
|A p√°gina **A** possui 3 links: passa $\frac{1}{3}$ de sua classifica√ß√£o para **B**, **C**, **D**;|
|A p√°gina **B** possui 2 links: passa $\frac{1}{2}$ de sua classifica√ß√£o para **C** e **D**;      |
|A p√°gina **C** possui 0 links;                                                                   |
|A p√°gina **D** possui 2 links: passa $\frac{1}{2}$ de sua classifica√ß√£o para **A** e **C**;          |

|**Matriz de Transi√ß√£o**|**A**            |**B**            |**C**|**D**            |
|-----------------------|-----------------|-----------------|-----|-----------------|
|**A**                  |0                |0                |0    |$\frac{1}{2}$    |
|**B**                  |$\frac{1}{3}$    |0                |0    |0                |
|**C**                  |$\frac{1}{3}$    |$\frac{1}{2}$    |0    |$\frac{1}{2}$    |
|**D**                  |$\frac{1}{3}$    |$\frac{1}{2}$    |0    |0                |

Essa seria uma **Matriz de Transi√ß√£o**, exceto pela coluna de zeros, devido a uma p√°gina da Web sem links. Esse problema √© facilmente corrijido substituindo os zeros nessa coluna por $\frac{1}{n}$. Al√©m disso, deve-se escolher um valor para o **Fator de Amortecimento (d)**.

Temos uma vers√£o da f√≥rmula anterior, apropiada para o uso de matrizes:


$$M = (1-d)A + dB$$

Temos que:
- **M** √© a chamada **Matriz PageRank** ou **Google-Matrix**;
- **d**: √© chamado **Fator de Amortecimento**, um n√∫mero entre 0 e 1 (vamos usar o valor 0.15);
- **A**: √© a chamada **Matriz de Transi√ß√£o**;
- **B**: √© uma matriz com todos elementos compostos pelo valor $\frac{1}{n}$;

Veja que o **Fator de Amortecimento** **d** √© usado duas vezes na f√≥rmula. O primeiro uso associado a **Matriz de Transi√ß√£o** **A** indica a probabilidade do usu√°rio ir para uma outra p√°gina atrav√©s dos **Links de Sa√≠da** da mesma. O segundo uso associado a matriz **B** √© a probabilidade do usu√°rio ir para outra p√°gina sobre o tema, mas sem usar os seus **Links de Sa√≠da**, fator esse chamado de **Teletransporte**. Por tal motivo, **A** √© a matriz dos **Links de Sa√≠da e Entrada**, tamb√©m chamada de **Matriz de Transi√ß√£o**, e a matriz **B** possui todos os elementos com $\frac{1}{n}$ para todas as p√°ginas dispon√≠veis naquele **Networking**, com o mesmo valor de **PageRank** para qualquer p√°gina.

#### Cadeias de Markov e Teorema de Perron-Frobenius

Vamos usar nesse algoritmo  ideias de **cadeias de Markov** em que uma determinada **Matriz de Transi√ß√£o**, ap√≥s passar por cada opera√ß√£o, vai sofrer uma **Mudan√ßa de Estado**. (Veja o progama sobre Cadeias de Markov dispon√≠vel no reposit√≥rio).

Em geral, n√£o pode ser determinado com certeza  o estado de um sistema em uma **cadeia de Markov**, numa observa√ß√£o arbitr√°ria. O melhor que podemos fazer √© especificar probabilidades para cada um dos estados poss√≠veis. Por exemplo, n√≥s podemos descrever o estado-poss√≠vel do sistema em uma certa observa√ß√£o em uma **cadeia de Markov** com tr√™s estados, por um vetor-coluna:

$$x = \begin{bmatrix}
          x_{1} \\
          x_{2} \\
          x_{3} \\
          \end{bmatrix}$$

no qual $x_{1}$ √© a probabilidade que o sistema est√° no estado 1, $x_{2}$ √© a probabilidade que ele est√° no estado 2 e $x_{3}$ √© a probabilidade que ele est√° no estado 3. Em geral, temos a seguinte defini√ß√£o:

> O **vetor-estado** de uma observa√ß√£o de uma **cadeia de Markov** com **k** estados √© um vetor-coluna **x** cujo i-√©simo componente $x_{i}$ √© a probabilidade do sistema estar, naquela observa√ß√£o, no i-√©simo estado.

O **Teorema de Perron-Frobenius** afirma que:

> Uma matriz real quadrada com entradas positivas tem um √∫nico maior autovalor e que o correspondente autovetor tem componentes estritamente positivos.

Al√©m de outras defini√ß√µes que est√£o al√©m do nosso objetivo no **Teorema de Perron-Frobenius** , temos que o **PageRank** ser√° um vetor-coluna em que 1 ser√° o maior **autovalor** e, para esse **autovalor**, teremos um √∫nico **autovetor** cuja soma de todas as entradas √© igual a 1 (fato esse compreens√≠vel por ser tratar de probabilidade).

Em outras palavras:

> "A Soma de Todas as P√°ginas rankeadas √© igual a 1" $_{perron-frobenius}$

Em suma, temos que:

- **PageRank** pode ser definido pela probabilidade de um usu√°rio na web iniciar uma **p√°gina aleat√≥ria** ou seguir **hiperlinks** e visitar as p√°ginas fornecida.
- A soma das colunas deve ser igual a 1 por causa das probabilidades (Teoria de **cadeias de Markov** e **ùëùùëíùëüùëüùëúùëõ‚àíùëìùëüùëúùëèùëíùëõùëñùë¢ùë†**);
- A matriz de transi√ß√£o define os pr√≥ximos passos at√© o **PageRank**;

#### Teorema da Converg√™ncia do M√©todo da Pot√™ncia

Por fim, para obter nosso **PageRank**, vamos utilizar todas as ideias desenvolvidas acima para usar o **Teorema da Converg√™ncia do M√©todo da Pot√™ncia**, que nos diz o seguinte:

A partir da matriz **M**: matriz positiva e com colunas estoc√°sticas, n√≥s teremos um vetor-coluna **w** que √© o **autovetor** correspondente ao **autovalor** 1; temos **v**, o vetor inicial com todas as entradas iguais a $\frac{1}{n}$, respons√°vel por indicar que os sites tem igual probabilidade de influ√™ncia antes da **Distribui√ß√£o Estacion√°ria**. Nesse caso, a sequ√™ncia $v, Mv, ..., M^{k}v$ converge para o vetor **w** (**Teorema da Converg√™ncia do M√©todo da Pot√™ncia**).

Agora vamos desenvolver o **Algoritmo PageRank** usando o exemplo de sites acima.

In [8]:
# importando a biblioteca de fun√ß√µes numpy do Python
import numpy as np

In [9]:
# definindo a matriz de transi√ß√£o A
A = np.array([[0,0,1/4, 1/2], [1/3,0,1/4,0], [1/3,1/2,1/4,1/2],[1/3,1/2,1/4,0]])

In [10]:
# imprimindo a matriz A
print("A Matriz de Transi√ß√£o A √©:\n\n{}".format(A))

A Matriz de Transi√ß√£o A √©:

[[0.         0.         0.25       0.5       ]
 [0.33333333 0.         0.25       0.        ]
 [0.33333333 0.5        0.25       0.5       ]
 [0.33333333 0.5        0.25       0.        ]]


Vamos escrever uma fun√ß√£o Python com o algoritmo PageRank, tendo como entradas a **Matriz de Transi√ß√£o** **A** e o **Fator de Amortecimento** **d**.

In [11]:
# vamos definir a fun√ß√£o pagerank
def pagerank(A, d = 0.15):
    
    # n recebe o total de linhas da matriz de transi√ß√£o A, correspondendo ao n√∫mero de sites
    n = A.shape[0]
    
    # inicializa o vetor v, com igual probabilidade para todos os sites antes da distribui√ß√£o estacion√°ria
    v = np.array([[1/n],[1/n],[1/n],[1/n]])
    
    # calcula G da f√≥rmula acima
    M = (1 - d) * A + d * (1/n) * np.ones((n,n))
    
    # a matriz vAux √© um vetor coluna de n linhas, assim como n foi definido acima
    # ela √© apenas uma matriz auxiliar para v
    vAux = np.zeros((n,1))
    
    # estrutura de repeti√ß√£o while 
    for indice in range (0,2):
        # vAux recebe uma c√≥pia de v em cada mudan√ßa de estado
        vAux = v.copy()
        # realiza a multiplica√ß√£o da Matriz PageRank M com o vetor-estado v
        v = M.dot(v)
    
    # retorna o vetor v normalizado
    return v/np.sum(v)

In [12]:
print(pagerank(A))

[[0.23074219]
 [0.1727474 ]
 [0.35514323]
 [0.24136719]]


Finalmente, temos um resultado justo para as p√°ginas. Segundo esse algoritmo, temos o seguinte ranking das p√°ginas:

|**Rank**|**P√°gina**  |
|--------|------------|
|**1¬∫**  |P√°gina **C**|
|**2¬∫**  |P√°gina **D**|
|**3¬∫**  |P√°gina **A**|
|**4¬∫**  |P√°gina **B**|

### O que a Intelig√™ncia Artificial tem Haver com Isso?

Praticamente mih√µes de pessoas utilizam sistemas de streaming para o seu entretenimento. Nesses servi√ßos, geralmente existem um sistema complexo de recomenda√ß√£o de conte√∫dos com base no gosto do usu√°rio, fazendo com que conte√∫dos aparecem personalizados para o cliente, mais pr√≥ximos da sua personalidade. Os algoritmos que est√£o por tr√°s dessa ideia s√£o algoritmos de Machine Learning que fazem classifica√ß√£o. Por exemplo, a partir de um filme A assistido, √© recomendado um filme B, esse que possui semelhan√ßas com o filme A. Um dos algoritmos de Machine Learning que tem esse poder √© chamado de KNN, ele calcula os chamados 'vizinhos pr√≥ximos' de um dado atrav√©s de f√≥rmulas de dist√¢ncia, coma dist√¢ncia m√©dia quadr√°tica (tamb√©m conhecida como dist√¢ncia euclidiana). Vale a pena estudar sobre isso!

#### Refer√™ncias

- Page, Lawrence; Brin, Sergey; Motwani, Rajeev and Winograd, Terry (1998), The PageRank Citation Ranking: Bringing Order to the Web, Relat√≥rio T√©cnico, Stanford University. Dispon√≠vel em: <http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf>. Acesso em: 10, Fevereiro 2020.
- √Ålgebra Linear com aplica√ß√µes / Anton Howard e Chris Rorres; trad. Claus Ivo Doering. - 8. ed. - Porto Alegre: Bookman, 2001.
- Leon, Steven J., 1943 - √Ålgebra Linear com Aplica√ß√µes/ Steven J. Leon; tradu√ß√£o Val√©ria de Magalh√£es I√≥rio - [reimpr]. Rio de Janeiro: LTC, 2008.
- PageRank (Google) Algorithm Explained. Global Software Support, 26, Setembro 2019. Dispon√≠vel em: <https://www.globalsoftwaresupport.com/pagerank-algorithm-explained/>. Acesso em: 10, Fevereiro 2020.

### Alguma D√∫vida? Entre em Contato Comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);