# Exercício de Programação 3: PageRank

<font color="red">**Prazo de submissão: 23:55 do dia 09/09/2019** </font>

2019.2 Álgebra Linear Computacional - DCC - UFMG

Erickson - Fabricio - Renato

Instruções:
* Antes de submeter suas soluções, certifique-se de que tudo roda como esperado. Primeiro, **reinicie o kernel** no menu, selecione Kernel$\rightarrow$Restart e então execute **todas as células** (no menu, Cell$\rightarrow$Run All)
* Apenas o arquivo .ipynb deve ser submetido. Ele não deve ser compactado.
* Não deixe de preencher seu nome e número de matrícula na célula a seguir

**Nome:** Victor Vieira de Melo

**Matrícula:** 2019055028

* Todo material consultado na Internet deve ser referenciado (incluir URL).

Este trabalho está dividido em cinco partes:
 * **Parte 0**: Esta parte não vale nota, mas é fundamental para entender o que se pede a seguir.
 * **Parte 1**: Pagerank sem saltos aleatórios em grafo pequeno
 * **Parte 2**: Pagerank (com saltos aleatórios) em grafo pequeno

## Parte 0: Revisão de conceitos

I. O **primeiro autovetor** (isto é, o autovetor associado ao maior autovalor em módulo) pode ser calculado rapidamente através do método da potência, desde que o *gap* entre o maior e o segundo maior autovalor (em módulo) seja grande. Uma implementação simples do método da potência é mostrada a seguir.

In [44]:
def powerMethod(A, niter=10):
    n = len(A)
    w = np.ones((n,1))/n
    for i in range(niter):
        w = A.dot(w)        
    return w

II. Dado um grafo $G=(V,E)$, podemos obter uma **matriz de probabilidade de transição** $P$ dividindo-se cada linha de $A$ pela soma dos elementos da linha. Seja $D = A \times \mathbf{1}$ a matriz diagonal contendo a soma das linhas de $A$. Temos que

$$
P = D^{-1} \times A.
$$

III. A matriz de probabilidade de transição $P$ de certos grafos direcionados satisfaz

$$
v^\top P = v^\top \textrm{ou $P^\top v = v$},
$$

onde $v$ é o primeiro autovetor de $P^\top$. A equação da direita é mais fácil de ser utilizada, pois ela tem a forma canônica $Ax=b$. Já a equação da direita é mais fácil de ser interpretada. Para todo $j=1,\ldots,n$,

$$
\sum_{i=1} v_i P_{ij} = v_j \\
\sum_{i=1} v_i \frac{A_{ij}}{D_{ii}} = v_j \\
\sum_{i:(i,j) \in E} v_i \frac{1}{D_{ii}} = v_j
$$

IV. Assuma que $v$ seja normalizado de forma que $\sum_j v_j = 1$. O PageRank (sem saltos) de um vértice $j$ é dado por $v_j$, onde $v$ é o primeiro autovetor de $P^\top$. Esta é uma maneira de medir sua relevância. A intuição da Equação $\sum_{i:(i,j) \in E} v_i /D_{ii} = v_j$ é que a relevância de $j$ é a soma das relevâncias dos vértices $i$ que apontam para $j$ normalizados pelos seus respectivos graus de saída.

## Parte 1: Pagerank sem saltos aleatórios em grafo pequeno

Considere o grafo a seguir composto por $n=4$ vértices e $m=8$ arestas. 
<img src="images/directedgraph.png"/>

Certifique-se de que encontrou as $m=8$ arestas.

**1.1** Crie um numpy array $A$ contendo a matriz de adjacência.

In [45]:
import numpy as np
A = np.array([[0,1,1,0],[0,0,1,1],[0,0,0,1],[1,1,1,0]])

**1.2** Escreva uma função matrizDeTransicao que recebe como entrada uma matriz $n \times n$ e retorna a matriz de probabilidade de transição. Imprima $P$, a matriz de transição para $A$.

In [46]:
def matrizDeTransicao(M):
    n = len(M)
    D = np.zeros((n,n))
    
    #Criando a matriz diagonal D com a soma das linhas de A
    for i in range(n):
        D[i,i] = np.sum(M[i,:])
    
    P = np.linalg.inv(D)@M
    return P

P = matrizDeTransicao(A)
print(P)

[[0.         0.5        0.5        0.        ]
 [0.         0.         0.5        0.5       ]
 [0.         0.         0.         1.        ]
 [0.33333333 0.33333333 0.33333333 0.        ]]


**1.3** Use a função np.linalg.eig para calcular o primeiro autovetor de $P^\top$. Normalize o autovetor pela sua soma e imprima o resultado. (Observação: os elementos do autovetor serão retornados como números complexos, mas a parte imaginária será nula e pode ser ignorada.)

In [64]:
autoval,autovec = np.linalg.eig(P.T)
autovec = autovec/np.linalg.norm(autovec)
print(autovec[:,0])

[0.12016835+0.j 0.18025253+0.j 0.2703788 +0.j 0.36050506+0.j]


**1.4** Verifique que o método da potência aplicado a $P^\top$ retorna uma aproximação para o primeiro autovetor. 

In [65]:
powerMethod(P.T)

array([[0.12885802],
       [0.19331115],
       [0.29024402],
       [0.38758681]])

**1.5** Implemente uma função powerMethodEps(A, epsilon) que executa o método da potência até que a condição de convergência $\|w_{t} - w_{t-1}\| < \epsilon$ seja atingida. Para a matriz $P^\top$ com $\epsilon=10^{-5}$ quantas iterações foram realizadas? 

In [66]:
def powerMethodEps(A, eps=1e-5):
    n = len(A)
    w = np.ones((n,1))/n
    w_new = A @ w
    count = 1
    while (np.linalg.norm(w_new-w) >= eps):
        w = w_new
        w_new = A @ w
        count = count + 1
    print(count)
    
    return w

powerMethodEps(P.T)

19


array([[0.12903008],
       [0.19354683],
       [0.29032272],
       [0.38710037]])

## Parte II: Pagerank (com saltos aleatórios) em grafo pequeno

Agora iremos modificar a matriz A de forma a:
 * adicionar um novo vértice 4, e
 * adicionar uma aresta de 3 para 4.
 
Obviamente a matriz de probabilidade de transição não está definida para a nova matriz $A$. Vértices que não possuem arestas de saída (como o vértice 4) são conhecidos como *dangling nodes*. Para resolver este e outros problemas, incluiremos a possibilidade de realizar saltos aleatórios de um vértice para qualquer outro vértice.

Em particular, assume-se que com probabilidade $\alpha$, seguimos uma das arestas de saída em $A$ e, com probabilidade $1-\alpha$ realizamos um salto aleatório, isto é, transicionamos do vértice $v$ para um dos $n$ vértices do grafo (incluindo $v$) escolhido uniformemente. Quando não existem *dangling nodes*, a nova matriz de probabilidade de transição é dada por

$$
P = \alpha D^{-1} A + (1-\alpha) \frac{\mathbf{1}\mathbf{1}^\top}{n}
$$

Quando existem *dangling nodes*, a única possibilidade a partir desses nós é fazer saltos aleatórios. Mais precisamente, se $i$ é um vértice sem arestas de saída, desejamos que a $i$-ésima linha de $P$ seja o vetor $[1/n,\ldots,1/n]$. Uma forma de satisfazer essa definição é preencher com 1's as linhas de $A$ que correspondem aos *dangling nodes*. Uma desvantagem desta estratégia é que faz com que $A$ fique mais densa (mais elementos não-nulos).

Um valor típico usado para $\alpha$ é $0.85$.

**2.1** Crie um novo numpy array $A_\textrm{new}$ contendo o vértice 4 e a aresta (3,4).

In [49]:
A_new = np.array([[0,1,1,0,0],[0,0,1,1,0],[0,0,0,1,0],[1,1,1,0,1],[0,0,0,0,0]])
print(A_new)

[[0 1 1 0 0]
 [0 0 1 1 0]
 [0 0 0 1 0]
 [1 1 1 0 1]
 [0 0 0 0 0]]


**2.2** Crie uma função fixDangling(M) que retorna uma cópia modificada da matriz de adjacência M onde cada *dangling node* do grafo original possui arestas para todos os vértices do grafo. *Dica:* Você pode criar um vetor $d$ com os graus de saída e acessar as linhas de $M$ correpondentes aos *dangling nodes* por $M[d==0,:]$. Imprima a matriz $A_\textrm{fixed}$ retornada após chamar fixDangling para $A_\textrm{new}$.  

In [68]:
def fixDangling(M):
    M2 = M.copy()
    n = len(M)
    d = np.zeros((n))
    
    #Criando o vetor linha d
    for x in range (n):
        d[x] = 1
    
    #Verificando se há dangling node e substituindo a linha por d
    for i in range(n):
        if (np.sum(M2[i,:])==0):
            M2[i,:] = d
    return M2
    
A_fixed = fixDangling(A_new)
A_fixed

array([[0, 1, 1, 0, 0],
       [0, 0, 1, 1, 0],
       [0, 0, 0, 1, 0],
       [1, 1, 1, 0, 1],
       [1, 1, 1, 1, 1]])

**2.3** Crie uma função matrizDeTransicao(M, alpha) que receba como parâmetro também a probabilidade $\alpha$ de não fazermos um salto aleatório. Você pode assumir que $M$ foi retornada por fixDanglig, logo, não possui *dangling nodes*. Imprima as matrizes:
 * $P_2$ obtida ao chamar matrizDeTransicao para os parâmetros $A$ e $\alpha=0.85$;
 * $P_\textrm{new}$ obtida ao chamar matrizDeTransicao para os parâmetros $A_\textrm{fixed}$ e $\alpha=0.85$.

In [70]:
def matrizDeTransicao(A, alpha=1.0):
    n = len(A)
    D = np.zeros((n,n))
    d = np.zeros(n)
    onze = np.zeros((n,n))
    
    #Criando a matriz diagonal D e o vetor linha d
    for i in range(n):
        D[i,i] = np.sum(A[i,:])
        d[i] = 1
    
    #Criando a matriz 11
    for x in range(n):
        onze[x,:] = d
    
    #Criando P
    P = alpha*np.linalg.inv(D)@A + (1-alpha)*(onze.T/n)
    
    return P 

P_2 = matrizDeTransicao(A,0.85)
print(P_2)
P_new = matrizDeTransicao(A_fixed,0.85)
print(P_new)

[[0.0375     0.4625     0.4625     0.0375    ]
 [0.0375     0.0375     0.4625     0.4625    ]
 [0.0375     0.0375     0.0375     0.8875    ]
 [0.32083333 0.32083333 0.32083333 0.0375    ]]
[[0.03   0.455  0.455  0.03   0.03  ]
 [0.03   0.03   0.455  0.455  0.03  ]
 [0.03   0.03   0.03   0.88   0.03  ]
 [0.2425 0.2425 0.2425 0.03   0.2425]
 [0.2    0.2    0.2    0.2    0.2   ]]


**2.4** Imprima o resultado do método da potência com:
* $P_2^\top$ e $\epsilon=10^{-5}$
* $P_\textrm{new}^\top$ e $\epsilon=10^{-5}$.

In [71]:
pr_2 = powerMethodEps(P_2.T,eps=1e-5)
pr_new = powerMethodEps(P_new.T,eps=1e-5)
print(pr_2)
print(pr_new)

15
13
[[0.14181131]
 [0.20208015]
 [0.28796184]
 [0.36814671]]
[[0.12190232]
 [0.1737103 ]
 [0.24753505]
 [0.33495002]
 [0.12190232]]


**2.5** Sejam $i_\max$ e $i_\min$ os índices dos vértices com maior e menor PageRank de $A_\textrm{fixed}$. Vamos verificar como a adição de um novo link pode ajudar a promover uma página web (vértice). Adicione uma aresta do vértice $i_\max$ para o vértice $i_\min$ (se já houver aresta, aumente de 1 para 2 o elemento da matriz de adjacência). Qual é o novo pagerank de $i_\min$?

In [72]:
ind_sorted = np.argsort(np.squeeze(pr_new))
imax = ind_sorted[-1]
imin = ind_sorted[0]


In [73]:
A_fixed2 = A_fixed.copy()
if(A_fixed2[imax,imin]==1):
    A_fixed2[imax,imin]=2
else:
    A_fixed2[imax,imin]=1

P_fixed2 = matrizDeTransicao(A_fixed2,0.85)
pr = powerMethodEps(P_fixed2.T,eps=1e-4)
print(pr)

13
[[0.1583561 ]
 [0.17021269]
 [0.24253671]
 [0.32596931]
 [0.10292519]]
