# Exercício 1
Faça uma função `matrixPageRank(arquivo, alpha)` que recebe um digrafo $D$ no arquivo `arquivo` e um número $\alpha$ e devolve a matriz 
$$M = \alpha S + (1-\alpha) J$$.

O digrafo é dado no formato em https://snap.stanford.edu/data/p2p-Gnutella06.html em um arquivo txt.

Rode para o digrafo do link (mas não imprima a matriz inteira, o digrafo é grande) com $\alpha = 0.85$

**Definições**: Para um digrafo com $n$ vértices:
* $J$ é a matriz $n$ por $n$ em que todas as entradas são 1
* $S$ é a matriz obtida da matriz $H$ em que colunas de zeros são substituídas por colunas em que todas as entradas são $1/n$
* $H$ é a matriz $n$ por $n$ tal que
    * $H(i,j) = 1/links(j)$, se $j$ tem um link para $i$ e $links(j)$ é o número de links saindo de $j$;
    * $H(i,j) = 0$, caso contrário.
    
**Sugestão: use o numpy**

**Crie quantas células de código quiser**


In [23]:
import numpy as np

In [2]:
n = 8717

In [3]:
def matrixPageRank(arquivo, alpha):
    
    # Informacoes do arquivo txt:
    # Directed graph (each unordered pair of nodes is saved once): p2p-Gnutella06.txt 
    # Directed Gnutella P2P network from August 6 2002
    # Nodes: 8717 Edges: 31525
    # FromNodeId	ToNodeId   

    lista_de_edges = np.array(arquivo.readlines())
    
    print("Edges = ", len(lista_de_edges))
    
    edges = np.zeros((31525,2),dtype=int)
    
    for i in range(31525):
                    
        edge = lista_de_edges[i].split()
        edges[i,0] = edge[0]
        edges[i,1] = edge[1]
        
    J = np.ones((n,n))
    H = np.zeros((n,n))
    
    jlinks = np.zeros(n)
    
    for i in range(31525):
        jlinks[edges[i][0]] +=1
    
    for s in range(31525):
        H[edges[s][1],edges[s][0]] = 1/jlinks[edges[s][0]]

    for j in range(n):
        contzeros = 0
        for i in range(n):
            if H[i][j] == 0:
                contzeros += 1

        if contzeros == n:
            for s in range(n):
                H[s][j] = 1/n



    M = alpha*H + (1-alpha)*J
    return M

In [4]:
arquivo = open("p2p-Gnutella06.txt","r")
alpha = 0.85

M = matrixPageRank(arquivo, alpha)

arquivo.close()

Edges =  31525


In [5]:
print(M)

[[0.15       0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 [0.235      0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 [0.235      0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 ...
 [0.15       0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 [0.15       0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 [0.15       0.15009751 0.15009751 ... 0.235      0.15009751 0.15      ]]


# Exercício 2
Faça uma função `resolve_ex2(M)` que retorna o vetor de relevância $r$ para a matriz $M$. 

Para encontrar $r$, sugiro utilizar o pacote numpy.linalg com a função eig.

Calcule o tempo que demora para resolver o digrafo grande do link.

In [6]:
def resolve_ex2(M):
    
    start = time.time()
    ava, ave = np.linalg.eig(M)
    print("Autovalor: ", ava)
    end = time.time()

    elapsed = end - start
    print(elapsed, "segundos")
    return ave

In [7]:
import time
ave = resolve_ex2(M)

Autovalor:  [ 1.30840000e+03+0.j       2.56596758e-01+0.j
  2.74953779e-02+0.23934j ... -2.33609893e-16+0.j
  1.41107898e-16+0.j       2.33611999e-16+0.j     ]
247.2709128856659 segundos


# Exercício 3
Faça uma função `resolve_ex3(M, k)` que retorna uma aproximação para o vetor de relevância $r$ utilizando o power method.

Lembre-se que o power method nos diz que para $M^k x$ converge para $r$ com $k\to\infty$ e $x = (1/n,\dotsc, 1/n)$.

Ou seja, basta calcular $M^k x$

Calcule o tempo que demora para resolver o digrafo grande do link (com $k=50$).

In [8]:
def resolve_ex3(M, k):
    
    start = time.time()
    
    Mk = np.power(M,k)
    
    x = np.zeros(n)
    
    r = np.multiply(Mk,x)
    
    end = time.time()
    
    elapsed = end - start
    print(elapsed, "segundos")
    
    return r

In [9]:
r = resolve_ex3(M,50)

3.5198171138763428 segundos


# Exercício 4
Usando os exercícios anteriores, faça uma função `top20` que recebe M e r e imprime os 20 sites mais relevantes de acordo com $r$.

Compare essa lista para r obtido no Exercício 2 e no Exercício 3. Qual o menor $k$ para qual as listas de top 20 coincindem?

In [10]:
def top20(M,r):
    
    np.sort(r)
    for i in range(20):
        print(r[n-i-1])
        
    np.sort(ave)
    for j in range(20):
        print(ave[n-j-1])

In [11]:
top20(M,r)

[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[0. 0. 0. ... 0. 0. 0.]
[-1.07083763e-02+0.00000000e+00j  1.26349886e-03+0.00000000e+00j
 -2.28992649e-04+8.78076291e-05j ...  2.34496216e-16+0.00000000e+00j
  2.71835162e-16+0.00000000e+00j -4.90388425e-16+0.00000000e+00j]
[-0.01070884+0.j          0.00155423+0.j         -0.00020587+0.00013195j
 ... -0.00106285+0.j         -0.00613419+0.j
  0.00074831+0.j        ]
[-1.07083763e-02+0.00000000e+00j  1.28736710e-03+0.00000000e+00j
 -2.22193346e-04+3.38952035e-05j ... -3.75763554e-16+0.00000000e+00j
 -2.64198820e-16+0.00000000e+00j -1.945043

# Exercício 5
Faça uma função `naive(arquivo)` que recebe um digrafo (como no Exercício 1) e considera a relevância de uma página $p$ como o número de páginas apontando para $p$. Compare esse critério com o obtido no Exercício 4 para o digrafo grande.

In [24]:
n = 8717

In [27]:
def naive(arquivo):
    
    lista_de_edges = np.array(arquivo.readlines())
    
    print("Edges = ", len(lista_de_edges))
    
    edges = np.zeros((31525,2),dtype=int)
    
    for i in range(31525):
                    
        edge = lista_de_edges[i].split()
        edges[i,0] = edge[0]
        edges[i,1] = edge[1]
        
    #print("Arestas \n")
    #for i in range(31525):
    #    print(edges[i][0]," ", edges[i][1])
            
        
    rel = np.zeros(n, dtype=int)
    print("Relevancia \n")

    for i in range(31525):
        rel[edges[i][1]] +=1
    
    print("Relevancia \n")
    np.sort(rel)
    for s in range(n):
        print(rel[s])

In [28]:
arquivo = open("p2p-Gnutella06.txt","r")
naive(arquivo)
arquivo.close()

Edges =  31525
Relevancia 

Relevancia 

2
4
5
12
6
10
11
13
7
2
7
4
5
36
1
3
2
8
5
10
18
15
5
6
3
4
12
16
2
1
3
60
8
1
10
24
2
3
6
9
21
1
14
2
8
3
1
2
30
1
1
3
1
1
3
1
1
5
12
5
4
1
2
13
0
6
0
56
13
2
2
8
3
3
3
3
23
2
12
8
11
6
1
4
2
9
13
6
20
4
4
2
5
1
1
2
3
1
1
54
3
8
5
3
3
7
3
5
9
6
2
3
8
1
1
3
5
1
8
7
11
1
1
3
4
3
4
8
5
10
9
10
1
2
8
3
12
11
5
3
3
9
5
3
2
2
8
2
6
10
2
8
6
5
8
0
2
8
7
2
3
5
1
14
4
5
9
4
2
36
54
41
52
57
56
45
62
5
5
1
1
5
5
4
7
12
17
4
12
4
11
9
3
15
8
6
5
1
3
4
3
6
4
5
8
3
4
11
5
6
2
3
5
10
3
4
5
4
2
5
11
0
1
5
1
8
1
1
2
16
1
1
3
4
4
4
6
3
10
2
3
4
2
5
4
3
53
7
5
3
3
2
12
1
1
10
1
1
2
6
8
8
0
5
6
1
9
8
3
4
4
5
7
2
5
1
2
10
1
15
10
1
6
6
3
1
8
12
2
14
2
56
36
59
53
21
47
56
36
59
57
4
5
5
2
1
12
4
10
6
2
0
3
4
8
4
10
3
8
2
17
15
7
18
3
14
1
11
1
2
7
3
6
5
8
21
9
7
9
5
4
3
7
7
1
7
2
2
2
3
48
44
33
48
46
49
64
40
6
2
5
5
6
6
11
3
2
6
5
5
6
2
9
6
6
3
1
2
4
14
3
12
1
8
13
10
16
3
9
12
3
3
2
3
5
1
3
20
6
6
7
2
4
16
14
6
3
1
3
3
1
7
4
11
2
2
1
15
16
5
0
6
11
1
1
6
7
2
2
1

1
1
4
2
8
11
1
3
3
2
1
5
4
4
6
4
4
2
5
1
3
2
6
2
1
6
4
5
3
8
3
3
1
5
8
4
8
2
1
4
6
4
1
5
6
4
3
2
7
2
2
3
5
1
2
1
4
9
1
3
2
5
1
1
3
1
2
2
2
1
3
5
7
3
4
3
2
4
3
1
5
3
2
3
1
6
2
1
2
5
1
5
1
1
4
1
1
1
3
1
7
3
2
6
2
6
1
4
5
9
1
6
2
2
3
1
7
3
1
11
2
10
1
2
1
4
3
2
4
2
1
2
2
1
2
6
6
1
2
2
2
1
4
3
11
2
12
6
5
3
2
1
1
1
3
1
3
1
3
1
1
1
3
1
2
1
1
7
3
2
1
1
1
2
2
1
2
6
2
2
2
2
2
3
1
1
4
4
7
3
1
1
2
2
3
1
4
1
8
9
5
3
2
2
2
3
2
1
1
1
3
4
3
3
5
12
2
1
5
1
2
2
3
3
1
1
2
1
3
1
2
3
4
5
1
2
5
2
1
4
1
3
3
2
5
1
2
2
3
1
2
1
7
4
1
1
1
2
4
4
2
1
1
2
4
4
1
5
2
1
1
2
4
3
1
2
1
1
7
3
4
1
5
2
5
14
2
4
4
2
3
2
2
5
2
3
2
2
1
4
2
1
5
4
2
1
1
6
1
2
4
1
4
2
8
7
3
2
2
3
4
4
1
1
3
1
1
3
2
2
1
4
4
2
1
1
3
3
1
3
5
4
2
5
7
7
5
5
4
3
14
6
2
4
2
2
4
4
2
3
3
1
3
3
4
8
3
13
3
2
1
9
2
6
8
5
1
6
2
3
3
5
1
1
3
3
4
3
4
1
5
3
1
4
4
2
4
3
1
3
1
2
1
4
2
4
1
5
3
5
2
6
4
7
2
1
2
1
1
1
1
2
1
7
2
4
1
1
2
3
2
3
10
6
6
1
3
1
1
1
8
1
6
2
2
5
1
3
2
2
3
4
1
3
1
5
1
5
2
1
1
1
1
2
1
1
1
2
2
1
1
1
4
3
1
3
2
2
1
7
1
2
1
1
1
2
1
6
2
3
1
2
2
2
2
