# Exercício 1
Faça uma função `matrixPageRank(arquivo, alpha)` que recebe um digrafo $D$ no arquivo `arquivo` e um número $\alpha$ e devolve a matriz 
$$M = \alpha S + (1-\alpha) J$$.

O digrafo é dado no formato em https://snap.stanford.edu/data/p2p-Gnutella06.html em um arquivo txt.

Rode para o digrafo do link (mas não imprima a matriz inteira, o digrafo é grande) com $\alpha = 0.85$

**Definições**: Para um digrafo com $n$ vértices:
* $J$ é a matriz $n$ por $n$ em que todas as entradas são 1
* $S$ é a matriz obtida da matriz $H$ em que colunas de zeros são substituídas por colunas em que todas as entradas são $1/n$
* $H$ é a matriz $n$ por $n$ tal que
    * $H(i,j) = 1/links(j)$, se $j$ tem um link para $i$ e $links(j)$ é o número de links saindo de $j$;
    * $H(i,j) = 0$, caso contrário.
    
**Sugestão: use o numpy**

**Crie quantas células de código quiser**


In [1]:
import numpy as np

In [2]:
n = 8717

In [3]:
def matrixPageRank(arquivo, alpha):
    
    # Information about arquivo:
    # Directed graph (each unordered pair of nodes is saved once): p2p-Gnutella06.txt 
    # Directed Gnutella P2P network from August 6 2002
    # Nodes: 8717 Edges: 31525
    # FromNodeId	ToNodeId   

    edges_list = np.array(arquivo.readlines())
    
    print("Edges = ", len(edges_list))
    
    edges = np.zeros((31525,2),dtype=int)
    
    for i in range(31525):
                    
        edge = edges_list[i].split()
        edges[i,0] = edge[0]
        edges[i,1] = edge[1]
        
    J = np.ones((n,n))
    H = np.zeros((n,n))
    
    jlinks = np.zeros(n)
    
    #counting degree of each vextex
    for i in range(31525):
        jlinks[edges[i][0]] +=1
    
    #creating matrix H
    for s in range(31525):
        H[edges[s][1]][edges[s][0]] = 1/jlinks[edges[s][0]]

    
    #creating matrix S
    S = H
    for j in range(n):
        contzeros = 0
        for i in range(n):
            if S[i][j] == 0:
                contzeros += 1

        if contzeros == n:
            for s in range(n):
                S[s][j] = 1/n

        
    M = alpha*S + (1-alpha)*J
    return M

In [4]:
arquivo = open("p2p-Gnutella06.txt","r")
alpha = 0.85

M = matrixPageRank(arquivo, alpha)

arquivo.close()

Edges =  31525


In [5]:
print(M)

[[0.15       0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 [0.235      0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 [0.235      0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 ...
 [0.15       0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 [0.15       0.15009751 0.15009751 ... 0.15       0.15009751 0.15      ]
 [0.15       0.15009751 0.15009751 ... 0.235      0.15009751 0.15      ]]


# Exercício 2
Faça uma função `resolve_ex2(M)` que retorna o vetor de relevância $r$ para a matriz $M$. 

Para encontrar $r$, sugiro utilizar o pacote numpy.linalg com a função eig.

Calcule o tempo que demora para resolver o digrafo grande do link.

In [None]:
def resolve_ex2(M):
    
    start = time.time()
    vals, vecs = np.linalg.eig(M)
    
    #w,v = linalg.eig(A)
    #return abs(real(v[:n,0])/linalg.norm(v[:n,0],1))
    # Discard Complex variables
    #eigenvector = []
    #for vec in vecs:
    #    eigenvector.append(float(vec[0]))
    
    #print("Autovetor: ", eigenvector)
    
    end = time.time()

    elapsed = end - start
    print(elapsed, "segundos")
    return np.abs(np.real(vecs[:n,0])/np.linalg.norm(vecs[:n,0],1))

In [None]:
import time
ave = resolve_ex2(M)
print(ave)

# Exercício 3
Faça uma função `resolve_ex3(M, k)` que retorna uma aproximação para o vetor de relevância $r$ utilizando o power method.

Lembre-se que o power method nos diz que para $M^k x$ converge para $r$ com $k\to\infty$ e $x = (1/n,\dotsc, 1/n)$.

Ou seja, basta calcular $M^k x$

Calcule o tempo que demora para resolver o digrafo grande do link (com $k=50$).

In [27]:
def resolve_ex3(M, k):
    
    start = time.time()
    
    Mk = np.power(M,k)
    
    x = np.ones(n)
    
    x = x*1/n
        
    r = np.multiply(Mk,x)
    
    end = time.time()
    
    elapsed = end - start
    print(elapsed, "segundos")
    
    return r

In [28]:
r = resolve_ex3(M,50)
print(r)

5.9667909145355225 segundos
[[7.31468969e-46 7.55626930e-46 7.55626930e-46 ... 7.31468969e-46
  7.55626930e-46 7.31468969e-46]
 [4.10228725e-36 7.55626930e-46 7.55626930e-46 ... 7.31468969e-46
  7.55626930e-46 7.31468969e-46]
 [4.10228725e-36 7.55626930e-46 7.55626930e-46 ... 7.31468969e-46
  7.55626930e-46 7.31468969e-46]
 ...
 [7.31468969e-46 7.55626930e-46 7.55626930e-46 ... 7.31468969e-46
  7.55626930e-46 7.31468969e-46]
 [7.31468969e-46 7.55626930e-46 7.55626930e-46 ... 7.31468969e-46
  7.55626930e-46 7.31468969e-46]
 [7.31468969e-46 7.55626930e-46 7.55626930e-46 ... 4.10228725e-36
  7.55626930e-46 7.31468969e-46]]


# Exercício 4
Usando os exercícios anteriores, faça uma função `top20` que recebe M e r e imprime os 20 sites mais relevantes de acordo com $r$.

Compare essa lista para r obtido no Exercício 2 e no Exercício 3. Qual o menor $k$ para qual as listas de top 20 coincindem?

In [31]:
def top20(M,r):
    
    ordemr = np.sort(r)
    
    for i in range(20):
        print(ordemr[n-i-1])
        
    ordemave = np.sort(ave)
    
    for j in range(20):
        print(ordemave[n-j-1])
        
    equal = 0 
    k = 50
    
    #while(equal != 20):
    #    equal = 0
    #    
    #    for s in range(20):
    #        if ave[n-s-1] == r[n-s-1]:
    #            equal += 1
    #    
    #    k += 1
    #    r = resolve_ex3(M,k)
    
    print("k = ", k-1)

In [32]:
top20(M,r)

[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 4.10228725e-36]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 2.01359845e-31]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 4.10228725e-36]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 4.10228725e-36]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 4.10228725e-36]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 4.10228725e-36]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 1.14718366e-04]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 2.01359845e-31 1.14718366e-04]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 4.10228725e-36]
[7.31468969e-46 7.31468969e-46 7.31468969e-46 ... 7.55626930e-46
 7.55626930e-46 4.10228725e-36]
[7.31468969e-46 7.31468969e-46

AxisError: axis -1 is out of bounds for array of dimension 0

# Exercício 5
Faça uma função `naive(arquivo)` que recebe um digrafo (como no Exercício 1) e considera a relevância de uma página $p$ como o número de páginas apontando para $p$. Compare esse critério com o obtido no Exercício 4 para o digrafo grande.

In [48]:
n = 8717

In [55]:
def naive(arquivo):
    
    lista_de_edges = np.array(arquivo.readlines())
    
    print("Edges = ", len(lista_de_edges))
    
    edges = np.zeros((31525,2),dtype=int)
    
    for i in range(31525):
                    
        edge = lista_de_edges[i].split()
        edges[i,0] = edge[0]
        edges[i,1] = edge[1]
        
    #print("Arestas \n")
    #for i in range(31525):
    #    print(edges[i][0]," ", edges[i][1])
            
        
    rel = np.zeros(n, dtype=int)

    for i in range(31525):
        rel[edges[i][1]] +=1
    
    print("Relevancia \n")
    
    ordemrel = np.sort(rel)
     
    for s in range(20):
        print(ordemrel[n-s-1])

In [56]:
arquivo = open("p2p-Gnutella06.txt","r")
naive(arquivo)
arquivo.close()

Edges =  31525
Relevancia 

64
62
60
60
59
59
59
57
57
56
56
56
56
54
54
54
53
53
53
52
