# Exercício 1
Faça uma função `matrixPageRank(arquivo, alpha)` que recebe um digrafo $D$ no arquivo `arquivo` e um número $\alpha$ e devolve a matriz 
$$M = \alpha S + (1-\alpha) J$$.

O digrafo é dado no formato em https://snap.stanford.edu/data/p2p-Gnutella06.html em um arquivo txt.

Rode para o digrafo do link (mas não imprima a matriz inteira, o digrafo é grande) com $\alpha = 0.85$

**Definições**: Para um digrafo com $n$ vértices:
* $J$ é a matriz $n$ por $n$ em que todas as entradas são 1
* $S$ é a matriz obtida da matriz $H$ em que colunas de zeros são substituídas por colunas em que todas as entradas são $1/n$
* $H$ é a matriz $n$ por $n$ tal que
    * $H(i,j) = 1/links(j)$, se $j$ tem um link para $i$ e $links(j)$ é o número de links saindo de $j$;
    * $H(i,j) = 0$, caso contrário.
    
**Sugestão: use o numpy**

**Crie quantas células de código quiser**


In [25]:
import numpy as np

In [26]:
def matrixPageRank(arquivo, alpha):
    
    # Informacoes do arquivo txt:
    # Directed graph (each unordered pair of nodes is saved once): p2p-Gnutella06.txt 
    # Directed Gnutella P2P network from August 6 2002
    # Nodes: 8717 Edges: 31525
    # FromNodeId	ToNodeId   

    lista_de_edges = np.array(arquivo.readlines())

    print("Edges = ", len(lista_de_edges))

    J = np.ones((8717,8717))
    H = np.zeros((8717,8717))

    for i in range(0,8717):
        for j in range(0,8717):

            jiedge = False
            contjlinks = 0

            for s in range(0,31525):
                if lista_de_edges[s][0] == j and lista_de_edges[s][2] == i:
                    jiedge = True

                if lista_de_edges[s][0] == j:
                    contjlinks += 1 

            if jiedge:        
                H[i][j] = 1/contjlinks


    for j in range(0, 8717):
        contzeros = 0
        for i in range(0,8717):
            if H[i][j] == 0:
                contzeros += 1

        if contzeros == 8717:
            for s in range(0,8717):
                H[i][j] = 1/8717

    M = alpha*H + (1-alpha)*J
    return M

In [None]:
arquivo = open("p2p-Gnutella06.txt","r")
alpha = 0.85

M = matrixPageRank(arquivo, alpha)

arquivo.close()

Edges =  31525


In [22]:
print(M)

NameError: name 'M' is not defined

# Exercício 2
Faça uma função `resolve_ex2(M)` que retorna o vetor de relevância $r$ para a matriz $M$. 

Para encontrar $r$, sugiro utilizar o pacote numpy.linalg com a função eig.

Calcule o tempo que demora para resolver o digrafo grande do link.

In [None]:
# para calcular tempo
import time

def resolve_ex2(M):
    
    start = time.time()
    np.linalg.eig(M)
    end = time.time()

    elapsed = end - start
    print(elapsed)


# Exercício 3
Faça uma função `resolve_ex3(M, k)` que retorna uma aproximação para o vetor de relevância $r$ utilizando o power method.

Lembre-se que o power method nos diz que para $M^k x$ converge para $r$ com $k\to\infty$ e $x = (1/n,\dotsc, 1/n)$.

Ou seja, basta calcular $M^k x$

Calcule o tempo que demora para resolver o digrafo grande do link (com $k=50$).

# Exercício 4
Usando os exercícios anteriores, faça uma função `top20` que recebe M e r e imprime os 20 sites mais relevantes de acordo com $r$.

Compare essa lista para r obtido no Exercício 2 e no Exercício 3. Qual o menor $k$ para qual as listas de top 20 coincindem?

# Exercício 5
Faça uma função `naive(arquivo)` que recebe um digrafo (como no Exercício 1) e considera a relevância de uma página $p$ como o número de páginas apontando para $p$. Compare esse critério com o obtido no Exercício 4 para o digrafo grande.