# Lab 02 - Parte 2 - PageRank

### Algoritmo de PageRank

PageRank é um algoritmo utilizado pela ferramenta de busca Google para posicionar websites entre os resultados de suas buscas. O PageRank mede a importância de uma página contabilizando a quantidade e qualidade de links apontando para ela. Em nossa atividade vamos medir a importancia de um investidor

In [None]:
import numpy as n
import pandas as p

D = 0.15 # fator de teletransporte
COMPLEMENT_D = 1 - D
count = 0 # número de iterações

### Geração da matrix de transição

In [3]:
def generate_matrix_a(source, target, nodes):
    numeber_of_transactions = len(source)
    numeber_of_nodes = len(nodes)

    a = n.zeros(shape=(numeber_of_nodes, numeber_of_nodes))
    '''
        As chaves do dicionário são os ID dos investidores e o valor é a lista de ID dos investidores
        que ele fez operações.
    '''
    adjacence_dict = {
        node: [] for node in nodes
    }

    for i in range(numeber_of_transactions):
        origin = source[i]
        destiny = target[i]
        adjacence_dict[origin].append(destiny)
    '''
        Matrix de transição
    '''
    for i in range(numeber_of_nodes):
        for j in range(numeber_of_nodes):
            origin = nodes[i]
            destiny = nodes[j]
            if destiny in adjacence_dict[origin]: a[j][i] = float(1) / float(len(adjacence_dict[origin]))

    return n.matrix(a)

### Calculo do PageRank

Método que calcula o pagerank de cada nó

In [None]:
def pagerank(v):
    global count
    count += 1
    if sum(abs( m * v - v)) > 0.001:
        return pagerank(m * v)

    return m * v

### Importação dos dados

In [None]:
data = p.read_csv('data-set/ratings.csv', encoding='utf-8')
data = data.sort_values(by=['SOURCE', 'TARGET']) # ordenando as colunas acredito que fica melhor de se trabalhar com os dados

Criando uma lista de nós origem e destino, bem como uma lista com todos os *'nós'*

In [None]:
source = list(data.SOURCE)
target = list(data.TARGET)
nodes = list(set(source) | set(list(target)))
numeber_of_nodes = len(nodes)

### Gerando as matrizes

In [None]:
a = generate_matrix_a(source, target, nodes) # matrix de transição
b = (float(1) / float(numeber_of_nodes)) * n.matrix([[1] * numeber_of_nodes for i in range(numeber_of_nodes)]) # matrix identidade
m = COMPLEMENT_D * a + D * b # google matrix com fator de teletransporte 0.15
v = (float(1) / float(numeber_of_nodes)) * n.matrix([[1] for i in range(numeber_of_nodes)]) # vetor normalizado

### Calculando o PageRank

In [None]:
result = pagerank(v)
result = [cell.item(0,0) for cell in result]

### Exportando os dados

In [None]:
to_data_frame = p.DataFrame({
    'id': nodes,
    'PageRank': result
})
to_data_frame.to_csv('data-set/result-PageRank.csv', index=False)

## Perguntas

 * **Quantas iterações o PageRank precisou rodar até atingir convergência?** O algoritmo convergiu depois de 35 iterações 

 * **Quais os 5 investidores mais importantes segundo o PageRank? Quais seus valores de PageRank?**

| ID do investidor    | Valor do PageRanck |
| ------------- |:------------------:|
| 1      | 0.0001389966733507318      |
| 202   | 0.00012469043877648832           |
| 144 | 0.00011742202596525958           |
| 3996 | 9.278695890889267e-05           |
| 361 | 9.154803394727113e-05           |

 * **Como você poderia usar o PageRank caso você fosse um investidor em bitcoins?**  Usando o valor do pagerank  obtido podemos analisar o risco de uma operação de compra por exemplo de bitcoin de um determinado investidor, podendo ser esta operação fraudulenta ou não