In [1]:
import numpy as np
import pandas as pd

### Pagerank
###### Autor: Antunes Dantas da Silva

O seguinte notebook tem por objetivo mostrar o funcionamento do algoritmo Pagerank. Para estudá-lo, vamos implementá-lo e aplicá-lo em um conjunto de dados sobre investidores em bitcoin. Ao final, responderemos as seguintes perguntas:

    1. Quantas iterações o PageRank precisou rodar até atingir convergência?
    2. Quais os 5 investidores mais importantes segundo o PageRank? Quais seus valores de PageRank?
    3. Como você poderia usar o PageRank caso você fosse um investidor em bitcoins?
    
Inicialmente, vamos importar os dados e montar a matriz de transição a partir dos dados. No nosso conjunto de dados, temos três colunas: origem da transferência, destino, nota do autor e hora da transação. Consideraremos apenas os usuários com nota 8 ou superior.

A seguir, faremos a leitura dos dados e algumas transformações. Excluiremos a coluna TIME, pois ela não faz sentido para o nosso objetivo. Além disso, vamos excluir os dados de investidores com nota menor que 8.

In [113]:
bitcoinDataset = pd.read_csv('soc-sign-bitcoinotc.csv')
bitcoinDataset = bitcoinDataset.drop("TIME", axis=1)
bitcoinDataset = bitcoinDataset.loc[bitcoinDataset['RATING'] >= 8]

Agora, vamos mapear os ids de todos os investidores. Para isso, vamos criar dois dicionários auxiliares: um que mapeia o ID do dataset para um id na nossa matriz de adjacência e outro que faz o mapeamento contrário. Assim, ficará mais fácil realizar a transição dos dados pra matriz.

In [114]:
ids = list(set(list(bitcoinDataset["SOURCE"])).union(set(list(bitcoinDataset["TARGET"]))))
mapa_usuario_id = dict(zip(ids, range(len(ids))))
mapa_id_usuario = {v: k for k, v in mapa_usuario_id.items()}

O próximo passo é gerar a matriz de adjacência. A ideia utilizada é de percorrer ela por coluna, e preencher os valores das linhas que possuem conexão.

In [115]:
matriz = [[0 for x in range(len(ids))] for y in range(len(ids))]

for i in range(len(matriz)):
    idTrader = mapa_id_usuario[i]
    targets = list((bitcoinDataset.loc[bitcoinDataset['SOURCE'] == idTrader])['TARGET'])
    for target in targets:
        idTarget = mapa_usuario_id[target]
        matriz[idTarget][i] = 1 / len(targets)

Depois de gerada a matriz, utilizaremos um algoritmo de pagerank para calcular o pagerank dos investidores.

In [111]:
a = np.matrix(matriz)
b = float(1) / float(len(matriz)) * np.matrix([[1 for x in range(len(ids))] for y in range(len(ids))])
m = 0.85 * a + 0.15 * b
v = float(1) / float(len(matriz)) * np.matrix([[1 for x in range(1)] for y in range(len(ids))] )
count = 0
def pagerank(v):
    global count
    if sum(abs(m*v - v)) > 0.001 :
        count += 1
        return pagerank(m*v)
    else:
        count +=1
        return m*v

result = pagerank(v)

Agora podemos responder a primeira pergunta: depois de quantas iterações o algoritmo convergiu?

In [116]:
print("%i execuções" % count)

35 execuções
