# PageRank Algorithm

In [107]:
import pandas as pd

import numpy as np
__author__ = "Thierry Barros"

df = pd.read_csv("dados.csv", encoding="utf-8", header=None)

##Tratando os dados.

Nomeando as colunas, apagando colunas desnecessárias e filtrando por Rating maior ou igual a 8.

In [108]:
df.rename(columns={0: 'Source', 1: 'Target', 2: 'Rating',3:'Time'}, inplace=True)

del df['Time']

df1 = df[df['Rating']>=8]

df1.to_csv('dados1.csv')

##Mapeando os valores de Source e Target para valores de (0 a numero de elementos distintos).

Só é possível criar uma matriz n por n, se os valores estiverem entre 0 e n. Por isso esse mapeamento, para não criar matrizes onde elementos não existem. Isso seria para normalizar os dados. **Existem variações de 1 a 5999, mas só existem 915 elementos diferentes**, então se não fizesse esse mapeamento dos elementos de 0 para 914, haveriam mais de 5000 elementos na matriz que não existem e que atrapalhariam os cálculos do Pagerank por causa da probabilidade do teleporte para um desses elementos. O primeiro for mapeia os valores de Source, e o segundo mapeia os valore de Target. Isso mapeando em sequência de valores pegos e incrementando com count.

In [109]:
mapEle = {}
cont = 0
for i in sorted(df1.Source,reverse=True):
    try:
        if mapEle[i] == -1:
            mapEle[i] = cont
            cont+=1
    except KeyError:
        mapEle[i] = cont
        cont +=1
for i in sorted(df1.Target,reverse=True):
    try:
        if mapEle[i] == -1:
            mapEle[i] = cont
            cont+=1
    except KeyError:
        mapEle[i] = cont
        cont +=1

print ("Maior elemento é:",df1.Source.max())
print ("Número de elementos distintos é:",len(mapEle))

Maior elemento é: 5999
Número de elementos distintos é: 915


##Crianção da matriz de transição do tamanho 915 por 915.

In [110]:
tam = len(mapEle)

matriz = np.zeros((tam,tam), dtype=np.float64)

##Povoando a matriz de transição com as probabilidades.

Esse for percorre todos os elementos e atribui a probabilidades de sair do elemento A e chegar no elemento B. Caso não tenha saída do elemento A para nenhum outro elemento, ele atribui a probabilidade igual dele sair para qualquer um outro se teleportando, probabilidade é (1/numéro de elementos).

In [111]:
for i in mapEle.keys():
    target = df1[df1['Source']==i]
    if len(target)>0:
        for j in target.Target:
            matriz[mapEle[j]][mapEle[i]] = (1.0/len(target))
    else:
        for j in range(len(matriz)):
            matriz[j][mapEle[i]] = 1.0/len(matriz)


##Cria a matriz de teleporte.

Cria uma matriz **b** com as mesmas dimensões da matriz de transição e com todos os valores iguals(1/número de elementos).

In [112]:
a = np.zeros((tam,tam), dtype=np.float64)
a[0:tam, 0:tam] = 1
a = np.matrix(a)
b = (float(1)/float(tam))*a

##Cria a matriz m.

Matriz que é a soma da **matriz de transição com peso 0.85 mais a matriz de teleporte com peso 0.15**.

In [113]:
m = 0.85*matriz + 0.15*b

##Vetor v normalizado.

In [114]:
c = np.zeros((tam,1), dtype=np.float64)
c[0:tam] = 1
v = (float(1)/float(tam))*c
v = np.matrix(v)

##Função Pagerank.

função que calcula o pagerank até convergir, ele converge quando a soma da mudança do pagerank anterior para o atual seja menor que **0.0001**. Ele calcula o pagerank através da multiplicação da matriz m pela vetor v.

In [115]:
count = 0

def pagerank(v):
    global count
    if sum(abs(m*v-v))>0.0001:
        count+=1
        print ('count:',count)
        print (str(sorted(m*v,reverse=True)[:4])+"...")
        print ("sum(abs(m*v-v)):",sum(abs(m*v-v)))
        return pagerank(m*v)
    else:
        count+=1
        print ('count:',count)
        print (str(sorted(m*v,reverse=True)[:4])+"...")
        print ("sum(abs(m*v-v)):",sum(abs(m*v-v)))
        return m*v


In [116]:
result = pagerank(v)

count: 1
[matrix([[ 0.02317554]]), matrix([[ 0.02065775]]), matrix([[ 0.0121983]]), matrix([[ 0.01018555]])]...
sum(abs(m*v-v)): [[ 0.61680796]]
count: 2
[matrix([[ 0.01713787]]), matrix([[ 0.01426242]]), matrix([[ 0.00964515]]), matrix([[ 0.0095655]])]...
sum(abs(m*v-v)): [[ 0.32463054]]
count: 3
[matrix([[ 0.02309645]]), matrix([[ 0.01418261]]), matrix([[ 0.0111721]]), matrix([[ 0.00894815]])]...
sum(abs(m*v-v)): [[ 0.16214343]]
count: 4
[matrix([[ 0.02032425]]), matrix([[ 0.01393272]]), matrix([[ 0.01094926]]), matrix([[ 0.00945873]])]...
sum(abs(m*v-v)): [[ 0.10245683]]
count: 5
[matrix([[ 0.0221741]]), matrix([[ 0.01295956]]), matrix([[ 0.01070585]]), matrix([[ 0.00994271]])]...
sum(abs(m*v-v)): [[ 0.06906324]]
count: 6
[matrix([[ 0.02084471]]), matrix([[ 0.01304108]]), matrix([[ 0.01075987]]), matrix([[ 0.00988137]])]...
sum(abs(m*v-v)): [[ 0.04664161]]
count: 7
[matrix([[ 0.02148091]]), matrix([[ 0.01262314]]), matrix([[ 0.01034712]]), matrix([[ 0.01013391]])]...
sum(abs(m*v-v))

##Função auxiliar

Função auxiliar que pega o id original de cada elemento, já que mapiei cada uma para um valor entre 0 e 915, seria bom no final saber qual o id real de cada elemento.

In [117]:
def getID(id):
    for i in mapEle:
        if mapEle[i]==id:
            return i

##Top 20: Rank dos elementos.

Rank dos elementos em ordem decrescentes, com os seus valores de PageRank. Comparação com os resultados do Gephi foram praticamente iguais, com pequenas mudanças nas últimas casas decimais.

In [118]:
tupla = []
for index,i in enumerate(result):
    tupla.append((getID(index),i))
tupla.sort(key=lambda tup: tup[1], reverse=True)

for index,i in enumerate(tupla[:20]):
    print (str(index+1)+"º- Id:" ,i[0],"PageRank: "+str(i[1]))

1º- Id: 1 PageRank: [[ 0.02005436]]
2º- Id: 25 PageRank: [[ 0.0121032]]
3º- Id: 4172 PageRank: [[ 0.00975396]]
4º- Id: 2642 PageRank: [[ 0.00959352]]
5º- Id: 1018 PageRank: [[ 0.00753362]]
6º- Id: 7 PageRank: [[ 0.00699007]]
7º- Id: 2647 PageRank: [[ 0.00681131]]
8º- Id: 2118 PageRank: [[ 0.00636202]]
9º- Id: 202 PageRank: [[ 0.00622195]]
10º- Id: 1437 PageRank: [[ 0.00617169]]
11º- Id: 35 PageRank: [[ 0.00604723]]
12º- Id: 1185 PageRank: [[ 0.00567906]]
13º- Id: 144 PageRank: [[ 0.00563351]]
14º- Id: 1201 PageRank: [[ 0.00548941]]
15º- Id: 908 PageRank: [[ 0.00545392]]
16º- Id: 361 PageRank: [[ 0.0054024]]
17º- Id: 3996 PageRank: [[ 0.00523877]]
18º- Id: 3219 PageRank: [[ 0.00509695]]
19º- Id: 4291 PageRank: [[ 0.00476771]]
20º- Id: 4 PageRank: [[ 0.00462977]]


##Feitos os passos acima, responda as seguintes perguntas:

**Quantas iterações o PageRank precisou rodar até atingir convergência?**

35 Interações.

**Quais os 5 investidores mais importantes segundo o PageRank? Quais seus valores de PageRank?**

In [119]:
for index,i in enumerate(tupla[:5]):
    print (str(index+1)+"º- Id:" ,i[0],"PageRank: "+str(i[1]))

1º- Id: 1 PageRank: [[ 0.02005436]]
2º- Id: 25 PageRank: [[ 0.0121032]]
3º- Id: 4172 PageRank: [[ 0.00975396]]
4º- Id: 2642 PageRank: [[ 0.00959352]]
5º- Id: 1018 PageRank: [[ 0.00753362]]


![Top 5 pagerank gephi](img/top5pagerank.jpg)

**Como você poderia usar o PageRank caso você fosse um investidor em bitcoins?**

O cálculo do Pagerank serviria para auxiliar um investidor a ter conhecimento de quais as melhores pessoas em que podem investir, devido o número de boas avaliações e numero de outros investidores investindo nessas pessoas. Seviria como segurança na hora do investimento do seu precioso bitcoin.

A imagem mostra o grafo de pagerank dos investirores de bitcoin. O tamanho de cada vértice representa seu valor de pagerank, quanto maior mais importante ele é:

![Imagem](img/picture.jpg)

A imagem abaixo mostra os valores de pagerank criados pela ferramenta gephi, podemos ver que são idênticos aos valores gerados pelo código acima, demosntrando que a implementação e estrutura do pagerank está correta:

![Imagem](img/foto.jpg)