In [1]:
import pandas as pd
import numpy as np

# Analise utilizando algorítimo de PageRank.
### Autor: Vinicius Brandão Araújo
#### Considerando a base de dados referentes as transições de bitcoins entre usuários provindas deste [site](http://snap.stanford.edu/data/soc-sign-bitcoinotc.html). Iremos rank nesse usuário e assim analisar quais os usuário com os maiores valores de pagerank e verificar a importância deste algorítimo para alguns problemas.
Para está analise podemos considerar do benefício de pagerank para transições e investimentos em bitcoins.

In [2]:
leitura = pd.read_csv('data/soc-sign-bitcoinotc.csv')


In [5]:
filter_leitura = leitura.query('Evaluation >= 8')
source = list(filter_leitura.Source)
target = list(filter_leitura.Target)
nodes = list(set(source).union(set(target)))

### Metodo que adiciona caso usuários realizaram transições entre eles.

In [7]:
adjacente = {no:[] for no in nodes}

for i in range(len(source)):
    ori = source[i]
    dest = target[i]
    adjacente[ori].append(dest)




### Metodo que gera a matriz.
Metodo responsavel por gerar a matriz dos elemento considerando quantos links cada elemento possui. 

In [10]:
a = [[0 for i in range(len(nodes))] for j in range(len(nodes))]

for i in range(len(nodes)):
    for j in range(len(nodes)):
        ori = nodes[i]
        dest = nodes[j]
        out_degree = len(adjacente[ori])
        a[j][i] = 1/out_degree if dest in adjacente[ori] else 0

        
a = np.matrix(a)


### Calculo do pagerank considerando a formula.
$PR(A) = \frac{PR(B)}{L(B)} + \frac{PR(C)}{L(C)} + \frac{PR(D)}{L(D)}... \Rightarrow PR(u) = \sum_{v \in B_u} \frac{PR(B(v))}{L(v)}$

In [11]:
b = (1/len(nodes)) * np.matrix([[1 for i in range(len(nodes))] for j in range(len(nodes))])

In [12]:
m = 0.85 * a + 0.15 * b

In [13]:
v = (1/len(nodes)) * np.matrix([[1] for i in range(len(nodes))])

### Metodo de calcular as interações do pagerank. 

In [14]:
count = 0

def pagerank(v):
    global count
    count += 1
    
    if sum(abs(m*v-v)) > 0.001:
        return pagerank(m*v)
    return m*v

In [15]:
result = pagerank(v)
result = [cell.item(0,0) for cell in result]

### Reposanvale por gerar o dataframe e converter em csv.
Criação do (data) frame para gerar o arquivo csv que foi utilizado para gerar o arquivo do Gephi para gerar o gráfico de visualização do resultado dos usuários baseado em seu pagerank para o tamanho.

In [17]:
result_data = pd.DataFrame({'id': nodes, 'PageRank': result})

In [23]:
result_data.to_csv(path_or_buf='result/result.csv', index=False)
filter_leitura.to_csv(path_or_buf='result/filtered-sign-bitcoinotc.csv', columns=['Source', 'Target'], index=False)

## Analises de Pesquisas. 
Analise abaixo se baseia utilizando o algorítimo a cima para realizar o rank em relação ao conjunto de dados deste [site](http://snap.stanford.edu/data/soc-sign-bitcoinotc.html) em relacionados a transição de bitcoins entre os usuário e também considerando apenas usuários com nota maior ou igual a 8. Diante disto colocamos que as seguintes perguntas serão respondidas para esta analise:
* Quantas iterações o PageRank precisou rodar até atingir convergência?
* Quais os 5 investidores mais importantes segundo o PageRank? Quais seus valores de PageRank?
* Como você poderia usar o PageRank caso você fosse um investidor em bitcoins?

### Quantas iterações o PageRank precisou rodar até atingir convergência?
Utilizando a função pagerank obtivemos o valor de 35, assim consideramos que obteve 35 iterações para atingir a convergência.

### Quais os 5 investidores mais importantes segundo o PageRank? Quais seus valores de PageRank?
Id | PageRank 
--- | --- 
0 | 0.000139
120| 0.000125
94 | 0.000117
887| 0.000093
182| 0.000092


### Como você poderia usar o PageRank caso você fosse um investidor em bitcoins?
Considerando para analise onde tivemos apenas as transições que considera  apenas os investidores com nota maior que 8, podemos utilizar o pagerank baseando nos investidores mais importantes dado que esses investidores possuem muitas transições têm um alto valor e se está presente no conjunto sua nota obteve maior do que 8 .Consideramos que para não ter risco o uso de pagerank e investir apenas com esses usuários bem avaliados evitando usuários com transições falsas com o usuários.

## Resultado gerado pelo Gephi.
Utilizando este [tutorial](https://searchengineland.com/easy-visualizations-pagerank-page-groups-gephi-265716) como referencia.

![gephi](img/gephi.JPG)