In [29]:
import numpy as np
import pandas as pd

# Importando e formatando os dados

In [30]:
SOURCE, TARGET, RATING, TIME = 'SOURCE', 'TARGET', 'RATING', 'TIME'
df = pd.read_csv('soc-sign-bitcoinotc.csv', names=[SOURCE,TARGET,RATING,TIME])

In [31]:
'''
Filtrando apenas os investidores que possuem nota maior ou igual a 8, e normalizando as notas para a escala 0-1, e desconsiderando a coluna TIME
'''
df = df.loc[(df[RATING] >= 8)]
df = df[[SOURCE, TARGET, RATING]]
df[RATING] = df[RATING].apply(lambda rate: rate/10.0)

# Matriz de adjacência

In [32]:
'''
Para quantos nós um nó aponta
'''
n_pointing_to = dict()
for source, group_itens in df.groupby([SOURCE]):
    n_pointing_to[source] = len(group_itens)

In [33]:
'''
Lista ordenada com todos os nós
'''
nodes = sorted(list(set(df.SOURCE.append(df.TARGET))))

In [34]:
'''
Matriz de adjacência
'''
adjacency_matrix = pd.DataFrame(columns=nodes)

for source in nodes:
    filtered_by_source = df.loc[(df.SOURCE == source)]
    target_list, rating_list = filtered_by_source.TARGET, filtered_by_source.RATING
    
    adjacency_matrix_source_row = [0] * len(nodes)
    for t, r in zip(target_list, rating_list):
        target_index = nodes.index(t)
        adjacency_matrix_source_row[target_index] = r / n_pointing_to[source]
    
    adjacency_matrix.loc[source] = adjacency_matrix_source_row

adjacency_matrix = adjacency_matrix.transpose()

# Page Rank

In [35]:
a = adjacency_matrix.values

b = (float(1)/float(len(nodes))) * np.matrix([[1] * len(nodes) for i in range(len(nodes))])

m = (0.85 * a) + (0.15 * b)

v = (float(1)/float(len(nodes))) * np.matrix([[1] for i in range(len(nodes))])

In [36]:
'''
Algoritmo Page Rank do vídeo
'''
def pagerank(v):
    global count
    if sum(abs(m*v-v)) > 0.001:
        count += 1
        return pagerank(m*v)
    else:
        count += 1
        return m*v

In [37]:
count = 0
result = pagerank(v)

nodes_ids = adjacency_matrix.index.tolist()
pages_rank = list(map(lambda page_rank: page_rank[0], result.tolist()))

## Perguntas

#### Quantas iterações o PageRank precisou rodar até atingir convergência?

In [48]:
print(count)

29


#### Quais os 5 investidores mais importantes segundo o PageRank? Quais seus valores de PageRank?

In [49]:
print('Investidor - Page Rank')
for page_rank, node_id in sorted(zip(pages_rank, nodes_ids), reverse=True)[:5]:
    print('{:>5}      - {:.7f}'.format(node_id,page_rank))

Investidor - Page Rank
 3996      - 0.0001086
  361      - 0.0001023
    1      - 0.0000824
  623      - 0.0000602
   25      - 0.0000539


#### Como você poderia usar o PageRank caso você fosse um investidor em bitcoins?
Usaria como forma de selecionar os melhores investidores para uma transação, a fim de obter mais lucro e confiança.

## Exportando os dados para gerar visualizações no Gephi

In [59]:
node_id_list = adjacency_matrix.index.tolist()

In [60]:
PR_INDEX = 0
page_rank_list = list(map(lambda list_with_pr: list_with_pr[PR_INDEX], result.tolist()))

In [61]:
nodes_dict = {'Id': node_id_list, 'Modularity Class': page_rank_list}

In [62]:
nodes_dataframe = pd.DataFrame.from_dict(nodes_dict)

In [64]:
nodes_dataframe.to_csv('nodes.csv', index=False)
df.to_csv('edges.csv',  index=False)