# Lab 02 - Parte 2 - PageRank
#### *Hadrizia Santos*
#### Disciplina: Recuperação da Informação - UFCG 2018.1

Nesta atividade, será implementado o algoritmo de PageRank, utilizado pela Google para retornar documentos na web, e utilizado para recuperar os investidores de bitcoins mais importantes. A importância é medida pelas vezes que um investidor fez negócio com os outros.

## 1. Importar bibliotecas e dados
O primeiro passo é importar as bibliotecas e dados a serem utilizados e declarar algumas constantes importantes.

In [187]:
import numpy as np
import pandas as pd
import operator

DATA_PATH = '../../data/'
DATA_FILE = 'soc-sign-bitcoinotc.csv'
OUTPUT_FILE = 'page_rank.csv'

# data
data = pd.read_csv(DATA_PATH + DATA_FILE, encoding='utf-8')

# setando os nomes de colunas
data.columns = ['source', 'target', 'rating', 'time']

# Pegando investidores com nota acima de 8 e removendo colunas desnecessárias (rating e time)
data = data[(data.rating >= 8)]
data = data.loc[:, 'source':'target'] # selecionando apenas as colunas source e target

# damping factor
D = 0.15
COMPLEMENT_D = 1 - D

# numero de iterações
count = 0  

# lista de nós dos avaliadores
source = list(data.source)

# lista de nós dos avaliados
target = list(data.target)

# lista de nós totais (removendo os repetidos) entre source e target
nodes = list(
            set(source) | set(list(target))
        )

# número de nós
num_nodes = len(nodes)

## 2. Gerar matrizes
### 2.1. Matriz de transição

A matriz de transição é uma matriz de adjacência que representa um grafo ponderado, onde a matriz[x][y] = z representa um nó que sai de x para y com valor z. No exemplo de investidores de bitcoins, isso representa que o investidor x avaliou o investidor y com nota z.

In [186]:
def generate_transition_matrix(rows, columns, values):
    
    num_transitions = len(rows)
    
    num_values = len(values)
    
    matrix = np.zeros(shape = (num_values, num_values))
    
    adjacence_dict = {node: [] for node in values}
    
    # Criando dicionário para representar o grafo

    for i in range(num_transitions):
        origin = rows[i]
        destiny = columns[i]
        adjacence_dict[origin].append(destiny)
        
    # Criando matriz de adjacência para o dicionário de adjacência
    
    for i in range(num_values):
        source = values[i]
        for j in range(num_values):
            target = values[j]
            if target in adjacence_dict[source]: 
                matrix[j][i] = 1.0 / float(len(adjacence_dict[source]))

    return np.matrix(matrix)

### 2.2. Matriz identidade

A matriz criada é uma matriz NxN composta de N² números iguais a 1.

In [168]:
def generate_identity_matrix(num):
    id_matrix = np.ones([num, num], dtype=int)
    return id_matrix

## 3. Implementar função PageRank

Essa função calcula o pagerank recursivamente até que haja conversão entre as matrizes criadas.

In [169]:
# Função que calcula o pagerank recursivamente até que o resultado convirja.
def pagerank(v, m):
    global count
    count += 1
    if (sum(abs((m * v) - v)) > 0.001):
        return pagerank(m * v, m)
    else:
        return m * v

## 4. Gerar matrizes, calcular PageRank e exportar resultados

In [188]:
# Matriz de transição
a = generate_transition_matrix(source, target, nodes) # matrix de transição

# Matriz identidade
b = (float(1) / float(num_nodes)) * np.matrix(generate_identity_matrix(num_nodes))

# m = 0.85*a + 0.15*b
m = (COMPLEMENT_D * a) + (D * b) 

# v = matriz normalizada entre 0 e 1
v = (1.0 / float(num_nodes)) *  np.matrix(np.ones((num_nodes,1), dtype=int))

# Calculando pagerank 
result = pagerank(v, m)
result = [cell.item(0,0) for cell in result]

# Exportando resultados
results_dict = {
    'investidor': nodes,
    'page_rank': result
}
pd.DataFrame(results_dict).to_csv(DATA_PATH + OUTPUT_FILE, index = False)

## Visualização Gephi

O grafo do resultado do pageRank está disponível abaixo. Também é possível brincar com o grafo, que está localizado no diretório desta atividade:
<img src="img/screenshot_125354.png">

## Perguntas
### 1. Quantas iterações o PageRank precisou rodar até atingir convergência?

In [189]:
print('Para atingir convergência iterou-se', count, 'vezes')

Para atingir convergência iterou-se 35 vezes


## 2. Quais os 5 investidores mais importantes segundo o PageRank? Quais seus valores de PageRank?

In [197]:
results = pd.read_csv(DATA_PATH + OUTPUT_FILE).sort_values(by=['page_rank']) # Ordenando por page_rank
results.head(5)

Unnamed: 0,investidor,page_rank
457,5025,1e-06
416,2859,1e-06
415,4900,1e-06
822,3816,1e-06
409,786,1e-06


## 3. Como você poderia usar o PageRank caso você fosse um investidor em bitcoins?

Como o pageRank retorna os investidores com melhor reputação, eu iria preferir negociar com aqueles que possuem melhor posição no ranking.