# Page Rank Algorithm

**Objetivo:** calcular la relevancia de los nodos a partir de la relevancia de los enlaces entrantes usando el algoritmo de PageRank. 


**Dataset**:

- [Slashdot](https://snap.stanford.edu/data/soc-Slashdot0902.html) online social network.
- Slashdot es un citio de noticias tecnológicas según el tipo de usuario
- En 2002, introdujeron **Slashdot Zoo**, una característica que permitía a etiquetar a usuarios como *amigos* o *enemigos*
- La red formada a partir del dataset contiene enlaces *friend/foe*

Algunos datos relevantes sobre el dataset:

|Estadísticas de los datos| |
|----|--|
|Nodos|70068|
|Aristas|358647|
|Fecha|Febrero 2009|

## PageRank

PageRank calcula la relevancia de un nodo con base en la relevancia de cada uno de sus vínculos entrantes.

Si notamos que:
 
  - Cada voto de un vínculo entrante es proporcional a la relevancia del nodo entrante
  - Es decir, si la página $j$ tiene relevancia $r_j$ y $n$ nodos salientes, entonces cada vínculo obtiene $r_j / n$ votos

Podemos definir la relevancia de la página $j$ como la suma de los votos de los vínculos entrantes:

 $$r_j = \sum_{i\rightarrow j} \frac{r_i}{d_i}$$


<img src='https://drive.google.com/uc?id=1A6Vr8wDI7p25rtZOA5sdH21tN3tN7AHg' width=300>


---

Para encontrar la relevancia de los nodos dentro de una gráfica dirigida podemos emplear uno de los siguientes métodos:

- Método de las potencias
- Teletransportación aleatoria


### Problemas con PageRank


1. **Trampa de araña:** es un problema que surge si todos los vínculos salientes están dentro del grupo. Este fenómeno -utilizando el método de las potencias- absorve toda la relevancia de la gráfica. 

<img src='https://drive.google.com/uc?id=1bi0ur_R5t8Gl7oEZDq0uBR3X0IwVXpOr' width=200>


2. **Callejón sin salida:** este fenómeno causa una fuga en la relevancia

<img src='https://drive.google.com/uc?id=1E1I-H1S-3gGDuwIse_4Hmoj7eh4G-_MW' width=200>

### Método de las potencias

1. $r^{(0)} = [1/n, 1/n, \ldots, 1/n]$
2. $r^{(t+1)} = M\cdot r^{(t)}$
3. Repite el punto 2 hasta que $||r^{(t+1)}-r^{(t)}||_1 < \epsilon$

donde $M$ es una matriz estocástica tal que:
  - La entrada $M_{ji} = \frac{1}{d_i}$ si existe un vínculo entre el nodo $i$ y el nodo $j$
  - Si no, $M_{ji}=0$
  - $d_i$ representa el número de vínculos salientes del nodo $i$
  
y $n$ la cantidad de nodos en la gráfica.



<img src='https://drive.google.com/uc?id=1IGfIIiCCQdGjV7yPo0hLAEnNOfcDztGn' width=400>

### Teletransportación aleatoria

- Surge como solución al problema de las trampas de araña
- Elige un vínculo de forma aleatoria con probabilidad $\beta$ o salta a un nodo aleatorio con probabilidad $1-\beta$
- $\beta \in [0.8, 0.9]$

$$ r_j^{(t+1)}=\sum_{i\rightarrow j}\beta \cdot \frac{r_i^{(t)}}{d_i} + (1-\beta)\cdot \frac{1}{n} $$

Concretamente, se define la matriz de Google $A$: 

$$A=\beta \cdot M + (1-\beta)\cdot \frac{1}{n}e\cdot e^T$$

donde $e$ es un vector de tamaño $n$ cuyos elemenos son $1$

Finalmente, $$r^{(t+1)} = A\cdot r^{(t)}$$



<img src='https://drive.google.com/uc?id=19IeTgX7AKqirCpWujF_aNoEFQ1KqNekA' width=400>


### PageRank para datos masivos

- $M$ es una matriz dispersa por lo que solo se require almacenar en memoria una fracción de sus elementos
- $A$ es una matriz densa por lo que se requier almacenar en memoria $n^2$ elementos. Esto no es viable para millones de nodos

Podemos reorganizar la expresión para la teletransportación aleatoria:

$$r^{(t+1)}=\beta\cdot M\cdot r^{(t)} + \frac{1-\beta}{n}$$

---

Si no hay callejones sin salida:

- Calcular $\hat{r}^{(t+1)}=\beta\cdot M\cdot r^{(t)}$
- Agregar $\frac{1-\beta}{n}$ a los elementos $\hat{r}^{(t+1)}$

Si hay callejons de salida:

- Calcular $\hat{r}^{(t+1)}=\beta\cdot M\cdot r^{(t)}$
- Agregar $\frac{1-\sum_j\hat{r_j}^{(t+1)}}{n}$ a los elementos $\hat{r}^{(t+1)}$


## Exploración de Datos

In [2]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
from pyspark import SparkContext, SparkConf

In [3]:
path = "./soc-slashdot.csv"#"https://tinyurl.com/mavebo"
df = pd.read_csv(path, names=['u', 'v'])

num_edges = df.shape[0]
nodes = set(df['u']).union(df['v'])
num_nodes = len(nodes)

print("Información sobre el dataset:\n-----------------------------")
print(f"Número de aristas: {df.shape[0]}")
print(f"Número de nodos: {num_nodes}")
df.head()

Información sobre el dataset:
-----------------------------
Número de aristas: 358647
Número de nodos: 70068


Unnamed: 0,u,v
0,2,1
1,3,1
2,4,1
3,5,1
4,6,1


In [4]:
out_degrees_df = df.groupby(by='u').agg('count')

# Out degrees distribution
out_degrees_d = out_degrees_df.values.reshape(out_degrees_df.shape[0])


# Percentage of out degrees less than or equal to 10
small_out_degrees_pct = out_degrees_d[out_degrees_d <= 10].shape[0] / out_degrees_d.shape[0]


# Max out degree by a node (central node)
max_od_by_node = max(out_degrees_d)

In [107]:
fig = go.Figure()
fig.add_trace(go.Histogram(
    x=out_degrees_d
))
fig.update_layout(
    title=dict(
        text=f"El <b>{round(small_out_degrees_pct*100, 2)}%</b> de los nodos <br>tiene un grado externo menor o igual a 10 <br>Siendo <b>{max_od_by_node}</b> el grado externo máximo"
    )
)
fig.show()

## Implementación de PageRank

**Algunas observaciones importantes:**

0. El dataset contiene tuplas $(u,v)$ que indican que existe una arista dirigida $u \mapsto v$. Para PageRank, esto significa que $u$ vota por $v$
1. Inicialmente, el score de relevancia para todos los nodos es $1/n$ donde $n$ es el número de nodos en la gráfica
2. Cada nodo $u$ votará por todos los nodos a los que apunta, distribuyendo a cada nodo un score que equivale a la relevancia de $u$ dividida por la cantidad de nodos a los que apunta
2. Cada nodo recibirá un score de relevancia basado en la suma de todos los votos que recibe
3. El proceso se repite $k$ iteraciones hasta obtener valores buenos de relevancia

**Notas complementarias:**

- Como existen caminos sin salida, tendremos que utilizar la siguiente implementación de PageRank: $$\hat{r}^{(t+1)} = \beta\cdot M\cdot r^{(t)} + \frac{1-\sum_{j}\hat{r}^{(t+1)}}{n}$$

- $r$ es un vector que representa los niveles de relevancia para cada nodo
- $M$ es una matriz cuadrada que representa las relaciones del tipo $u \mapsto v$
- $\beta$ es un parámetro que ayuda a resolver el problema de la trampa de araña


### Funciones complementarias

In [95]:
def make_tuple(raw_element):
    """
    Parameters:
    -----------
    raw_element: <class 'str'>
    
    Returns:
    --------
    t: <class 'tuple'> of two elements:
        1. Source vertex u: int
        2. Destination vertex v: int
    """
    e = raw_element.split(',')
    u = int(e[0].strip())
    v = int(e[1].strip())
    return (u,v)

def initialize_pr_score(t, n):
    """
    Parameters:
    -----------
    t: <PySpark ResultIterable> nodes that vote for node u
     
    Returns:
    --------
    d: <dictionary> with 3 key-value pairs:
        1. <'votes_for': ResultIterable>
        2. <'votes': length of ResultIterable>
        3. <'rating': initial PageRank Score>
    """
    d = {
        'votes_for': t, 
        'votes': len(t),
        'rating': 1/n
    }
    return d

def reset_rating(d):
    """
    Parameters:
    -----------
    d: <dictionary> with 3 key-value pairs:
        1. <'votes_for': ResultIterable>
        2. <'votes': length of ResultIterable>
        3. <'rating': initial PageRank Score>
        
    Returns:
    --------
    d: <dictionary> with 3 key-value pairs:
        1. <'votes_for': ResultIterable>
        2. <'votes': length of ResultIterable>
        3. <'rating': initial PageRank Score>
    """
    d['rating'] = 0
    return d

def update_pr_scores(score_dict, node):
    """
    Parameters:
    -----------
    score_dict: <dictionary>:
        1. key: id of the node
        2. value: PageRank score
        
    node: <tuple>:
        1. First element: id of node that will distribute points
        2. Second element: <dictionary> with 'votes_for', 'votes' and 'rating'
    
    
    Returns:
    --------
    score_dict: <dictionary>
        - Updated PR score for every node that has a directed edge with 'node'
    """
    node_id = node[0]
    node_dict = node[1]
    
    node_voted_by = node_dict['votes_for']
    node_n_voted_by = node_dict['votes']
    node_rating = node_dict['rating']
    
    # r^(t+1) = beta * M * r^(t)
    beta = 0.8
    score_to_distribute = node_rating / (node_n_voted_by + .001)
    score_to_distribute *= beta
    
    for v in node_voted_by:
        if v not in score_dict:
            score_dict[v] = {'votes_for':[], 'votes':0}
        c_rating = score_dict.get(v, {}).get('rating', 0)
        score_dict[v]['rating'] = c_rating + score_to_distribute
    
    return score_dict
    
def reduce_scores(dict_to_update, old_dict):
    """
    Parameters:
    -----------
    dict_to_update: <dictionary> with votes_for, votes, rating
    old_dict: <dictionary> with votes_for, votes, rating
    
    Returns:
    --------
    dict_to_update: <dictionary> with voted_by, n_voted_by, rating
    """
    for k, v in old_dict.items():
        if k not in dict_to_update:
            dict_to_update[k] = v
        dict_to_update[k]['rating'] = dict_to_update[k]['rating'] + old_dict[k]['rating']
    
    # Agregar (1- Sigma(r_j^(t+1))) / n
    n = len(list(dict_to_update.keys()))
    r_hat_sum = 0
    for k, v in dict_to_update.items():
        r_hat_sum += v['rating']
    
    val_to_add = (1-r_hat_sum) / n
    
    for k in dict_to_update.keys():
        dict_to_update[k]['rating'] += val_to_add
    
    return dict_to_update

### Configuración de PySpark

In [7]:
config = SparkConf().setAppName("Slashdot")
sc = SparkContext(conf=config)

### Lectura de datos en un RDD

In [78]:
n_samples = 3
data_rdd = sc.textFile(path)

for d in data_rdd.take(n_samples):
    print(d, type(d))

2, 1 <class 'str'>
3, 1 <class 'str'>
4, 1 <class 'str'>


### Transformaciones básicas 

1. Transformación de cadena a tupla ```(u,v)```
2. Agrupación por nodo ```u```:
    - ```(u, (v1, v2, ..., vn))```
    - ```vi``` son los nodos que apuntan a ```u```


In [79]:
data_grouped_rdd = data_rdd.map(make_tuple) \
                    .groupByKey()

print("PySpark's ResultIterable:\n")
for d in data_grouped_rdd.take(n_samples):
    print(d)
print("\nPySpark's ResultIterable values:\n")
for d in data_grouped_rdd.take(n_samples):
    print((d[0], list(d[1])))    

PySpark's ResultIterable:

(2, <pyspark.resultiterable.ResultIterable object at 0x7ff737611550>)
(4, <pyspark.resultiterable.ResultIterable object at 0x7ff7376114c0>)
(6, <pyspark.resultiterable.ResultIterable object at 0x7ff737611370>)

PySpark's ResultIterable values:

(2, [1])
(4, [1, 2])
(6, [1])


### Transformación inicial para PageRank

- Asignación del valor inicial de relevancia $1/n$
- Transformación final:

    - ```(u, {'votes_for': ResultIterable, 'votes': int, 'rating': float})```
    
<img src='https://drive.google.com/uc?id=1eHIRHfLiWkapZsspXDcTs_EOWB78OykG' width=200>

- Tomando como referencia la gráfica de ejemplo para el nodo ```a``` y ```n=3```:
   
    - ```(a, {'votes_for': [b,c], 'votes': 2, 'rating': 1/3})```

In [80]:
n = data_grouped_rdd.count()
pr_data_rdd = data_grouped_rdd.map(
    lambda x: (x[0], initialize_pr_score(x[1], n))
)

for d in pr_data_rdd.take(n_samples):
    print('(', d[0], ':\n\t', d[1], ')')

( 2 :
	 {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff725233970>, 'votes': 1, 'rating': 1.4340618367464004e-05} )
( 4 :
	 {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff725233820>, 'votes': 2, 'rating': 1.4340618367464004e-05} )
( 6 :
	 {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff725233fa0>, 'votes': 1, 'rating': 1.4340618367464004e-05} )


### PageRank

1. Almacenamos los resultados de PageRank en un diccionario ```scores_dict```
2. ```update_pr_scores```: para cada llave de ```scores_dict``` iteramos sobre los nodos por los que vota el nodo correspondiente a una llave del diccionario y actualizamos el valor de relevancia de cada uno de estos nodos 
3. ```reduce_scores```: sumamos todos los puntos de los nodos para obtener los valores de relevancia totales

In [81]:
# 1. Empty dictionary with all nodes as keys and PR scores as values
scores_dict = dict(pr_data_rdd.mapValues(reset_rating).take(n_samples))

print("---------- scores_dict + reset_rating() ----------\n")
for node_id in scores_dict.keys():
    print(node_id, ':', scores_dict[node_id], '\n')

---------- scores_dict + reset_rating() ----------

2 : {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff75ef91e80>, 'votes': 1, 'rating': 0} 

4 : {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff78141d4f0>, 'votes': 2, 'rating': 0} 

6 : {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff78141d0d0>, 'votes': 1, 'rating': 0} 



In [83]:
# 2. Add points for each for each node voted by 'u'
node_u = pr_data_rdd.take(2)[1]
update_pr_scores(scores_dict, node_u)
print("---------- node u ----------\n")
print(node_u[0], 'votes for :', list(node_u[1]['votes_for']), '\n')

print("---------- scores_dict + update_pr_scores() ----------\n")
for node_id in scores_dict.keys():
    print(node_id, ':', scores_dict[node_id], '\n')

---------- node u ----------

4 votes for : [1, 2] 

---------- scores_dict + update_pr_scores() ----------

2 : {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff75ef91e80>, 'votes': 1, 'rating': 1.1466761313314548e-05} 

4 : {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff78141d4f0>, 'votes': 2, 'rating': 0} 

6 : {'votes_for': <pyspark.resultiterable.ResultIterable object at 0x7ff78141d0d0>, 'votes': 1, 'rating': 0} 

1 : {'votes_for': [], 'votes': 0, 'rating': 1.1466761313314548e-05} 



### Final PageRank Pipeline

```page_rank_rdd.aggregate(scores_dict, update_pr_scores, reduce_scores)```

In [124]:
# Data reading
data_rdd = sc.textFile(path)

# Basic tansformations
data_grouped_rdd = data_rdd.map(make_tuple) \
                    .groupByKey()


# PR transformation
n = data_grouped_rdd.count()
pr_data_rdd = data_grouped_rdd.map(
    lambda x: (x[0], initialize_pr_score(x[1], n))
)


# PR scores
n_iter = 10
for i in range(n_iter):
    if i: 
        pr_data_rdd = sc.parallelize(page_rank_scores_dict.items())
    
    # Reset PR scores to 0
    score_dict = dict(pr_data_rdd.mapValues(reset_rating).collect())
    
    # Aggregate
    page_rank_scores_dict = pr_data_rdd.aggregate(score_dict, update_pr_scores, reduce_scores)
    
    # Iters:
    print(f"--------- Iter {i} ---------")
    ratings = [(k,v['rating']) for k, v in page_rank_scores_dict.items()]
    for k, v in sorted(ratings, key=lambda x: x[1], reverse=True)[:5]:
        print(f"Node:{k} PR Score: {v}")
    print("-------------------\n\n")

--------- Iter 0 ---------
Node:395 PR Score: 0.01102223765654815
Node:378 PR Score: 0.009810221401246239
Node:35 PR Score: 0.007466099845376736
Node:2479 PR Score: 0.0059846988737789816
Node:226 PR Score: 0.005549144012602796
-------------------


--------- Iter 1 ---------
Node:395 PR Score: 0.0171882780195722
Node:1 PR Score: 0.011898819400772056
Node:378 PR Score: 0.00899074971503139
Node:16 PR Score: 0.006688808126643541
Node:226 PR Score: 0.0064250259567969386
-------------------


--------- Iter 2 ---------
Node:1 PR Score: 0.033817224631153865
Node:395 PR Score: 0.02545465895968716
Node:16 PR Score: 0.012304255101162148
Node:378 PR Score: 0.011354285905424227
Node:226 PR Score: 0.00793815534015728
-------------------


--------- Iter 3 ---------
Node:1 PR Score: 0.05217870029684765
Node:395 PR Score: 0.025932183332890258
Node:16 PR Score: 0.016975653802998435
Node:378 PR Score: 0.010415787091796979
Node:47 PR Score: 0.00876194778407386
-------------------


--------- Iter 4 ---

### Visualización de los nodos con PR más alto

In [125]:
nodes = [n for n in list(page_rank_scores_dict.keys())]
pr_scores = [s['rating'] for s in list(page_rank_scores_dict.values())]

page_rank_df = pd.DataFrame({'nodo':nodes, 'nodo_pr_score': pr_scores})
page_rank_df = page_rank_df.sort_values(by='nodo_pr_score', ascending=False)
page_rank_df.head(10)

Unnamed: 0,nodo,nodo_pr_score
69732,1,0.064043
35030,395,0.020135
7,16,0.017129
34860,3,0.008694
183,378,0.008641
34876,35,0.007873
34882,47,0.007864
34865,13,0.006804
106,226,0.006567
35814,217,0.00652


In [126]:
k = 100
top_scores = page_rank_df.iloc[:k, :]

fig = go.Figure()
fig.add_trace(go.Bar(
    x=[str(n) for n in top_scores['nodo']],
    y=top_scores['nodo_pr_score']
))
fig.update_layout(
    title=dict(
        text=f"Top {k} PageRank scores"
    ),
    template='plotly_white',
    yaxis=dict(
        title='PageRank score'
    ),
    xaxis=dict(
        title='Node id'
    )
)
fig.show()

In [127]:
page_rank_df.shape

(70068, 2)

### Saving to CSV

In [128]:
page_rank_df.to_csv('page_rank_scores.csv', index=False)

**Referencias**:
- Wolohan, J. T. (2020). Mastering Large Datasets. Manning.