# Implementacion del algoritmo de Page Rank
Utilizando la base de datos  de socslashdot una red social en la que se tienen dos columnas una que representa un nodo 
y la otra un nodo al cual hace referencia cada nodo puede hacer referencia a mas de un nodo cada columna con 70068 elementos

In [139]:
#Importamos scipy para moder manejar matrices dispersas y network por su modulo para crear matrices de adyacencia
from scipy.io import mmread
import pandas as pd 
import numpy as np
import networkx as nx
import scipy

### Implementacion con ejemplo pequeño para ser ilustrativo
Con fines ilustrativos decidi crear un set de datos pequeño para poder ir viendo cada una de las operaciones ya que con el set de datos real es muy complicado 

In [89]:
#Convertimos un txt a un df de pandas 
datos3 = pd.read_csv("toy2.txt", skiprows=0, sep=",")
datos4 = datos3[["source","target"]]
datos4

Unnamed: 0,source,target
0,0,1
1,0,2
2,1,0
3,1,1


Usando la funcion de network x creamos un objeto digrapg que es un objeto que ilustra las relaciones en un set de datos y permite reconocer lo que buscamos que son nodos y relaciones

In [90]:
#Creamos el objeto digraph que permite establecer relaciones y nodos
G1 = nx.from_pandas_edgelist(datos4, "source", "target", edge_attr=True, create_using=nx.DiGraph())
type(G1)

networkx.classes.digraph.DiGraph

In [91]:
#Convertimos el objeto digraph en una matriz de adyacencia
A1 = nx.adjacency_matrix(G1)
print(A1.todense())
type(A1)

[[0 1 1]
 [1 1 0]
 [0 0 0]]


scipy.sparse.csr.csr_matrix

In [92]:
#Una vez que obtenemos la matriz de adyacencia es necesario obtener un vector que sea la suma de cada columna de la matriz

S1 = scipy.sparse.csr_matrix(1/A1.sum(1))
print(S1.todense())

[[0.5]
 [0.5]
 [inf]]


  


In [95]:
#multiplicamos el vector por la matriz de adyacencia y obtenemos nuestra matriz estocastica
CA = A1.multiply(S1)
print(CA.todense())

[[0.  0.5 0.5]
 [0.5 0.5 0. ]
 [0.  0.  0. ]]


In [140]:
#Eliminamos los NaN
CA.data = np.nan_to_num(CA.data, copy=False)
print(CA)

  (0, 2)	0.5
  (0, 1)	0.5
  (1, 1)	0.5
  (1, 0)	0.5


In [135]:
#Definimos la funcion de pagerank convencional
import numpy as np
from scipy.sparse import csr_matrix

def pagerank(M, iter=100):
  n = M.shape[0]
  r = np.ones(n) / n
  for i in range(iter):
    print('Iteración {0}: r = {1}'.format(i,r))
    r = M @ r

  return r

In [137]:
#Corremos
pagerank(CA, 20)

Iteración 0: r = [0.33333333 0.33333333 0.33333333]
Iteración 1: r = [0.33333333 0.33333333 0.        ]
Iteración 2: r = [0.16666667 0.33333333 0.        ]
Iteración 3: r = [0.16666667 0.25       0.        ]
Iteración 4: r = [0.125      0.20833333 0.        ]
Iteración 5: r = [0.10416667 0.16666667 0.        ]
Iteración 6: r = [0.08333333 0.13541667 0.        ]
Iteración 7: r = [0.06770833 0.109375   0.        ]
Iteración 8: r = [0.0546875  0.08854167 0.        ]
Iteración 9: r = [0.04427083 0.07161458 0.        ]
Iteración 10: r = [0.03580729 0.05794271 0.        ]
Iteración 11: r = [0.02897135 0.046875   0.        ]
Iteración 12: r = [0.0234375  0.03792318 0.        ]
Iteración 13: r = [0.01896159 0.03068034 0.        ]
Iteración 14: r = [0.01534017 0.02482096 0.        ]
Iteración 15: r = [0.01241048 0.02008057 0.        ]
Iteración 16: r = [0.01004028 0.01624552 0.        ]
Iteración 17: r = [0.00812276 0.0131429  0.        ]
Iteración 18: r = [0.00657145 0.01063283 0.        ]
Ite

array([0.00430107, 0.00695928, 0.        ])

In [121]:
#Definimos pagerank escalado
def pagerank_escalable_css(M, beta = 0.8, iter=20):
  n = M.shape[0]
  r = np.ones(n) / n
  for i in range(iter):
    print('Iteración {0}: r = {1}'.format(i,r))
    rhat = beta * M @ r
    umrsn = (1 - rhat.sum()) / n
    r = rhat + umrsn

  return r

In [141]:
#Corremos
sinnan2 = pagerank_escalable_css(csr_matrix(CA), 0.8, iter=20)

Iteración 0: r = [0.33333333 0.33333333 0.33333333]
Iteración 1: r = [0.42222222 0.42222222 0.15555556]
Iteración 2: r = [0.37481481 0.48148148 0.1437037 ]
Iteración 3: r = [0.38587654 0.47832099 0.13580247]
Iteración 4: r = [0.38187325 0.48190288 0.13622387]
Iteración 5: r = [0.38299698 0.48125674 0.13574628]
Iteración 6: r = [0.38263364 0.48153392 0.13583244]
Iteración 7: r = [0.38274202 0.4814625  0.13579548]
Iteración 8: r = [0.38270819 0.48148681 0.135805  ]
Iteración 9: r = [0.38271848 0.48147976 0.13580176]
Iteración 10: r = [0.38271531 0.481482   0.1358027 ]
Iteración 11: r = [0.38271628 0.48148132 0.1358024 ]
Iteración 12: r = [0.38271598 0.48148153 0.13580249]
Iteración 13: r = [0.38271607 0.48148147 0.13580246]
Iteración 14: r = [0.38271604 0.48148149 0.13580247]
Iteración 15: r = [0.38271605 0.48148148 0.13580247]
Iteración 16: r = [0.38271605 0.48148148 0.13580247]
Iteración 17: r = [0.38271605 0.48148148 0.13580247]
Iteración 18: r = [0.38271605 0.48148148 0.13580247]
Ite

## Ejemplo real

In [100]:
#Convertimos el archivo mtx a un df de pandas 
datos = pd.read_csv("socslashdot.mtx", skiprows=1, sep=" ")
datos2 = datos[["70068","70068.1"]]

In [101]:
datos2["70068.1"].value_counts()

395      2027
2479     1914
378      1700
226      1640
35       1437
         ... 
18285       1
28520       1
8038        1
16226       1
58690       1
Name: 70068.1, Length: 28910, dtype: int64

In [102]:
G = nx.from_pandas_edgelist(datos2, "70068.1", "70068", edge_attr=True, create_using=nx.DiGraph())
type(G)

networkx.classes.digraph.DiGraph

In [103]:
A = nx.adjacency_matrix(G)
print(A.todense())
type(A)


[[0 1 1 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 1]
 [0 0 0 ... 0 0 0]]


scipy.sparse.csr.csr_matrix

In [133]:
import scipy
S = scipy.sparse.csr_matrix(1/A.sum(1))

  


In [134]:
MA = A.multiply(S)


In [130]:
MA.data = np.nan_to_num(MA.data, copy=False)

In [118]:
MA

<70068x70068 sparse matrix of type '<class 'numpy.float64'>'
	with 358647 stored elements in Compressed Sparse Row format>

In [136]:
pagerank(MA, 20)

Iteración 0: r = [1.42718502e-05 1.42718502e-05 1.42718502e-05 ... 1.42718502e-05
 1.42718502e-05 1.42718502e-05]
Iteración 1: r = [1.42718502e-05 1.42718502e-05 1.42718502e-05 ... 0.00000000e+00
 1.42718502e-05 0.00000000e+00]
Iteración 2: r = [1.35954592e-05 1.41713442e-05 1.42718502e-05 ... 0.00000000e+00
 0.00000000e+00 0.00000000e+00]
Iteración 3: r = [1.27152564e-05 1.22204316e-05 1.28771213e-05 ... 0.00000000e+00
 0.00000000e+00 0.00000000e+00]
Iteración 4: r = [1.05325596e-05 8.77588088e-06 9.96700631e-06 ... 0.00000000e+00
 0.00000000e+00 0.00000000e+00]
Iteración 5: r = [7.06056276e-06 4.98473195e-06 6.50321028e-06 ... 0.00000000e+00
 0.00000000e+00 0.00000000e+00]
Iteración 6: r = [4.00659030e-06 2.38672102e-06 3.56353666e-06 ... 0.00000000e+00
 0.00000000e+00 0.00000000e+00]
Iteración 7: r = [1.90391237e-06 9.74205705e-07 1.68155850e-06 ... 0.00000000e+00
 0.00000000e+00 0.00000000e+00]
Iteración 8: r = [8.03338858e-07 3.49274418e-07 6.89827964e-07 ... 0.00000000e+00
 0.000

array([5.31921968e-14, 7.15251692e-15, 3.59941258e-14, ...,
       0.00000000e+00, 0.00000000e+00, 0.00000000e+00])

In [122]:
sinnan2 = pagerank_escalable_css(csr_matrix(MA), 0.8, iter=20)

Iteración 0: r = [1.42718502e-05 1.42718502e-05 1.42718502e-05 ... 1.42718502e-05
 1.42718502e-05 1.42718502e-05]
Iteración 1: r = [2.09784873e-05 2.09784873e-05 2.09784873e-05 ... 9.56100714e-06
 2.09784873e-05 9.56100714e-06]
Iteración 2: r = [2.53565440e-05 2.57251105e-05 2.57894343e-05 ... 9.00664444e-06
 1.66554502e-05 9.00664444e-06]
Iteración 3: r = [2.85917741e-05 2.85853341e-05 2.89646510e-05 ... 9.04720481e-06
 1.62525204e-05 9.04720481e-06]
Iteración 4: r = [3.04907837e-05 2.98341175e-05 3.05878399e-05 ... 9.08649334e-06
 1.63242572e-05 9.08649334e-06]
Iteración 5: r = [3.11992043e-05 3.01107221e-05 3.11881015e-05 ... 9.10203358e-06
 1.63712283e-05 9.10203358e-06]
Iteración 6: r = [3.13758024e-05 3.01154475e-05 3.13192645e-05 ... 9.10468873e-06
 1.63863156e-05 9.10468873e-06]
Iteración 7: r = [3.13797504e-05 3.00886668e-05 3.13220534e-05 ... 9.10412746e-06
 1.63878784e-05 9.10412746e-06]
Iteración 8: r = [3.13682008e-05 3.00776676e-05 3.13103771e-05 ... 9.10368079e-06
 1.638