Jugando con el algoritmo de PageRank
================================

Primero definimos una función en python con el código del pagerank. El grafo se tiene que especificar como una lista de tuplas, cada tupla representa a un nodo y sus enlaces.

In [1]:
import numpy as np

def pageRank(madj, n, N=100):
    ranks = np.empty(n)
    ranks.fill(1.0/float(n))
    for i in range(N):
        new_ranks = np.zeros(n)
        for (s, ol) in madj:
            m = float(len(ol))
            mranks = np.zeros(n)
            for dest in ol:
                mranks[dest] += ranks[s] / m * 0.85
            print(str(s)+" emite "+str(mranks))
            new_ranks += mranks
        ranks = new_ranks + 0.15 / float(n)
        print("Resultado de iteracion "+str(i)+" al sumar todas las contribuciones: "+str(ranks))
        print("")
    return ranks

Primero probamos con todos los nodos emitiendo el mismo número de enlaces y ejecutamos 3 iteraciones del algoritmo.

In [2]:
grafo = [(0, [1, 2, 3]), 
           (1, [0, 2, 3]),
           (2, [0, 1, 3]),
           (3, [0, 1, 2])]

n = len(grafo)
ite = 3

ranks = pageRank(grafo, n, ite)
print("Resultado: "+str(ranks))
ranks = ranks/max(ranks)
print("Despues de normalizar: "+str(ranks))

0 emite [0.         0.07083333 0.07083333 0.07083333]
1 emite [0.07083333 0.         0.07083333 0.07083333]
2 emite [0.07083333 0.07083333 0.         0.07083333]
3 emite [0.07083333 0.07083333 0.07083333 0.        ]
Resultado de iteracion 0 al sumar todas las contribuciones: [0.25 0.25 0.25 0.25]

0 emite [0.         0.07083333 0.07083333 0.07083333]
1 emite [0.07083333 0.         0.07083333 0.07083333]
2 emite [0.07083333 0.07083333 0.         0.07083333]
3 emite [0.07083333 0.07083333 0.07083333 0.        ]
Resultado de iteracion 1 al sumar todas las contribuciones: [0.25 0.25 0.25 0.25]

0 emite [0.         0.07083333 0.07083333 0.07083333]
1 emite [0.07083333 0.         0.07083333 0.07083333]
2 emite [0.07083333 0.07083333 0.         0.07083333]
3 emite [0.07083333 0.07083333 0.07083333 0.        ]
Resultado de iteracion 2 al sumar todas las contribuciones: [0.25 0.25 0.25 0.25]

Resultado: [0.25 0.25 0.25 0.25]
Despues de normalizar: [1. 1. 1. 1.]


Como se puede ver, el algoritmo empieza con el mismo valor para todos los nodos, 1/n. Aunque luego este valor al emitirse se multiplica por 0.85, al tener todos los nodos el mismo número de enlaces y recibir la misma cantidad de enlaces, al final de la iteración, el PR que reciben de cada nodo se suma. Al final de la iteración  todos los nodos tienen el mismo valor.

En cambio, con que uno sólo de los nodos tenga 1 enlace más, se altera totalmente la distribución de PR. Como se puede ver, 0 emite menos PR por enlace; además, se emite PR a si mismo. Con esto, consigue que el resto de nodos reciban menos PR que él.

In [3]:
grafo = [(0, [0, 1, 2, 3]), 
           (1, [0, 2, 3]),
           (2, [0, 1, 3]),
           (3, [0, 1, 2])]

n = len(grafo)
ite = 3

ranks = pageRank(grafo, n, ite)
print("Resultado: "+str(ranks))
ranks = ranks/max(ranks)
print("Despues de normalizar: "+str(ranks))

0 emite [0.053125 0.053125 0.053125 0.053125]
1 emite [0.07083333 0.         0.07083333 0.07083333]
2 emite [0.07083333 0.07083333 0.         0.07083333]
3 emite [0.07083333 0.07083333 0.07083333 0.        ]
Resultado de iteracion 0 al sumar todas las contribuciones: [0.303125   0.23229167 0.23229167 0.23229167]

0 emite [0.06441406 0.06441406 0.06441406 0.06441406]
1 emite [0.06581597 0.         0.06581597 0.06581597]
2 emite [0.06581597 0.06581597 0.         0.06581597]
3 emite [0.06581597 0.06581597 0.06581597 0.        ]
Resultado de iteracion 1 al sumar todas las contribuciones: [0.29936198 0.23354601 0.23354601 0.23354601]

0 emite [0.06361442 0.06361442 0.06361442 0.06361442]
1 emite [0.06617137 0.         0.06617137 0.06617137]
2 emite [0.06617137 0.06617137 0.         0.06617137]
3 emite [0.06617137 0.06617137 0.06617137 0.        ]
Resultado de iteracion 2 al sumar todas las contribuciones: [0.29962853 0.23345716 0.23345716 0.23345716]

Resultado: [0.29962853 0.23345716 0.233

En el caso anterior se ha alterado la distribución de PR usando un autoenlace, sin embargo pasa lo mismo si el enlace es a otra página

In [4]:
grafo = [(0, [1, 1, 2, 3]), 
           (1, [0, 2, 3]),
           (2, [0, 1, 3]),
           (3, [0, 1, 2])]

n = len(grafo)
ite = 3

ranks = pageRank(grafo, n, ite)
print("Resultado: "+str(ranks))
ranks = ranks/max(ranks)
print("Despues de normalizar: "+str(ranks))

0 emite [0.       0.10625  0.053125 0.053125]
1 emite [0.07083333 0.         0.07083333 0.07083333]
2 emite [0.07083333 0.07083333 0.         0.07083333]
3 emite [0.07083333 0.07083333 0.07083333 0.        ]
Resultado de iteracion 0 al sumar todas las contribuciones: [0.25       0.28541667 0.23229167 0.23229167]

0 emite [0.       0.10625  0.053125 0.053125]
1 emite [0.08086806 0.         0.08086806 0.08086806]
2 emite [0.06581597 0.06581597 0.         0.06581597]
3 emite [0.06581597 0.06581597 0.06581597 0.        ]
Resultado de iteracion 1 al sumar todas las contribuciones: [0.25       0.27538194 0.23730903 0.23730903]

0 emite [0.       0.10625  0.053125 0.053125]
1 emite [0.07802488 0.         0.07802488 0.07802488]
2 emite [0.06723756 0.06723756 0.         0.06723756]
3 emite [0.06723756 0.06723756 0.06723756 0.        ]
Resultado de iteracion 2 al sumar todas las contribuciones: [0.25       0.27822512 0.23588744 0.23588744]

Resultado: [0.25       0.27822512 0.23588744 0.23588744

Algunas conclusiones
--------------------

1. Como se puede ver, un simple enlace puede alterar totalmente la distribución de PR.
2. Esto se ve aumentado por el hecho de ser un grafo pequeño. En páginas mucho mayores este efecto se diluye.
3. El famoso dumping factor no afecta tanto como la cantidad de enlaces que se emiten y reciben. La posición de una URL con respecto a los niveles de profundidad no resulta tan crucial ya que todos los nodos se inicializan a 1/n (donde n es el número de urls).
4. El dumping factor no es más que un truco añadido al algoritmo por Google para asegurarse de que el algoritmo converge, evitando así casos como nodos sin ningún enlace saliente. De hecho, el algoritmo de PR no es más que un algoritmo para calcular los **eigenvectores** del grafo. Se sabe que un grafo tiene eigenvector si y sólo si el grafo está fuertemente conectado; es decir, se pueden llegar a cualquier nodo del grafo desde cualquier otro nodo del mismo. Para conseguir esto, incluyeron el dumping factor, que no es más que un "enlace virtual" a cualquier otra URL del sitio.