# *Page Ranking* en un buscador de páginas *web*

---

Un poco de historia...

En $1998$ S. Brin, L. Page, R. Motwani y T. Winograd publicaron el algoritmo Page Rank en el artículo [The Page Rank Citation Ranking: Bringing Order to the Web](http://ilpubs.stanford.edu:8090/422/). Tales autores crearon *Google, a web search engine*, que asigna a cada página una medida de importancia, *quality measure*, y a partir de ésta las **ordena**.

El $29$ de septiembre  de $2005$ una búsqueda en *Google* con la palabra *university* resultó en más de $2 \times 10^9$ de resultados.


---

En los inicios del internet muchos buscadores de páginas web eran deficientes para responder con resultados que fueran de interés a partir de una consulta que devolvía miles o millones de resultados. Hoy en día tenemos el buscador de páginas web *Google* que de forma exitosa filtra los resultados ordenando a las páginas web de acuerdo a una medida de importancia relativa *overall* para los millones de resultados que devuelve la consulta. 

Google utiliza el método de nombre [*PageRank*](https://en.wikipedia.org/wiki/PageRank) para *rankear* cada página basándose en el [grafo de la web](https://en.wikipedia.org/wiki/Webgraph). Tal *ranking* provee una *quality measure* que le nombra *pagerank*. A grandes rasgos, el método asigna a una página web un alto *rank* si es referenciada o tiene ligas que apuntan a ella, *inlinks*, por páginas que tienen un alto *rank*. La formulación matemática de lo anterior conduce a un problema de cálculo del eigenvalor con módulo máximo y su eigenvector asociado como se describe a continuación.


### Descripción del método *PageRank*

El método resulta de la información del número de *links* que van hacia y desde una página Web. Para esto, se definen $O_i$ como el conjunto de *outlinks* o las páginas que son referenciadas por $i$ y el conjunto $I_i$ como el conjunto de *inlinks* o las páginas que hacen referencia a la página $i$. Esto se puede representar como:

<img src="https://dl.dropboxusercontent.com/s/sezz4empv27dtd4/inlinks_outlinks_pagerank.png?dl=0" heigth="400" width="400">



En este grafo se tiene $|O_i| = 3$.


El *pagerank* de una página $i$ es una suma ponderada de aquellas páginas que hacen referencia a $i$. La ponderación se realiza por el número de *outlinks* que tienen tales páginas, esto es:

$$r_i = \displaystyle \sum_{j \in I_i} \frac{r_j}{N_j}$$


donde: $r_i$ es el *pagerank* de la página $i$ y $N_i = |O_i|$ es el el número de *outlinks* de la página $i$.

---

**Comentarios**

* La forma que se utiliza aquí para calcular el *pagerank* de una página es una versión simplificada. Además de la suma ponderada se considera un parámetro para ajustar los *pageranks* nombrado [*damping factor*](https://en.wikipedia.org/wiki/PageRank#Damping_factor) y representa la distribución de las páginas a las que se pueden llegar desde una página (*outlinks*).

* La ponderación anterior se realiza para hacer más "difícil" elevar el *pagerank* de una página $i$ pues podrían crearse muchas páginas "artificiales" que apunten a $i$ de forma sencilla. Además, la suma se realiza considerando los *pageranks* de las páginas $j$ por lo que páginas con *pagerank* bajo no tendrán una contribución alta en la suma. 

---

Para comprender cómo la definición anterior del *pagerank* de $i$ se relaciona con el problema de cálculo de eigenvalores y eigenvectores de una matriz, se define la matriz $Q$ de tamaño $n$ con entradas dadas por:

$$Q_{ij} = \begin{cases}
\frac{1}{N_j} & \text{ si existe un link de } j \text{ a } i \\
0 & \text{ en otro caso}
\end{cases}
$$

### Ejemplo

Considérese el siguiente grafo de un conjunto de páginas $\{1, 2, 3, 4, 5, 6\}$:

<img src="https://dl.dropboxusercontent.com/s/850i1rw3optocbt/graph_example_1_pagerank.png?dl=0" heigth="400" width="400">



Entonces la matriz asociada a este grafo es:

$$Q = \left [\begin{array}{cccccc}
0 & \frac{1}{3} & 0 & 0 & 0 & 0\\
\frac{1}{3} & 0 & 0 & 0 & 0 & 0 \\
0 & \frac{1}{3} & 0 & 0 & \frac{1}{3} & \frac{1}{2} \\
\frac{1}{3} & 0 & 0 & 0 & \frac{1}{3} & 0 \\
\frac{1}{3} & \frac{1}{3} & 0 & 0 & 0 & \frac{1}{2} \\
0 & 0 & 1& 0 & \frac{1}{3} & 0
\end{array}
\right ]
$$

La matriz anterior podemos leerla como sigue:

* (perspectiva de los renglones) La página $3$ es referenciada o tiene *inlinks* de las páginas $\{2,5,6\}$.

* (perspectiva de las columnas) La página $3$ hace referencia o tiene *outlink* hacia la página $\{6\}$.

---

**Observación**

Obsérvese que la suma por columna es igual a $1$.

---

En el **ejemplo** anterior asúmase que **inicialmente** $r_2 = r_5 = r_6 = \frac{1}{6}$, entonces el *pagerank* de la página $3$ es: $r_3 = \frac{1}{6}\frac{1}{N_2} + \frac{1}{6}\frac{1}{N_5} + \frac{1}{6}\frac{1}{N_6} = \frac{1}{6}\frac{1}{3} + \frac{1}{6}\frac{1}{3} + \frac{1}{6}\frac{1}{2} = 0.19\bar{4}$

Continuando con la descripción del problema en el cálculo del *pagerank*, si se define el vector $r$ con los *pageranks* de cada página se tiene:

$$r = \left [\begin{array}{c}
r_1 \\
r_2 \\
\vdots \\
r_n
\end{array}
\right ]
= \left [ \begin{array}{c}
\displaystyle \sum_{j \in I_1} \frac{r_j}{N_j} \\
\displaystyle \sum_{j \in I_2} \frac{r_j}{N_j} \\
\vdots \\
\displaystyle \sum_{j \in I_n} \frac{r_j}{N_j} \\
\end{array}
\right ]
$$

por lo que la suma $r_i = \displaystyle \sum_{j \in I_i} \frac{r_j}{N_j}$ se puede reescribir en una forma matricial como:

$$\lambda r = Qr, \quad \lambda = 1.$$

Esto es, $r$ es un eigenvector de $Q$ con eigenvalor $\lambda = 1$. Para calcular tal eigenvector se utiliza el [método de la potencia](https://en.wikipedia.org/wiki/Power_iteration).

### El modelo *random surfer*

En el método de *pagerank* se **asume** un modelo de [caminata aleatoria](https://en.wikipedia.org/wiki/Random_walk) en el grafo de la web, en el que una *random surfer* da clicks de forma sucesiva y aleatoria con igual probabilidad entre las páginas de los *outlinks* de cada página. Tal modelo induce una [cadena de Markov](https://en.wikipedia.org/wiki/Markov_chain). El eigenvector $r$ corresponde a la **distribución de probabilidad estacionaria de la cadena**. Los estados de la cadena son las páginas y las transiciones son los *links* entre las páginas.

---

**Definición**

Una matriz es estocástica por columnas si tiene elementos **no negativos** y la suma de cada columna es $1$. Ver [stochastic matrix](https://en.wikipedia.org/wiki/Stochastic_matrix).


---

**Definición**

Un vector $x \in \mathbb{R}^n$ se nombra un vector de probabilidad si todas sus entradas son no negativas y suman $1$.


---

**Definición**

(por consistencia de esta nota se considerará a la matriz de transición como aquella que es estocástica por columnas)

Si $P$ es una matriz estocástica por columnas, $x_0$ es un vector de probabilidad o estado inicial, se define la siguiente sucesión de vectores de probabilidad:

$$x_{t+1} = Px_t, \quad t=0,1,2,\dots$$


A esta sucesión se le nombra **cadena de Markov** generada por $P$ y $x_0$.

---


**Comentario**

Una cadena de Markov es un proceso aleatorio en el que se describen posibles estados (eventos) que ocurren en puntos del tiempo y cada estado se encuentra completamente determinado (depende) del estado presente. A tales cadenas se les asocian matrices de transición cuyas entradas representan probabilidades de pasar de un estado a otro. En la literatura sobre cadenas de Markov se consideran matrices estocásticas por renglones, en este caso para el ejemplo anterior $Q^T$ es matriz de transición de la cadena de Markov.

---

**¿Qué interpretación tiene la posición $i$ en el vector $r$?**

El elemento en la posición $i$ de $r$, $r_i$, es la probabilidad que después de un número grande de clicks a páginas Web de forma aleatoria, la *surfer* llegue a la página $i$ en un tiempo determinado. El modelo por tanto **asume** que la *surfer* da clicks a ligas de forma aleatoria hasta llegar a su sitio destino.

### Adición de un factor para obtener matrices estocásticas por columnas

El cálculo del *pagerank* de $i$ se modifica **asumiendo** que siempre existe al menos un *outlink* de la página $i$ por un [*damping factor*](https://en.wikipedia.org/wiki/PageRank#Damping_factor). Esto ayuda en la situación en el que una página no apunte a ninguna otra y corrige la no propagación de su *pagerank*. Este supuesto es factible pues es poco probable que la *surfer* no pueda salir de una página por carecer de *outlinks*. 

En el ejemplo anterior este supuesto no se cumple pues la página $4$ no tiene *outlinks* (tiene una columna de ceros). Para modificar la situación anterior de forma matemática se realiza:



$$P = Q + \frac{1}{n}ed^T$$

donde: $e = (1, \dots, 1)^T$ y $d$ es un vector con entradas $d_j = \begin{cases} 1 & \text{ si } N_j = 0 \\ 0 & \text{ en otro caso } \end{cases}$ para $j=1, \dots, n$.


---
**Comentarios**

* Esta modificación en la literatura de *pagerank* se conoce como ***teleportation***.

* La **interpretación** que tiene tal adición del término $\frac{1}{n}ed^T$ por llegar a una página que no tiene *outlinks* se realiza como sigue: la *surfer* necesariamente elegirá una página de forma aleatoria de acuerdo a una distribución de probabilidad. Una de las distribuciones que se eligen para modelar tal elección es la **uniforme**, esto es, elige cualquiera de las páginas con la misma probabilidad. 

* La matriz $P$ anterior es una matriz estocástica por columna. En la literatura sobre cadenas de Markov se consideran matrices estocásticas por renglones, en este caso para el ejemplo anterior $P^T$ es matriz de transición de la cadena de Markov.

---

**Observación**

Observa que si $P$ es una matriz estocástica por columna entonces $e^TP = e^T$ por lo que tiene eigenvalor $1$.

Análogamente si $P$ es una matriz con entradas no negativas y $e^TP=e^T$ entonces $P$ es una matriz estocástica por columna.

---

In [1]:
import numpy as np

In [2]:
np.set_printoptions(precision=3, suppress=True)

### Ejemplo

Para el ejemplo anterior se tiene:

In [3]:
l = [[0, 1/3, 0, 0, 0, 0],
     [1/3, 0, 0, 0, 0, 0],
     [0, 1/3, 0, 0, 1/3, 1/2],
     [1/3, 0, 0, 0, 1/3, 0],
     [1/3, 1/3, 0, 0, 0, 1/2],
     [0, 0, 1, 0, 1/3, 0]]

Q = np.array(l)

In [4]:
print(Q)

[[0.    0.333 0.    0.    0.    0.   ]
 [0.333 0.    0.    0.    0.    0.   ]
 [0.    0.333 0.    0.    0.333 0.5  ]
 [0.333 0.    0.    0.    0.333 0.   ]
 [0.333 0.333 0.    0.    0.    0.5  ]
 [0.    0.    1.    0.    0.333 0.   ]]


In [5]:
_,n = Q.shape
e = np.ones(n)
d = np.array([0, 0, 0, 1, 0, 0]) #definition of d


La siguiente es la matriz que se le añadirá a $Q$, tiene en sus columnas el valor igual a $\frac{1}{6}$ para el ejemplo dado.


In [6]:
print(1/n*np.outer(e,d))

[[0.    0.    0.    0.167 0.    0.   ]
 [0.    0.    0.    0.167 0.    0.   ]
 [0.    0.    0.    0.167 0.    0.   ]
 [0.    0.    0.    0.167 0.    0.   ]
 [0.    0.    0.    0.167 0.    0.   ]
 [0.    0.    0.    0.167 0.    0.   ]]



Se obtiene $P$ a partir de $Q + \frac{1}{n}ed^T$.



In [7]:
P = Q + 1/n*np.outer(e,d) #definition of P matrix
print(P)

[[0.    0.333 0.    0.167 0.    0.   ]
 [0.333 0.    0.    0.167 0.    0.   ]
 [0.    0.333 0.    0.167 0.333 0.5  ]
 [0.333 0.    0.    0.167 0.333 0.   ]
 [0.333 0.333 0.    0.167 0.    0.5  ]
 [0.    0.    1.    0.167 0.333 0.   ]]


---

**Comentario**

Una propiedad que tienen las matrices estocásticas por columnas es $P^k$ es estocástica por columnas, $k \in \mathbb{N}$

---

In [8]:
k = 2
P_2 = np.linalg.matrix_power(P,k)
print(P_2)

[[0.167 0.    0.    0.083 0.056 0.   ]
 [0.056 0.111 0.    0.083 0.056 0.   ]
 [0.278 0.111 0.5   0.222 0.222 0.167]
 [0.167 0.222 0.    0.139 0.056 0.167]
 [0.167 0.111 0.5   0.222 0.222 0.   ]
 [0.167 0.444 0.    0.25  0.389 0.667]]


In [9]:
print(np.sum(P_2, axis=0))

[1. 1. 1. 1. 1. 1.]


---

**Comentario**

Ver sección *stochastic matrices and Markov chains* del libro Matrix Analysis and Applied Linear Algebra para caso general de matrices que convergen a un vector de distribución estacionario y que tienen mismos valores en sus entradas por renglones o columnas.

---

In [10]:
k = 10
P_10 = np.linalg.matrix_power(P,k)
print(P_10)

[[0.024 0.023 0.024 0.024 0.024 0.023]
 [0.024 0.023 0.024 0.024 0.024 0.023]
 [0.28  0.274 0.283 0.278 0.277 0.275]
 [0.094 0.098 0.091 0.095 0.096 0.098]
 [0.219 0.208 0.224 0.214 0.212 0.208]
 [0.359 0.373 0.353 0.365 0.367 0.373]]


In [11]:
np.sum(P_10, axis=0)

array([1., 1., 1., 1., 1., 1.])

---

**Comentario**

Otras propiedades que tienen las matrices estocásticas por columnas son:

* Dado un vector un vector de probabilidad $x$ entonces $Px$ es un vector de probabilidad.

* Si $\lambda$ es eigenvalor de $P$ entonces $|\lambda| \leq 1$.

---

Por ejemplo la última propiedad:

In [12]:
x_0 = np.array([.2, .2, .3, .2, .05, .05])

In [13]:
print(np.sum(x_0))

1.0


In [16]:
print(np.sum(P@x_0))

1.0


In [14]:
evalues, evectors = np.linalg.eig(P)

In [15]:
print(evalues)

[ 1.     0.482 -0.633 -0.333 -0.182 -0.167]


In [17]:
evalues, evectors = np.linalg.eig(P_2)

In [18]:
print(evalues)

[1.    0.401 0.028 0.033 0.111 0.232]


In [19]:
evalues, evectors = np.linalg.eig(P_10)

In [20]:
print(evalues)

[1.    0.01  0.001 0.    0.    0.   ]


In [21]:
print(np.sum(P_10@x_0))

0.9999999999999998


Una pregunta natural es si dada una matriz estocástica por columnas y un estado inicial $x_0$, los vectores de la cadena de Markov se estabilizan, esto es, la sucesión $\{x_0, x_1, x_2, \dots \}$ converge a algún vector $x$.

---

**Definición**

Dada una matriz estocástica por columna $P$ se le nombra $x$ un **vector estacionario** de P si y sólo si  $x$ es un vector de probabilidad con la propiedad:

$$Px = x$$


y $x$ es eigenvector de $P$ con eigenvalor $1$ asociado.

---

En el ejemplo anterior.

In [22]:
evalues, evectors = np.linalg.eig(P)

In [24]:
evector_1 = evectors[:,0]

In [26]:
print(evector_1)

[-0.046 -0.046 -0.538 -0.184 -0.415 -0.707]


In [27]:
print(P@evector_1)

[-0.046 -0.046 -0.538 -0.184 -0.415 -0.707]


### Matriz irreducible y estocástica por columnas

Para asegurar que la matriz $P$ anterior tiene un **único** eigenvalor $\lambda_1$ igual a $1$ se utiliza la idea de *teleportation* y además se busca que la matriz sea **irreducible**.

---

**Definición**

Nombramos a una matriz irreducible como aquella para la que su grafo asociado siempre existe una ruta dirigida que une dos nodos distintos. Esto se nombra **grafo fuertemente conectado**.

---

Una posible modificación es:

$$P = \alpha Q + (1-\alpha) \frac{1}{n}ee^T$$

para $\alpha \in [0,1]$. Se cumple que $P$ es estocástica por columnas, es irreducible y tiene entradas no negativas.

---

**Comentarios**

* En general la modificación es de la forma: $P = \alpha Q + (1-\alpha)ve^T$ con $v$ vector no negativo y $||v||_1 = 1$.

* Es posible probar que si una matriz $P$ es estocástica por columnas e irreducible entonces $\lambda_1 = 1$ y existe un **único eigenvector**, $r$ asociado a $\lambda_1$ que tiene entradas positivas y $||r||_1 = 1$. Si además $P$ tiene entradas no negativas entonces el módulo de sus eigenvalores restantes son menores a $1$. En el contexto de cadenas de Markov tal vector $r$ es el vector estacionario.

* La interpretación de la expresión anterior en la caminata aleatoria sobre el grafo de la web, es como sigue: en cada tiempo la *surfer* al visitar una página, si:

    * la página no tiene *outlinks*, elige una página aleatoria entre todas las páginas con probabilidad $\frac{1}{n}$.
    
    * la página tiene *outlinks*, elige un *outlink* con probabilidad $1 - \alpha$ y con probabilidad $\alpha$ elige **cualquier** página del grafo.


* Típicamente $\alpha$ es $0.85$.

---

### Ejemplo

Considérese el grafo

<img src="https://dl.dropboxusercontent.com/s/u2m8af7hfi83wq9/graph_example_2_pagerank.png?dl=0" heigth="400" width="400">

Entonces una *surfer* que haya entrado a la parte izquierda o derecha del grafo nunca saldrá. La matriz $Q$ asociada al grafo anterior es:

In [28]:
l = [[0, 1/2, 1/2, 1/2, 0, 0],
     [1/2, 0, 1/2, 0, 0, 0],
     [1/2, 1/2, 0, 0, 0, 0],
     [0, 0, 0, 0, 0, 0],
     [0, 0, 0, 1/2, 0, 1],
     [0, 0, 0, 0, 1, 0]]
Q = np.array(l)

In [29]:
print(Q)

[[0.  0.5 0.5 0.5 0.  0. ]
 [0.5 0.  0.5 0.  0.  0. ]
 [0.5 0.5 0.  0.  0.  0. ]
 [0.  0.  0.  0.  0.  0. ]
 [0.  0.  0.  0.5 0.  1. ]
 [0.  0.  0.  0.  1.  0. ]]


Tomando un valor de $\alpha = 0.85$ se tiene:

In [30]:
_,n = Q.shape
alpha = 0.85
P = alpha*Q + (1-alpha)*1/n*np.outer(e,e)

In [31]:
print(P)

[[0.025 0.45  0.45  0.45  0.025 0.025]
 [0.45  0.025 0.45  0.025 0.025 0.025]
 [0.45  0.45  0.025 0.025 0.025 0.025]
 [0.025 0.025 0.025 0.025 0.025 0.025]
 [0.025 0.025 0.025 0.45  0.025 0.875]
 [0.025 0.025 0.025 0.025 0.875 0.025]]


Y sus eigenvalores son:

In [32]:
eigvalues, eigvectors = np.linalg.eig(P)

In [33]:
print(eigvalues)

[ 1.     0.85  -0.    -0.85  -0.425 -0.425]



Compárese con los eigenvalores de $Q$.



In [34]:
print(np.linalg.eigvals(Q))

[-0.5  1.  -0.5  1.  -1.   0. ]


Sus eigenvectores son:

In [35]:
print(-1*eigvectors)

[[ 0.447 -0.365 -0.354  0.     0.816  0.347]
 [ 0.43  -0.365  0.354  0.    -0.408  0.466]
 [ 0.43  -0.365  0.354 -0.    -0.408 -0.814]
 [ 0.057 -0.    -0.707 -0.    -0.     0.   ]
 [ 0.469  0.548 -0.     0.707  0.    -0.   ]
 [ 0.456  0.548  0.354 -0.707 -0.    -0.   ]]


Como se describió, el eigenvector asociado a $\lambda_1$ tiene entradas positivas (primera columna de la matriz anterior).

Verifiquemos que si definimos un vector de probabilidad $x_0$ entonces al aplicar el método de la potencia

In [36]:
x_0 = np.array([0.4, 0.2, 0.2, 0.1, 0.05, 0.05])

In [37]:
n = 6

In [38]:
q_k = x_0.copy()
max_iter = 30
q_k_iter = np.zeros((n, max_iter))
lambda_k_iter = np.zeros(max_iter)
for k in range(max_iter):
    z_k = P@q_k
    q_k = z_k
    q_k_iter[:,k] = q_k
    lambda_k = q_k.T@P@q_k/np.linalg.norm(z_k)**2
    lambda_k_iter[k] = lambda_k

In [39]:
print(lambda_k)

1.0000248167406063


In [40]:
print(eigvalues)

[ 1.     0.85  -0.    -0.85  -0.425 -0.425]


Obsérvese que la aproximación es un múltiplo de la primer columna de la matriz siguiente

In [41]:
print(-1*eigvectors)

[[ 0.447 -0.365 -0.354  0.     0.816  0.347]
 [ 0.43  -0.365  0.354  0.    -0.408  0.466]
 [ 0.43  -0.365  0.354 -0.    -0.408 -0.814]
 [ 0.057 -0.    -0.707 -0.    -0.     0.   ]
 [ 0.469  0.548 -0.     0.707  0.    -0.   ]
 [ 0.456  0.548  0.354 -0.707 -0.    -0.   ]]


Aproximación

In [42]:
print(z_k)

[0.196 0.188 0.188 0.025 0.204 0.198]


In [43]:
division_to_get_constant = [(eigvectors[:,0][k]/z_k[k]).round(1) \
                            for k in range(len(z_k))]
print(division_to_get_constant)

[-2.3, -2.3, -2.3, -2.3, -2.3, -2.3]


In [44]:
cte = np.unique(division_to_get_constant)[0]

In [45]:
print(z_k*cte)

[-0.451 -0.433 -0.433 -0.058 -0.469 -0.456]


`z_k` es un vector de probabilidad:

In [46]:
np.sum(z_k)

1.0000000000000013

### Comentarios respecto a la implementación del método de la potencia

* Si un vector satisface $||z||_1 = e^Tz = 1$, $P$ es estocástica por columnas entonces: $||Pz||_1 = 1$. Esto evita normalizar en el método de la potencia al resultado del producto por la matriz $P$. Además se aprovecha lo anterior al utilizar $|| \cdot||_1$.

* Por la definición de $Q$ y de $P$, la multiplicación matriz-vector del método de la potencia se realiza sin construir matrices generadas a partir de las expresiones $ed^T$ o $ee^T$. En lugar de esto se calcula:

$$Pz = \alpha Qz + \beta \frac{1}{n}e$$

donde: $\beta = 1 - ||\alpha Qz||_1$.

---

**Observación**

Obsérvese que no se requiere calcular el vector $d$, esto es, no se conoce qué páginas carecen de *outlinks*.

---

## Ejemplo sencillo

Imaginemos tenemos $4$ páginas $web$ conectadas como se muestra a continuación:

<img src="https://dl.dropboxusercontent.com/s/ryb515n4y2273h9/graph_example_simple_pagerank.png?dl=0" heigth="700" width="700">


Entonces la matriz $Q$ asociada al grafo anterior es:

In [47]:
n = 4

In [48]:
Q = np.array([[0,   1/3, 1, 1/2],
              [1/2, 0,   0, 0],
              [1/2, 1/3, 0, 1/2],
              [0,   1/3, 0, 0]])

Definamos el vector de probabilidad inicial para aplicar el método de la potencia. Para ello, supongamos que la *surfer* visita aleatoriamente alguna de las páginas con la misma probabilidad, esto es:

In [49]:
x_0 = 1/n*np.ones(n)

In [50]:
print(x_0)

[0.25 0.25 0.25 0.25]


$Q$ en una matriz irreducible y estocástica con la que podríamos trabajar, lo siguiente se realiza sólo para mostrar la aplicación de la transformación descrita.

In [51]:
e = np.ones(n)

In [52]:
_,n = Q.shape
alpha = 0.85
P = alpha*Q + (1-alpha)*1/n*np.outer(e,e)

In [53]:
print(P)

[[0.038 0.321 0.887 0.463]
 [0.463 0.038 0.038 0.038]
 [0.463 0.321 0.038 0.463]
 [0.038 0.321 0.038 0.038]]


Aplicamos el método de la potencia

In [54]:
q_k = x_0.copy()
max_iter = 30
q_k_iter = np.zeros((n, max_iter))
lambda_k_iter = np.zeros(max_iter)
for k in range(max_iter):
    z_k = P@q_k
    q_k = z_k
    q_k_iter[:,k] = q_k
    lambda_k = q_k.T@P@q_k/(np.linalg.norm(z_k)**2)
    lambda_k_iter[k] = lambda_k


In [55]:
print(z_k)

[0.395 0.205 0.304 0.096]


In [56]:
print(lambda_k)

1.0000000004327623


`z_k` es un vector de probabilidad:

In [57]:
np.sum(z_k)

0.9999999999999996

Verificamos que se aproxima al eigenvector asociado al eigenvalor igual a $1$

In [58]:
evalues, evectors = np.linalg.eig(P)

In [59]:
print(evalues)

[ 1.   +0.j    -0.589+0.j    -0.131+0.264j -0.131-0.264j]


In [60]:
print(evectors)

[[ 0.721+0.j    -0.701+0.j    -0.193+0.391j -0.193-0.391j]
 [ 0.375+0.j     0.506+0.j     0.628+0.j     0.628-0.j   ]
 [ 0.556+0.j     0.439+0.j    -0.167+0.15j  -0.167-0.15j ]
 [ 0.175+0.j    -0.244+0.j    -0.268-0.541j -0.268+0.541j]]


Obsérvese que la aproximación es un múltiplo de la primer columna de la matriz anterior:

In [61]:
division_to_get_constant = [(evectors[:,0][k]/z_k[k]).round(1) \
                            for k in range(len(z_k))]
print(division_to_get_constant)

[(1.8+0j), (1.8+0j), (1.8+0j), (1.8+0j)]


In [62]:
cte = np.unique(division_to_get_constant)[0]

In [63]:
print(z_k*cte)

[0.711+0.j 0.37 +0.j 0.547+0.j 0.172+0.j]


**Interpretación**

In [64]:
print(z_k)

[0.395 0.205 0.304 0.096]


El vector `z_k` contiene los *pageranks* de cada una de las 4 páginas. Entonces la *surfer* visita las páginas $1, 2, 3$ y $4$ con probabilidades $0.395, 0.205, 0.304, 0.096$ respectivamente.

**Referencia para ejemplo de *pagerank* sencillo: Mota, M. A., Rumbos B., Álgebra lineal en $\mathbb{R}^n$, 2020.**