### PageRank algoritam

PageRank je algoritam na kojem je bazirano inicijalno rangiranje rezultata Guglove pretrage. U nekoj meri on se koristi i danas, uzimajući u obzir i druge aspekte stranica poput kvaliteta sadržaja, vremenske relevantnosti, personalizacije, raznovrsnosti ukupne liste rezultata i slično. <img src='assets/web.png'>

Pretpostavimo da je veb predstavljen usmerenim grafom u kojem su same stranice čvorovi grafa, a usmerena ivica od jednog ka drugom čvoru grafa hiperlink od jedne stranice ka drugoj, ukoliko postoji. Neka je skup svih čvorova označen sa $V$, skup svih čvorova iz kojih ne polazi nijedna ivica sa $V'$ (skup stranica koje nemaju linkove ka drugim stranicama). Neka su, dalje, za svaki čvor $v$, skupovi čvorova iz kojih vodi ivica ka $v$ i skupovi čvorova ka kojima polazi ivica iz $v$ označeni redom sa $P_v$ i $N_v$. Neka je $t_v$ numerička preferencija korisnika ka stranici $v$ takva da je zbir koordinata unutar vektora preferencija $t$ ka svim strnicama jednak $1$. Neka je još $n_v$ broj linkova na strani $v$ i $p_v$ verovatnoća da će korisnik posetiti stranicu $v$.

Kod pagerank algoritma se razmatraju dva faktora koja utiču na vrednost $p_v$. Sa jedne strane se razmatraju sve stranice $u \in P_v$ od kojih postoji hiperlink ka stranici $v$. Sa druge strane, pretpostavka je da se preko čvora $v$ hiperlinkom može stići do nekog čvora $u \in N_v \cap V'$ od koga ne postoji hiperlink ni ka jednoj stranici. Tada korisnik, sa nekom verovatnoćom usklađenom sa njegovim preferencijama može posetiti stranicu $v$. Dakle, za sve $v \in V$ važi

$$p_v = \sum_{u \in P_v} \frac{1}{n_u}p_u + \sum_{u \in N_v \cap V'} t_up_u.$$

Pokušajmo ovo da zapišemo u matričnom obliku. Neka je $k$ vektor takav da je $k_v = 1$ ako je $v \in V'$, a $k_v = 0$ inače. Neka je $A$ matrica takva da je $A_{ij} = 1/n_j$ ako postoji usmerena ivica od $j$ ka $i$, a $A_{ij} = 0$ inače. Tada je $p = (A + tk^T)p$.

Neka je $\alpha$ verovatnoća izbora jedne od veza na tekućoj strani. Tada je verovatnoća da se ne izabere veza na tekućoj strani jednaka $1 - \alpha$. Prethodni obrazac se za svako $v \in V$ sada  može preformulisati sa 

$$p_v = \sum_{u \in P_v} \frac{\alpha}{n_u}p_u + \sum_{u \in N_v \cap V'} \alpha t_up_u + (1 - \alpha) t_vp_v.$$

U matričnom obliku obrazac sada postaje $$p = (\alpha(A + tk^T) + (1 - \alpha)te^T)p$$ gde je $e$ vektor koji sadrži sve jedinice i čija je dužina jednaka dužini vektora $p$. 

Matrica $$G = \alpha(A + tk^T) + (1 - \alpha)te^T$$ se naziva `Guglova matrica`. Vektor $p$ je očigledno njen sopstveni vektor kojem odgovara sopstvena vrednost 1. Kako za matricu $G$ važi da je stohastička i da je vrednost 1 njena najveća sopstvena vrednost, $p$ će ujedno biti i njen najveći sopstveni vektor koji možemo pronaći metodom stepenovanja. 

U nastavku ćemo prikazati implementaciju `pagerank` algoritma na osnovu opisanog postupka. Nasumično ćemo generisati sve vrednosti vodeći računa o navedenim uslovima.

In [1]:
import numpy as np

In [2]:
np.random.seed(10)

Funkcija koja implementira metod stepenovanja. Iskoristićemo je za efikasno pronalaženje najveće sopstvene vrednosti Guglove matrice. 

In [3]:
def power_method(A, max_iterations):
    pass