# Anwendung

## PageRank

Der PageRank-Algorithmus ist ein Algorithmus zur Link-Analyse, der von der Google-Suche verwendet wird, um Websites in den Suchmaschinenergebnissen zu bewerten. Der Algorithmus wurde von Larry Page und Sergey Brin entwickelt. Der Grundgedanke hinter PageRank ist, dass die Bedeutung einer Website durch die Anzahl der anderen Websites, die auf sie verlinken, sowie durch die Bedeutung dieser verlinkenden Websites bestimmt werden kann. Ein Link von einer hochrangigen Website trägt mehr zum Ranking der Zielwebsite bei als ein Link von einer weniger wichtigen Website.
<br><br>
PageRank ist nur einer von vielen Faktoren, die Google verwendet, um die Relevanz und den Rang einer Webseite in den Suchmaschinenergebnissen zu bestimmen. Es handelt sich jedoch um einen der wichtigsten Faktoren, der seit den Anfängen des Unternehmens ein wesentlicher Bestandteil des Google-Ranking-Algorithmus ist.



Hierbei wird bei dem Algorithmus jeder Webseite einen numerischen Wert zgewiesen, den so genannten "PageRank-Score". Dieser Wert basiert auf der Wichtigkeit der Webseite, die durch die Anzahl und Qualität der Links, die auf sie verweisen, bestimmt wird. Je mehr Links eine Webseite von anderen wichtigen Webseiten hat, desto höher ist ihr PageRank-Wert.

Der PageRank-Algorithmus basiert auf der Idee, Eigenvektoren und Eigenwerte zu verwenden, um die Bedeutung einer Webseite zu berechnen. Bei diesem Algorithmus wird das Web als gerichteter Graph modelliert, wobei jede Webseite als Knoten im Graph und jeder Hyperlink als gerichtete Kante dargestellt wird.

$$
A \leftrightarrow B, A \rightarrow C, A \rightarrow D \\
B \leftrightarrow D \\
C \leftrightarrow D . \\
$$
$\rightarrow$ referenziert von der ersten Webseite auf die zweite und bei $\leftrightarrow$ refrenzieren die Seiten sich gegenseitig. In diesem Beispiel refrenziert sich keine Webseite selbst und die Wahrscheinlichkeiten sind gleich verteilt. Damit entsteht folgende Verteilung <br><br>
$$
p(A \rightarrow B) = p(A \rightarrow C) = p(A \rightarrow D) = \frac{1}{3} \\
p(B \rightarrow A) = p(B \rightarrow D) = \frac{1}{2} \\
p(C \rightarrow D) = 1 \\
p(D \rightarrow B) = p(D \rightarrow C) = \frac{1}{2}.
$$

Für ein Beispiel wird angenommen man hätte vier Webseiten $A,B,C,D$ mit den folgenden Verbindungen
<center><img src="graph.png" width=250 height=250 ></center>.<br>
Dies kann man als Übergangsmatrix formulieren

$$
P = \begin{bmatrix}
p_{A→A}=0 & p_{B→A}=1/2 & p_{C→A}=0 & p_{D→A}=???  \\
p_{A→B}=1/3 & p_{B→B}=0 & p_{C→B}=0 & p_{D→B}=???  \\
p_{A→C}=1/3 & p_{B→C}=0 & p_{C→C}=0 & p_{D→C}=???  \\
p_{A→D}=1/3 & p_{B→D}=1/2 & p_{C→D}=1 & p_{D→D}=???  \\
\end{bmatrix}
$$

In Python würde die Matrix so aussehen:

In [1]:
import numpy as np
# Vervollständigen Sie die Übergangstabelle
P = np.array([
       [0.        , 0.5       , 0.        ,???       ],
       [0.33333333, 0.        , 0.        ,???       ],
       [0.33333333, 0.        , 0.        ,???       ],
       [0.33333333, 0.5       , 1.        ,???       ]
       ])

SyntaxError: invalid syntax (3423055284.py, line 4)

Man nehme nun an es gäbe $100$ Personen von denen jede Person immer nur eine Webseite besucht. Jede Minute folgt die Person einem Link auf der Webseite und wird auf eine andere Webseite weitergeleitet. Nach einer gewissen Zeit werden die Webseiten die am häufigsten verlinkt sind von mehr Personen besucht und die Besucher je Webseite konvergieren. Der PageRank bildet dazu eine Rangliste der Webseiten nach ihrer Besucheranzahl. <br><br>
Die Besucheranzahl je Webseite wird als Vektor dargestellt
$$
\mathbf{r} = \begin{bmatrix} r_A \\ r_B \\ r_C \\ r_D  \end{bmatrix}.
$$
Zudem stehen die Anzahl an Personen auf jeder Webseite zur Minute $i + 1$ mit denen bei Minute $i$ durch folgende Matrix Transformation im Verhältnis
$$
\mathbf{r}^{(i+1)} = P \,\mathbf{r}^{(i)}.
$$
Man geht davon aus, dass die Besucheranzahl je Webseite konvergiert, das beduetet $\mathbf{r}^{(i+1)} = \mathbf{r}^{(i)}$. Somit kann man die Indizes entfernen 
$$
L \,\mathbf{r} = \mathbf{r}
$$
und man bekommt damit ein Eigenwertproblem.


In [236]:
eigen_vals, eigen_vecs = np.linalg.eig(P) # Eigenwerte und Eigenvektoren berechnen

order_eigen_values = np.absolute(eigen_vals).argsort()[::-1] 
eigen_vals = eigen_vals[order_eigen_values] # Eigenwerte nach der Grösse sortieren
eigen_vecs = eigen_vecs[:, order_eigen_values] # Eigenvektore sortieren

In [237]:
r = eigen_vecs[:, 0]
r

array([-0.22298824, -0.44597649, -0.44597649, -0.74329415])

In [238]:
visits = 100 * np.real(r / np.sum(r)) # Eigenvektor auf eins summieren und mal 100 multiplizieren
visits

array([12.00000001, 23.99999999, 23.99999999, 40.        ])

Damit sind die Besuche folglich verteilt
$$
r_A = 12 \ \text{Besuche}, \ r_B = 24 \ \text{Besuche}, \ r_C = 24 \ \text{Besuche}, \ r_D = 40 \ \text{Besuche} .
$$
Eine weitere Möglichkeit zur Lösungen des PageRank-Problems ist es die Übergangstabelle als Markow-Kette zu verstehen. Dadurch kann man die stationäre Verteilung berechnen und so würde man auf das gleiche Ergebnis kommen wie bei der Lösung des Problems als Eigenwertproblem. 


Zuerst wird eine Initialverteilung erstellt.

In [258]:
r = 100 * np.ones(4) / 4
r

array([25., 25., 25., 25.])

Nun kann man das Skalarprodukt der Intialverteilung und der Übergangstabelle berechnen. Jede Berechnung spiegelt eine Simulation des Klickverhaltens der Personen dar. Führen Sie den folgenden Code so lange durch bis die Werte anfangen zu konvergieren.

In [270]:
r = P.dot(r) 
r 

array([11.34672003, 25.18668012, 25.18668012, 38.27991815])

Wie Sie erkennen konnten konvergieren die Werte an die bereits vorher gefundenen Besucheranzahlen. Dies kann man auch noch automatisieren.

In [275]:
r = 100 * np.ones(4) / 4 
lastR = r
r = P.dot(r)
i = 0
while np.linalg.norm(lastR - r) > 0.01 :
    lastR = r
    r = P.dot(r)
    i += 1
print(str(i) + " Iterationen bis zur Konvergenz")
r

77 Iterationen bis zur Konvergenz


array([11.99885967, 24.00206708, 24.00206708, 39.99699669])