# Recherche d'Information et traitement de données massives

# Lab 6 : Recherche d’information sur le Web : Algortihme de PageRank


L'objectif de cette séance est de poursuivre l'étude du problème de la recherche d'information sur le WEB. Elle consistera à s'intéresser à la prise en compte de la structure de la collection du WEB au travers de la mise en oeuvre d'approches d'analyse de liens pour l'ordonnancement.


Nous allons implémenter et étudier l'algorithme d'ordonnancement **PageRank**. Ce dernier est utilisé par le moteur de recherche Google pour attribuer un score d'importance à chaque page Web. D'ailleurs, c'est en partie sur la base de ce score (et de nombreux autres facteurs) que le moteur de recherche classe par ordre d'importance les pages Web correspondant à une recherche donnée.



### Le format des données

Nous allons utiliser le format de type **graphe** pour représenter un nombre $N$ de pages Web. Voici un exemple de graphe :

<img src="./Figures/graph.png" width="500" height="500" />

La première ligne indique le nombre de pages Web dont il est question pour le graphe (ici 4). Puis pour chacune des lignes suivantes le premier numéro définit l'identifiant d'une page et les numéros suivants les liens sortants de cette page. 

Vous disposez dans le dossier Data associé à ce Lab, de plusieurs graphes de tailles différentes.

Puisque nous allons manipuler des matrices, nous utiliserons la bibliothèque numpy que vous pouvez installer avec la commande ci-dessous.

In [0]:
!pip install numpy

### Première étape : Matrice d'Adjacence.

Nous nommons, $A$ matrice d'adjacence, la matrice de dimension $N \times N$ telle que $a_{i,j}=1$ s'il existe un lien de la page $i$ vers la page $j$, et $0$ sinon.


**1. Ecrire une fonction `build_adjacency_matrix(filename)` permettant de construire la matrice d'adjacence à partir d'un graphe dont le format est défini plus haut (et au format .txt).**

In [0]:
import numpy as np

def build_adjacendy_matrix(filename):
    """Build the adjacency matrix from the graph file"""
   # A completer
        return adjacency_matrix


**2. Ouvrir le graph1.txt présent dans le dossier Data et dessiner-le à la main avec des noeuds portant les numéros de pages et des flèches représentant les liens.**



**3. Appliquer la fonction `build_adjacency_matrix()` au graph1.txt présent dans le dossier Data. Vérifier le résultat avec votre dessin et notre résultat**


In [0]:
# A completer

**Le résultat attendu:**

<img src="./Figures/question1.png" width="250" height="250" />

### Deuxième  étape : Matrice de transition.

A partir de la matrice d'adjacence, il est possible de calculer une matrice de transitio $P$ de paramètre $\lambda$ dont nous aurons besoin lors de l'implémentation de l'algorithme de PageRank. La matrice de transition est définie par :



$$ \disP_{i,j} =  \left\{
\begin{array}{l}
   \left.\begin{array}{l} 
   \lambda \frac{a_{i,j}}{\sum_{j=1}^N a_{i,j}} + (1-\lambda ) \frac{1}{N}  \text{ si} \sum_{j=1}^N a_{i,j} \neq 0\\
   \frac{1}{N} \text{ sinon.}\\
   \end{array}\right.  \\
\end{array}
\right.$$

**4.  Ecrire une fonction `build_transition_matrix(filename, lambda)` permettant de construire la matrice de transition à partir d'un graph (au format .txt) et d'une valeur pour le paramètre $\lambda$. Nous supposerons dans un premier temps $\lambda=0.85$.**

In [0]:
import numpy as np

def build_transition_matrix(filename, lam):
    """Build the transition matrix from the adjacency matrix"""
    # A completer
    return transition_matrix   


**5. Appliquer cette fonction au graph1.txt présent dans le dossier Data pour une valeur de lambda de 0.85 (valeur habituellement choisie).**

In [0]:
# A completer

**Le résultat attendu:**

<img src="./Figures/question5.png" width="450" height="450" />

**6. Appliquer la fonction somme sur les colonnes de la matrice de transition $P$ (sommes de tous les éléments d'une ligne, ligne par ligne). Que constatez-vous ?**

In [0]:
# A completer

**Interpretation de la matrice de transition**

Le PageRank simule le chemin aléatoire d'un internaute qui naviguerait sur le Web en choisissant au hasard les liens à suivre sur une page donnée. Par exemple, dans le cas de la figure plus haut (en section intitulée "le format des données"), un internaute situé en page 1 choisirait d'aller à la page 0, 3 ou 2 avec probabilité 1/3, 1/3, 1/3 respectivement car il y a trois liens sortants de la page 1. Les éléments de la matrice de transition représentent en effet des probabilités de transition à chaque nœud qui peuvent être décrites globalement par la matrice de transition $P$ de dimension $N\times N$, où $N$ est le nombre de nœuds dans le graphique et l'élément $p_{𝑖, 𝑗}$ est la probabilité qu'un internaute aléatoire passe de la page $𝑗$ à la page $i$.


**7. Dans le cas du graph1.txt, selon votre lecture visuelle du graph1 quelles sont les probabilités d'un internaute situé en page 5 d'aller dans chacunes des autres pages web ? Et selon votre matrice de transition, quelles sont ces mêmes probabilités ? Que constatez vous ?**





In [None]:
#A compléter

**8. Calculer à nouveau la matrice de transition avec $\lambda=1$. Que constatez-vous ? Nous reviendrons sur l'étude du paramètre $\lambda$ et celle de son rôle par la suite.**



In [0]:
# A compléter

En parcourant plusieurs fois des balades aléatoires sur le graphe, PageRank simule le comportement de plusieurs internautes aléatoires. Les pages qui reçoivent un plus grand nombre de visites sont considérées comme plus importantes que celles qui ne le sont que rarement. 


Notons qu'au départ, quand un internaute commence sa promenade, il peut être n'importe où dans le graphe. Si nous n'avons aucune raison de penser qu'il serait plus susceptible de choisir une page plus qu'une autre comme point de départ, nous pouvons dire que la probabilité initiale que l'internaute se trouve sur une certaine page est égale à $\frac{1}{N}$.

Ainsi, au départ, la distribution de probabilité de la position de l'internaute peut être décrite par un vecteur colonne $R^{(0)}$ avec $N$ éléments prenant pour valeur $\frac{1}{N}$. Ce vecteur s'appelle le vecteur PageRank à l'itération initiale $l=0$. Pour une itération quelconque nous le noterons $l$.


### Troisième  étape : Algorithme de PageRank

Nous avons à ce moment en notre possession l'ensemble des éléments et outils pour implémenter facilement l'algorithme de PageRank suivant :

<img src="./Figures/Algo_PR.png" width="700" height="700" />

**9. Implémenter l'Algorithme 1 par une fonction `page_rank(transition_matrix, epsilon = 1e-3):` en réutilisant toutes les fonctions que vous venez de construire plus haut et en fixant tout d'abord $\lambda=0.85$. Attention : dans la partie initialisation, pensez à initialiser l'erreur $\epsilon$, par exemple à la valeur $1$.**

In [0]:
def page_rank(transition_matrix, epsilon):
    """Run the PageRank algorithm based on the transition matrix"""
   # A completer
    return rank





**10. Appliquez l'Algorithme 1 au graph1.txt avec $\lambda=0.85$ et $\epsilon = 10^{-3}$.**

In [0]:
# A compléter

**Le résultat attendu:**

<img src="./Figures/question10.png" width="450" height="450" />



### Quatrième étape : Etude et analyse de l'algorithme de PageRank implémenté.

Rappel : fixez tout d'abord $\lambda=0.85$.

**11. Choisissez différentes valeurs pour le critère d'arrêt telles que $\epsilon = {10^{-3}, 10^{-4}, 10^{-5}}$. Qu'est-ce que vous observez ?**















In [0]:
# A compléter

**12. Ajouter quelques hubs (pages qui ont beaucoup de liens sortant) et autorités (pages qui ont beaucoup de liens entrant). Quelles pages sont classées le plus haut ?**

In [0]:
# A compléter

**13. Essayez d’accroître les rangs de certaines pages. Expliquez votre méthode et validez-la expérimentalement.**

In [0]:
# A compléter

**14. Essayez différentes valeurs pour le facteur d’amortissement $\lambda$. Quel est le comportement de l’algorithme lorsque $\lambda$ tend vers 0 ?**

In [0]:
# A compléter

**15. (À la maison) Amusez vous à tester l'algorithme sur les autres graphes plus volumineux mis à votre disposition dans le dossier Data.**

In [0]:
# A compléter