# Projet à rendre: PageRank

**Groupe: Prenom,Nom1 -- Prenom,Nom2**

## Consignes 
Le projet est à rendre pour le vendredi 6 avril 2018 20h (par groupe de deux maximum), par mail à nicolas.gast@imag.fr. 

Merci de rendre:
* votre notebook ipython 
* un export de votre notebook en html 

(crédit : ce sujet est inspiré de *https://myriamtami.github.io/data/enseignements/TP_PageRank_2018.pdf*)

## Introduction 

Le but de ce TP est d’étudier l’algorithme d’ordonnancement PageRank qui est utilisé pour
la recherche d’information sur le Web.

On considère un graphe du web qui est un graphe orienté où chaque noeud du graphe représente un page web. Un lien existe entre la page A et la page B si la page A pointe vers la page B. 

On considère un marcheur aléatoire qui commence sur un sommet du graphe tiré aléatoirement parmis tous les sommets. À chaque étape : 
- avec probabilité $p$, il se déplace sur un sommet aléatoirement (uniformément) parmi tous les **voisins** de ce sommet (sauf si ce sommet n'a pas de voisin, dans ce cas il se déplace sur un sommet parmi tous les sommets du graphe)
- avec probabilité $1-p$, il se déplace sur un sommet aléatoirement (uniformément) parmi tous les sommets du graphe. 


Le "rang" d'une page est le temps moyen qu'un marcheur aléatoire passe sur une page. 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Partie 1: Graphes aléatoires

On représentera les graphes par une liste de liste de voisin. Par exemple, la structure de donnée [[1,2],[0],[0]] représente un graphe dans lequel la page "0" pointe vers 2 pages ("1" et "2") tandis que les pages 1 et 2 pointent vers la page "0". 

### Question 1 
Écrire un programme prenant en entrée deux paramètres $N$ (un entier) et $q\in[0,1]$ et qui rend un graphe à $N$ sommet dans lequel une page $i$ pointe vers une page $j$ avec probabilité $q$. 

In [None]:
def GrapheN(N,q):
    T = []
    for i in range(0,N):
        Link = []
        for j in range(0,N):
            if (np.random.rand()<= q):
                Link.append(j)
        T.append(Link)
    return T               

print(GrapheN(3,0.5))

### Question 2
On fixe $N=1000$. En utilisant une simulation, tracer en fonction de $q$ la probabilité que le graphe soit complètement connecté (et commentez vos résultats)

In [None]:
def transpose(G):
    N = len(G)
    Gtranspose = [[] for i in range(N)]
    for i in range(N):
        for j in G[i]:
            Gtranspose[j].append(i)
    return Gtranspose


def GrapheConnecRec(Sommet_accedes,G,i):
    Liste_sommetsuiv = []
    for j in G[i]:
        if (Sommet_accedes[j] == 0) :
            Liste_sommetsuiv.append(j)
    if (Liste_sommetsuiv == []):
        Tous_marque = True
        j = 0
        while(j<len(Sommet_accedes) and Tous_marque):
            if (Sommet_accedes[j] == 0):
                Tous_marque = False
            j += 1
        return Tous_marque
    else :
        Sommet_accedes[Liste_sommetsuiv[0]] = 1
        GrapheConnecRec(Sommet_accedes,G,Liste_sommetsuiv[0])
         
        
def GrapheConnec(G,N):
    Sommet_accedes = [0]*N
    i = np.random.randint(0,N)
    Gtranpose = transpose(G)
    return (GrapheConnecRec(Sommet_accedes,G,i) and GrapheConnecRec(Sommet_accedes,Gtranspose,i))

In [None]:
def simulator(N):
    Tab_simulationY = []
    Tab_simulationX = []

    for j in range(1,10):
        q = j/10
        print(q)
        cpt_true = 0
        for i in range(0,1001):
            G = GrapheN(N,q)
            if GrapheConnec(G,N):
                cpt_true += 1
        Tab_simulationY.append(cpt_true/1000)
        Tab_simulationX.append(q)
        
    plt.plot(Tab_simulationX)
    

simulator(1000)

## Partie 2 : Un peu de théorie 

### Question 3

On note $X_t$ la position du marcheur après $n$ déplacements. Pourquoi $X$ est-elle une chaîne de Markov? Est-ce la chaîne $X$ a-t-elle toujours une unique mesure stationnaire? 

### Question 4 
Exprimer $P(X_{t+1}=i)$ en fonctions des différents $P(X_t=j)$ pour $j\in\{1,\dots,n\}$. 

### Question 5
On suppose que le graphe d'intéraction est un graphe symétrique connexe et que $p=0$. Exprimer la mesure stationnaire de la chaîne en fonction du degré des sommets. 


## Partie 3 : Résolution numérique et simulation 

### Question 6

Implémenter un algorithme qui prend en entrée un graphe et calcule la mesure stationnaire de la chaîne (en utilisant l'équation de récurrence de la question 4). 

### Question 7 

On considère un graphe aléatoire de taille $N=100$ et on fixe $p=0.05$. 
* Calculer le rang des pages. Voyez vous une corrélation entre le rang d'une page et son degré entrant et/ou sortant? 
* Ajouter quelques hubs (pages qui ont beaucoup de liens sortant) et autorités (pages qui ont beaucoup de liens entrant). Quelles pages sont classées le plus haut ?
* Essayez d’accroître les rangs de certaines pages. Expliquez votre méthode et validez-la expérimentalement.
* Essayez différentes valeurs pour le facteur d’amortissement $p$. Quel est le comportement de l’algorithme lorsque $p$ tend vers 0 ?


### Question 8

Implémenter un algorithme qui prend en entrée un graphe $G$, un temps $T$ et un paramètre $p\in(0,1)$ qui simule un marcheur aléatoire qui suit l'algorithme de PageRank. Tracer la position du marcheur en fonction du temps et essayer de reproduire les résultats de la question 6. 

