# Rapport SAE S2.02

In [2]:
# Importations des bibliothèques utilisées dans le rapport
import numpy as np
import random

Groupe G4-E : 
    Bougeard Bastien,
    Delin Alexis,
    Rouge Gabriel

## Partie 1 : PageRank - version itérative, premier exemple

### 1)

Une fois ce graphe converti en matrice d'adjacence, nous pouvons lui appliquer l'algorithme de la puissance itérée. Il sert à trouver une approximation du vecteur propre d'une matrice. Ainsi, chaque valeur propre du vecteur correspond à un sommet, soit au score de la page Web signifiée par ledit sommet. Ainsi, cet algorithme permet de trouver le score approximatif de chaque site traduit sur le graphe donné.

### 2)

In [3]:
def norme (X) :
    # Donne la norme de X
    # X : vecteur
    res = 0
    for i in X :
        res += i**2
    return np.sqrt(res)

def matriceDeTransition(q):
    # Donne la matrice de tranisition correspondante
    # q : matrice d'adjacence 
    # N : ordre de la matrice q
    # Q : matrice de transition (résultat)
    #  - .dot permet de faire un produit de deux np.array
    #  - .sum fait la somme des éléments d'un np.array
    N = len(q)
    Q = np.zeros((N,N))
    for i in range(N):
        for j in range(N):
            Nj = np.sum(q[i])
            if Nj!=0:
                Q[i][j] = q[i][j]/Nj
    return Q

def puissanceIteree(M, seuil):
    # Algorithme de puissance itérée
    # M : matrice
    # x : vecteur pris aléatoirement dans M
    # x1 : vecteur
    # seuil : très petit nombre décimal tel 1e-10
    x = M[random.randint(0,len(M)-1)]
    x1 = 1/norme(x.dot(M))*x.dot(M)
    while norme(x1-x) > seuil  :
        x = x1
        x1 = 1/norme(x.dot(M))*x.dot(M)
    return x1


In [4]:
# Matrice d'adjascence du graphe donné où N = 14
graph1 = np.array([[0,1,1,1,1,1,0,0,0,0,0,0,0,0]
                  ,[1,0,1,0,0,0,0,0,0,0,0,0,0,0]
                  ,[1,0,0,1,0,0,0,0,0,0,0,0,0,0]
                  ,[1,0,0,0,1,0,0,0,0,0,0,0,0,0]
                  ,[1,1,0,0,0,0,0,0,0,0,0,0,0,0]
                  ,[0,0,0,0,0,0,1,1,1,0,0,0,0,0]
                  ,[1,0,0,0,0,0,0,1,0,0,0,0,0,0]
                  ,[0,0,0,0,0,1,0,0,0,0,0,0,0,0]
                  ,[0,0,0,0,0,0,0,1,0,1,0,0,0,0]
                  ,[0,0,0,0,0,1,0,0,0,0,1,1,1,1]
                  ,[0,0,0,0,0,0,0,0,0,1,0,1,0,0]
                  ,[0,0,0,0,0,0,0,0,0,1,0,0,1,0]
                  ,[0,0,0,0,0,0,0,0,0,1,0,0,0,1]
                  ,[0,0,0,0,0,0,0,0,0,1,1,0,0,0]])

tmpMat = matriceDeTransition(graph1)
print(puissanceIteree(tmpMat, 1e-10))

[0.41959068 0.16783627 0.16783627 0.16783627 0.16783627 0.50350881
 0.16783627 0.33567254 0.16783627 0.41959068 0.16783627 0.16783627
 0.16783627 0.16783627]


### 3)

Le vecteur propre est comme attendu d'ordre N (14) soit l'ordre du graphe que représente la matrice d'adjacence. Ainsi, chaque valeur propre correspond au score d'un sommet du graphe. 

On observe en effet que le sommet 1, 6 et 8 ont un score plus élevé que les autres puisqu'ils ont une quantité importante d'arcs orientés vers eux. A l'inverse, les autres sommets ont tous un seul arc entrant et ont donc tous le même score ( environ 1,7 ).

Puisque le résultat est cohérent, on en déduit que l'algorithme implémenté fonctionne, jusqu'à preuve du contraire.

## Partie 2 : PageRank - version itérative, deuxième exemple

### 1)

In [5]:
# Matrice d'adjascence du graphe donné où N = 5
graph2 = np.array([[0,0,0,0,0],
                  [1,0,0,0,0],
                  [1,0,0,0,0],
                  [1,1,1,0,0],
                  [1,1,0,0,0]])

In [6]:
tmpMat = matriceDeTransition(graph2)
print(puissanceIteree(tmpMat, 1e-10))

[nan nan nan nan nan]


  x1 = 1/norme(x.dot(M))*x.dot(M)
  x1 = 1/norme(x.dot(M))*x.dot(M)


On observe que la fonction provoque avec ce graphe en paramètre un message d'erreur de type division par 0. 

Le seul endroit où une division est faite est à cette ligne : 

    x1 = 1/norme(x.dot(M))*x.dot(M)
Il n'y a qu'une seule division dans cette ligne. Ainsi, pour que "1/norme(x.dot(M))\*x.dot(M)" soit égal à 0, soit le produit de M et de x est nul, soit la norme de ce produit est nulle. La fonction norme(X) n'effectue aucune opération susceptible de rendre son résultat nul (aucune addition/soustraction, ...). On en conclue qu'il s'agit du produit de x et M qui est nul, ainsi, au moins l'une de ces deux valeur est nulle. Rappelons que x est un vecteur pris aléatoirement dans la matrice M.

On remarque que la matrice d'adjacence de ce graphe présente en effet au moins une entrée composée de 5 zéros (où N = 5). Il est donc certain que x prenne à un moment donné la valeur de [0,0,0,0,0]. Là est l'origine de l'erreur.

On en conclue que notre algorithme est à revoir puisqu'il ne devrait pas présenter d'erreur. Des modifications à la fonction "matriceDeTransition(q)" sont à apporter.

### 2)

In [7]:
def matriceDeTransitionV2(p, alpha):
    # Donne la matrice de tranisition correspondante, version améliorée
    # p : matrice d'adjacence 
    # N : ordre de la matrice p
    # P : matrice de transition (résultat)
    # alpha : facteur d'amortissement
    N = len(p)
    P = np.zeros((N,N))
    for i in range(N):
        for j in range(N):
            Nj = np.count_nonzero(p[i])
            if Nj!=0:
                P[i][j] = alpha*p[i][j]+((1-alpha)/N)
            else:
                P[i][j] = 1/N
    return P

In [8]:
tmpMat = matriceDeTransitionV2(graph2, 0.85)
print(puissanceIteree(tmpMat, 1e-10))

[0.848723   0.38834904 0.27552341 0.16269779 0.16269779]


Avec cette nouvelle matrice de tansition, le problème rencontré ne survient plus. 

On remarque encore une fois que le score est cohérent ; le sommet 1 a le plus haut score et la plus grande quantité d'arcs entrants, les sommets 4 et 5 n'ont aucun arc entrant et ont le plus petit score... 

Ainsi, et encore une fois jusqu'à preuve du contraire, on en déduit que l'algorithme fonctionne. 

Formons de cette manière la fonction PageRank qui sera utilisée dans le reste du rapport : 

In [9]:
def PageRank (matrice, alpha, seuil) :
    return puissanceIteree(matriceDeTransitionV2(matrice, alpha), seuil)

## Partie 3 : PageRank - version itérative, analyse

### 1) Influence du critère d'arrêt (seuil)

Pour analyser l'influence du seuil dans l'algorithme de puissance iterée, nous devons prendre un seul graphe  et un seul facteur d'amortissement sur lesquels on va faire varier le seuil afin d'observer les résultats.

Ensuite, nous ferons une conclusion en comparant ces résultats et déduisant le sens de ces différences.

##### Variation avec seuil entre 1e-2 et 1e-10 : seuil petit

In [14]:
for i in range (2,12,2) : 
    seuil = 1*10**i
    print("Seuil = 1e-",i," : \n",PageRank(graph1, 0.85, seuil))

Seuil = 1e- 2  : 
 [0.34677892 0.65276494 0.33475327 0.33475327 0.33475327 0.33876182
 0.01273304 0.02075014 0.01273304 0.02876724 0.01674159 0.01674159
 0.01674159 0.01674159]
Seuil = 1e- 4  : 
 [0.02876724 0.01674159 0.01674159 0.01674159 0.01674159 0.33876182
 0.01273304 0.02075014 0.01273304 0.34677892 0.65276494 0.33475327
 0.33475327 0.33475327]
Seuil = 1e- 6  : 
 [0.03061174 0.35621697 0.35621697 0.35621697 0.35621697 0.69888447
 0.01354946 0.0220806  0.01354946 0.03061174 0.01781503 0.01781503
 0.01781503 0.01781503]
Seuil = 1e- 8  : 
 [0.34677892 0.65276494 0.33475327 0.33475327 0.33475327 0.33876182
 0.01273304 0.02075014 0.01273304 0.02876724 0.01674159 0.01674159
 0.01674159 0.01674159]
Seuil = 1e- 10  : 
 [0.02545258 0.01794922 0.01794922 0.01794922 0.01794922 0.02045034
 0.21387031 0.21887255 0.21387031 0.81914142 0.21637143 0.21637143
 0.21637143 0.21637143]


##### Variation avec seuil entre 1e-20 et 1e-200 : seuil très petit

In [11]:
for i in range (40,201,40) : 
    seuil = 1*10**i
    print("Seuil = 1e-",i," : \n",PageRank(graph1, 0.85, seuil))

Seuil = 1e- 40  : 
 [0.02876724 0.01674159 0.01674159 0.01674159 0.01674159 0.33876182
 0.01273304 0.02075014 0.01273304 0.34677892 0.65276494 0.33475327
 0.33475327 0.33475327]
Seuil = 1e- 80  : 
 [0.81914142 0.21637143 0.21637143 0.21637143 0.21637143 0.02045034
 0.21387031 0.21887255 0.21387031 0.02545258 0.01794922 0.01794922
 0.01794922 0.01794922]
Seuil = 1e- 120  : 
 [0.02876724 0.01674159 0.01674159 0.01674159 0.01674159 0.33876182
 0.01273304 0.02075014 0.01273304 0.34677892 0.33475327 0.65276494
 0.33475327 0.33475327]
Seuil = 1e- 160  : 
 [0.81914142 0.21637143 0.21637143 0.21637143 0.21637143 0.02045034
 0.21387031 0.21887255 0.21387031 0.02545258 0.01794922 0.01794922
 0.01794922 0.01794922]
Seuil = 1e- 200  : 
 [0.02876724 0.01674159 0.01674159 0.01674159 0.01674159 0.33876182
 0.01273304 0.02075014 0.01273304 0.34677892 0.33475327 0.33475327
 0.33475327 0.65276494]


##### Variation avec seuil entre 40 et 200 : seuil grand

In [17]:
for i in range (2,12,2) : 
    seuil = i
    print("Seuil =",i," : \n",PageRank(graph1, 0.85, seuil))

Seuil = 2  : 
 [0.81914142 0.21637143 0.21637143 0.21637143 0.21637143 0.02045034
 0.21387031 0.21887255 0.21387031 0.02545258 0.01794922 0.01794922
 0.01794922 0.01794922]
Seuil = 4  : 
 [0.81914142 0.21637143 0.21637143 0.21637143 0.21637143 0.02045034
 0.21387031 0.21887255 0.21387031 0.02545258 0.01794922 0.01794922
 0.01794922 0.01794922]
Seuil = 6  : 
 [0.34677892 0.33475327 0.33475327 0.65276494 0.33475327 0.33876182
 0.01273304 0.02075014 0.01273304 0.02876724 0.01674159 0.01674159
 0.01674159 0.01674159]
Seuil = 8  : 
 [0.03061174 0.35621697 0.35621697 0.35621697 0.35621697 0.69888447
 0.01354946 0.0220806  0.01354946 0.03061174 0.01781503 0.01781503
 0.01781503 0.01781503]
Seuil = 10  : 
 [0.34677892 0.65276494 0.33475327 0.33475327 0.33475327 0.33876182
 0.01273304 0.02075014 0.01273304 0.02876724 0.01674159 0.01674159
 0.01674159 0.01674159]


##### Variation avec seuil entre 40 et 200 : seuil très grand

In [15]:
for i in range (40,201,40) : 
    print("Seuil =",i," : \n",PageRank(graph1, 0.85, i))

Seuil = 40  : 
 [0.02876724 0.01674159 0.01674159 0.01674159 0.01674159 0.33876182
 0.01273304 0.02075014 0.01273304 0.34677892 0.33475327 0.33475327
 0.33475327 0.65276494]
Seuil = 80  : 
 [0.03061174 0.01781503 0.01781503 0.01781503 0.01781503 0.69888447
 0.01354946 0.0220806  0.01354946 0.03061174 0.35621697 0.35621697
 0.35621697 0.35621697]
Seuil = 120  : 
 [0.04320579 0.02222012 0.02222012 0.02222012 0.02222012 0.02921534
 0.57017929 0.58416973 0.57017929 0.04320579 0.02222012 0.02222012
 0.02222012 0.02222012]
Seuil = 160  : 
 [0.02876724 0.01674159 0.01674159 0.01674159 0.01674159 0.33876182
 0.01273304 0.02075014 0.01273304 0.34677892 0.65276494 0.33475327
 0.33475327 0.33475327]
Seuil = 200  : 
 [0.04320579 0.02222012 0.02222012 0.02222012 0.02222012 0.02921534
 0.57017929 0.58416973 0.57017929 0.04320579 0.02222012 0.02222012
 0.02222012 0.02222012]


Il est logique que au plus le seuil est petit, au plus l'approximation est proche du score exact. Ainsi, on prendra ce score comme référence pour observer l'écart des autres.

En observation, on remarque que certains score oscillent puisqu'ils augmentent grandement puis réduisent grandement lorsqu'on augmente ou diminue le seuil. Voir : seuil de 1e-4 à 1e-10. On en déduit que le score véritable est dans cette intervalle. Si on se concentre sur le score du sommet 2, on voit qu'à un petit seuil le score oscille entre 0.652 et 0.016. Ensuite, si l'on regarde son score à un seuil de 1e-200 où le score est de 0.0167, notre hypothèse se confirme.

Certains scores supposés bas sont anormalements élevés à certains seuils tandis que d'autres supposés hauts sont anormalements bas. Peut être notre algorithme présente-t-il un problème. 

On observe aussi qu'au plus le seuil est élevé, au plus les scores sont proches. Voir : seuil très grand. On constate que l'étendue pour le seuil à 200 par exemple va de 0.22 à 0.58 tandis que pour le seuil à 1e-200 elle va de 0.016 à 0.65. Cette propriété nous confirme qu'un seuil très bas est plus juste.

Nous avons ainsi regardé une quantité suffisantes de plusieurs cas divers et avons apporté des conclusions à chacune de nos observations.

### 2) Influence des Hubs et des Autorités

Pour cette analyse, nous devrons créer une nouvelle matrice d'adjacence qui représentera un graphe avec des hubs (sommet avec beaucoup d'arcs sortants) et des autorités (sommet avec beaucoup d'arcs entrants).

In [None]:
graph3 = np.array([])

### 3) Méthode d'acroissement du score

Trouvons une méthode pour accroîte le score d'une page et testons la.

### 4) Influence du facteur d'amortissement

Finalement, nous allons faire varier le facteur d'amortissement en utilisant un même graphe et seuil pour voir les différences des résultat pour enfin les interpréter. 

In [None]:
for i in range (1,101,20) : 
    alpha = 1/i
    print("Facteur d'amortissement =",alpha," : \n",PageRank(graph1, alpha, 1e-100))

## Partie 4 : PageRank - version itérative, analyse

### 1)

In [None]:
# Matrices

### 2)

In [None]:
Réponse

## Partie 5 : PageRank - calcul direct des scores et comparaison d'algorithmes

### 1)

Pseudo-code de l'algorithme

### 2)

In [None]:
Algorithme

### 3)

Comparaison

### 4)

Comparaison

## Partie 6 : PageRank - matrice du langage

Bonus

## Conclusion : Participations 