# Rapport SAE S2.02

In [3]:
import numpy as np
import random

Groupe G4-E : 
    Bougeard Bastien,
    Delin Alexis,
    Rouge Gabriel

In [4]:
def PageRank (i, N, c, r) :
    # Donne le nombre de liens présents sur la page j
    # i : page pointant sur la page j
    # c : matrice d'adjacence du graphe 
    #     où un sommet est un site 
    #     et un arc est un hyperlien
    res = 0
    for j in range (N.size-1) : 
        res += ((c.get(i).get(j))/(N.get(j)))*r.get(j)
    return res

## Partie 1 : PageRank - version itérative, premier exemple

### 1)

Une fois ce graphe converti en matrice d'adjacence, nous pouvons lui appliquer l'algorithme de la puissance itérée. Il sert à trouver une approximation du vecteur propre d'une matrice. Ainsi, chaque valeur propre du vecteur correspond à un sommet, soit au score de la page Web signifiée par ledit sommet. Ainsi, cet algorithme permet de trouver le score approximatif de chaque site traduit sur le graphe donné.

### 2)

In [57]:
def norme (X) :
    # Donne la norme de X
    # X : vecteur
    res = 0
    for i in X :
        res += i**2
    return np.sqrt(res)

def matriceDeTransition(q):
    # Donne la matrice de tranisition correspondante
    # q : matrice d'adjacence 
    # N : taille de q
    # Q : matrice de transition (résultat)
    #  - .dot permet de faire un produit de deux np.array
    #  - .sum fait la somme des éléments d'un np.array
    N = len(q)
    Q = np.zeros((N,N))
    for i in range(N):
        for j in range(N):
            Nj = np.sum(q[i])
            if Nj!=0:
                Q[i][j] = q[i][j]/Nj
    return Q

def puissanceIteree(M, seuil):
    # Algorithme de puissance itérée
    # M : matrice de taille N sur N
    # x : vecteur pris aléatoirement dans M
    # x1 : vecteur
    # seuil : très petit nombre décimal tel 1e-10
    x = M[random.randint(0,len(M)-1)]
    x1 = 1/norme(x.dot(M))*x.dot(M)
    while norme(x1-x) > seuil  :
        x = x1
        x1 = 1/norme(x.dot(M))*x.dot(M)
    return x1


In [58]:
# Matrice d'adjascence du graphe donné où N = 14
graph1 = np.array([[0,1,1,1,1,1,0,0,0,0,0,0,0,0]
                  ,[1,0,1,0,0,0,0,0,0,0,0,0,0,0]
                  ,[1,0,0,1,0,0,0,0,0,0,0,0,0,0]
                  ,[1,0,0,0,1,0,0,0,0,0,0,0,0,0]
                  ,[1,1,0,0,0,0,0,0,0,0,0,0,0,0]
                  ,[0,0,0,0,0,0,1,1,1,0,0,0,0,0]
                  ,[1,0,0,0,0,0,0,1,0,0,0,0,0,0]
                  ,[0,0,0,0,0,1,0,0,0,0,0,0,0,0]
                  ,[0,0,0,0,0,0,0,1,0,1,0,0,0,0]
                  ,[0,0,0,0,0,1,0,0,0,0,1,1,1,1]
                  ,[0,0,0,0,0,0,0,0,0,1,0,1,0,0]
                  ,[0,0,0,0,0,0,0,0,0,1,0,0,1,0]
                  ,[0,0,0,0,0,0,0,0,0,1,0,0,0,1]
                  ,[0,0,0,0,0,0,0,0,0,1,1,0,0,0]])

tmpMat = matriceDeTransition(graph1)
print(puissanceIteree(tmpMat, 1e-10))

[0.41959068 0.16783627 0.16783627 0.16783627 0.16783627 0.50350881
 0.16783627 0.33567254 0.16783627 0.41959068 0.16783627 0.16783627
 0.16783627 0.16783627]


### 3)

Le vecteur propre est comme attendu de taille N (14) soit la taille du graphe que représente la matrice d'adjacence. Ainsi, chaque valeur propre correspond au score d'un sommet du graphe. 

On observe en effet que le sommet 1, 6 et 8 ont un score plus élevé que les autres puisqu'ils ont une quantité importante d'arcs orientés vers eux. A l'inverse, les autres sommets ont tous un seul arc entrant et ont donc tous le même score ( environ 1,7 ).

Puisque le résultat est cohérent, on en déduit que l'algorithme implémenté fonctionne, jusqu'à preuve du contraire.

## Partie 2 : PageRank - version itérative, deuxième exemple

### 1)

In [54]:
# Matrice d'adjascence du graphe donné où N = 5
graph2 = np.array([[0,0,0,0,0],
                  [1,0,0,0,0],
                  [1,0,0,0,0],
                  [1,1,1,0,0],
                  [1,1,0,0,0]])

tmpMat = matriceDeTransition(graph2)
print(puissanceIteree(tmpMat, 1e-10))

[nan nan nan nan nan]


  x1 = 1/norme(x.dot(M))*x.dot(M)
  x1 = 1/norme(x.dot(M))*x.dot(M)


On observe que la fonction provoque avec ce graphe en paramètre un message d'erreur de type division par 0. 

Le seul endroit où une division est faite est à cette ligne : 

    x1 = 1/norme(x.dot(M))*x.dot(M)
Il n'y a qu'une seule division dans cette ligne. Ainsi, pour que "1/norme(x.dot(M))\*x.dot(M)" soit égal à 0, soit le produit de M et de x est nul, soit la norme de ce produit est nulle. La fonction norme(X) n'effectue aucune opération susceptible de rendre son résultat nul (aucune addition/soustraction, ...). On en conclue qu'il s'agit du produit de x et M qui est nul, ainsi, au moins l'une de ces deux valeur est nulle. Rappelons que x est un vecteur pris aléatoirement dans la matrice M.

On remarque que la matrice d'adjacence de ce graphe présente en effet au moins une entrée composée de 5 zéros (où N = 5). Il est donc certain que x prenne à un moment donné la valeur de [0,0,0,0,0]. Là est l'origine de l'erreur.

On en conclue que notre algorithme est à revoir puisqu'il ne devrait pas présenter d'erreur. Des modifications à la fonction "matriceDeTransition(q)" sont à apporter.

### 2)

In [68]:
def matriceDeTransitionV2(p, alpha):
    # Donne la matrice de tranisition correspondante
    # p : matrice d'adjacence 
    # N : taille de p
    # P : matrice de transition (résultat)
    #  - .dot permet de faire un produit de deux np.array
    #  - .sum fait la somme des éléments d'un np.array
    N = len(p)
    P = np.zeros((N,N))
    for i in range(N):
        for j in range(N):
            Nj = np.count_nonzero(p[i])
            if Nj!=0:
                P[i][j] = alpha*p[i][j]+((1-alpha)/N)
            else:
                P[i][j] = 1/N
    return P

In [71]:
# Matrice d'adjascence du graphe donné où N = 5
graph2 = np.array([[0,0,0,0,0],
                  [1,0,0,0,0],
                  [1,0,0,0,0],
                  [1,1,1,0,0],
                  [1,1,0,0,0]])

tmpMat = matriceDeTransitionV2(graph2, 0.85)
print(puissanceIteree(tmpMat, 1e-10))

[0.848723   0.38834904 0.27552341 0.16269779 0.16269779]


Avec cette nouvelle matrice de tansition, le problème rencontré ne survient plus. 

On remarque encore une fois que le score est cohérent ; le sommet 1 a le plus haut score et la plus grande quantité d'arcs entrants, 

## Partie 3 : PageRank - version itérative, analyse

### 1)

Analyse

### 2)

Analyse

### 3)

Réponse

### 4)

In [None]:
Algorithme

## Partie 4 : PageRank - version itérative, analyse

### 1)

In [None]:
# Matrices

### 2)

In [None]:
Réponse

## Partie 5 : PageRank - calcul direct des scores et comparaison d'algorithmes

### 1)

In [None]:
Algorithme

### 2)

In [None]:
Algorithme

### 3)

Comparaison

### 4)

Comparaison

## Partie 6 : PageRank - matrice du langage

Bonus

## Conclusion : Participations 