# 1- Coded Page Rank Algorithm

# Method 1 : PageRank from adjacency matrix

In [1]:
import numpy as np

# Define the adjacency matrix
adj_matrix = np.array([
    [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],  # A
    [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],  # B
    [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],  # C
    [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],  # D
    [0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0],  # E
    [0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0],  # F
    [0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0],  # G
    [0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0],  # H
    [0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0],  # I
    [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],  # L
    [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]   # M
])

node_ids = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'L', 'M']

In [2]:
def PageRank_Matrix(adj_matrix, node_ids, l=0.85, eps=1.0e-6):
    N = len(adj_matrix)  # Nombre de pages
    R = [1 / N] * N  # Initialisation du vecteur PageRank
    new_R = [0] * N  # Pour stocker les nouveaux scores
    diff = 1  # Différence initiale entre les itérations
    iter = 0
    P = [[0 for _ in range(N)] for _ in range(N)]

    # Création de la matrice de transition P
    for j in range(N):
        outlinks = sum(adj_matrix[j])
        if outlinks == 0:
            for i in range(N):
                P[i][j] = 1 / N  # Cas où il n'y a pas de liens sortants
        else:
            for i in range(N):
                P[i][j] = l * (adj_matrix[j][i] / outlinks) + (1 - l) / N
    
    # Itérations jusqu'à convergence
    while diff > eps:
        for i in range(N):
            # Calcul du PageRank pour la page i
            new_R[i] = sum(P[i][j] * R[j] for j in range(N))
        
        # Calcul de la différence entre les nouvelles et les anciennes valeurs
        diff = sum(abs(new_R[i] - R[i]) for i in range(N))

        # Mise à jour du vecteur R avec les nouvelles valeurs
        R = new_R.copy()
        iter += 1
    
    print(f"Convergence atteinte après {iter} itérations.")
    
    # Afficher les résultats de PageRank pour chaque nœud en utilisant node_ids
    for i in range(N):
        print(f"PageRank du nœud {node_ids[i]}: {R[i]:.6f}")


# Appeler la fonction pour afficher les résultats de PageRank
PageRank_Matrix(adj_matrix, node_ids)

Convergence atteinte après 81 itérations.
PageRank du nœud A: 0.032781
PageRank du nœud B: 0.384401
PageRank du nœud C: 0.342910
PageRank du nœud D: 0.039087
PageRank du nœud E: 0.080886
PageRank du nœud F: 0.039087
PageRank du nœud G: 0.016169
PageRank du nœud H: 0.016169
PageRank du nœud I: 0.016169
PageRank du nœud L: 0.016169
PageRank du nœud M: 0.016169


# Method 2 : PageRank from a graph

In [3]:
import networkx as nx

# Define the edges the social network
edges = [
    ('B','C'), 
    ('C', 'B'), 
    ('D', 'A'), 
    ('D', 'B'), 
    ('E', 'B'), 
    ('E', 'D'), 
    ('E', 'F'), 
    ('F', 'B'), 
    ('F', 'E'), 
    ('G', 'B'), 
    ('G', 'E'), 
    ('H', 'B'), 
    ('H', 'E'), 
    ('I', 'B'), 
    ('I', 'E'), 
    ('L', 'E'), 
    ('M', 'E')
]

In [4]:
import networkx as nx
import numpy as np

def page_rank_score(G, epsilon=1e-6, alpha=0.85):
    nodes = list(G.nodes)  # Liste des nœuds
    N = len(nodes)         # Nombre total de nœuds
    
    # Création de la matrice de transition P
    P = np.zeros((N, N))
    for j, node in enumerate(nodes):
        outgoing_links = len(G[node])  # Nombre de liens sortants du nœud
        
        if outgoing_links == 0:  # Cas où il n'y a pas de liens sortants (nœud absorbant)
            P[:, j] = 1 / N  # Distribuer de manière uniforme à tous les autres nœuds
        else:
            for i, target_node in enumerate(nodes):
                if target_node in G[node]:  # Si un lien existe
                    P[i, j] = alpha * (1 / outgoing_links) + (1 - alpha) / N
                else:
                    P[i, j] = (1 - alpha) / N

    # Initialisation du vecteur PageRank R
    R = np.ones(N) / N  # Vecteur initial avec des valeurs égales
    
    # Initialisation du compteur d'itérations
    iterations = 0
    delta = 1  # Différence initiale
    
    # Itérations jusqu'à convergence
    while delta > epsilon:
        R_new = P.dot(R)  # Nouveau vecteur PageRank en multipliant P avec R
        delta = np.linalg.norm(R_new - R, 1)  # Différence absolue entre R et R_new
        R = R_new
        iterations += 1
    
    # Affichage du résultat
    print(f"Convergence atteinte après {iterations} itérations.")
    for i in range(N):
        print(f"PageRank du nœud {nodes[i]}: {R[i]:.6f}")

# Créer le graphe dirigé
G = nx.DiGraph()
G.add_edges_from(edges)

# Exécuter l'algorithme PageRank
page_rank_score(G)


Convergence atteinte après 81 itérations.
PageRank du nœud B: 0.384401
PageRank du nœud C: 0.342910
PageRank du nœud D: 0.039087
PageRank du nœud A: 0.032781
PageRank du nœud E: 0.080886
PageRank du nœud F: 0.039087
PageRank du nœud G: 0.016169
PageRank du nœud H: 0.016169
PageRank du nœud I: 0.016169
PageRank du nœud L: 0.016169
PageRank du nœud M: 0.016169


# Method 3 : PageRank from an XML file


In [5]:
import xml.etree.ElementTree as ET
import networkx as nx
import numpy as np

# Fonction combinée pour extraire le graphe du fichier XML et calculer le PageRank
def page_rank_score_from_xml(xml_file, epsilon=1e-6, alpha=0.85):
    # Parse le fichier XML
    tree = ET.parse(xml_file)
    root = tree.getroot()

    # Créer un graphe dirigé et ajouter les arêtes
    G = nx.DiGraph()
    for node in root.findall('node'):
        page_id = node.find('id').text
        neighbors = node.find('neighbors').text.strip().split()
        for neighbor in neighbors:
            G.add_edge(page_id, neighbor)
    
    nodes = list(G.nodes)  # Liste des nœuds
    N = len(nodes)         # Nombre total de nœuds
    
    # Création de la matrice de transition P
    P = np.zeros((N, N))
    for j, node in enumerate(nodes):
        outgoing_links = len(G[node])  # Nombre de liens sortants du nœud
        
        if outgoing_links == 0:  # Cas où il n'y a pas de liens sortants
            P[:, j] = 1 / N 
        else:
            for i, target_node in enumerate(nodes):
                if target_node in G[node]:  # Si un lien existe
                    P[i, j] = alpha * (1 / outgoing_links) + (1 - alpha) / N
                else: # Si aucun lien n'existe entre le nœud actuel et le nœud cible
                    P[i, j] = (1 - alpha) / N

    # Initialisation du vecteur PageRank R
    R = np.ones(N) / N
    
    # Initialisation du compteur d'itérations
    iterations = 0
    delta = 1  # Différence initiale
    
    # Itérations jusqu'à convergence
    while delta > epsilon:
        R_new = P.dot(R)  # Nouveau vecteur PageRank en multipliant P avec R
        delta = np.linalg.norm(R_new - R, 1)  # Différence absolue entre R et R_new
        R = R_new
        iterations += 1
    
    # Affichage du résultat
    print(f"Convergence atteinte après {iterations} itérations.")
    for i in range(N):
        print(f"PageRank du nœud {nodes[i]}: {R[i]:.6f}")

# Exemple d'utilisation avec le fichier XML
xml_file = 'edges.xml'
page_rank_score_from_xml(xml_file)

Convergence atteinte après 81 itérations.
PageRank du nœud B: 0.384401
PageRank du nœud C: 0.342910
PageRank du nœud D: 0.039087
PageRank du nœud A: 0.032781
PageRank du nœud E: 0.080886
PageRank du nœud F: 0.039087
PageRank du nœud G: 0.016169
PageRank du nœud H: 0.016169
PageRank du nœud I: 0.016169
PageRank du nœud L: 0.016169
PageRank du nœud M: 0.016169


# 2- Built-in PageRank function


# with a Graph

In [6]:
import networkx as nx

def calculer_pagerank(G):
    # Créer un graphe orienté à partir des arêtes données
    G = nx.DiGraph(edges)
    
    # Calculer le PageRank
    pagerank = nx.pagerank(G, tol=1e-6, alpha=0.85)
    
    for node, rank in pagerank.items():
        print(f"PageRank du nœud {node}: {rank:.6f}")

# Appeler la fonction avec les arêtes données
calculer_pagerank(edges)


PageRank du nœud B: 0.384399
PageRank du nœud C: 0.342913
PageRank du nœud D: 0.039087
PageRank du nœud A: 0.032781
PageRank du nœud E: 0.080886
PageRank du nœud F: 0.039087
PageRank du nœud G: 0.016169
PageRank du nœud H: 0.016169
PageRank du nœud I: 0.016169
PageRank du nœud L: 0.016169
PageRank du nœud M: 0.016169


# with an adjancency matrix

In [7]:
# Create a directed graph from the adjacency matrix
G = nx.from_numpy_array(adj_matrix, create_using=nx.DiGraph)

# Relabel the nodes in the graph
G = nx.relabel_nodes(G, {i: label for i, label in enumerate(node_ids)})

# Calculate PageRank using NetworkX
page_rank_scores_A = nx.pagerank(G, alpha=0.85)

for node, score in page_rank_scores_A.items():
    print(f"The PageRank of node {node}: {score:.6f}")


The PageRank of node A: 0.032781
The PageRank of node B: 0.384399
The PageRank of node C: 0.342913
The PageRank of node D: 0.039087
The PageRank of node E: 0.080886
The PageRank of node F: 0.039087
The PageRank of node G: 0.016169
The PageRank of node H: 0.016169
The PageRank of node I: 0.016169
The PageRank of node L: 0.016169
The PageRank of node M: 0.016169


# with an XML file

In [8]:
# Parse the XML file
tree = ET.parse('edges.xml')
root = tree.getroot()

# Create a directed graph
G = nx.DiGraph()

# Extract nodes and their neighbors from the XML
for node in root.findall('node'):
    node_id = node.find('id').text.strip()  # Get the node ID
    neighbors = node.find('neighbors').text.strip().split()  # Get the neighbors (outlinks)
    for neighbor in neighbors:
        G.add_edge(node_id, neighbor)  # Add edge between the node and each of its neighbors

# Calculate PageRank using NetworkX
page_rank_scores_X = nx.pagerank(G, alpha=0.85)

# Output the PageRank scores formatted to six decimal places
for node, score in page_rank_scores_X.items():
    print(f"The PageRank of node {node}: {score:.6f}")


The PageRank of node B: 0.384399
The PageRank of node C: 0.342913
The PageRank of node D: 0.039087
The PageRank of node A: 0.032781
The PageRank of node E: 0.080886
The PageRank of node F: 0.039087
The PageRank of node G: 0.016169
The PageRank of node H: 0.016169
The PageRank of node I: 0.016169
The PageRank of node L: 0.016169
The PageRank of node M: 0.016169
