BE du 22/09/2021

Shiwen SUN
Candy Yu-Doublet

# MST with Prim's algorithm

In [16]:
import os
import networkx as nx
import numpy as np
import heapdict as hd
import time

## Question 1 : import des data et construction de graph

In [22]:
path = os.getcwd()
file_path = path+"/BE-Shiwen SUN-Candy YU-DOUBLET/data/edges.txt" #le path permettant d'accéder au fichier edges.txt

with open(file_path) as data_file:
    G = nx.Graph()
    (nb_v, nb_e) = data_file.readline().split(' ')
    
    Edges = []
    for line in data_file:
        (start, end, cost) = line[:-1].split(' ')
        V = (int(start),int(end),int(cost))
        Edges.append(V)
    
    G.add_weighted_edges_from(Edges)

print("expected number of vertices : {0}".format(nb_v))
print("expected number of edges : {0}".format(nb_e))

print(f"number of vertices in G: {len(G.nodes)}")
print(f"number of vertices in G: {len(G.edges)}")

#Le graph correspondant aux données dans edges.txt est désormais stocké dans le graph G

expected number of vertices : 500
expected number of edges : 2184

number of vertices in G: 500
number of vertices in G: 2184


## Question 2 : implémentation de l'algorithme de Prim

In [18]:
# prim est une fonction qui prend en arguements : 
    # G : un graph sur le quel on cherche à construire l'arbre couvrant minimal
    # i : argument optionnel avec l'indice du noeud depuis lequel on commence l'exploration
# prim renvoie un graph contenant l'arbre couvrant minimal de G

def prim(G,i=0):  

    len_G = len(G.nodes)
    
    #N contient les indices des sommets pas encore explorés 
    N = list(range(len_G))
    
    #pred contiendra les indices des prédécesseurs optimaux de chaque sommet
    pred=[None]*len_G
    
    #cheapest contient la liste des distances des sommets à leur meilleur prédécesseur 
    cheapest=[np.inf]*len_G
    
    #On choisit de commencer l'exploration par le sommet d'indice i 
    cheapest[i]=0
    

    while len(N) != 0:
        
        #On recherche l'indice du sommet le moins coûteux à relier parmi les sommets non explorés 
        index_min = N[0]  
        for k in N[1:]:
            if cheapest[k] <= cheapest[index_min]:
                index_min = k

        v = list(G.nodes)[index_min]  #v est le sommet correspondant à cet indice 
        N.remove(index_min)
        
        #on explore les voisins de v
        for n in list(G.neighbors(v)): 
            index_n = list(G.nodes).index(n) #l'indice du voisin qu'on examine
            if index_n in N:
                weight_v_n = G.edges[v,n]['weight']
                if  weight_v_n <= cheapest[index_n]:
                    cheapest[index_n] = weight_v_n
                    pred[index_n] = index_min

    MST = nx.Graph()
    edges = []
    for i in range(len(G.nodes)):
        start = list(G.nodes)[i]
        end = pred[i]
        weight = cheapest[i]
        edges.append((start,end,weight))
        
    MST.add_weighted_edges_from(edges)
    
    return MST

## Question 3 : test de la fonction sur les données de edges.txt

In [19]:
#Calcul de la distance à partir de l'arbre couvrant minimum donné par la fonction Prim

MST1 = prim(G)

def distance(MST):
    Edges = list(MST.edges.data("weight", default=1))
    distances = [x[2] for x in Edges]
    return (sum(distances))
      
distance1 = distance(MST1)

print("la valeur attendue est de             -3612829")
print(f"la valeur obtenue par la fonction est {distance1}")

la valeur attendue est de             -3612829
la valeur obtenue par la fonction est -3612829


## Question 4 : Implémentation de Prim avec utilisation des tas binaires

In [20]:
def prim_heap(G,i=0):  

    len_G = len(G.nodes)
    heap_cheapest = hd.heapdict()
    for n in range(len(G.nodes)):
        heap_cheapest[n] = np.inf
    heap_cheapest[i] = 0 
    pred = [None]*len_G
    cheapest = [np.inf]*len_G
    
    while len(heap_cheapest) != 0:
        
        # On utilise les tas binaires pour la recherche du sommet le moins coûteux
        (index_min,distance) = heap_cheapest.popitem()
        v = list(G.nodes)[index_min] 
        cheapest[index_min] = distance
        
        for n in list(G.neighbors(v)): 
            index_n = list(G.nodes).index(n) 
            if index_n in list(heap_cheapest.keys()):
                weight_v_n = G.edges[v,n]['weight']
                if  weight_v_n <= heap_cheapest[index_n]:
                    heap_cheapest[index_n] = weight_v_n
                    pred[index_n] = index_min

    MST = nx.Graph()
    MST.add_nodes_from(list(G.nodes))
    edges = []
    for i in range(len(G.nodes)):
        start = list(G.nodes)[i]
        end = pred[i]
        weight = cheapest[i]
        edges.append((start,end,weight))
        
    MST.add_weighted_edges_from(edges)
    return MST


# test sur les valeurs de edges.txt
MST2 = prim_heap(G)
distance2 = distance(MST2)

print("la valeur attendue est de             -3612829")
print(f"la valeur obtenue par la fonction est {distance2}")

la valeur attendue est de             -3612829
la valeur obtenue par la fonction est -3612829


#### Comparaison des temps d'exécution

In [21]:
start = time.time()
MST = prim(G)
end = time.time()
print(f'Temps d\'exécution de Prim SANS utilisation des tas binaires: {end-start}s')

start2 = time.time()
MST2 = prim_heap(G)
end2 = time.time()
print(f'Temps d\'exécution de Prim AVEC utilisation des tas binaires: {end2-start2}s')

# On peut sans doute encore améliorer l'efficacité du code 
# dans le cas avec utilisation des tas binaires pour améliorer sa performance

Temps d'exécution de Prim SANS utilisation des tas binaires: 0.047103166580200195s
Temps d'exécution de Prim AVEC utilisation des tas binaires: 0.09099316596984863s
