<a href="https://colab.research.google.com/github/JC1335/projet-ccf/blob/master/Final_Projet_Graph.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1 **Programmation en RDDs (PySpark) - Python**

In [3]:
import time
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType
from pyspark import SparkConf, SparkContext

# Initialisation de SparkSession et du SparkContext
spark = SparkSession.builder.appName("CCF Correct RDD").getOrCreate()
sc = spark.sparkContext

# Accumulateur pour suivre les nouveaux couples (comme d√©crit dans le papier)
new_pairs_counter = sc.accumulator(0)

def ccf_correct_implementation(edges_rdd, max_iters=20):
    """
    Impl√©mentation correcte de l'algorithme CCF (Connected Component Finder)
    en utilisant les RDD PySpark, suivant la logique du papier acad√©mique.
    """
    global new_pairs_counter

    # √âtape 1 : Initialiser chaque n≈ìud avec sa propre √©tiquette de composante
    nodes = edges_rdd.flatMap(lambda edge: [edge[0], edge[1]]).distinct()
    node_component_rdd = nodes.map(lambda node: (node, node))  # (n≈ìud, id_de_composante)

    # √âtape 2 : Cr√©er la liste d‚Äôadjacence (bidirectionnelle)
    neighbors_rdd = edges_rdd.flatMap(lambda x: [(x[0], x[1]), (x[1], x[0])])

    iteration = 0
    start_time = time.time()

    # Boucle principale : on propage les composantes jusqu‚Äô√† convergence ou it√©rations max
    while iteration < max_iters:
        iteration += 1
        print(f"üîÅ D√©marrage de l'it√©ration {iteration}...")

        # R√©initialisation de l'accumulateur pour la nouvelle it√©ration
        new_pairs_counter.value = 0

        # 1Ô∏è Joindre chaque n≈ìud avec la composante de ses voisins
        joined_rdd = node_component_rdd.join(neighbors_rdd).map(
            lambda x: (x[1][1], x[1][0])  # (voisin, composante du n≈ìud)
        )

        # 2Ô∏è Grouper toutes les composantes possibles pour chaque n≈ìud
        input_for_reducer = joined_rdd.union(node_component_rdd).groupByKey()

        # 3Ô∏è Phase de r√©duction (comme d√©crite dans la Figure 2 du papier)
        def ccf_iterate_reducer(key_values):
            key, values_iter = key_values
            values = list(values_iter)
            min_val = min(values)

            if min_val < key:
                # Ce n≈ìud peut adopter une composante plus petite : on propage
                yield (key, min_val)
                for val in values:
                    if val != min_val:
                        new_pairs_counter.add(1)
                        yield (val, min_val)
            else:
                # Sinon, il garde sa propre √©tiquette
                yield (key, key)

        # Application du reducer et d√©doublonnage
        ccf_iterate_output = input_for_reducer.flatMap(ccf_iterate_reducer)
        dedup_output = ccf_iterate_output.distinct()

        # Mise √† jour de la RDD des composantes
        node_component_rdd = dedup_output

        # Action obligatoire pour forcer l‚Äô√©valuation du compteur (Spark est paresseux)
        node_component_rdd.count()

        # Si aucune propagation n‚Äôa eu lieu, on consid√®re qu‚Äôon a converg√©
        if new_pairs_counter.value == 0:
            print(f"‚úÖ Convergence atteinte en {iteration} it√©rations.")
            break

    exec_time = time.time() - start_time
    return node_component_rdd, iteration, exec_time

# Chargement des fichiers et ex√©cution du CCF pour chacun ---
schema = StructType([
    StructField("source", IntegerType(), True),
    StructField("target", IntegerType(), True)
])

# Liste des fichiers √† analyser
files = [
    ("G1_1k.csv", "G1"),
    ("G2_5k.csv", "G2"),
    ("G3_8k.csv", "G3"),
    ("G4_10k.csv", "G4")
]

# Liste pour stocker les r√©sultats
results = []

for filename, label in files:
    filepath = f"data/{filename}"  # Assure-toi que le fichier est bien dans le dossier "data"
    print(f"üìé Traitement de {label} ({filepath})...")

    try:
        # Chargement du fichier CSV en DataFrame structur√©
        df = spark.read.csv(filepath, header=True, schema=schema)

        # Conversion en RDD de paires (source, target)
        edges_rdd = df.rdd.map(lambda row: (row['source'], row['target']))

        # Lancement de l'algorithme CCF
        components, num_iters, exec_time = ccf_correct_implementation(edges_rdd, max_iters=20)

        # üìà Statistiques du graphe
        nb_nodes = edges_rdd.flatMap(lambda edge: [edge[0], edge[1]]).distinct().count()
        nb_edges = edges_rdd.count()

        print(f"üìä Donn√©es du graphe: {nb_nodes} n≈ìuds, {nb_edges} ar√™tes")
        print(f"üîÅ It√©rations : {num_iters}")
        print(f"‚è±Ô∏è Temps : {round(exec_time, 3)} secondes")
        print("-" * 40)

        # Ajout aux r√©sultats
        results.append((label, nb_nodes, nb_edges, num_iters, round(exec_time, 3)))

    except Exception as e:
        print(f"‚ùå Erreur avec {label} : {e}")
        print("-" * 40)

# Affichage final dans un tableau Pandas
result_rdd_df = pd.DataFrame(
    results,
    columns=["Graphe", "N≈ìuds", "Ar√™tes", "It√©rations", "Temps (s)"]
)

print("‚úÖ R√©sum√© des performances (RDD) :")
print(result_rdd_df)


üìé Traitement de G1 (data/G1_1k.csv)...
‚ùå Erreur avec G1 : [PATH_NOT_FOUND] Path does not exist: file:/content/data/G1_1k.csv.
----------------------------------------
üìé Traitement de G2 (data/G2_5k.csv)...
‚ùå Erreur avec G2 : [PATH_NOT_FOUND] Path does not exist: file:/content/data/G2_5k.csv.
----------------------------------------
üìé Traitement de G3 (data/G3_8k.csv)...
‚ùå Erreur avec G3 : [PATH_NOT_FOUND] Path does not exist: file:/content/data/G3_8k.csv.
----------------------------------------
üìé Traitement de G4 (data/G4_10k.csv)...
‚ùå Erreur avec G4 : [PATH_NOT_FOUND] Path does not exist: file:/content/data/G4_10k.csv.
----------------------------------------
‚úÖ R√©sum√© des performances (RDD) :
Empty DataFrame
Columns: [Graphe, N≈ìuds, Ar√™tes, It√©rations, Temps (s)]
Index: []


# **2 	Impl√©mentation CCF avec DataFrames _ Python**

üìé Traitement de G1 (data/G1_1k.csv)...
‚ùå Erreur avec G1 : [PATH_NOT_FOUND] Path does not exist: file:/content/data/G1_1k.csv.
----------------------------------------
üìé Traitement de G2 (data/G2_5k.csv)...
‚ùå Erreur avec G2 : [PATH_NOT_FOUND] Path does not exist: file:/content/data/G2_5k.csv.
----------------------------------------
üìé Traitement de G3 (data/G3_8k.csv)...
‚ùå Erreur avec G3 : [PATH_NOT_FOUND] Path does not exist: file:/content/data/G3_8k.csv.
----------------------------------------
üìé Traitement de G4 (data/G4_10k.csv)...
‚ùå Erreur avec G4 : [PATH_NOT_FOUND] Path does not exist: file:/content/data/G4_10k.csv.
----------------------------------------
‚úÖ R√©sum√© des performances (DataFrame) :
Empty DataFrame
Columns: [Graphe, N≈ìuds, Ar√™tes, It√©rations, Temps (s)]
Index: []
