In [1]:
# step4_hybrid_fusion.py
"""
FUSION HYBRIDE : Triplets fiables + Paires r√©siduelles non chevauchantes

Objectif :
- Garder TOUS les triplets de haute qualit√© (score ‚â• 0.60)
- Ajouter uniquement les paires (GitHub‚ÜîLinkedIn, etc.) :
    ‚Ä¢ avec score ‚â• 0.65
    ‚Ä¢ et dont AUCUN des profils n‚Äôest d√©j√† dans un triplet

R√©sultat : une base unifi√©e plus pr√©cise que les paires seules, plus compl√®te que les triplets seuls.
"""

import json
from pathlib import Path

def main():
    output_dir = Path("output")
    
    # -----------------------------
    # 1. Charger les triplets (haute pr√©cision)
    # -----------------------------
    try:
        with open(output_dir / "unified_triplets.json", "r", encoding="utf-8") as f:
            triplets = json.load(f)
    except FileNotFoundError:
        print("‚ö†Ô∏è unified_triplets.json non trouv√©. Cr√©e-le avec step3_triplet_matching.py")
        triplets = []

    # Extraire les IDs de profils d√©j√† utilis√©s dans des triplets
    profiles_in_triplets = set()
    for triplet in triplets:
        for p in triplet["profiles"]:
            # On suppose que chaque profil a un identifiant unique ou on utilise son contenu
            # Ici, on utilise une combinaison plateforme + username/email comme cl√© robuste
            key = (
                p["platform"],
                p.get("username", "").lower(),
                p.get("email", "").lower() if p.get("email") else ""
            )
            profiles_in_triplets.add(key)

    print(f"‚úÖ {len(triplets)} triplets charg√©s ‚Üí {len(profiles_in_triplets)} profils prot√©g√©s")

    # -----------------------------
    # 2. Charger les paires/clusters (de la m√©thode par paires)
    # -----------------------------
    try:
        with open(output_dir / "unified_profiles.json", "r", encoding="utf-8") as f:
            unified_pairs = json.load(f)
    except FileNotFoundError:
        print("‚ö†Ô∏è unified_profiles.json non trouv√©. Cr√©e-le avec step3_weighted_matching.py")
        unified_pairs = []

    # -----------------------------
    # 3. Filtrer les paires r√©siduelles
    # -----------------------------
    residual_pairs = []
    added_profiles = set()  # pour √©viter les doublons dans les paires elles-m√™mes

    for cluster in unified_pairs:
        profiles = cluster["profiles"]
        platforms = {p["platform"] for p in profiles}

        # On ne garde que les clusters de taille 2 (paires)
        if len(profiles) != 2:
            continue

        # V√©rifier si cette paire est d√©j√† couverte par un triplet
        overlap = False
        for p in profiles:
            key = (
                p["platform"],
                p.get("username", "").lower(),
                p.get("email", "").lower() if p.get("email") else ""
            )
            if key in profiles_in_triplets:
                overlap = True
                break

        if overlap:
            continue  # ignorer : d√©j√† dans un triplet

        # Extraire le score (si pr√©sent) ou estimer via similarit√©
        score = cluster.get("score")
        if score is None:
            # Si le fichier unified_profiles.json ne contient pas de score,
            # on suppose qu‚Äôil vient de la m√©thode par paires ‚Üí utiliser un seuil bas√© sur la logique m√©tier
            # Ici, on accepte toutes les paires non chevauchantes avec seuil = 0.65
            score = 0.70  # valeur par d√©faut haute (car m√©thode par paires d√©j√† filtr√©e)

        # Appliquer seuil strict pour les paires r√©siduelles
        if score >= 0.65:
            # V√©rifier aussi que les deux profils ne sont pas d√©j√† utilis√©s dans une autre paire ajout√©e
            keys = []
            for p in profiles:
                key = (
                    p["platform"],
                    p.get("username", "").lower(),
                    p.get("email", "").lower() if p.get("email") else ""
                )
                keys.append(key)

            if any(k in added_profiles for k in keys):
                continue  # conflit ‚Üí ignorer

            added_profiles.update(keys)
            residual_pairs.append({
                "unified_id": f"pair_{len(residual_pairs):05d}",
                "score": float(score),
                "profiles": profiles
            })

    print(f"‚úÖ {len(residual_pairs)} paires r√©siduelles ajout√©es (score ‚â• 0.65, sans chevauchement)")

    # -----------------------------
    # 4. Fusionner et sauvegarder
    # -----------------------------
    hybrid_unified = []

    # Ajouter d'abord les triplets (haute priorit√©)
    for t in triplets:
        hybrid_unified.append(t)

    # Puis les paires r√©siduelles
    for p in residual_pairs:
        hybrid_unified.append(p)

    # Sauvegarde
    output_path = output_dir / "unified_hybrid.json"
    with open(output_path, "w", encoding="utf-8") as f:
        json.dump(hybrid_unified, f, indent=2, ensure_ascii=False)

    # Stats finales
    total_identities = len(hybrid_unified)
    total_profiles = sum(len(u["profiles"]) for u in hybrid_unified)
    triplets_count = sum(1 for u in hybrid_unified if len(u["profiles"]) == 3)
    pairs_count = sum(1 for u in hybrid_unified if len(u["profiles"]) == 2)

    print(f"\nüéâ Fusion hybride termin√©e :")
    print(f"   ‚Üí {triplets_count} triplets")
    print(f"   ‚Üí {pairs_count} paires r√©siduelles")
    print(f"   ‚Üí {total_identities} identit√©s unifi√©es")
    print(f"   ‚Üí {total_profiles} profils couverts")
    print(f"   ‚Üí R√©sultat sauvegard√© dans '{output_path}'")

    # Optionnel : afficher 2 exemples
    if hybrid_unified:
        print(f"\nüîç Exemple de triplet :")
        ex = next((u for u in hybrid_unified if len(u["profiles"]) == 3), None)
        if ex:
            p = ex["profiles"][0]
            print(f"   {p.get('fullName', '‚Äî')} ({p['platform']}) + 2 autres")

        print(f"üîç Exemple de paire r√©siduelle :")
        ex = next((u for u in hybrid_unified if len(u["profiles"]) == 2), None)
        if ex:
            p1, p2 = ex["profiles"]
            print(f"   {p1.get('fullName', '‚Äî')} ({p1['platform']}) ‚Üî {p2.get('fullName', '‚Äî')} ({p2['platform']})")

if __name__ == "__main__":
    main()

‚úÖ 388 triplets charg√©s ‚Üí 1155 profils prot√©g√©s
‚úÖ 285 paires r√©siduelles ajout√©es (score ‚â• 0.65, sans chevauchement)

üéâ Fusion hybride termin√©e :
   ‚Üí 388 triplets
   ‚Üí 285 paires r√©siduelles
   ‚Üí 673 identit√©s unifi√©es
   ‚Üí 1734 profils couverts
   ‚Üí R√©sultat sauvegard√© dans 'output/unified_hybrid.json'

üîç Exemple de triplet :
   Salma Bouziane (github) + 2 autres
üîç Exemple de paire r√©siduelle :
   SAID ABDEREMANE (github) ‚Üî Said ABDEREMANE (linkedin)
