# Exercices : Communication Anonyme

**Objectifs** :
- Analyser la s√©curit√© de Tor
- Attaquer des mixnets mal con√ßus
- Comprendre les limites de l'anonymat
- Impl√©menter des protections

In [None]:
import secrets
import hashlib
from collections import Counter
import numpy as np
import matplotlib.pyplot as plt

## Exercice 1 : Traffic Analysis - Corr√©lation Temporelle

**Contexte** : Un adversaire observe le trafic √† l'entr√©e et √† la sortie du r√©seau Tor.

**T√¢che** : Simulez une attaque par corr√©lation de timing.

In [None]:
def traffic_correlation_attack():
    """
    Simulation d'attaque par corr√©lation de trafic.
    """
    print("=" * 70)
    print("ATTAQUE : Corr√©lation de Trafic (Timing)")
    print("=" * 70)
    
    # Simulation : 10 utilisateurs Tor
    n_users = 10
    n_connections = 100
    
    print(f"\nüåê Simulation :")
    print(f"   Utilisateurs : {n_users}")
    print(f"   Connexions : {n_connections}")
    
    # G√©n√©rer trafic : timestamp d'entr√©e et de sortie
    # Chaque utilisateur a un pattern unique de connexions
    
    users_entry_times = {}
    users_exit_times = {}
    
    for user_id in range(n_users):
        # Pattern de connexion (times en secondes)
        base_time = user_id * 10
        entry_times = [base_time + i + np.random.normal(0, 0.5) for i in range(n_connections // n_users)]
        
        # Sortie : m√™me pattern avec latence Tor (~200ms) + bruit
        latency = 0.2 + np.random.normal(0, 0.05)
        exit_times = [t + latency + np.random.normal(0, 0.05) for t in entry_times]
        
        users_entry_times[user_id] = sorted(entry_times)
        users_exit_times[user_id] = sorted(exit_times)
    
    # Adversaire observe tous les timings (Entry et Exit)
    all_entry_times = []
    all_exit_times = []
    
    for user_id in range(n_users):
        all_entry_times.extend([(t, user_id) for t in users_entry_times[user_id]])
        all_exit_times.extend([(t, user_id) for t in users_exit_times[user_id]])
    
    # M√©langer (adversaire ne conna√Æt pas les user_id, seulement les timings)
    import random
    all_entry_times_anon = [t for t, _ in all_entry_times]
    all_exit_times_anon = [t for t, _ in all_exit_times]
    
    random.shuffle(all_entry_times_anon)
    random.shuffle(all_exit_times_anon)
    
    # Attaque : Corr√©lation par timing
    print(f"\nüîç Adversaire tente de corr√©ler entr√©es et sorties...")
    
    # Pour un utilisateur cible (user 0)
    target_user = 0
    target_entry_times = users_entry_times[target_user]
    target_exit_times = users_exit_times[target_user]
    
    print(f"\nüéØ Cible : Utilisateur {target_user}")
    print(f"   Connexions entr√©e : {len(target_entry_times)}")
    print(f"   Timing moyen : {np.mean(target_entry_times):.2f}s")
    
    # Calculer corr√©lation avec toutes les sorties possibles
    best_correlation = -1
    best_match = None
    
    for candidate_user in range(n_users):
        candidate_exit_times = users_exit_times[candidate_user]
        
        # Corr√©lation simple : comparer diff√©rences de timing
        # Si pattern similaire, corr√©lation √©lev√©e
        correlation = 0
        for i in range(len(target_entry_times) - 1):
            delta_entry = target_entry_times[i+1] - target_entry_times[i]
            
            for j in range(len(candidate_exit_times) - 1):
                delta_exit = candidate_exit_times[j+1] - candidate_exit_times[j]
                
                # Si deltas similaires, augmenter score
                if abs(delta_entry - delta_exit) < 0.5:
                    correlation += 1
        
        if correlation > best_correlation:
            best_correlation = correlation
            best_match = candidate_user
    
    print(f"\nüìä R√©sultat de l'attaque :")
    print(f"   Meilleure correspondance : Utilisateur {best_match}")
    print(f"   Score de corr√©lation : {best_correlation}")
    print(f"   Cible r√©elle : Utilisateur {target_user}")
    
    if best_match == target_user:
        print(f"\n‚úÖ SUCC√àS : Utilisateur d√©-anonymis√© !")
    else:
        print(f"\n‚ùå √âCHEC : Mauvaise identification")
    
    print(f"\n‚ö†Ô∏è  LE√áON :")
    print(f"   - Corr√©lation de timing possible si adversaire contr√¥le Entry ET Exit")
    print(f"   - Probabilit√© augmente avec dur√©e d'observation")
    print(f"   - Tor ajoute bruit/d√©lais, mais pas toujours suffisant")
    
    print(f"\n‚úÖ PROTECTIONS :")
    print(f"   - Cover traffic (trafic factice constant)")
    print(f"   - Padding pour uniformiser tailles de paquets")
    print(f"   - D√©lais al√©atoires (augmente latence)")
    print(f"   - R√©seau large (diminue probabilit√© contr√¥le Entry+Exit)")

traffic_correlation_attack()

## Exercice 2 : Website Fingerprinting

**Contexte** : Un adversaire observe le trafic chiffr√© et veut deviner quel site est visit√©.

**T√¢che** : Simulez une attaque par fingerprinting bas√©e sur la taille des paquets.

In [None]:
def website_fingerprinting_attack():
    """
    Simulation d'attaque par fingerprinting de sites web.
    """
    print("\n" + "=" * 70)
    print("ATTAQUE : Website Fingerprinting")
    print("=" * 70)
    
    # Simuler signatures de sites (taille paquets)
    # Chaque site a un pattern caract√©ristique
    
    websites = {
        'news.com': [512, 512, 1024, 512, 2048, 512, 1024],  # Beaucoup d'images
        'search.com': [256, 256, 512, 256, 256],  # Page simple
        'video.com': [512, 1024, 4096, 4096, 4096, 4096],  # Streaming
        'social.com': [512, 512, 256, 256, 512, 256, 512],  # Feed dynamique
    }
    
    print(f"\nüåê Base de donn√©es de signatures :")
    for site, signature in websites.items():
        avg_size = np.mean(signature)
        n_packets = len(signature)
        print(f"   {site:15} : {n_packets} paquets, taille moyenne = {avg_size:.0f} bytes")
    
    # Utilisateur visite un site via Tor
    target_site = 'video.com'
    target_signature = websites[target_site].copy()
    
    # Ajouter bruit (Tor padding, fragmentation)
    noisy_signature = [s + np.random.randint(-100, 100) for s in target_signature]
    
    print(f"\nüéØ Utilisateur visite : {target_site}")
    print(f"   Signature observ√©e (bruit√©e) : {noisy_signature}")
    
    # Adversaire tente d'identifier le site
    print(f"\nüîç Adversaire analyse le trafic chiffr√©...")
    
    # M√©thode simple : Calculer distance avec chaque signature
    best_match = None
    best_score = float('inf')
    
    for site, signature in websites.items():
        # Distance : diff√©rence de taille totale + nombre de paquets
        if len(signature) != len(noisy_signature):
            # P√©nalit√© si nombre de paquets diff√©rent
            distance = 10000
        else:
            # Distance euclidienne
            distance = np.sqrt(sum((s - n)**2 for s, n in zip(signature, noisy_signature)))
        
        print(f"   Distance √† {site:15} : {distance:.2f}")
        
        if distance < best_score:
            best_score = distance
            best_match = site
    
    print(f"\nüìä R√©sultat :")
    print(f"   Pr√©diction : {best_match}")
    print(f"   Site r√©el : {target_site}")
    print(f"   Score : {best_score:.2f}")
    
    if best_match == target_site:
        print(f"\n‚úÖ SUCC√àS : Site identifi√© !")
    else:
        print(f"\n‚ùå √âCHEC : Mauvaise identification")
    
    print(f"\n‚ö†Ô∏è  LE√áON :")
    print(f"   - M√™me avec chiffrement, patterns de trafic r√©v√©lateurs")
    print(f"   - Attaques ML peuvent atteindre ~90% pr√©cision")
    print(f"   - Tor Browser fait du padding, mais pas parfait")
    
    print(f"\n‚úÖ PROTECTIONS :")
    print(f"   - Padding constant (uniformiser tailles)")
    print(f"   - Dummy packets (compl√©ter √† taille fixe)")
    print(f"   - Traffic shaping (retarder/acc√©l√©rer)")
    print(f"   - WTF-PAD (d√©fense dans Tor Browser)")

website_fingerprinting_attack()

## Exercice 3 : (n-1) Attack sur Mixnet

**Contexte** : Un adversaire veut isoler un message cible dans un mix.

**T√¢che** : Impl√©mentez l'attaque (n-1) et d√©montrez son efficacit√©.

In [None]:
def n_minus_1_attack():
    """
    Attaque (n-1) sur mixnet.
    """
    print("\n" + "=" * 70)
    print("ATTAQUE : (n-1) Attack sur Mixnet")
    print("=" * 70)
    
    batch_size = 10
    
    print(f"\nüîê Mix Server :")
    print(f"   Batch size : {batch_size}")
    print(f"   Attend {batch_size} messages avant de mixer")
    
    # Utilisateur cible envoie un message
    print(f"\nüë§ Alice envoie un message au mix")
    alice_message = "Secret message from Alice"
    
    # Adversaire (Eve) envoie (n-1) messages
    print(f"\nüíÄ Eve (adversaire) envoie {batch_size - 1} messages")
    print(f"   Tous avec destination connue d'Eve")
    
    eve_messages = [f"Eve dummy message {i}" for i in range(batch_size - 1)]
    eve_destinations = [f"eve_address_{i}" for i in range(batch_size - 1)]
    
    # Mix re√ßoit n messages
    print(f"\nüì¨ Mix re√ßoit {batch_size} messages :")
    print(f"   - 1 message d'Alice (cible)")
    print(f"   - {batch_size - 1} messages d'Eve")
    
    # Mix traite le batch
    print(f"\nüîÑ Mix traite le batch :")
    print(f"   1. D√©chiffre tous les messages")
    print(f"   2. M√©lange al√©atoirement")
    print(f"   3. Transmet dans ordre al√©atoire")
    
    # Messages sortants
    all_destinations = ['alice_real_destination'] + eve_destinations
    
    import random
    random.shuffle(all_destinations)
    
    print(f"\nüì§ Messages sortants (ordre al√©atoire) :")
    for i, dest in enumerate(all_destinations, 1):
        print(f"   Message {i} ‚Üí {dest}")
    
    # Eve observe les sorties
    print(f"\nüîç Eve observe les sorties :")
    print(f"   Eve reconna√Æt ses {batch_size - 1} messages (destinations connues)")
    
    # Identifier message d'Alice
    alice_destination = None
    for dest in all_destinations:
        if dest not in eve_destinations:
            alice_destination = dest
            break
    
    print(f"   Le message restant doit √™tre celui d'Alice !")
    print(f"\n‚úÖ SUCC√àS : Eve a identifi√© la destination d'Alice")
    print(f"   Destination : {alice_destination}")
    
    print(f"\nüí• IMPACT :")
    print(f"   - Eve sait qu'Alice a envoy√© un message √† {alice_destination}")
    print(f"   - Anonymat d'Alice cass√© !")
    
    print(f"\n‚ö†Ô∏è  VULN√âRABILIT√â :")
    print(f"   - Adversaire peut contr√¥ler (n-1) messages du batch")
    print(f"   - Isole le message cible par √©limination")
    print(f"   - Fonctionne m√™me si mix est honn√™te")
    
    print(f"\n‚úÖ PROTECTIONS :")
    print(f"   1. Dummy traffic : Mix ajoute messages factices")
    print(f"      ‚Üí Batch contient toujours messages inconnus d'Eve")
    print(f"   2. Batch size grand (>100)")
    print(f"      ‚Üí Plus difficile pour Eve de contr√¥ler (n-1) messages")
    print(f"   3. D√©lais al√©atoires")
    print(f"      ‚Üí Eve ne sait pas quand batch est trait√©")
    print(f"   4. Multiple batches")
    print(f"      ‚Üí Message cible peut √™tre dans batch diff√©rent")

n_minus_1_attack()

## Exercice 4 : Anonymat vs Performance

**Contexte** : Trade-off entre anonymat et performance.

**T√¢che** : Analysez l'impact du nombre de relais/mixes sur l'anonymat et la latence.

In [None]:
def anonymity_vs_performance():
    """
    Analyse du trade-off anonymat vs performance.
    """
    print("\n" + "=" * 70)
    print("ANALYSE : Anonymat vs Performance")
    print("=" * 70)
    
    # Simulation : R√©seau de 1000 relais
    n_relays = 1000
    adversary_fraction = 0.10  # 10% contr√¥l√©s par adversaire
    n_adversary_relays = int(n_relays * adversary_fraction)
    
    print(f"\nüåê R√©seau :")
    print(f"   Relais totaux : {n_relays}")
    print(f"   Relais malveillants : {n_adversary_relays} ({adversary_fraction*100:.0f}%)")
    
    # Calculer probabilit√© de compromission selon longueur circuit
    circuit_lengths = [1, 2, 3, 4, 5, 6]
    
    results = []
    
    for length in circuit_lengths:
        # Probabilit√© que TOUS les relais du circuit soient malveillants
        p_all_malicious = adversary_fraction ** length
        
        # Probabilit√© qu'AU MOINS Entry ET Exit soient malveillants
        # (suffisant pour traffic analysis)
        p_entry_exit_malicious = adversary_fraction ** 2
        
        # Latence (estimation simplifi√©e)
        latency_per_hop = 50  # ms
        total_latency = length * latency_per_hop
        
        results.append({
            'length': length,
            'p_all': p_all_malicious,
            'p_entry_exit': p_entry_exit_malicious,
            'latency': total_latency
        })
    
    # Affichage
    print(f"\nüìä Impact de la longueur du circuit :")
    print(f"\n{'Longueur':>9} | {'P(tous mal.)':>13} | {'P(entry+exit)':>14} | {'Latence':>10}")
    print("-" * 60)
    
    for r in results:
        print(f"{r['length']:>9} | {r['p_all']:>12.2e} | {r['p_entry_exit']:>13.2e} | {r['latency']:>8} ms")
    
    # Visualisation
    plt.figure(figsize=(12, 5))
    
    # Subplot 1 : Probabilit√©s
    plt.subplot(1, 2, 1)
    lengths = [r['length'] for r in results]
    p_all = [r['p_all'] for r in results]
    p_entry_exit = [r['p_entry_exit'] for r in results]
    
    plt.semilogy(lengths, p_all, 'o-', label='P(tous malveillants)', linewidth=2)
    plt.axhline(y=p_entry_exit[0], color='r', linestyle='--', label=f'P(entry+exit mal.) = {p_entry_exit[0]:.2e}')
    plt.xlabel('Longueur du circuit')
    plt.ylabel('Probabilit√© de compromission (log)')
    plt.title('S√©curit√© vs Longueur')
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    # Subplot 2 : Latence
    plt.subplot(1, 2, 2)
    latencies = [r['latency'] for r in results]
    plt.plot(lengths, latencies, 's-', color='green', linewidth=2)
    plt.axhline(y=200, color='orange', linestyle='--', label='Acceptable (~200ms)')
    plt.xlabel('Longueur du circuit')
    plt.ylabel('Latence totale (ms)')
    plt.title('Performance vs Longueur')
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print(f"\nüí° OBSERVATIONS :")
    print(f"   - Plus le circuit est long, plus l'anonymat est fort")
    print(f"   - Mais latence augmente lin√©airement")
    print(f"   - Tor utilise 3 relais (compromis)")
    print(f"   - P(all malicious) avec 3 relais : {results[2]['p_all']:.2e}")
    print(f"   - P(entry+exit) constant : {p_entry_exit[0]:.2e}")
    
    print(f"\nüéØ Choix de Tor (3 relais) :")
    print(f"   ‚úÖ Bon √©quilibre s√©curit√©/performance")
    print(f"   ‚úÖ Latence acceptable (~150-200ms)")
    print(f"   ‚úÖ P(compromission totale) tr√®s faible")
    print(f"   ‚ö†Ô∏è  Traffic analysis reste possible (entry+exit)")

anonymity_vs_performance()

## Exercice 5 : Co√ªt de l'Anonymat

**Contexte** : Quantifier les ressources n√©cessaires pour anonymat r√©seau-scale.

**T√¢che** : Calculez le co√ªt (bande passante, latence) pour diff√©rents syst√®mes.

In [None]:
def cost_of_anonymity():
    """
    Analyse du co√ªt de l'anonymat.
    """
    print("\n" + "=" * 70)
    print("ANALYSE : Co√ªt de l'Anonymat")
    print("=" * 70)
    
    # Param√®tres
    n_users = 2_000_000  # Utilisateurs quotidiens Tor
    avg_bandwidth_per_user = 1  # Mbps
    
    print(f"\nüìä Param√®tres :")
    print(f"   Utilisateurs : {n_users:,}")
    print(f"   Bande passante moyenne : {avg_bandwidth_per_user} Mbps/utilisateur")
    
    # Comparaison syst√®mes
    systems = {
        'Direct (pas anonymat)': {
            'overhead': 1.0,
            'latency': 20,  # ms
            'anonymity': 0
        },
        'VPN': {
            'overhead': 1.1,  # 10% overhead (chiffrement)
            'latency': 30,  # ms
            'anonymity': 1  # Faible (VPN conna√Æt identit√©)
        },
        'Tor (3 relais)': {
            'overhead': 1.3,  # 30% overhead (3 couches)
            'latency': 150,  # ms
            'anonymity': 8  # Bonne
        },
        'Mixnet (5 mixes)': {
            'overhead': 1.5,  # 50% overhead (batching, padding)
            'latency': 60000,  # ms (1 minute pour batch)
            'anonymity': 10  # Excellente
        },
    }
    
    # Calculs
    print(f"\nüìà Co√ªt par syst√®me :")
    print(f"\n{'Syst√®me':20} | {'Overhead':>10} | {'Latence':>12} | {'Anonymat':>10} | {'Bande passante':>17}")
    print("-" * 90)
    
    for name, params in systems.items():
        total_bandwidth = n_users * avg_bandwidth_per_user * params['overhead']
        print(f"{name:20} | {params['overhead']:>9.1f}x | {params['latency']:>10} ms | {params['anonymity']:>9}/10 | {total_bandwidth:>13,.0f} Mbps")
    
    # Co√ªt mon√©taire (estimation)
    print(f"\nüí∞ Co√ªt mon√©taire estim√© (par jour) :")
    cost_per_gbps_per_month = 500  # USD
    hours_per_day = 24
    days_per_month = 30
    
    for name, params in systems.items():
        total_bandwidth_gbps = n_users * avg_bandwidth_per_user * params['overhead'] / 1000
        monthly_cost = total_bandwidth_gbps * cost_per_gbps_per_month
        daily_cost = monthly_cost / days_per_month
        
        print(f"   {name:20} : ${daily_cost:>10,.0f} / jour (${monthly_cost:>10,.0f} / mois)")
    
    print(f"\nüéØ CONCLUSIONS :")
    print(f"   - Anonymat a un co√ªt en performance ET en argent")
    print(f"   - Trade-off √† faire selon cas d'usage :")
    print(f"      ‚Ä¢ Navigation web : Tor (latence acceptable)")
    print(f"      ‚Ä¢ Email anonyme : Mixnet (latence acceptable)")
    print(f"      ‚Ä¢ Streaming vid√©o : VPN ou direct (latence critique)")
    print(f"   - Tor = bon compromis pour usage g√©n√©ral")
    print(f"   - Mixnet = meilleur anonymat mais trop lent pour temps r√©el")
    
    print(f"\nüìö RESSOURCES TOR (2025) :")
    print(f"   - Relais : ~7000-8000 b√©n√©voles")
    print(f"   - Bande passante : ~400 Gbps total")
    print(f"   - Co√ªt estim√© : ~$6M / an (dons)")
    print(f"   - Utilisateurs : ~2M quotidiens")
    print(f"   - Co√ªt par utilisateur : ~$3 / an")

cost_of_anonymity()

## Conclusion

**Points cl√©s v√©rifi√©s** :
- ‚ùå Traffic analysis : Corr√©lation possible si adversaire contr√¥le Entry+Exit
- ‚ùå Website fingerprinting : Patterns r√©v√©lateurs m√™me avec chiffrement
- ‚ùå (n-1) attack : Isolation de message dans mixnet
- ‚úÖ Trade-off anonymat/performance : Tor = 3 relais (compromis)
- ‚úÖ Co√ªt de l'anonymat : Significatif mais g√©rable

**Retenir** :
- Anonymat parfait n'existe pas (surtout contre adversaire global)
- Protection d√©pend du mod√®le de menace (adversaire local vs global)
- Tor : Excellent contre surveillance locale/ISP
- Mixnet : Meilleur anonymat mais latence √©lev√©e
- Bonnes pratiques essentielles (HTTPS, pas de plugins, etc.)

**Applications pratiques** :
- Dissidents/journalistes : Tor + bonnes pratiques
- Email anonyme : Mixnet (si encore actifs)
- Vote √©lectronique : Mixnet + v√©rifiabilit√©
- Navigation priv√©e : VPN (suffisant pour publicit√©s/tracking)

**Recherche active** :
- Loopix : Mixnet moderne avec cover traffic
- Nym : Mixnet avec incitations √©conomiques
- Vuvuzela : Private messaging √† grande √©chelle
- Signal : End-to-end encryption (compl√©ment √† Tor)