# üåä Optimisation de Routage UWSN avec PPO (Deep Reinforcement Learning)

Ce notebook pr√©sente une impl√©mentation compl√®te de l'optimisation de routage dans les r√©seaux de capteurs sous-marins (UWSN) en utilisant l'algorithme PPO (Proximal Policy Optimization).

## üìã Table des mati√®res
1. [Installation et Configuration](#installation)
2. [Mod√®les Physiques](#physiques)
3. [Environnement Gym](#environnement)
4. [Entra√Ænement PPO](#entrainement)
5. [√âvaluation et Comparaison](#evaluation)
6. [Visualisations](#visualisations)
7. [Sauvegarde et T√©l√©chargement](#sauvegarde)

---


## 1. Installation et Configuration {#installation}


In [None]:
# Installation des d√©pendances
!pip install stable-baselines3[extra] gymnasium matplotlib plotly pandas scipy seaborn tqdm tensorboard shimmy

# V√©rification de l'installation
import torch
print(f"PyTorch version: {torch.__version__}")
print(f"CUDA disponible: {torch.cuda.is_available()}")

# Imports n√©cessaires
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
import pandas as pd
import seaborn as sns
from typing import List, Dict, Any, Tuple
import random
import time
from dataclasses import dataclass
import os

# Configuration matplotlib
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("‚úÖ Installation termin√©e avec succ√®s!")


In [None]:
# D√©finition des classes et fonctions pour UWSN
# (Code complet des modules src/utils_network.py et src/env_gym.py)

@dataclass
class Node:
    """Repr√©sente un n≈ìud du r√©seau sous-marin"""
    id: int
    x: float  # Position x (m)
    y: float  # Position y (m)
    z: float  # Profondeur (m, n√©gative)
    energy: float  # √ânergie restante (J)
    temperature: float = 15.0  # Temp√©rature (¬∞C)
    salinity: float = 35.0  # Salinit√© (PSU)
    max_energy: float = 1000.0  # √ânergie maximale (J)
    transmission_power: float = 1.0  # Puissance de transmission (W)
    frequency: float = 25.0  # Fr√©quence acoustique (kHz)
    
    def is_alive(self) -> bool:
        """V√©rifie si le n≈ìud a encore de l'√©nergie"""
        return self.energy > 0
    
    def distance_to(self, other: 'Node') -> float:
        """Calcule la distance 3D vers un autre n≈ìud"""
        return np.sqrt((self.x - other.x)**2 + (self.y - other.y)**2 + (self.z - other.z)**2)

print("‚úÖ Classes de base d√©finies")


In [None]:
# Mod√®le de propagation acoustique sous-marine
class AcousticPropagation:
    """Classe pour calculer la propagation acoustique sous-marine"""
    
    def __init__(self):
        self.c0 = 1500.0  # Vitesse du son dans l'eau (m/s)
        self.rho0 = 1025.0  # Densit√© de l'eau (kg/m¬≥)
        
    def sound_speed(self, temperature: float, salinity: float, depth: float) -> float:
        """Calcule la vitesse du son selon l'√©quation de Mackenzie"""
        T = temperature
        S = salinity
        D = abs(depth)  # Profondeur positive
        
        c = (1448.96 + 4.591*T - 5.304e-2*T**2 + 2.374e-4*T**3 +
             1.340*(S-35) + 1.630e-2*D + 1.675e-7*D**2 -
             1.025e-2*T*(S-35) - 7.139e-13*T*D**3)
        
        return c
    
    def absorption_coefficient(self, frequency: float, temperature: float, 
                             salinity: float, depth: float, ph: float = 8.0) -> float:
        """Calcule le coefficient d'absorption acoustique selon Francois & Garrison"""
        f = frequency
        T = temperature
        S = salinity
        D = abs(depth)
        
        # Calcul de la pression (Pa)
        P = 1.01325e5 + 1.025e4 * D
        
        # Coefficients pour l'absorption
        A1 = 0.106 * np.exp((T - 26) / 9)
        A2 = 0.52 * (1 + T / 43) * (S / 35)
        A3 = 0.00049 * np.exp(-(T / 27 + D / 17))
        
        f1 = 0.78 * np.sqrt(S / 35) * np.exp(T / 26)
        f2 = 42 * np.exp(T / 17)
        
        P1 = 1
        P2 = 1 - 1.37e-4 * D + 6.2e-9 * D**2
        P3 = 1 - 3.84e-4 * D + 7.57e-8 * D**2
        
        # Coefficient d'absorption (dB/km)
        alpha = (A1 * P1 * f1 * f**2 / (f1**2 + f**2) +
                A2 * P2 * f2 * f**2 / (f2**2 + f**2) +
                A3 * P3 * f**2)
        
        return alpha
    
    def path_loss(self, distance: float, frequency: float, temperature: float,
                  salinity: float, depth: float) -> float:
        """Calcule la perte de trajet acoustique (dB)"""
        # Perte de trajet g√©om√©trique (dB)
        geometric_loss = 20 * np.log10(distance)
        
        # Perte d'absorption (dB)
        alpha = self.absorption_coefficient(frequency, temperature, salinity, depth)
        absorption_loss = alpha * distance / 1000
        
        return geometric_loss + absorption_loss

print("‚úÖ Mod√®le de propagation acoustique d√©fini")


In [None]:
# Mod√®le de consommation √©nerg√©tique
class EnergyModel:
    """Mod√®le de consommation √©nerg√©tique pour les n≈ìuds UWSN"""
    
    def __init__(self):
        self.elec = 50e-9  # √ânergie par bit pour l'√©lectronique (J/bit)
        self.amp = 1e-12  # √ânergie d'amplification (J/bit/m¬≤)
        self.recv = 50e-9  # √ânergie de r√©ception (J/bit)
        self.idle = 1e-6  # √ânergie en veille (J/s)
        
    def transmission_energy(self, data_size: int, distance: float, 
                           transmission_power: float) -> float:
        """Calcule l'√©nergie de transmission (J)"""
        return (self.elec + self.amp * distance**2) * data_size
    
    def reception_energy(self, data_size: int) -> float:
        """Calcule l'√©nergie de r√©ception (J)"""
        return self.elec * data_size

# Fonction pour cr√©er un r√©seau de test
def create_sample_network(num_nodes: int = 10, area_size: float = 1000.0, 
                        depth_range: Tuple[float, float] = (-100, -10)) -> List[Node]:
    """Cr√©e un r√©seau de test avec des n≈ìuds al√©atoirement positionn√©s"""
    np.random.seed(42)  # Pour la reproductibilit√©
    
    nodes = []
    for i in range(num_nodes):
        node = Node(
            id=i,
            x=np.random.uniform(0, area_size),
            y=np.random.uniform(0, area_size),
            z=np.random.uniform(depth_range[0], depth_range[1]),
            energy=np.random.uniform(500, 1000),
            temperature=np.random.uniform(10, 20),
            salinity=np.random.uniform(33, 37),
            max_energy=1000.0,
            transmission_power=np.random.uniform(0.5, 2.0),
            frequency=np.random.uniform(20, 30)
        )
        nodes.append(node)
    
    return nodes

print("‚úÖ Mod√®le √©nerg√©tique et fonctions utilitaires d√©finis")


## 2. Mod√®les Physiques {#physiques}

### üåä Propagation Acoustique Sous-marine

Les mod√®les physiques utilis√©s sont bas√©s sur des √©quations r√©alistes :

1. **Vitesse du son** (√âquation de Mackenzie) :
   ```
   c(T,S,D) = 1448.96 + 4.591*T - 5.304√ó10‚Åª¬≤*T¬≤ + 2.374√ó10‚Åª‚Å¥*T¬≥
              + 1.340*(S-35) + 1.630√ó10‚Åª¬≤*D + 1.675√ó10‚Åª‚Å∑*D¬≤
              - 1.025√ó10‚Åª¬≤*T*(S-35) - 7.139√ó10‚Åª¬π¬≥*T*D¬≥
   ```

2. **Absorption acoustique** (Francois & Garrison) :
   ```
   Œ±(f,T,S,D) = A‚ÇÅ*P‚ÇÅ*f‚ÇÅ*f¬≤/(f‚ÇÅ¬≤ + f¬≤) + A‚ÇÇ*P‚ÇÇ*f‚ÇÇ*f¬≤/(f‚ÇÇ¬≤ + f¬≤) + A‚ÇÉ*P‚ÇÉ*f¬≤
   ```

3. **Perte de trajet** :
   ```
   TL = 20*log‚ÇÅ‚ÇÄ(d) + Œ±*d/1000
   ```

### ‚ö° Mod√®le √ânerg√©tique

- **Transmission** : E_tx = (E_elec + E_amp * d¬≤) * k
- **R√©ception** : E_rx = E_elec * k
- **Veille** : E_idle = E_idle * t


In [None]:
# Test des mod√®les physiques
print("üß™ Test des mod√®les physiques...")

# Cr√©ation d'un r√©seau de test
nodes = create_sample_network(num_nodes=8, area_size=500.0)
print(f"R√©seau cr√©√© avec {len(nodes)} n≈ìuds")

# Test de propagation acoustique
acoustic = AcousticPropagation()
energy_model = EnergyModel()

# Exemple de calcul pour deux n≈ìuds
node1, node2 = nodes[0], nodes[1]
distance = node1.distance_to(node2)

print(f"\nüìä Exemple de calcul entre n≈ìuds {node1.id} et {node2.id}:")
print(f"Distance: {distance:.2f} m")

# Vitesse du son
sound_speed = acoustic.sound_speed(node1.temperature, node1.salinity, node1.z)
print(f"Vitesse du son: {sound_speed:.2f} m/s")

# Perte acoustique
path_loss = acoustic.path_loss(distance, node1.frequency, node1.temperature, 
                              node1.salinity, node1.z)
print(f"Perte acoustique: {path_loss:.2f} dB")

# Consommation √©nerg√©tique
data_size = 1000  # bits
tx_energy = energy_model.transmission_energy(data_size, distance, node1.transmission_power)
rx_energy = energy_model.reception_energy(data_size)
total_energy = tx_energy + rx_energy

print(f"√ânergie de transmission: {tx_energy*1e6:.2f} ŒºJ")
print(f"√ânergie de r√©ception: {rx_energy*1e6:.2f} ŒºJ")
print(f"√ânergie totale: {total_energy*1e6:.2f} ŒºJ")

print("\n‚úÖ Mod√®les physiques valid√©s!")


## 3. Environnement Gym {#environnement}

Cr√©ation de l'environnement Gym personnalis√© pour l'entra√Ænement PPO.


In [None]:
# Import de Gymnasium (compatible avec Stable-Baselines3)
import gymnasium as gym
from gymnasium import spaces

@dataclass
class UWSNState:
    """√âtat du r√©seau UWSN"""
    current_node: int
    destination: int
    data_size: int
    nodes_energy: np.ndarray
    nodes_position: np.ndarray
    nodes_temperature: np.ndarray
    nodes_salinity: np.ndarray
    visited_nodes: List[int]
    path: List[int]

class UWSNRoutingEnv(gym.Env):
    """
    Environnement Gym pour l'optimisation de routage UWSN
    
    L'agent doit trouver le chemin optimal entre un n≈ìud source et un n≈ìud destination
    en minimisant la consommation √©nerg√©tique et en tenant compte des contraintes acoustiques.
    """
    
    metadata = {'render.modes': ['human', 'rgb_array']}
    
    def __init__(self, nodes: List[Node], max_steps: int = 50, 
                 data_size_range: Tuple[int, int] = (500, 2000)):
        """
        Initialise l'environnement UWSN
        
        Args:
            nodes: Liste des n≈ìuds du r√©seau
            max_steps: Nombre maximum d'√©tapes par √©pisode
            data_size_range: Plage de taille de donn√©es (bits)
        """
        super(UWSNRoutingEnv, self).__init__()
        
        self.nodes = nodes
        self.num_nodes = len(nodes)
        self.max_steps = max_steps
        self.data_size_range = data_size_range
        
        # Mod√®les physiques
        self.acoustic = AcousticPropagation()
        self.energy_model = EnergyModel()
        
        # Espaces d'observation et d'action
        self.observation_space = self._create_observation_space()
        self.action_space = spaces.Discrete(self.num_nodes)
        
        # √âtat actuel
        self.state: Optional[UWSNState] = None
        self.step_count = 0
        self.episode_reward = 0.0
        
        # Statistiques
        self.episode_stats = {
            'total_energy': 0.0,
            'total_distance': 0.0,
            'num_hops': 0,
            'success': False,
            'path': []
        }
    
    def _create_observation_space(self) -> spaces.Box:
        """Cr√©e l'espace d'observation"""
        # Observation: [current_node, destination, data_size, nodes_energy, 
        #               nodes_position, nodes_temperature, nodes_salinity, 
        #               visited_mask, path_length]
        obs_dim = (
            3 +  # current_node, destination, data_size (normalis√©s)
            self.num_nodes +  # nodes_energy
            self.num_nodes * 3 +  # nodes_position (x, y, z)
            self.num_nodes +  # nodes_temperature
            self.num_nodes +  # nodes_salinity
            self.num_nodes +  # visited_mask
            1  # path_length
        )
        
        return spaces.Box(
            low=-np.inf,
            high=np.inf,
            shape=(obs_dim,),
            dtype=np.float32
        )
    
    def reset(self, seed=None, options=None):
        """R√©initialise l'environnement pour un nouvel √©pisode"""
        if seed is not None:
            np.random.seed(seed)
            random.seed(seed)
        
        # S√©lection al√©atoire de source et destination
        self.source = random.randint(0, self.num_nodes - 1)
        self.destination = random.randint(0, self.num_nodes - 1)
        
        # √âviter que source == destination
        while self.destination == self.source:
            self.destination = random.randint(0, self.num_nodes - 1)
        
        # Taille de donn√©es al√©atoire
        self.data_size = random.randint(*self.data_size_range)
        
        # Initialisation de l'√©tat
        self.state = UWSNState(
            current_node=self.source,
            destination=self.destination,
            data_size=self.data_size,
            nodes_energy=self._get_nodes_energy(),
            nodes_position=self._get_nodes_position(),
            nodes_temperature=self._get_nodes_temperature(),
            nodes_salinity=self._get_nodes_salinity(),
            visited_nodes=[self.source],
            path=[self.source]
        )
        
        self.step_count = 0
        self.episode_reward = 0.0
        
        # R√©initialisation des statistiques
        self.episode_stats = {
            'total_energy': 0.0,
            'total_distance': 0.0,
            'num_hops': 0,
            'success': False,
            'path': [self.source]
        }
        
        return self._get_observation(), {}
    
    def step(self, action: int) -> Tuple[np.ndarray, float, bool, bool, Dict[str, Any]]:
        """
        Ex√©cute une action dans l'environnement
        
        Args:
            action: ID du n≈ìud de destination choisi
        
        Returns:
            observation: Nouvel √©tat observ√©
            reward: R√©compense obtenue
            terminated: Si l'√©pisode est termin√© (succ√®s/√©chec)
            truncated: Si l'√©pisode est tronqu√© (limite de temps)
            info: Informations suppl√©mentaires
        """
        if self.state is None:
            raise ValueError("L'environnement doit √™tre r√©initialis√© avant step()")
        
        self.step_count += 1
        
        # V√©rification de la validit√© de l'action
        if action < 0 or action >= self.num_nodes:
            return self._get_observation(), -100.0, True, False, {"error": "Action invalide"}
        
        if action == self.state.current_node:
            return self._get_observation(), -10.0, False, False, {"error": "M√™me n≈ìud"}
        
        if not self.nodes[action].is_alive():
            return self._get_observation(), -50.0, False, False, {"error": "N≈ìud mort"}
        
        # Calcul de la r√©compense
        reward = self._calculate_reward(action)
        
        # Mise √† jour de l'√©tat
        self.state.current_node = action
        self.state.visited_nodes.append(action)
        self.state.path.append(action)
        
        # V√©rification de la fin d'√©pisode
        terminated = self._is_done()
        truncated = self.step_count >= self.max_steps
        
        if terminated:
            self.episode_stats['success'] = (action == self.destination)
            self.episode_stats['path'] = self.state.path.copy()
        
        # Informations suppl√©mentaires
        info = self._get_info()
        
        return self._get_observation(), reward, terminated, truncated, info
    
    def _calculate_reward(self, next_node: int) -> float:
        """Calcule la r√©compense pour l'action choisie"""
        current_node = self.state.current_node
        destination = self.state.destination
        
        # Distance et √©nergie
        distance = self.nodes[current_node].distance_to(self.nodes[next_node])
        
        # √ânergie de transmission
        tx_energy = self.energy_model.transmission_energy(
            self.data_size, distance, self.nodes[current_node].transmission_power
        )
        
        # √ânergie de r√©ception
        rx_energy = self.energy_model.reception_energy(self.data_size)
        
        total_energy = tx_energy + rx_energy
        
        # Mise √† jour des statistiques
        self.episode_stats['total_energy'] += total_energy
        self.episode_stats['total_distance'] += distance
        self.episode_stats['num_hops'] += 1
        
        # R√©compense bas√©e sur l'√©nergie (n√©gative pour minimiser)
        energy_reward = -total_energy / 1000.0  # Normalisation
        
        # R√©compense de distance (p√©nalit√© pour les longs trajets)
        distance_penalty = -distance / 1000.0
        
        # R√©compense de succ√®s (arriv√©e √† destination)
        success_reward = 100.0 if next_node == destination else 0.0
        
        # P√©nalit√© pour les n≈ìuds d√©j√† visit√©s (√©viter les boucles)
        visited_penalty = -5.0 if next_node in self.state.visited_nodes[:-1] else 0.0
        
        # P√©nalit√© pour les n≈ìuds avec peu d'√©nergie
        energy_penalty = -10.0 if self.nodes[next_node].energy < 200 else 0.0
        
        # P√©nalit√© pour les √©tapes trop longues
        step_penalty = -1.0 if self.step_count > self.max_steps * 0.8 else 0.0
        
        # R√©compense de proximit√© √† la destination
        current_to_dest = self.nodes[current_node].distance_to(self.nodes[destination])
        next_to_dest = self.nodes[next_node].distance_to(self.nodes[destination])
        proximity_reward = (current_to_dest - next_to_dest) / 100.0
        
        total_reward = (energy_reward + distance_penalty + success_reward + 
                       visited_penalty + energy_penalty + step_penalty + proximity_reward)
        
        return total_reward
    
    def _is_done(self) -> bool:
        """V√©rifie si l'√©pisode est termin√© (succ√®s/√©chec)"""
        # Succ√®s : arriv√©e √† destination
        if self.state.current_node == self.destination:
            return True
        
        # √âchec : n≈ìud actuel mort
        if not self.nodes[self.state.current_node].is_alive():
            return True
        
        return False
    
    def _get_observation(self) -> np.ndarray:
        """Retourne l'observation actuelle"""
        if self.state is None:
            return np.zeros(self.observation_space.shape[0], dtype=np.float32)
        
        # Normalisation des valeurs
        obs = []
        
        # N≈ìud actuel et destination (normalis√©s)
        obs.append(self.state.current_node / self.num_nodes)
        obs.append(self.state.destination / self.num_nodes)
        obs.append(self.state.data_size / max(self.data_size_range))
        
        # √ânergie des n≈ìuds (normalis√©e)
        obs.extend(self.state.nodes_energy / 1000.0)
        
        # Position des n≈ìuds (normalis√©e)
        pos = self.state.nodes_position
        obs.extend(pos.flatten() / 1000.0)
        
        # Temp√©rature des n≈ìuds (normalis√©e)
        obs.extend(self.state.nodes_temperature / 30.0)
        
        # Salinit√© des n≈ìuds (normalis√©e)
        obs.extend(self.state.nodes_salinity / 40.0)
        
        # Masque des n≈ìuds visit√©s
        visited_mask = np.zeros(self.num_nodes)
        for node_id in self.state.visited_nodes:
            visited_mask[node_id] = 1.0
        obs.extend(visited_mask)
        
        # Longueur du chemin (normalis√©e)
        obs.append(len(self.state.path) / self.max_steps)
        
        return np.array(obs, dtype=np.float32)
    
    def _get_nodes_energy(self) -> np.ndarray:
        """Retourne l'√©nergie de tous les n≈ìuds"""
        return np.array([node.energy for node in self.nodes], dtype=np.float32)
    
    def _get_nodes_position(self) -> np.ndarray:
        """Retourne la position de tous les n≈ìuds"""
        positions = []
        for node in self.nodes:
            positions.append([node.x, node.y, node.z])
        return np.array(positions, dtype=np.float32)
    
    def _get_nodes_temperature(self) -> np.ndarray:
        """Retourne la temp√©rature de tous les n≈ìuds"""
        return np.array([node.temperature for node in self.nodes], dtype=np.float32)
    
    def _get_nodes_salinity(self) -> np.ndarray:
        """Retourne la salinit√© de tous les n≈ìuds"""
        return np.array([node.salinity for node in self.nodes], dtype=np.float32)
    
    def _get_info(self) -> Dict[str, Any]:
        """Retourne les informations suppl√©mentaires"""
        return {
            'step': self.step_count,
            'current_node': self.state.current_node,
            'destination': self.state.destination,
            'path_length': len(self.state.path),
            'visited_nodes': self.state.visited_nodes.copy(),
            'episode_stats': self.episode_stats.copy()
        }
    
    def render(self, mode: str = 'human') -> Optional[np.ndarray]:
        """Rendu de l'environnement"""
        if mode == 'human':
            print(f"√âtape {self.step_count}: N≈ìud actuel {self.state.current_node}, "
                  f"Destination {self.state.destination}, "
                  f"Chemin: {self.state.path}")
        elif mode == 'rgb_array':
            # Pour la visualisation graphique
            return None
    
    def get_network_info(self) -> Dict[str, Any]:
        """Retourne les informations du r√©seau"""
        return {
            'num_nodes': self.num_nodes,
            'nodes': [
                {
                    'id': node.id,
                    'position': [node.x, node.y, node.z],
                    'energy': node.energy,
                    'temperature': node.temperature,
                    'salinity': node.salinity
                }
                for node in self.nodes
            ]
        }

print("‚úÖ Environnement Gym UWSN cr√©√©")
