#Apprentissage par Renforcement pour la Collecte de D√©chets avec ROS - TEKBOT Robotics Challenge 2025

Dans ce notebook, nous allons apprendre √† entra√Æner un robot mobile autonome √† collecter des d√©chets dans un environnement simul√©. L'agent sera entra√Æn√© avec l'apprentissage par renforcement (RL) et pourra s‚Äôint√©grer dans un syst√®me robotique via ROS.

Ce tutoriel s‚Äôadresse aux d√©butants/interm√©diaires en RL et ROS.

## Objectif
Former un agent √† :
- Naviguer dans un environnement
- √âviter les obstacles
- Collecter les d√©chets

## Technologies utilis√©es :
- Python
- OpenAI Gym (ou gymnasium)
- Stable-Baselines3
- ROS (via rosbridge ou gym-gazebo)

## Impl√©mentation :
La construction de l'environnemt et l'entrainement se fera directement dans votre module ROS


# Pr√©paration de l'environnement

In [None]:
!pip install gym stable-baselines3[extra] matplotlib numpy
# Optionnel ROS via Jupyter : !pip install rospkg catkin_pkg
import gym
import numpy as np
import matplotlib.pyplot as plt
from stable_baselines3 import PPO

## ü§ñ D√©finition de l‚Äôenvironnement personnalis√©

Si tu ne veux pas d√©marrer avec Gazebo tout de suite, commence avec une version 2D type GridWorld :

In [None]:
from gym import spaces
from gym.utils import seeding

class WasteCollectionEnv(gym.Env):
    def __init__(self, grid_size=5, n_dechets=3):
        self.grid_size = grid_size
        self.agent_pos = [0, 0]
        self.dechets = []
        self.action_space = spaces.Discrete(4)  # N, S, E, W
        self.observation_space = spaces.Box(low=0, high=1, shape=(grid_size, grid_size, 1), dtype=np.uint8)
        self._reset()

    def _reset(self):
        self.agent_pos = [0, 0]
        self.dechets = [list(np.random.randint(0, self.grid_size, size=2)) for _ in range(3)]
        return self._get_obs()

    def _get_obs(self):
        obs = np.zeros((self.grid_size, self.grid_size, 1), dtype=np.uint8)
        obs[self.agent_pos[0], self.agent_pos[1]] = 1
        for d in self.dechets:
            obs[d[0], d[1]] = 2
        return obs

    def step(self, action):
        x, y = self.agent_pos
        if action == 0 and x > 0: x -= 1
        if action == 1 and x < self.grid_size - 1: x += 1
        if action == 2 and y < self.grid_size - 1: y += 1
        if action == 3 and y > 0: y -= 1
        self.agent_pos = [x, y]

        reward = 0
        done = False
        if self.agent_pos in self.dechets:
            reward = 1
            self.dechets.remove(self.agent_pos)
        if len(self.dechets) == 0:
            done = True

        return self._get_obs(), reward, done, {}

    def render(self):
        grid = np.zeros((self.grid_size, self.grid_size))
        for d in self.dechets:
            grid[d[0], d[1]] = 0.5
        grid[self.agent_pos[0], self.agent_pos[1]] = 1.0
        print(grid)

## ü§ñ  Entra√Ænement avec PPO

In [None]:
from stable_baselines3 import PPO
from stable_baselines3.common.env_checker import check_env

env = WasteCollectionEnv()
check_env(env, warn=True)

model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=10_000)

## üìà √âvaluation

In [None]:
obs = env.reset()
total_reward = 0
for _ in range(20):
    action, _ = model.predict(obs)
    obs, reward, done, info = env.step(action)
    total_reward += reward
    env.render()
    if done:
        break
print(f"Total reward collected: {total_reward}")

## Int√©gration avec ROS

Pour passer du monde simul√© √† ROS :

- L‚Äôenvironnement peut √™tre recr√©√© dans Gazebo
- L‚Äôagent peut publier des commandes (Twist) sur `/cmd_vel`
- Les capteurs (cam√©ra, lidar, odom) peuvent √™tre consomm√©s via ROS Bridge

### Approches possibles :

- Utiliser `gym-gazebo2` pour connecter RL √† ROS2
- Utiliser `rosbridge_suite` pour interagir via WebSocket avec Python
- Utiliser un n≈ìud ROS Python (`rospy`) pour connecter le mod√®le

> Exemple de code ROS pour envoyer l‚Äôaction du mod√®le :
```python
import rospy
from geometry_msgs.msg import Twist

pub = rospy.Publisher('/cmd_vel', Twist, queue_size=10)
rospy.init_node('rl_agent_node')

twist = Twist()
twist.linear.x = 0.2  # exemple simple
twist.angular.z = 0.0
pub.publish(twist)

    Pour connecter le mod√®le RL :

    charger le mod√®le entra√Æn√© avec model = PPO.load('model_path')

    transformer observation ROS ‚Üí format d‚Äôobservation RL

    pr√©dire l‚Äôaction et publier

Tu peux aussi utiliser ROS2 + Gazebo + gym-gazebo2 si tu veux faire une simulation plus r√©aliste.


---

### Conclusion
Ce tutoriel montre comment :
- Cr√©er un environnement d‚Äôapprentissage par renforcement
- Entra√Æner un agent avec Stable-Baselines3
- Int√©grer ROS pour passer en environnement r√©el ou simul√©

üéØ Prochaine √©tape :
- Tester dans Gazebo
- Ajouter des obstacles
- G√©rer plusieurs types de d√©chets (recyclables, non-recyclables)


## Explication sur la construction de l'environnement
Nous d√©finissons un environnement d‚Äôapprentissage par renforcement personnalis√© pour simuler la **collecte de d√©chets dans une grille**. Il est compatible avec `gym`, une biblioth√®que utilis√©e pour entra√Æner des agents d‚Äôapprentissage par renforcement.

---

## üì¶ Analyse ligne par ligne

### üß© Importations

```python
from gym import spaces
from gym.utils import seeding
```

* `spaces`: permet de d√©finir les **espaces d‚Äôactions et d‚Äôobservations**.
* `seeding`: pour le contr√¥le de l‚Äôal√©atoire (non utilis√© ici, mais utile pour reproductibilit√©).

---

### üß™ D√©finition de l‚Äôenvironnement

```python
class WasteCollectionEnv(gym.Env):
```

Cette classe h√©rite de `gym.Env` et doit donc impl√©menter les m√©thodes standards : `step()`, `reset()`, `render()`, etc.

---

### üîß Initialisation (`__init__`)

```python
def __init__(self, grid_size=5, n_dechets=3):
```

* `grid_size=5` ‚Üí taille de la grille carr√©e.
* `n_dechets=3` ‚Üí nombre de d√©chets √† collecter (non utilis√© directement ici, c‚Äôest cod√© en dur √† 3).

```python
self.grid_size = grid_size
self.agent_pos = [0, 0]  # position de d√©part
self.dechets = []        # liste des positions de d√©chets
```

#### üß† Espace d‚Äôaction

```python
self.action_space = spaces.Discrete(4)
```

* 4 actions possibles : `0 = haut`, `1 = bas`, `2 = droite`, `3 = gauche`

#### üëÅÔ∏è Espace d‚Äôobservation

```python
self.observation_space = spaces.Box(low=0, high=1, shape=(grid_size, grid_size, 1), dtype=np.uint8)
```

* Observation : une **grille (image 2D)** o√π :

  * `0` = vide
  * `1` = agent
  * `2` = d√©chet

---

### üßº R√©initialisation

```python
def _reset(self):
    self.agent_pos = [0, 0]
    self.dechets = [list(np.random.randint(0, self.grid_size, size=2)) for _ in range(3)]
    return self._get_obs()
```

* Replace l‚Äôagent au coin `[0, 0]`
* Place 3 d√©chets √† des positions al√©atoires
* Retourne l'observation actuelle

---

### üëÄ Observation

```python
def _get_obs(self):
    obs = np.zeros((self.grid_size, self.grid_size, 1), dtype=np.uint8)
    obs[self.agent_pos[0], self.agent_pos[1]] = 1
    for d in self.dechets:
        obs[d[0], d[1]] = 2
    return obs
```

* Cr√©e une **grille vide**
* Place l‚Äôagent et les d√©chets dans cette grille

---

### üîÅ √âtape d‚Äôinteraction

```python
def step(self, action):
```

* Met √† jour la position de l‚Äôagent en fonction de l‚Äôaction choisie :

```python
if action == 0 and x > 0: x -= 1   # haut
if action == 1 and x < self.grid_size - 1: x += 1  # bas
if action == 2 and y < self.grid_size - 1: y += 1  # droite
if action == 3 and y > 0: y -= 1   # gauche
```

* Si l‚Äôagent atteint un d√©chet :

```python
if self.agent_pos in self.dechets:
    reward = 1
    self.dechets.remove(self.agent_pos)
```

* Si tous les d√©chets sont ramass√©s, l‚Äô√©pisode se termine :

```python
if len(self.dechets) == 0:
    done = True
```

---

### üñºÔ∏è Affichage console

```python
def render(self):
    grid = np.zeros((self.grid_size, self.grid_size))
    for d in self.dechets:
        grid[d[0], d[1]] = 0.5
    grid[self.agent_pos[0], self.agent_pos[1]] = 1.0
    print(grid)
```

* `0.0` ‚Üí case vide
* `0.5` ‚Üí d√©chet
* `1.0` ‚Üí agent

---

## ‚úÖ Exemple d‚Äôutilisation

```python
env = WasteCollectionEnv()
obs = env._reset()
env.render()

obs, reward, done, _ = env.step(2)  # Move right
env.render()
```

---

## üéØ Conclusion

Ce code est un **environnement simplifi√© en grille** pour entra√Æner un agent √† **se d√©placer et ramasser des d√©chets**. Il peut facilement √™tre :

* √âtendu √† ROS/Gazebo
* Connect√© √† un mod√®le PPO/DQN


Utiliser **Gazebo avec ROS 2** dans un notebook pour illustrer l‚Äôapprentissage par renforcement (RL) dans la collecte de d√©chets est tr√®s pertinent et professionnalisant.

---

## ‚úÖ Objectif

Construire un **notebook tutoriel** qui :

1. Cr√©e une simulation Gazebo de robot collecteur de d√©chets (turtlebot ou mod√®le personnalis√©)
2. Entra√Æne un agent RL (PPO) dans un environnement `gym-gazebo2`
3. Connecte ROS 2 pour publier les commandes (via `ros2_control` ou `/cmd_vel`)
4. Fait une boucle observation ‚Üí action ‚Üí ROS

---

## üí° Architecture du Projet

```
.
‚îú‚îÄ‚îÄ notebook_rl_waste_collector.ipynb  <-- Notebook tutoriel
‚îú‚îÄ‚îÄ gazebo_env/
‚îÇ   ‚îú‚îÄ‚îÄ models/                        <-- D√©chets et obstacles
‚îÇ   ‚îú‚îÄ‚îÄ worlds/                        <-- Monde simul√©
‚îÇ   ‚îî‚îÄ‚îÄ launch/
‚îÇ       ‚îî‚îÄ‚îÄ waste_world.launch.py     <-- Lancement de Gazebo + ROS 2
‚îú‚îÄ‚îÄ rl/
‚îÇ   ‚îî‚îÄ‚îÄ waste_collector_env.py        <-- Classe GymEnv pour ROS2
‚îî‚îÄ‚îÄ install.sh                        <-- Script d'installation
```

---

## üì¶ √âtapes Cl√©s du Notebook

---

### üß™ √âtape 1 : Setup (hors notebook)

Avant de pouvoir tout ex√©cuter dans un notebook, il faut **pr√©parer le syst√®me** :

### ‚úÖ Installation de ROS 2 + Gazebo + gym-gazebo2

```bash
# Pour Ubuntu 22.04
sudo apt update
sudo apt install ros-humble-desktop python3-colcon-common-extensions ros-humble-gazebo-ros-pkgs

# Cr√©er un workspace
mkdir -p ~/rl_ws/src
cd ~/rl_ws/src

# Cloner un environnement de simulation (ex: turtlebot3 + gym-gazebo2)
git clone https://github.com/ros-simulation/gym-gazebo2.git
cd ..
colcon build --symlink-install
source install/setup.bash
```

---

### üì¶ √âtape 2 : Lancement du monde Gazebo

```python
# Code dans une cellule shell de notebook Jupyter (optionnel)
!ros2 launch gym_gazebo2 turtlebot3_world.launch.py
```

Sinon dans un terminal :

```bash
ros2 launch gym_gazebo2 turtlebot3_world.launch.py
```

---

### üîÅ √âtape 3 : Cr√©ation d‚Äôun wrapper Gym pour l‚Äôenvironnement ROS 2

```python
# rl/waste_collector_env.py

import gym
import numpy as np
import rclpy
from rclpy.node import Node
from geometry_msgs.msg import Twist
from nav_msgs.msg import Odometry

class WasteCollectorEnv(gym.Env):
    def __init__(self):
        super().__init__()
        rclpy.init()
        self.node = rclpy.create_node("rl_agent")

        self.pub = self.node.create_publisher(Twist, "/cmd_vel", 10)
        self.odom_sub = self.node.create_subscription(Odometry, "/odom", self.odom_callback, 10)
        self.pose = None

        self.action_space = gym.spaces.Discrete(4)  # N, S, E, W or FWD, LEFT, RIGHT, STOP
        self.observation_space = gym.spaces.Box(low=0, high=1, shape=(5,), dtype=np.float32)

    def odom_callback(self, msg):
        self.pose = msg.pose.pose

    def step(self, action):
        twist = Twist()
        if action == 0:
            twist.linear.x = 0.3
        elif action == 1:
            twist.angular.z = 0.5
        elif action == 2:
            twist.angular.z = -0.5
        elif action == 3:
            twist.linear.x = 0.0

        self.pub.publish(twist)
        rclpy.spin_once(self.node, timeout_sec=0.1)

        obs = self._get_observation()
        reward = self._compute_reward()
        done = False  # Ajoute logique selon objectif atteint
        return obs, reward, done, {}

    def _get_observation(self):
        if self.pose:
            return np.array([
                self.pose.position.x,
                self.pose.position.y,
                self.pose.orientation.z,
                self.pose.orientation.w,
                1.0  # Distance to nearest "trash" object, √† calculer
            ])
        return np.zeros(5)

    def _compute_reward(self):
        # √Ä personnaliser : proximit√© avec les d√©chets
        return 1.0 if self.pose and self.pose.position.x > 1.0 else 0.0

    def reset(self):
        # Reset via ROS service si n√©cessaire
        return self._get_observation()
```

---

### üß† √âtape 4 : Entra√Ænement RL dans le Notebook

```python
from stable_baselines3 import PPO
from rl.waste_collector_env import WasteCollectorEnv

env = WasteCollectorEnv()
model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=50000)
model.save("ppo_waste_collector")
```

---

### üìä √âtape 5 : D√©ploiement en conditions Gazebo

```python
# Charger et ex√©cuter
model = PPO.load("ppo_waste_collector")

obs = env.reset()
for i in range(200):
    action, _states = model.predict(obs)
    obs, reward, done, info = env.step(action)
    if done:
        break
```

---

## üîå Bonus : Int√©gration ROS 2 compl√®te

Si tu veux aller plus loin :

* Cr√©e un n≈ìud ROS 2 `rl_agent_node.py` qui importe le mod√®le entra√Æn√©
* Publie directement sur `/cmd_vel` √† chaque pr√©diction
* Abonne-toi √† `/odom` et √©ventuellement `/camera` pour extraire les observations

---

## üìÅ Fichier `waste_world.world` (exemple simple Gazebo)

```xml
<world name="waste_world">
  <include>
    <uri>model://ground_plane</uri>
  </include>
  <include>
    <uri>model://turtlebot3_burger</uri>
  </include>
  <include>
    <uri>model://trash_can</uri>
    <pose>1 2 0 0 0 0</pose>
  </include>
</world>
```

---


Lorsqu'on **entra√Æne un agent avec l'apprentissage par renforcement (RL)**, l‚Äôobjectif final est souvent d‚Äô**exporter un mod√®le entra√Æn√©** afin de l‚Äôutiliser dans un syst√®me r√©el comme un robot (via **ROS2 + Gazebo**, par exemple).

---

## üîÅ Pipeline g√©n√©ral d‚Äôun agent RL

1. üì¶ **D√©finir l‚Äôenvironnement (`env`)** ‚Äî comme celui que tu as cod√©.
2. üß† **Entra√Æner un agent** (ex. avec `Stable-Baselines3`, `RLlib`, etc.)
3. üíæ **Sauvegarder le mod√®le**
4. üöÄ **Charger le mod√®le pour l‚Äôutiliser en production ou dans un simulateur comme Gazebo**

---

## üß† Exemple avec `Stable-Baselines3`

### 1. Entra√Ænement de l‚Äôagent

```python
from stable_baselines3 import PPO
from stable_baselines3.common.env_checker import check_env

env = WasteCollectionEnv()
check_env(env)  # v√©rifie que l‚Äôenvironnement est compatible

model = PPO("MlpPolicy", env, verbose=1)
model.learn(total_timesteps=10000)
```

---

### 2. Sauvegarde du mod√®le

```python
model.save("ppo_waste_collector")
```

Cela va cr√©er un dossier ou fichier contenant :

* Les **poids du mod√®le**
* La **structure du r√©seau de neurones**
* Les **hyperparam√®tres**

---

### 3. Chargement du mod√®le pour utilisation

```python
from stable_baselines3 import PPO

model = PPO.load("ppo_waste_collector")

obs = env.reset()
done = False
while not done:
    action, _states = model.predict(obs)
    obs, reward, done, info = env.step(action)
    env.render()
```

---

## üß© Int√©gration dans ROS2 + Gazebo

Une fois le mod√®le entra√Æn√© :

### üîÅ Option 1 ‚Äì Utiliser en Python dans ROS2

Tu peux cr√©er un **n≈ìud ROS2 en Python** qui :

* Charge le mod√®le
* R√©cup√®re l‚Äô√©tat du robot via les topics `/odom`, `/scan`, etc.
* Produit une action avec `model.predict(obs)`
* Envoie une commande sur `/cmd_vel` ou autre

```python
import rclpy
from rclpy.node import Node
from geometry_msgs.msg import Twist
from stable_baselines3 import PPO
import numpy as np

class RLController(Node):
    def __init__(self):
        super().__init__('rl_controller')
        self.model = PPO.load("ppo_waste_collector")
        self.publisher = self.create_publisher(Twist, '/cmd_vel', 10)
        self.timer = self.create_timer(0.1, self.control_loop)

    def control_loop(self):
        obs = self.get_observation_from_sensors()
        action, _ = self.model.predict(obs)
        cmd = self.convert_action_to_cmd_vel(action)
        self.publisher.publish(cmd)
```

---

### üìÅ Option 2 ‚Äì Exporter vers ONNX ou TorchScript

Tu peux exporter ton mod√®le pour l‚Äôint√©grer dans un autre langage ou d√©ployer sur des syst√®mes embarqu√©s :

#### üî∑ Export vers ONNX

```python
import torch

model.policy.to("cpu")
dummy_input = torch.randn(1, model.observation_space.shape[0])
torch.onnx.export(model.policy, dummy_input, "waste_policy.onnx")
```

Ce fichier `.onnx` peut ensuite √™tre utilis√© avec :

* **ROS2 + ONNX Runtime**
* **NVIDIA Jetson (TensorRT)**
* **Unity / Web / Mobile**

---

## üöÄ R√©sum√©

| √âtape        | Objectif               | Code cl√©                     |
| ------------ | ---------------------- | ---------------------------- |
| Entra√Ænement | Apprendre la strat√©gie | `model.learn(...)`           |
| Sauvegarde   | Stocker le mod√®le      | `model.save("...")`          |
| Chargement   | R√©utiliser             | `PPO.load("...")`            |
| D√©ploiement  | ROS2, Gazebo, Jetson   | `model.predict(obs)` ou ONNX |

---

Souhaites-tu un **exemple complet de n≈ìud ROS2** qui charge le mod√®le entra√Æn√© et contr√¥le un robot dans Gazebo ?
