# Explication simplifiée des méthodes `decide_action` et `perform_action`

## 1. Méthode `decide_action`

- **But :** décider quelle action l’agent doit faire à ce tour.
- **Dans ta version actuelle :**  
  - C’est une décision **aléatoire** (direction dx, dy).
  - Peut évoluer vers une politique plus complexe (ex. RL).
- **À garder en tête pour RL :**  
  - Cette méthode devra prendre en entrée un **état/observation** (vision, santé, position ennemie, etc.)  
  - Et retourner une action sous forme standardisée (ex : vecteur déplacement, ordre d’attaque, soin…).

## 2. Méthode `perform_action` (ou `move` + `attack` séparément)

- **But :** appliquer l’action décidée sur l’environnement.  
  Ex : déplacer l’agent, attaquer, soigner, utiliser un pouvoir spécial.
- **Dans ta version actuelle :**  
  - `move(dx, dy)` déplace l’agent en gérant collisions et limites.  
  - `attack()` attaque les ennemis visibles dans une certaine portée.
- **À garder en tête pour RL :**  
  - Cette méthode reçoit une action claire (ex: {"type": "move", "dx": 1, "dy": 0}, ou {"type": "attack", "target": id}).  
  - Elle effectue les effets dans l’environnement (changer position, santé, état).

## 3. Organisation pour intégrer RL facilement

| Étape                      | Description                                |
|----------------------------|--------------------------------------------|
| **Observation**             | Extraire état exploitable par l’agent (vision, santé, position) |
| **Décision (`decide_action`)** | Choisir une action basée sur la politique (aléatoire ou RL) |
| **Exécution (`perform_action`)** | Appliquer l’action dans l’environnement |
| **Retour d’état & récompense**   | Collecter la nouvelle observation + feedback pour apprentissage |

## 4. Pourquoi séparer `decide_action` et `perform_action` ?

- **Décision = stratégie / politique** (boîte noire qui peut être aléatoire, rule-based, ou RL).
- **Exécution = mécanique de jeu** (déplacement, collision, attaque).
- Cette séparation rend la structure **modulaire** et **extensible**.

## 5. Exemple d’évolution simple

```python
def decide_action(self, observation):
    # Ici un agent RL choisirait l'action optimale selon son modèle
    return self.policy.predict(observation)

def perform_action(self, action, env):
    if action['type'] == 'move':
        self.move(action['dx'], action['dy'], env)
    elif action['type'] == 'attack':
        self.attack(env)
