# Syst√®me Multi-Agents avec Q-Learning pour l'Ordonnancement des Patients

Ce notebook d√©montre l'impl√©mentation d'un syst√®me multi-agents pour l'optimisation de l'ordonnancement des patients dans un environnement de soins.

## Caract√©ristiques principales:
- **Donn√©es Strictes**: Bas√©es sur la table de comp√©tences r√©elle (Image WhatsApp).
- **M√©taheuristiques hybrides**: Algorithme G√©n√©tique, Recherche Tabou, Recuit Simul√©
- **Modes de collaboration**: Amis (partage complet) et Ennemis (comp√©tition)
- **Auto-adaptation**: Q-Learning pour la s√©lection des voisinages (Insertion vs Swap)

Bas√© sur le diaporama: *"Optimisation collaborative : Agents auto-adaptatifs, Apprentissage par renforcement"*

In [None]:
# Configuration et imports
import sys
import os
import random
import numpy as np
import matplotlib.pyplot as plt

# Ajout du chemin racine
sys.path.insert(0, os.path.abspath(os.getcwd()))

# Seed pour reproductibilit√©
random.seed(42)
np.random.seed(42)

# Imports du projet remasteris√©
from core.environment import create_default_environment
from core.neighborhoods import NeighborhoodManager
from core.shared_memory import SharedMemoryPool, Solution
from core.agents import MultiAgentSystem, CollaborationMode
from visualization import plot_gantt

print("‚úì Tous les modules sont charg√©s et pr√™ts!")

## 1. Environnement d'Ordonnancement (Strict)

L'environnement mod√©lise l'ordonnancement des patients selon les contraintes strictes de l'image fournie.

In [None]:
# Cr√©er l'environnement
env = create_default_environment()

print(f"Configuration de l'environnement:")
print(f"  - Nombre de patients: {env.num_patients}")
print(f"  - Comp√©tences: {env.skills}")
print(f"  - Nombre total de t√¢ches: {len(env.all_tasks)}")

# Solution initiale (Al√©atoire)
initial_solution = env.build_initial_solution(random_order=True)
initial_makespan, initial_times, _ = env.evaluate(initial_solution, return_schedule=True)
print(f"\nMakespan initial (Al√©atoire): {initial_makespan}")

In [None]:
# Visualiser le planning initial
if initial_times:
    plot_gantt(
        initial_times, env.skills, env.num_patients,
        title=f"Planning Initial (Cmax = {initial_makespan})"
    )

## 2. Fonctions de Voisinage & Q-Learning

Pour respecter les contraintes strictes (1 comp√©tence sp√©cifique par t√¢che), nous utilisons uniquement les voisinages valides :
- **C**: Insertion (D√©placer une t√¢che dans la file du m√©decin)
- **E**: Swap (√âchanger deux t√¢ches chez le m√™me m√©decin)

Le **Q-Learning** va apprendre lequel des deux est le plus efficace.

In [None]:
# D√©monstration Q-Learning via un Agent Tabou
mas_demo = MultiAgentSystem(env, mode=CollaborationMode.FRIENDS, use_qlearning=True)
agent_tabu = mas_demo.add_agent('tabu', 'Demo_Agent', tabu_tenure=5)

# On force quelques mises √† jour pour la d√©mo
if agent_tabu.q_selector:
    print("Simulation de l'apprentissage...")
    # Simulation : L'insertion (C) donne de meilleurs r√©sultats ici
    for _ in range(10):
        agent_tabu.q_selector.update_with_result('C', 100) # Bonne r√©compense
        agent_tabu.q_selector.update_with_result('E', 110) # Moins bonne r√©compense (Cmax plus haut)
    
    stats = agent_tabu.q_selector.get_statistics()
    q_table = agent_tabu.q_selector.get_q_table()
    
    print("\n√âtat du Q-Learning :")
    print(f"  Voisinages actifs : {list(stats.keys())}")
    print(f"  Table Q : {q_table}")
else:
    print("Q-Learning d√©sactiv√©.")

## 3. Syst√®me Multi-Agents - Mode AMIS (Collaboratif)

En mode Amis, les agents (AG, Tabou, RS) partagent leurs solutions via un **Espace M√©moire Partag√© (EMP)**.

In [None]:
print("üöÄ Lancement SMA Collaboratif (100 it√©rations)...")

mas_friends = MultiAgentSystem(env, mode=CollaborationMode.FRIENDS, use_qlearning=True)

# Trio complet
mas_friends.add_agent('genetic', 'AG_Main', population_size=15)
mas_friends.add_agent('tabu', 'Tabu_Main', tabu_tenure=10)
mas_friends.add_agent('sa', 'RS_Main', initial_temp=100)

best_sol_friends = mas_friends.run(n_iterations=100, verbose=True)

print(f"\nüèÜ Meilleur Makespan (AMIS): {best_sol_friends.fitness}")

In [None]:
# Visualisation du r√©sultat final Collaboratif
if best_sol_friends:
    cmax, times, _ = env.evaluate(best_sol_friends.sequences, return_schedule=True)
    plot_gantt(
        times, env.skills, env.num_patients,
        title=f"R√©sultat SMA Amis (Cmax={cmax})"
    )

## 4. Syst√®me Multi-Agents - Mode ENNEMIS (Comp√©titif)

En mode Ennemis, les agents travaillent isol√©ment et ne partagent pas leur m√©moire.

In [None]:
print("‚öîÔ∏è Lancement SMA Comp√©titif (100 it√©rations)...")

mas_enemies = MultiAgentSystem(env, mode=CollaborationMode.ENEMIES, use_qlearning=True)

mas_enemies.add_agent('genetic', 'AG_Enemy')
mas_enemies.add_agent('tabu', 'Tabu_Enemy')
mas_enemies.add_agent('sa', 'RS_Enemy')

best_sol_enemies = mas_enemies.run(n_iterations=100, verbose=True)

print(f"\nüèÜ Meilleur Makespan (ENNEMIS): {best_sol_enemies.fitness}")

## 5. Comparaison et G√©n√©ration des Tableaux (PDF)

G√©n√©ration des m√©triques pour les slides 25 et 26.

In [None]:
print("="*60)
print("        R√âSULTATS POUR LE RAPPORT (PDF)")
print("="*60)

# R√©sultats simul√©s sur la derni√®re ex√©cution
score_amis = best_sol_friends.fitness
score_ennemis = best_sol_enemies.fitness

print(f"{'Configuration':<25} | {'Makespan (Score)'}")
print("-"*45)
print(f"{'Mode AMIS (Collaboratif)':<25} | {score_amis}")
print(f"{'Mode ENNEMIS (Comp√©titif)':<25} | {score_ennemis}")

gain = ((score_ennemis - score_amis) / score_ennemis) * 100
print("-"*45)
if gain > 0:
    print(f"‚úÖ La collaboration a am√©lior√© le score de {gain:.2f}%")
else:
    print(f"‚ö†Ô∏è Pas de gain significatif observ√© sur cette run courte.")

## Conclusion

Le syst√®me respecte les contraintes strictes. Le **mode Amis** coupl√© au **Q-Learning** (choix dynamique entre Insertion et Swap) offre g√©n√©ralement la meilleure convergence en √©vitant les minimums locaux gr√¢ce √† l'Espace M√©moire Partag√©.