In [1]:
import sys
import io
import os
import numpy as np
import time
import pygame

# Imports des modules
from src.rl_environments.monty_hall2_4 import MontyHallLevel2Environment
from src.rl_algorithms.q_learning import QLearning
from src.rl_algorithms.policy_iteration import PolicyIteration
from src.rl_algorithms.value_iteration import ValueIteration
from src.rl_algorithms.monte_carlo_es import MonteCarloES
from src.rl_algorithms.on_policy_first_visit_mc_control import OnPolicyFirstVisitMCControl
from src.rl_algorithms.off_policy_mc_control import OffPolicyMCControl
from src.rl_algorithms.sarsa import SARSA
from src.rl_algorithms.dyna_q import DynaQ
from utils.agent import Agent
from utils.human_player import HumanPlayer

pygame 2.6.1 (SDL 2.28.4, Python 3.10.12)
Hello from the pygame community. https://www.pygame.org/contribute.html


La politique optimale consiste à garder la même porte jusqu'au choix final.

La porte initiale a 1/5 de chance d'être gagnante
Les 4 autres portes ont collectivement 4/5 de chance de contenir la porte gagnante
Quand Monty élimine 3 portes perdantes, la dernière porte restante concentre toute cette probabilité de 4/5

In [2]:
env_hall2 = MontyHallLevel2Environment()

In [None]:
# Testez ceci avant l'entraînement
env_hall2 = MontyHallLevel2()
print(f"Taille déclarée : {env_hall2.state_space_size}")

# Simulez quelques épisodes pour voir les états générés
states_seen = set()
for _ in range(100):
    state = env_hall2.reset()
    states_seen.add(state)
    done = False
    while not done:
        actions = env_hall2.valid_actions
        action = np.random.choice(actions)
        state, _, done, _ = env_hall2.step(action)
        states_seen.add(state)

print(f"États réellement vus : {len(states_seen)}")
print(f"Premiers états : {sorted(list(states_seen))[:10]}")

# Policy itération

In [3]:
config_pi = {
    'gamma': 1,
    'theta': 0.00001,
    'max_iterations': 1000
}
    
algorithm_pi_hall2 = PolicyIteration.from_config(config_pi, env_hall2)
algorithm_pi_hall2.train(env_hall2, num_episodes=5000, verbose=False)

{'iterations': 1,
 'converged': True,
 'max_value': np.float64(0.8000000000000002),
 'training_time': 0.00019598007202148438,
 'convergence_history': [{'iteration': 0,
   'policy_stable': True,
   'max_value': np.float64(0.8000000000000002)}]}

In [4]:
agent_pi_hall2 = Agent(algorithm_pi_hall2, env_hall2, "Agent_pi_hall2")

✅ Agent créé: Agent_pi_hall2


In [5]:
print(algorithm_pi_hall2.visualize_q_table())


Q-TABLE - PolicyIteration
État  Action0       Action1       Action2       Action3       Action4       Politique Valeur    
--------------------------------------------------
0     0.80         0.80         0.80         0.80         0.80         0         0.80      
1     0.80         0.80         0.80         0.80         0.80         0         0.80      
2     0.80         0.80         0.80         0.80         0.80         0         0.80      
3     0.80         0.80         0.80         0.80         0.80         0         0.80      
4     0.00         0.00         0.00         0.00         0.00         0         0.00      



In [6]:
agent_pi_hall2.evaluate_performance(success_criterion = "target_reached", num_episodes=1000)


📊 ÉVALUATION: Agent_pi_hall2
Environnement: MontyHallLevel2Environment
Épisodes d'évaluation: 1000
Critère de succès: target_reached
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 3 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 1 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 3 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 1 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 1 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 3 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DE

{'agent_name': 'Agent_pi_hall2',
 'environment': 'MontyHallLevel2Environment',
 'num_episodes': 1000,
 'avg_reward': np.float64(0.204),
 'std_reward': np.float64(0.4029689814365369),
 'min_reward': np.float64(0.0),
 'max_reward': np.float64(1.0),
 'avg_episode_length': np.float64(4.0),
 'success_rate': 0.0,
 'success_criterion': 'target_reached',
 'evaluation_time': 0.06310296058654785,
 'timestamp': '2025-07-20T20:09:02.712331'}

# Value iteration

# Monte carlo ES

# On policy monte carlo

# Off policy monte carlo

# Sarsa

# Q learning

In [10]:
config_ql = {
    'learning_rate': 0.2,
    'gamma': 0.95,
    'epsilon': 1
}
    
algorithm_ql_hall2 = QLearning.from_config(config_ql, env_hall2)
algorithm_ql_hall2.train(env_hall2, num_episodes=1000, verbose=False)

DEBUG: Porte 1 retirée (perdante et disponible)
DEBUG: Porte 0 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 3 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 0 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 3 retirée (perdante et disponible)
DEBUG: Porte 3 retirée (perdante et disponible)
DEBUG: Porte 1 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 0 retirée (perdante et disponible)
DEBUG: Porte 1 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 2 retirée (perdante et disponible)
DEBUG: Porte 4 retirée (perdante et disponible)
DEBUG: Porte 0 retirée (perdante et disp

{'episodes': 1000,
 'final_avg_reward': np.float64(0.47),
 'final_epsilon': 0.01,
 'episode_rewards': [1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  1.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  0.0,
  0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  0.0,
  0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  0.0,
  0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  0.0,
  0.0,
  0.0,
  1.0,
  0.0,
  0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  0.0,
  0.0,
  1.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  0.0,
  0.0,
  1.0,
  1.0,
  1.0,
  1.0,
  0.0,
  1.0,
  1.0,
  0.0,
  0

In [11]:
agent_ql_hall2 = Agent(algorithm_ql_hall2, env_hall2, "Agent_ql_hall2")

✅ Agent créé: Agent_ql_hall2


In [12]:
agent_ql_hall2.evaluate_performance(success_criterion = "target_reached")


📊 ÉVALUATION: Agent_ql_hall2
Environnement: MontyHallLevel2Environment
Épisodes d'évaluation: 100
Critère de succès: target_reached
DEBUG: Porte 2 retirée (perdante et disponible)


ValueError: Action 2 invalide dans l'état 1.
Actions valides: [0, 1, 3, 4]
État du jeu: doors_in_game=[0, 1, 3, 4], agent_door=0, removed_doors=[np.int64(2)]

In [13]:
print(algorithm_ql_hall2.visualize_q_table())


Q-TABLE - QLearning
État  Action0       Action1       Action2       Action3       Action4       Politique Valeur    
--------------------------------------------------
0     0.40         0.33         0.33         0.33         0.33         0         0.40      
1     0.31         0.33         0.48         0.31         0.31         2         0.48      
2     0.48         0.25         0.57         0.23         0.22         2         0.57      
3     0.45         0.64         0.09         0.76         0.49         3         0.76      
4     0.00         0.00         0.00         0.00         0.00         0         0.00      



In [14]:
# Rediriger stdout vers un buffer
old_stdout = sys.stdout
buffer = io.StringIO()
sys.stdout = buffer

# Appeler ta fonction de démonstration
agent_ql_hall2.demonstrate_step_by_step(num_episodes = 1)

# Restaurer stdout
sys.stdout = old_stdout

# Écrire dans un fichier
with open("log_demo2.txt", "w", encoding="utf-8") as f:
    f.write(buffer.getvalue())

ValueError: Action 2 invalide dans l'état 1.
Actions valides: [0, 1, 3, 4]
État du jeu: doors_in_game=[0, 1, 3, 4], agent_door=0, removed_doors=[np.int64(2)]

# Dyna Q