# Tests des différents scénarios

## Etape 1 : importer les modules nécessaires

In [1]:
########### Importer les algorithmes RL #############
from stable_baselines3 import PPO        # PPO
from stable_baselines3 import DQN        # DQN 
from stable_baselines3 import A2C        # A2C 
from stable_baselines3.common.callbacks import BaseCallback

######### Importer les fichier des modules implémentés ##########
from lib.pandemic_model_tests import SEIVHRD_Env           # Environnement
from lib.plots import plot_model, plot_variance            # Modules de visualisation
from lib.train import train_standard, simulate_episodes    # Module d'execution de la simulation
from lib.data_structures import build_model_data, build_variance_struct, update_variance_struct   #Structures de données

############# Modules python complémentaires ###############
import os
import json

## Etape 2 : construction de l'environnement RL 
Nous importons les parametres et les arguments du modèle à partir des fichiers json externes que nous avons remplis.

In [2]:
############# Construire l'environnement #############
with open('config/params.json', 'r') as f1:
  params = json.load(f1)
with open('config/env-setup-ville.json', 'r') as f2:
  kwargs = json.load(f2)
#intsance du ME
env = SEIVHRD_Env(params = params, **kwargs)

## Cas de test 2 : Tester avec différents algorithmes d'entrainement
Le but de ce test est de visualiser et comparer les stratégies des agents entrainés avec des algorithmes différents
### 1 - Algorithme PPO :

In [3]:
############# Simuler X épisodes de l'épidémie avec la stratégie de l'agentPPO #############
algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","Default")
models_dir = os.path.join(models_dir,f"{algo_name}")
model = PPO.load(models_dir)                        # Charger l'agent RL
num_episodes = 100                                  # Nombre d'épisodes simulés
results_dir = os.path.join(f"./outputs/figures", "Test_Case_2")
simulate_episodes(env, model, 1, results_dir, algo_name)
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

### 2 - Algorithme DQN

In [4]:
############# Simuler X épisodes de l'épidémie avec la stratégie de l'agentPPO #############
algo_name = "DQN"
models_dir = os.path.join("./outputs/Model","Default")
models_dir = os.path.join(models_dir,f"{algo_name}")
model = DQN.load(models_dir)                        # Charger l'agent RL
num_episodes = 100                                  # Nombre d'épisodes simulés
results_dir = os.path.join(f"./outputs/figures", "Test_Case_2")
simulate_episodes(env, model, 1, results_dir, algo_name)
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

### 3 - Algorithme DDQN

In [None]:
############# Simuler X épisodes de l'épidémie avec la stratégie de l'agentPPO #############
algo_name = "DDQN"
models_dir = os.path.join("./outputs/Model","Default")
models_dir = os.path.join(models_dir,f"{algo_name}")
model = DQN.load(models_dir)                        # Charger l'agent RL
num_episodes = 100                                  # Nombre d'épisodes simulés
results_dir = os.path.join(f"./outputs/figures", "Test_Case_2")
simulate_episodes(env, model, 1, results_dir, algo_name)
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

### 4 - Algorithme A2C

In [None]:
############# Simuler X épisodes de l'épidémie avec la stratégie de l'agentPPO #############
algo_name = "A2C"
models_dir = os.path.join("./outputs/Model","Default")
models_dir = os.path.join(models_dir,f"{algo_name}")
model = A2C.load(models_dir)                        # Charger l'agent RL
num_episodes = 100                                  # Nombre d'épisodes simulés
results_dir = os.path.join(f"./outputs/figures", "Test_Case_2")
simulate_episodes(env, model, 1, results_dir, algo_name)
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

## Cas de test 3 : Tester avec différents délais de prise de décision
le but de ce test est de savoir si le délai de prise de décision impacte la stratégie de l'agent
### 1 - Délai de 3 jours

In [None]:
############# Tester la stratégie pour un délai de prise de décision de 3 jours#############
with open('./config/env-setup-3days.json', 'r') as fp:
  kwargs_3days = json.load(fp)

env_3days = SEIVHRD_Env(params = params, **kwargs_3days)

algo_name = "PPO"
models_dir = os.path.join("./outputs/model","3daysTest")
models_dir = os.path.join(models_dir,"3days_rest")
model = PPO.load(models_dir)                        # Charger l'agent RL
num_episodes = 100                                  # Nombre d'épisodes simulés
results_dir = os.path.join(f"./outputs/figures", "Test_Case_3")
simulate_episodes(env_3days, model, num_episodes, results_dir, algo_name)

### 2 - Délai de 15 jours

In [None]:
############# Tester la stratégie pour un délai de prise de décision de 15 jours#############
with open('./config/env-setup-15days.json', 'r') as fp:
  kwargs_15days = json.load(fp)

env_15days = SEIVHRD_Env(params = params, **kwargs_15days)

algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","15daysTest")
models_dir = os.path.join(models_dir,"15days_rest")
model = PPO.load(models_dir)                        # Charger l'agent RL
num_episodes = 100                                  # Nombre d'épisodes simulés
results_dir = os.path.join(f"./outputs/figures", "Test_Case_3")
simulate_episodes(env_15days, model, num_episodes, results_dir, algo_name)

## Cas de test 4 : Variation des tailles de populations
Le but de ce test est d'évaluer l'agent dans des environments aux tailles de population différentes et savoir s'il est capable d'équilibrer la situation 
### 1 - Province

In [None]:
############# Tester la stratégie pour la population d une province #############
with open('./config/params.json', 'r') as ftp:
  params_province = json.load(ftp)
with open('./config/env-setup-province.json', 'r') as ftk:
  kwargs_province = json.load(ftk)

env_province = SEIVHRD_Env(params = params_province, **kwargs_province)
algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","ProvinceTest")
model = PPO.load(os.path.join(models_dir,"province"))      # Charger l'agent RL


### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env_province,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env_province, run_data, action=action, main_dir="./outputs/figures/Test_Case_4/pop_size/province")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_4")
results_dir = os.path.join(results_dir, "pop_size")
results_dir = os.path.join(results_dir, "province")
simulate_episodes(env_province, model, num_episodes, results_dir, algo_name)

# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env_province, model, num_episodes, results_dir, algo_name)

### 2 - Pays

In [None]:
############# Tester la stratégie pour la population d un pays #############
with open('./config/params.json', 'r') as ftp:
  params_pays = json.load(ftp)
with open('./config/env-setup-pays.json', 'r') as ftk:
  kwargs_pays = json.load(ftk)

env_pays = SEIVHRD_Env(params = params_pays, **kwargs_pays)
algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","PaysTest")
model = PPO.load(os.path.join(models_dir,"pays"))      # Charger l'agent RL


### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env_pays,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env_pays, run_data, action=action, main_dir="./outputs/figures/Test_Case_4/pop_size/pays")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_4")
results_dir = os.path.join(results_dir, "pop_size")
results_dir = os.path.join(results_dir, "pays")
simulate_episodes(env_pays, model, num_episodes, results_dir, algo_name)

# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env_pays, model, num_episodes, results_dir, algo_name)

## Cas de test 4 : Régimes inspirés de populations réelles
Le but de ce test est d'évaluer l'agent dans des conditions réelles et savoir s'il est capable d'équilibrer la situation 
### 1 - Tokyo

In [None]:
############# Tester la stratégie pour la population de Tokyo #############
with open('./config/params-tokyo.json', 'r') as ftp:
  params_tokyo = json.load(ftp)
with open('./config/env-setup-tokyo.json', 'r') as ftk:
  kwargs_tokyo = json.load(ftk)

env_tokyo = SEIVHRD_Env(params = params_tokyo, **kwargs_tokyo)
algo_name = "PPO"
region = "tokyo"
models_dir = os.path.join("./outputs/Model","TokyoTest")
models_dir = os.path.join(models_dir,region)
model = PPO.load(models_dir)      # Charger l'agent RL


### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env_tokyo,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env_tokyo, run_data, action=action, main_dir="./outputs/figures/Test_Case_4/tokyo/no_restr")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_4")
results_dir = os.path.join(results_dir, region)
simulate_episodes(env_tokyo, model, num_episodes, results_dir, algo_name)

# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env_tokyo, model, num_episodes, results_dir, algo_name)

### Ile-de-France

In [None]:
############# Tester la stratégie pour la population de Tokyo #############
with open('config/params-ilesdefrance.json', 'r') as ftp:
  params_idf = json.load(ftp)
with open('config/env-setup-ilesdefrance.json', 'r') as ftk:
  kwargs_idf = json.load(ftk)

env_idf = SEIVHRD_Env(params = params_idf, **kwargs_idf)
algo_name = "PPO"
region = "iledefrance"
models_dir = os.path.join("./outputs/Model","IlesdeFranceTest")
models_dir = os.path.join(models_dir,region)
model = PPO.load(models_dir)      # Charger l'agent RL

### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env_idf,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env_idf, run_data, action=action, main_dir="./outputs/figures/Test_Case_4/iledefrance/no_restr")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_4")
results_dir = os.path.join(results_dir, region)
simulate_episodes(env_idf, model, num_episodes, results_dir, algo_name)





# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env_idf, model, num_episodes, results_dir, algo_name)

## Cas de test 5: Tester avec des paramètres personnalisés
Le but d'évaluer de l'agent PPO déjà entrainé avec un environnement à des paramètres personnalisables

In [None]:
############# Tester la stratégie pour le régime de vaccination précisé en utilisant l'agent PPO#############
params_vacc_pers = {
    'gamma' : [7, 
               10, 
               16],   
    'omega' :  0.01,  #taux de vaccination 
    'rho'   :  0.08,   #taux d'inefficacité du vaccin
    'delta' :  5.1, 
    'theta' :  5.9,
    'mu'    : [10, 
               14],
    'sigma' :  180,
    'probas': [0.8,   
               0.3,   
               0.02,   
               0.0727] }

env_vacc_pers = SEIVHRD_Env(params = params_vacc_pers, **kwargs)

models_dir = f"./outputs/Model/Default"
model_ppo = PPO.load(f"{models_dir}/PPO")    # Charger l'agent RL

#num_episodes = 100                                    # Nombre d'épisodes simulés
#simulate_episodes(env_vacc_pers, model_ppo, num_episodes, algo_name = models_dir)

# visualiser un exemple des stratégies
num_episodes = 1                                    # Nombre d'épisodes simulés
simulate_episodes(env_vacc_pers, model_ppo, num_episodes, algo_name = models_dir)

## Cas de test 5 : Resistance de la population
Le but de ce test est d'évaluer l'agent avec différentes sortes de population et savoir s'il est capable d'équilibrer la situation 
### 1 - Population résistante

In [None]:
############# Tester la stratégie pour la population d un pays #############
with open('./config/params-resistante.json', 'r') as ftp:
  params = json.load(ftp)
with open('./config/env-setup-ville.json', 'r') as ftk:
  kwargs = json.load(ftk)

env = SEIVHRD_Env(params = params, **kwargs)
algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","ResistanteTest")
model = PPO.load(os.path.join(models_dir, algo_name))      # Charger l'agent RL


### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env, run_data, action=action, main_dir="./outputs/figures/Test_Case_5/resistance/resistant")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_5")
results_dir = os.path.join(results_dir, "resistance")
results_dir = os.path.join(results_dir, "resistant")
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

### 2 - Population fragile

In [None]:
############# Tester la stratégie pour la population d un pays #############
with open('./config/params-fragile.json', 'r') as ftp:
  params = json.load(ftp)
with open('./config/env-setup-ville.json', 'r') as ftk:
  kwargs = json.load(ftk)

env = SEIVHRD_Env(params = params, **kwargs)
algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","ResistanteTest")
model = PPO.load(os.path.join(models_dir, algo_name))      # Charger l'agent RL


### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env, run_data, action=action, main_dir="./outputs/figures/Test_Case_5/resistance/fragile")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_5")
results_dir = os.path.join(results_dir, "resistance")
results_dir = os.path.join(results_dir, "fragile")
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

### 3 - Population plus résistante

In [None]:
############# Tester la stratégie pour la population d un pays #############
with open('./config/params-resistante.json', 'r') as ftp:
  params = json.load(ftp)
with open('./config/env-setup-ville.json', 'r') as ftk:
  kwargs = json.load(ftk)

env = SEIVHRD_Env(params = params, **kwargs)
algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","Default")
model = PPO.load(os.path.join(models_dir, algo_name))      # Charger l'agent RL


### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env, run_data, action=action, main_dir="./outputs/figures/Test_Case_5/resistance/more_resistant")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_5")
results_dir = os.path.join(results_dir, "resistance")
results_dir = os.path.join(results_dir, "more_resistant")
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

### 4 - Population plus fragile

In [None]:
############# Tester la stratégie pour la population d un pays #############
with open('./config/params-fragile.json', 'r') as ftp:
  params = json.load(ftp)
with open('./config/env-setup-ville.json', 'r') as ftk:
  kwargs = json.load(ftk)

env = SEIVHRD_Env(params = params, **kwargs)
algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","Default")
model = PPO.load(os.path.join(models_dir, algo_name))      # Charger l'agent RL


### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env, run_data, action=action, main_dir="./outputs/figures/Test_Case_5/resistance/more_fragile")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_5")
results_dir = os.path.join(results_dir, "resistance")
results_dir = os.path.join(results_dir, "more_fragile")
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

## Cas de test 5 :  Rythme de vaccination
Le but de ce test est d'évaluer l'agent avec différentes régimes de vaccination et savoir s'il est capable d'équilibrer la situation 
### 1 - Vaccination précoce

In [None]:
############# Tester la stratégie pour la population d un pays #############
with open('./config/params-vaccination.json', 'r') as ftp:
  params = json.load(ftp)
  
with open('./config/env-setup-ville.json', 'r') as ftk:
  kwargs = json.load(ftk)

env = SEIVHRD_Env(params = params, **kwargs)
algo_name = "PPO"
models_dir = os.path.join("./outputs/Model","VaccinationTest")
model = PPO.load(os.path.join(models_dir, 'precoce'))      # Charger l'agent RL


### Restriction-free env
action = 0                               # 0 : Pas de restriction      
# lancer la simulation
run_data = train_standard(env,         # Environnement
                          T_max=360,       # Nombre de jours dans la simulation
                          mode="Test",     # mode de simulation
                          selected_action=action)
# Visualisation + Enregistrer les images
plot_model(env, run_data, action=action, main_dir="./outputs/figures/Test_Case_5/vaccination/early")   


### Simulation
num_episodes = 500                 # Nombre d'épisodes simulés

results_dir = os.path.join(f"./outputs/figures", "Test_Case_5")
results_dir = os.path.join(results_dir, "vaccination")
results_dir = os.path.join(results_dir, "early")
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

# visualiser un exemple des stratégies
num_episodes = 1                                # Nombre d'épisodes simulés
simulate_episodes(env, model, num_episodes, results_dir, algo_name)

## - Training

### 1 - PPO

In [None]:
################    MAIN - PPO   ###################
env.reset()
models_dir = f"./outputs/Model/training/PPO"
log_dir = "./outputs/logs/training/PPO"
os.makedirs(models_dir, exist_ok=True)
os.makedirs(log_dir, exist_ok=True)
model_ppo = PPO("MlpPolicy", env, verbose=1, tensorboard_log=log_dir)
TIMESTEPS = 10000
for i in range(0,50):
    model_ppo.learn(total_timesteps=TIMESTEPS, reset_num_timesteps=False, tb_log_name=f"{algo_name}_{7}/{7.75}_{1}")
    model_ppo.save(f"{models_dir}/{TIMESTEPS*i}")


In [None]:
################    MAIN - DQN   ###################
algo_name="DQN"
env.reset()
models_dir = f"./outputs/Model/training/{algo_name}"
log_dir = f"./outputs/logs/training/{algo_name}"
os.makedirs(models_dir, exist_ok=True)
os.makedirs(log_dir, exist_ok=True)
model_ppo = DQN("MlpPolicy", env, verbose=1, tensorboard_log=log_dir)
TIMESTEPS = 10000
for i in range(0,50):
    model_ppo.learn(total_timesteps=TIMESTEPS, reset_num_timesteps=False, tb_log_name=f"{algo_name}_{7}/{7.75}_{1}")
    model_ppo.save(f"{models_dir}/{TIMESTEPS*i}")

In [None]:
################    MAIN - DDQN   ###################
algo_name="DDQN"
env.reset()
models_dir = f"./outputs/Model/training/{algo_name}"
log_dir = f"./outputs/logs/training/{algo_name}"
os.makedirs(models_dir, exist_ok=True)
os.makedirs(log_dir, exist_ok=True)
model_ppo = DQN("MlpPolicy", env, verbose=1, tensorboard_log=log_dir)
TIMESTEPS = 10000
for i in range(0,50):
    model_ppo.learn(total_timesteps=TIMESTEPS, reset_num_timesteps=False, tb_log_name=f"{algo_name}_{7}/{7.75}_{1}")
    model_ppo.save(f"{models_dir}/{TIMESTEPS*i}")

In [None]:
################    MAIN - A2C   ###################
algo_name="A2C"
env.reset()
models_dir = f"./outputs/Model/training/{algo_name}"
log_dir = f"./outputs/logs/training/{algo_name}"
os.makedirs(models_dir, exist_ok=True)
os.makedirs(log_dir, exist_ok=True)
model_ppo = A2C("MlpPolicy", env, verbose=1, tensorboard_log=log_dir)
TIMESTEPS = 10000
for i in range(0,50):
    model_ppo.learn(total_timesteps=TIMESTEPS, reset_num_timesteps=False, tb_log_name=f"{algo_name}_{7}/{7.75}_{1}")
    model_ppo.save(f"{models_dir}/{TIMESTEPS*i}")