In [1]:
import gymnasium as gym
import time
from stable_baselines3 import SAC
from stable_baselines3.common.vec_env import DummyVecEnv, VecNormalize

# Caricamento del modello addestrato con SAC
model = SAC.load("sac_HalfCheetah_model")  # Assicurati che il percorso del modello sia corretto

# Creazione dell'ambiente con DummyVecEnv per abilitare la normalizzazione
render_env = DummyVecEnv([lambda: gym.make("HalfCheetah-v5",  # Crea l'ambiente HalfCheetah
                        reset_noise_scale=0.13635555699602933,  # Parametro per il rumore di reset
                        forward_reward_weight=0.7151140526343989,  # Peso per la ricompensa del movimento in avanti
                        ctrl_cost_weight=0.19342622590821706,  # Penalità sul controllo
                        render_mode='human')])  # Modalità di rendering: 'human' per visualizzazione su schermo

# Caricamento della normalizzazione (salvata precedentemente)
render_env = VecNormalize.load("vecnormalize_HalfCheetah.pkl", render_env)  # Assicurati che il percorso del file di normalizzazione sia corretto

# Imposta l'ambiente in modalità di valutazione
render_env.training = False  # Disabilita la normalizzazione durante la valutazione
render_env.norm_reward = True  # Abilita la normalizzazione delle ricompense (opzionale)

# Reset dell'ambiente per ottenere le prime osservazioni
obs = render_env.reset()  # Ottieni le osservazioni iniziali (restituisce un array numpy)

done = False  # Variabile per verificare se l'episodio è terminato

# Loop per eseguire il rendering dell'ambiente e far agire il modello
while not done:
    # Predizione dell'azione del modello in base all'osservazione attuale
    action, _ = model.predict(obs)  # Predice l'azione usando la policy addestrata
    
    # Esegui l'azione nell'ambiente, ottieni la nuova osservazione, ricompensa, e informazioni
    obs, rewards, dones, infos = render_env.step(action)  # 'dones' può essere un array, uno per ogni ambiente

    # Rendering dell'ambiente a schermo (se 'render_mode' è impostato su 'human')
    render_env.render()  

    # Pausa tra i frame per un rendering più fluido
    time.sleep(0.01)  

    # Gestione della variabile 'done' (dones è una lista, ma stiamo usando un singolo ambiente)
    done = dones[0]  # Verifica se l'episodio è terminato (prendi il primo valore di 'dones')

# Chiude l'ambiente e rilascia le risorse
render_env.close()


2025-02-23 23:22:19.796 Python[67394:4201113] +[IMKClient subclass]: chose IMKClient_Modern
2025-02-23 23:22:19.796 Python[67394:4201113] +[IMKInputSession subclass]: chose IMKInputSession_Modern


KeyboardInterrupt: 

: 