In [1]:
#projeto tópicos teste 1

In [None]:
import gym
import gym_super_mario_bros
from nes_py.wrappers import JoypadSpace
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT
from gym.wrappers import GrayScaleObservation, ResizeObservation
from stable_baselines3.common.vec_env import DummyVecEnv, VecFrameStack
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3 import PPO
from stable_baselines3.common.callbacks import CheckpointCallback

# Função para criar o ambiente do jogo, agora com pré-processamento
def make_env():
    env = gym_super_mario_bros.make('SuperMarioBros-v0')
    # Adiciona os wrappers para otimizar a imagem
    env = ResizeObservation(env, shape=84)
    env = GrayScaleObservation(env, keep_dim=True)
    env = JoypadSpace(env, SIMPLE_MOVEMENT)
    return env

# Cria 4 ambientes de jogo para treinar em paralelo
vec_env = make_vec_env(make_env, n_envs=4, vec_env_cls=DummyVecEnv)

# Agrupa 4 frames de tela para dar ao agente a noção de movimento
env = VecFrameStack(vec_env, n_stack=4)

# Configura o salvamento automático do modelo a cada 500.000 passos
checkpoint_callback = CheckpointCallback(save_freq=50000, save_path='./train/', name_prefix='mario_model')

# Instancia o modelo PPO
model = PPO('CnnPolicy', env, verbose=1, tensorboard_log="./mario_tensorboard/")

# Inicia o treinamento (reduzimos para 1 milhão para um primeiro teste)
model.learn(total_timesteps=200000, callback=checkpoint_callback)

Using cpu device
Wrapping the env in a VecTransposeImage.
Logging to ./mario_tensorboard/PPO_3
-----------------------------
| time/              |      |
|    fps             | 305  |
|    iterations      | 1    |
|    time_elapsed    | 26   |
|    total_timesteps | 8192 |
-----------------------------
-----------------------------------------
| time/                   |             |
|    fps                  | 134         |
|    iterations           | 2           |
|    time_elapsed         | 121         |
|    total_timesteps      | 16384       |
| train/                  |             |
|    approx_kl            | 0.020353284 |
|    clip_fraction        | 0.241       |
|    clip_range           | 0.2         |
|    entropy_loss         | -1.93       |
|    explained_variance   | -0.00123    |
|    learning_rate        | 0.0003      |
|    loss                 | 14.8        |
|    n_updates            | 10          |
|    policy_gradient_loss | 0.0106      |
|    value_loss        

In [None]:
import gym
import gym_super_mario_bros
from nes_py.wrappers import JoypadSpace
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT
from gym.wrappers import GrayScaleObservation, ResizeObservation
from stable_baselines3 import PPO

# É crucial usar EXATAMENTE a mesma função 'make_env' do treinamento
# para que o modelo entenda a "visão" do jogo.
def make_env():
    env = gym_super_mario_bros.make('SuperMarioBros-v0')
    env = ResizeObservation(env, shape=84)
    env = GrayScaleObservation(env, keep_dim=True)
    env = JoypadSpace(env, SIMPLE_MOVEMENT)
    return env

# Crie o ambiente (apenas um, não precisa de paralelismo para teste) 
env = make_env()

# Carregue o modelo treinado. 
# ATENÇÃO: Altere o nome do arquivo para o modelo que você quer testar! 
# Por exemplo, mario_model_500000_steps.zip ou o de 1M.
model = PPO.load('./train/mario_model_1000000_steps.zip')

# Inicia a simulação
obs = env.reset()
done = False
while not done:
    # O modelo PPO usa o estado para prever a próxima ação 
    action, _states = model.predict(obs, deterministic=True)
    
    # A ação é executada no ambiente [cite: 70]
    obs, rewards, done, info = env.step(action)
    
    # Renderiza o frame do jogo na tela para você assistir 
    env.render()

# Fecha o ambiente ao final
env.close()