## gym 版本

In [None]:
import gym
from gym import spaces
import numpy as np

class CustomEnv(gym.Env):
    """
    自定义的Gym环境模板。
    这个环境模拟了一个简单的系统，其中代理可以执行一个动作来改变系统的状态，并根据状态的变化获取奖励。
    """
    def __init__(self):
        super(CustomEnv, self).__init__()
        
        # 定义动作空间，假设这里的动作是一个单维的连续变量，范围从-1到1
        self.action_space = spaces.Box(low=-1, high=1, shape=(1,), dtype=np.float32)
        
        # 定义状态空间，假设状态是一个二维的连续变量，范围从0到100
        self.observation_space = spaces.Box(low=0, high=100, shape=(2,), dtype=np.float32)
        
        # 初始化环境状态
        self.state = np.zeros(2)
        self.steps = 0
        self.max_steps = 100  # 限制最大步数

    def reset(self):
        """
        在每次新回合开始时重置环境状态。
        返回初始状态。
        """
        self.state = np.array([50, 50])  # 初始化为中间值
        self.steps = 0
        return self.state

    def step(self, action):
        """
        在环境中执行一个动作，并返回新的状态、奖励、是否结束和其他信息。
        参数:
        - action: 代理采取的动作
        
        返回:
        - state: 新的状态
        - reward: 根据新状态计算的奖励
        - done: 布尔值，指示回合是否结束
        - info: 额外信息，通常用于调试
        """
        # 更新状态，根据动作和当前状态进行计算
        self.state = self.state + action  # 简单线性模型
        
        # 确保状态在定义的范围内
        self.state = np.clip(self.state, 0, 100)
        
        # 增加步数计数器
        self.steps += 1
      


## gymnasium 版本

https://stable-baselines3.readthedocs.io/en/master/guide/custom_env.html
来自官网要求


In [None]:
import gymnasium as gym
import numpy as np
from gymnasium import spaces


class CustomEnv(gym.Env):
    """Custom Environment that follows gym interface."""

    metadata = {"render_modes": ["human"], "render_fps": 30}

    def __init__(self, arg1, arg2, ...):
        super().__init__()
        # Define action and observation space
        # They must be gym.spaces objects
        # Example when using discrete actions:
        self.action_space = spaces.Discrete(N_DISCRETE_ACTIONS)
        # Example for using image as input (channel-first; channel-last also works):
        self.observation_space = spaces.Box(low=0, high=255,
                                            shape=(N_CHANNELS, HEIGHT, WIDTH), dtype=np.uint8)

    def step(self, action):
        ...
        return observation, reward, terminated, truncated, info

    def reset(self, seed=None, options=None):
        ...
        return observation, info

    def render(self):
        ...

    def close(self):
        ...