In [None]:
# --- 追加情報
@property
def reward_info(self) -> dict:
   """ 報酬に関する情報を返す """
   return {
      "min": None,
      "max": None,
      "baseline": None,
   }

# --- 実行に関する関数
def close(self) -> None:
   """ 終了処理を実装 """
   pass

def get_invalid_actions(self, player_index: int) -> list:
   """ 無効なアクションがある場合は配列で返す
   （SinglePlayEnv では call_get_invalid_actions で設定）
   """
   return []

def set_seed(self, seed: Optional[int] = None) -> None:
   """ 乱数のseedを設定 """
   pass

# --- AI
def make_worker(self, name: str) -> Optional["srl.base.rl.base.WorkerBase"]:
   """ 環境に特化したAIを返す """
   return None

# --- 描画に関する関数
def render_terminal(self, **kwargs) -> None:
   """ 現在の状況をprintで表示する用に実装 """
   pass

def render_rgb_array(self, **kwargs) -> np.ndarray | None:
   """ 現在の状況を RGB の画像配列で返す """
   return None

def action_to_str(self, action: Union[str, EnvActionType]) -> str:
   """ アクションを文字列に変換する """
   return str(action)

@property
def render_interval(self) -> float:
   """ 描画速度を返す """
   return 1000 / 60

# --- プレイ時に関する関数
def get_key_bind(self) -> KeyBindType:
   """ キー配置とアクションを紐づける """
   return None

In [2]:
import gym
from gym import spaces
import numpy as np

class MyGymEnv(gym.Env):
   # 利用できるrender_modesを指定するようです
   metadata = {"render_modes": ["ansi", "rgb_array"], "render_fps": 4}

   def __init__(self, render_mode: str or None = None):
      self.render_mode = render_mode
      """
      initで以下2つの変数を定義する必要あり
      spaces.Space型については省略します。

      self.action_space      : アクションが取りうる範囲を指定
      self.observation_space : 状態が取りうる範囲を指定
      """

      self.action_space: spaces.Space = spaces.Discrete(2)
      self.observation_space: spaces.Space = spaces.Box(-1, 1, shape=(1,))

   def reset(self, *, seed=None, options=None)-> tuple[np.ndarray, dict]:
      super().reset(seed=seed)
      """ 1エピソードの最初に実行。（初期化処理を実装）
      return 初期状態, 情報
      """
      return np.array([0], dtype=np.float32), {}

   def step(self, action) -> tuple[np.ndarray, float, bool, bool, dict]:
      """ actionを元に1step進める処理を実装
      return (
            1step後の状態,
            即時報酬,
            予定通り終了したらTrue(terminated),
            予想外で終了したらTrue(truncated),
            情報(任意),
      )
      """
      return np.array([0], dtype=np.float32), 0.0, True, False, {}

   def render(self):
      """
      描画処理を書きます。
      """
      pass

In [3]:
import gym.envs.registration

gym.envs.registration.register(
   id="MyGymEnv-v0",
   entry_point=__name__ + ":MyGymEnv",
   max_episode_steps=10,
)

In [6]:
import gym
env = gym.make("MyGymEnv-v0")

observation = env.reset()

for _ in range(10):
   observation, reward, terminated, truncated, info = env.step(env.action_space.sample())
   env.render()

   if terminated or truncated:
      observation = env.reset()

env.close()