<a href="https://colab.research.google.com/github/chonholee/tutorial/blob/main/rl/practice_gym_blank.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Open AI の gymnasium の基礎を学ぶ

https://gymnasium.farama.org/
- gymnasiumは強化学習のための複数の環境を提供する
- 観測（状態）空間、行動空間、状態遷移確率などが与えられる
  - 観測空間（Observation space）：状態（位置や速度など）
  - 行動空間（Action space）：とりうる行動（左右上下への移動など）
- 基本サイクルは以下の通り。step()メソッドで実行する
  - 行動　=>　状態の変化、報酬の獲得、（エピソードの終了）　=> 次の行動　=> ...
  - state, action, next_state, reward, done

### ライブラリのインポート

In [None]:
import numpy as np
import gymnasium as gym
# 旧バージョン（gymnasiumではなくgym）も存在する
import pygame

### 環境（エージェントと相互作用、やりとりを行う世界）について

環境一覧　.envs.registry

環境を作成　.make()

In [None]:

# render_mode
# "human" : ゲームのようなビジュアル
# "ansi" : ANSIエスケープコードを使って文字列で表現

環境の仕様を確認　.spec

metadataを確認　.metadata

### 強化学習に必要な情報の取得

状態（state）の設定内容　.observation_space

In [None]:
# Boxクラスについて
b = gym.spaces.Box(low=np.array([-10, -0.2]), high=np.array([10, 0.2]))
print(b, "\n")
print(b.low, "\n")
print(b.high, "\n")
print(b.shape, "\n")
print(b.dtype, "\n")
print(b.sample(), "\n")
# raise ValueError(
#     102         f"Box shape is inferred from low and high, expect their types to be np.ndarray, an integer or a float, actual type low: {type(low)}, high: {type(high)}"
#     103     )

envのもつプロパティやメソッド

In [None]:

# dir() : python built-in function
# returns a list of the names of the attributes and methods of an object and a module

In [None]:

# returns the original, non-decorated version of the environment, without any additional wrappers or modifications

行動（action）の設定内容

In [None]:
# Discreteクラスについて
d = gym.spaces.Discrete(5, start=-2)
print(d, "\n")
print(d.start, "\n")
print(d.n, "\n")
print(d.sample(), "\n")
# 最大は２

### 行動、状態遷移、報酬獲得のサイクル

リセット　.reset()

In [None]:

# リセットするたびにstateが初期化される

timestepをひとつ進める　.step(action)

### ステップを重ねレンダリングを行う

CartPole-v1の動きを表示する  

1．環境の初期化  
2．行動の選択  
3．行動を実行し（env.step(action)）新しい状態、報酬、終了か否かの情報を得る  
4．新しい状態に応じた次の行動を選択  
5．終了でない間、3-4を繰り返す(while not done)  
6．終了したら１に戻り次のエピソードに移る

pygameを使って途中終了の機能を追加

関数化する

# 以上

- gymnasiumの基本的な使い方を確認しました
- 環境ごとに変数が異なるため、それぞれごとに詳細を確認して使用していきます
- state, action, next_state, reward, done（truncated）を組み合わせてステップを進めていくことも理解できました
- 次は state に応じた行動を選択できるようエージェントに学習をさせていきます