In [2]:
import numpy as np  # ベクトル・行列演算ライブラリ
import pygame       # 画像作成・画像表示・キー操作用のライブラリ
import sys

class CorridorEnv():
    """ コリドータスクの環境クラス """
    # 内部表現のID
    ID_blank = 0  # 空白
    ID_robot = 1  # ロボット
    ID_crystal = 2  # クリスタル

    def __init__(self,
            field_length=4,         # int: フィールドの長さ
            crystal_candidate=(2, 3),  # tuple of int: ゴールの位置
            rwd_fail=-1.0,            # 失敗した時の報酬（ペナルティ）
            rwd_move=-1.0,            # 進んだ時の報酬（コスト）
            rwd_crystal=5.0,          # クリスタルを得た時の報酬
            ):
        """ 初期処理 """
        # 行動の数
        self.n_act = 2
        # 最終状態判定
        self.done = False
        
        """ インスタンス生成時の処理 """
        # タスクパラメータ
        self.field_length = field_length
        self.crystal_candidate = crystal_candidate
        self.rwd_fail = rwd_fail
        self.rwd_move = rwd_move
        self.rwd_crystal = rwd_crystal

        # 内部状態の変数
        self.robot_pos = None       # ロボットの位置
        self.crystal_pos = None     # クリスタルの位置
        self.robot_state = None     # render 用

    def reset(self):
        """ 状態を初期化 """
        self.done = False
        
        # ロボットを通常状態に戻す
        self.robot_state = 'normal'

        # ロボットの位置を開始位置へ戻す
        self.robot_pos = 0

        # クリスタルの位置をランダムに決める
        idx = np.random.randint(len(self.crystal_candidate))
        self.crystal_pos = self.crystal_candidate[idx]

        # ロボットとクリスタルの位置から観測を作る
        obs = self._make_obs()
        
        return obs

    def _make_obs(self):
        """ 状態から観測を作成 """
        # 最終状態判定がTrueだったら 9999 を出力
        if self.done is True:
            obs = np.array([9] * self.field_length)
            return obs

        # ロボットとクリスタルの位置から観測を作成
        obs = np.ones(self.field_length, dtype=int) * CorridorEnv.ID_blank # 1 * 0
        obs[self.crystal_pos] = CorridorEnv.ID_crystal
        obs[self.robot_pos] = CorridorEnv.ID_robot

        return obs

    def step(self, act):
        """ 状態を更新 """
        # 最終状態の次の状態はリセット
        if self.done is True:
            obs = self.reset()
            return None, None, obs

        # 行動act に対して状態を更新する
        if act == 0:  # 拾う
            if self.robot_pos == self.crystal_pos:
                # クリスタルの場所で「拾う」を選んだ
                rwd = self.rwd_crystal
                done = True
                self.robot_state = 'success'
            else:
                # クリスタル以外の場所で「拾う」を選んだ
                rwd = self.rwd_fail
                done = True
                self.robot_state = 'fail'
        else:  # act==1 進む
            next_pos = self.robot_pos + 1
            if next_pos >= self.field_length:
                # 右端で「進む」を選んだ
                rwd = self.rwd_fail
                done = True
                self.robot_state = 'fail'
            else:
                # 右端より前で「進む」を選んだ
                self.robot_pos = next_pos
                rwd = self.rwd_move
                done = False
                self.robot_state = 'normal'

        self.done = done 
        # obsを作成
        obs = self._make_obs()
        
        return rwd, done, obs

# 強化学習情報表示の関数定義
def show_info(t, act, rwd, done, obs, isFirst=False):
    """ 強化学習情報の表示 """
    if rwd is None:
        if isFirst:
            tt = t
        else:
            tt = t + 1
        print('')
        print(f'x({tt:d})={str(obs):s}')
    else:
        msg = (
            f'a({t:d})={act:d}, ' +
            f'r({t:d})={rwd: .2f}, ' +
            f'done({t:d})={done:}, ' +
            f'x({t + 1:d})={str(obs):s}'
        )
        print(msg)

pygame 2.5.2 (SDL 2.28.3, Python 3.11.4)
Hello from the pygame community. https://www.pygame.org/contribute.html


In [3]:
def main():
    # 操作方法の表示
    msg = (
        '\n' +
        '---- 操作方法 -------------------------------------\n'
        '[f] 右に進む\n' +
        '[d] 拾う\n' +
        '[q] 終了\n' +
        'クリスタルを拾うと成功\n' +
        '---------------------------------------------------'
    )
    print(msg)
    
    # 開始
    pygame.init()
    
    # 環境の準備
    env = CorridorEnv()
    
    # スクリーンの設定
    screen_size = (100 * env.field_length, 100)
    screen = pygame.display.set_mode(screen_size)
    pygame.display.set_caption("Corridor Task - Robot Collecting Gem")
    
    # マスの設定
    field_size = 100
    fields = [pygame.Rect(i * field_size, 0, field_size, field_size) for i in range(env.field_length)]
    
    # 色の定義
    BLACK = (0, 0, 0)
    WHITE = (255, 255, 255)
    RED = (255, 0, 0)
    GREEN = (0, 255, 0)
    BLUE = (0, 0, 255)
    GRAY = (128, 128, 128)
    
    # 強化学習情報の初期化
    t = 0
    obs = env.reset()
    act = None
    rwd = None
    done = None
    
    running = True
    clock = pygame.time.Clock()
    
    # メインループ
    while running:
        # 画面の更新
        screen.fill(WHITE)

        # フィールドの描画
        for field in fields:
            pygame.draw.rect(screen, BLACK, field, 1)
            
        # クリスタルの描画
        pygame.draw.circle(screen, BLUE, fields[env.crystal_pos].center, field_size // 4)    
        
        # ロボットの描画
        if env.robot_state == 'normal':
            robot_color = GRAY
        elif env.robot_state == 'success':
            robot_color = GREEN
        elif env.robot_state == 'fail':
            robot_color = RED
        pygame.draw.circle(screen, robot_color, fields[env.robot_pos].center, field_size // 4)
        
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                running = False
            elif event.type == pygame.KEYDOWN:
                if event.key == pygame.K_q:
                    running = False  # ゲームをリセット
                elif event.key == pygame.K_d:
                    act = 0 # 拾う
                elif event.key == pygame.K_f:
                    act = 1 # 進む
        
        # キーが押された場合のみ環境を更新
        if act is not None:
            # 強化学習情報表示
            show_info(t, act, rwd, done, obs)
            rwd, done, obs = env.step(act)
            act = None  # actをリセット
            t += 1
        
        pygame.display.flip()
        clock.tick(30)

    pygame.quit()

In [4]:
if __name__ == '__main__':
    main()


---- 操作方法 -------------------------------------
[f] 右に進む
[d] 拾う
[q] 終了
クリスタルを拾うと成功
---------------------------------------------------

x(1)=[1 0 2 0]
a(1)=1, r(1)=-1.00, done(1)=False, x(2)=[0 1 2 0]
a(2)=0, r(2)=-1.00, done(2)=False, x(3)=[0 0 1 0]
a(3)=1, r(3)= 5.00, done(3)=True, x(4)=[9 9 9 9]

x(5)=[1 0 2 0]
a(5)=1, r(5)=-1.00, done(5)=False, x(6)=[0 1 2 0]
a(6)=0, r(6)=-1.00, done(6)=False, x(7)=[0 0 1 0]
a(7)=0, r(7)= 5.00, done(7)=True, x(8)=[9 9 9 9]

x(9)=[1 0 0 2]
a(9)=1, r(9)=-1.00, done(9)=False, x(10)=[0 1 0 2]
a(10)=1, r(10)=-1.00, done(10)=False, x(11)=[0 0 1 2]
a(11)=0, r(11)=-1.00, done(11)=False, x(12)=[0 0 0 1]
a(12)=0, r(12)= 5.00, done(12)=True, x(13)=[9 9 9 9]

x(14)=[1 0 2 0]
a(14)=1, r(14)=-1.00, done(14)=False, x(15)=[0 1 2 0]
a(15)=0, r(15)=-1.00, done(15)=False, x(16)=[0 0 1 0]
a(16)=0, r(16)= 5.00, done(16)=True, x(17)=[9 9 9 9]

x(18)=[1 0 2 0]
a(18)=1, r(18)=-1.00, done(18)=False, x(19)=[0 1 2 0]
a(19)=1, r(19)=-1.00, done(19)=False, x(20)=[0 0 1 0]
a(2