### A Guide for Lab 01 Policy Iteration 

#### Import Dependencies

In [1]:
%matplotlib inline 
import sys, os
import numpy as np
import matplotlib.pyplot as plt
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)
from gyms.simple_maze_grid import SimpleMazeGrid

pygame 2.6.0 (SDL 2.28.4, Python 3.12.5)
Hello from the pygame community. https://www.pygame.org/contribute.html


#### Basic Usages of the gym

##### Gym Instansiation

In [2]:
n = 5 # num of grid size
k = 3 # goal pose range from 0 index
m = 4 # num of pits

env = SimpleMazeGrid(n=n, k=k, m=m, render_option=True, random_seed=42)


##### Get all states

- agent가 위치할 수 있는 pos index 전체 list를 나열함

In [3]:
env.get_all_states()

[[0, 0],
 [0, 1],
 [0, 2],
 [0, 3],
 [0, 4],
 [1, 0],
 [1, 1],
 [1, 2],
 [1, 3],
 [1, 4],
 [2, 0],
 [2, 1],
 [2, 2],
 [2, 3],
 [2, 4],
 [3, 0],
 [3, 1],
 [3, 2],
 [3, 3],
 [3, 4],
 [4, 0],
 [4, 1],
 [4, 2],
 [4, 3],
 [4, 4]]

##### Get the current state observation

- 현재 상황을 표시함
- 0: 그냥 빈칸
- 1: agent가 위치한 곳
- 2: goal
- 3: pits

In [4]:
env._get_state()

array([[1., 0., 0., 0., 3.],
       [0., 3., 0., 0., 0.],
       [0., 3., 0., 0., 0.],
       [3., 0., 0., 2., 0.],
       [0., 0., 0., 0., 0.]])

##### Set the agent position to any pose

- agent의 position을 원하는 곳에 위치시킴


In [5]:
player_pos = [2,2]
env.set_player_pos(player_pos)
env._get_state()

array([[0., 0., 0., 0., 3.],
       [0., 3., 0., 0., 0.],
       [0., 3., 1., 0., 0.],
       [3., 0., 0., 2., 0.],
       [0., 0., 0., 0., 0.]])

##### Do a simulated action

- agent의 position을 원하는 곳에 위치시키고, 거기에서 원하는 action을 취함


In [20]:
player_pos = [0,1]
action = 1
next_state, reward, terminated = env.simulate_action(player_pos, action)
print(f"next_state = {next_state}")
print(f"reward = {reward}")
print(f"terminated = {terminated}")

next_state = [[0. 0. 0. 0. 3.]
 [0. 3. 0. 0. 0.]
 [0. 3. 0. 0. 0.]
 [3. 0. 0. 2. 0.]
 [0. 0. 0. 0. 0.]]
reward = -10
terminated = True


출력은 다음과 같음. 

단, 
- agent가 함정이나, goal에 빠진 경우, agent의 위치가 state상으로는 보이지 않음. 
- 위와 같이 실행해도 state는 바뀜. 따라서 다음에 player_pos가 원하는 곳에 제대로 위치했는지 주의할 것. 

In [9]:
env._get_state()

array([[0., 0., 0., 0., 3.],
       [0., 3., 0., 0., 0.],
       [0., 3., 0., 0., 0.],
       [3., 0., 0., 2., 0.],
       [0., 0., 0., 0., 0.]])

##### Render the current state

In [7]:
# env.render()

##### Get the index for a state
- state가 주어졌을 때, 해당 state의 index가 무엇인지 표기

In [10]:
def state_to_index(state, n):
    player_pos = np.argwhere(state == 1)
    if player_pos.size == 0:
        return None
    row, col = player_pos[0]
    return row * n + col

In [12]:
state = env._get_state()
print(state)

[[0. 0. 0. 0. 3.]
 [0. 3. 0. 0. 0.]
 [0. 3. 0. 0. 0.]
 [3. 0. 0. 2. 0.]
 [0. 0. 0. 0. 0.]]


In [13]:
state_idx = state_to_index(state, env.n)
print(state_idx)

None


Game이 terminated 된 상태(함정에 빠지거나, 골에 도착하거나)면 `None` 출력

In [16]:
player_pos = [0,0]
env.set_player_pos(player_pos)
state = env._get_state()
print(f"state = {state}")
state_idx = state_to_index(state, env.n)
print(f"state_idx = {state_idx}")

state = [[0. 1. 0. 0. 3.]
 [0. 3. 0. 0. 0.]
 [0. 3. 0. 0. 0.]
 [3. 0. 0. 2. 0.]
 [0. 0. 0. 0. 0.]]
state_idx = 1


In [18]:
player_pos = [0,3]
env.set_player_pos(player_pos)
state = env._get_state()
print(f"state = {state}")
state_idx = state_to_index(state, env.n)
print(f"state_idx = {state_idx}")

state = [[0. 0. 0. 1. 3.]
 [0. 3. 0. 0. 0.]
 [0. 3. 0. 0. 0.]
 [3. 0. 0. 2. 0.]
 [0. 0. 0. 0. 0.]]
state_idx = 3
