# 강의영상 

{{<video https://youtu.be/XlwSIZPcBpM?list=PLQqh36zP38-zlQzcT1FJ8lBWRGkqBIsEu >}}

# Game2: 4x4 grid 

`-` 문제설명: 4x4 그리드월드에서 상하좌우로 움직이는 에이전트가 목표점에 도달하도록 학습하는 방법 

# imports 

In [4]:
import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
import IPython

# 예비학습: 시각화 

In [3]:
def show(states):
    fig = plt.Figure()
    ax = fig.subplots()
    ax.matshow(np.zeros([4,4]), cmap='bwr',alpha=0.0)
    sc = ax.scatter(0, 0, color='red', s=500)  
    ax.text(0, 0, 'start', ha='center', va='center')
    ax.text(3, 3, 'end', ha='center', va='center')
    # Adding grid lines to the plot
    ax.set_xticks(np.arange(-.5, 4, 1), minor=True)
    ax.set_yticks(np.arange(-.5, 4, 1), minor=True)
    ax.grid(which='minor', color='black', linestyle='-', linewidth=2)
    def update(t):
        sc.set_offsets(states[t])
    ani = FuncAnimation(fig,update,frames=len(states))
    display(IPython.display.HTML(ani.to_jshtml()))

In [10]:
show([[0,0],[0,1],[1,1],[1,2],[1,3],[1,2],[1,3],[1,2],[1,3],[1,2],[1,3]])

# Env 클래스 구현 

`-` GridWorld: 강화학습에서 많이 예시로 사용되는 기본적인 시뮬레이션 환경 

1. **State**: 각 격자 셀이 하나의 상태이며, 에이전트는 이러한 상태 중 하나에 있을 수 있음. 
2. **Action**: 에이전트는 현재상태에서 다음상태로 이동하기 위해 상,하,좌,우 중 하나의 행동을 취할 수 있음. 
3. **Reward**: 에이전트가 현재상태에서 특정 action을 하면 얻어지는 보상
4. **Terminated**: 하나의 에피소드가 종료되었음을 나타내는 상태 

In [53]:
action = 3
current_state = np.array([1,1])

In [55]:
next_state = current_state + action_to_direction[action]
next_state

array([1, 0])

In [146]:
class GridWorld:
    def __init__(self):
        self.reset()
        self.state_space = gym.spaces.MultiDiscrete([4,4])
        self.action_space = gym.spaces.Discrete(4) 
        self._action_to_direction = { 
            0 : np.array([1, 0]), # x+ 
            1 : np.array([0, 1]), # y+ 
            2 : np.array([-1 ,0]), # x- 
            3 : np.array([0, -1]) # y- 
        }
    def reset(self): 
        self.agent_action = None 
        self.agent_state = np.array([0,0])         
    def step(self,action):
        direction = self._action_to_direction[action]
        self.agent_state = self.agent_state + direction
        
        if self.agent_state not in self.state_space:
            terminated = True
            self.agent_state = self.agent_state - 1/2* direction
        else: 
            terminated = False 
        return self.agent_state, terminated


In [147]:
env = GridWorld()

In [149]:
states = [env.agent_state] 
for t in range(50):
    env.reset()
    action = action_space.sample()
    next_state, terminated = env.step(action) 
    states.append(next_state) 
    if terminated: 
        break 
show(states)