<a href="https://colab.research.google.com/github/guebin/DL2025/blob/main/posts/09wk-2.ipynb"><img src="https://colab.research.google.com/assets/colab-badge.svg" style="text-align: left"></a>

# 1. 강의영상 

In [1]:
# {{<video https://youtu.be/playlist?list=PLQqh36zP38-zEjn2m8H8hMCHsQK8udE27&si=Sy-lnw4Kq56SRggu >}}

# 2. Imports 

In [1]:
import gymnasium as gym
#---#
import numpy as np
import collections
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
import IPython

# 3. Bandit 환경 설계 및 풀이 

## A. 대충 개념만 실습

In [2]:
action_space = [0,1] 
actions_deque = collections.deque(maxlen=500)
rewards_deque =  collections.deque(maxlen=500)
#---#

In [3]:
for _ in range(10):
    action = np.random.choice(action_space)
    if action == 1:
        reward = 10 
    else:
        reward = 1
    actions_deque.append(action)
    rewards_deque.append(reward)

In [4]:
actions_deque

deque([0, 1, 0, 0, 0, 1, 0, 0, 0, 0], maxlen=500)

In [5]:
rewards_deque

deque([1, 10, 1, 1, 1, 10, 1, 1, 1, 1], maxlen=500)

In [6]:
actions_numpy = np.array(actions_deque)
rewards_numpy = np.array(rewards_deque)

In [7]:
q0 = rewards_numpy[actions_numpy == 0].mean()
q1 = rewards_numpy[actions_numpy == 1].mean()
q_table = np.array([q0,q1])
q_table

array([ 1., 10.])

In [8]:
action = q_table.argmax()

In [9]:
for _ in range(5):
    action = q_table.argmax()
    if action == 1:
        reward = 10 
    else:
        reward = 1
    actions_deque.append(action)
    rewards_deque.append(reward)
    actions_numpy = np.array(actions_deque)
    rewards_numpy = np.array(rewards_deque)    
    q0 = rewards_numpy[actions_numpy == 0].mean()
    q1 = rewards_numpy[actions_numpy == 1].mean()
    q_table = np.array([q0,q1])

In [10]:
actions_numpy

array([0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1])

In [11]:
rewards_numpy

array([ 1, 10,  1,  1,  1, 10,  1,  1,  1,  1, 10, 10, 10, 10, 10])

## B. 클래스를 이용한 구현 

In [12]:
class Bandit:
    def __init__(self):
        self.reward = None 
    def step(self,action):
        if action == 0:
            self.reward = 1
        else: 
            self.reward = 10 
        return self.reward 

In [13]:
class Agent:
    def __init__(self):
        pass 
    def act(self):
        # 만약에 경험이 20보다 작음 --> 랜덤액션 
        # 경험이 20보다 크면 --> action = q_tabel.argmax()
        pass 
    def save_experience(self):
        # 데이터 저장 
        pass 
    def learn(self):
        # q_table 을 업데이트하는 과정 
        pass

---

# 3. 예비학습: `gym.spaces`

ref: <https://gymnasium.farama.org/>

`-` 예시1

In [69]:
action_space = gym.spaces.Discrete(4) 
action_space 

Discrete(4)

In [70]:
[action_space.sample() for _ in range(5)]

[3, 2, 3, 3, 2]

In [71]:
0 in action_space

True

In [72]:
4 in action_space

False

`-` 예시2

In [73]:
state_space = gym.spaces.MultiDiscrete([4,4])
state_space

MultiDiscrete([4 4])

In [74]:
[state_space.sample() for _ in range(5)]

[array([0, 0]), array([2, 2]), array([0, 3]), array([2, 2]), array([3, 0])]

In [75]:
np.array([0,1]) in state_space

True

In [76]:
np.array([3,3]) in state_space

True

In [77]:
np.array([3,4]) in state_space

False

# 4. 4x4 Grid World 게임 설명

## A. 게임설명 

`-` 문제설명: 4x4 그리드월드에서 상하좌우로 움직이는 에이전트가 목표점에 도달하도록 하는 게임

- 백문이 불여일견: <https://claude.ai/public/artifacts/76e13820-2b51-4e7e-a514-00190de17c45> (출처: 클로드)

`-` GridWorld에서 사용되는 주요변수

1. **`State`**: 각 격자 셀이 하나의 상태이며, 에이전트는 이러한 상태 중 하나에 있을 수 있음. 
2. **`Action`**: 에이전트는 현재상태에서 다음상태로 이동하기 위해 상,하,좌,우 중 하나의 행동을 취할 수 있음. 
3. **`Reward`**: 에이전트가 현재상태에서 특정 action을 하면 얻어지는 보상.
4. **`Terminated`**: 하나의 에피소드가 종료되었음을 나타내는 상태.

## B. 시각화 

In [78]:
def show(states):
    fig = plt.Figure()
    ax = fig.subplots()
    ax.matshow(np.zeros([4,4]), cmap='bwr',alpha=0.0)
    sc = ax.scatter(0, 0, color='red', s=500)  
    ax.text(0, 0, 'start', ha='center', va='center')
    ax.text(3, 3, 'end', ha='center', va='center')
    # Adding grid lines to the plot
    ax.set_xticks(np.arange(-.5, 4, 1), minor=True)
    ax.set_yticks(np.arange(-.5, 4, 1), minor=True)
    ax.grid(which='minor', color='black', linestyle='-', linewidth=2)
    state_space = gym.spaces.MultiDiscrete([4,4])
    def update(t):
        if states[t] in state_space:
            s1,s2 = states[t]
            states[t] = [s2,s1]
            sc.set_offsets(states[t])
        else:
            s1,s2 = states[t]
            s1 = s1 + 0.5 if s1 < 0 else (s1 - 0.5 if s1 > 3 else s1)
            s2 = s2 + 0.5 if s2 < 0 else (s2 - 0.5 if s2 > 3 else s2)
            states[t] = [s2,s1]       
            sc.set_offsets(states[t])
    ani = FuncAnimation(fig,update,frames=len(states))
    display(IPython.display.HTML(ani.to_jshtml()))

In [79]:
show([[0,0],[1,0],[2,0],[3,0],[4,0]]) # show 사용방법

# 5. 4x4 Grid World 환경 구현

# 6. "에이전트 $\Leftrightarrow$ 환경" 상호작용 구현

`-` 우리가 구현하고 싶은 기능 

- `.act()`: 액션을 결정 --> 여기서는 그냥 랜덤액션 
- `.save_experience()`: 데이터를 저장 --> 여기에 일단 초점을 맞추자
- `.learn()`: 데이터로에서 학습 --> 패스 