# Q-learning 알고리즘의 개념 구현

Q-learning 알고리즘을 사용하여 에이전트가 격자 세계에서 목표 지점까지 최단 경로를 찾도록 학습시키는 프로그램을 작성하세요.

5x5 크기의 격자 세계를 생성하고, 에이전트의 시작 위치와 목표 위치를 임의로 설정합니다.
에이전트는 상, 하, 좌, 우로 이동할 수 있으며, 매 이동마다 보상을 받습니다. 목표 지점에 도달하면 양의 보상을, 그 외의 경우에는 음의 보상을 받습니다.
Q-table을 초기화하고, 에이전트를 학습시킵니다. 에이전트는 엡실론-그리디 정책을 사용하여 행동을 선택합니다.
에이전트가 목표 지점에 도달하거나, 최대 스텝 수에 도달하면 에피소드가 종료됩니다.
학습이 완료된 후, 학습된 Q-table을 사용하여 최적 경로를 출력합니다.
스터디 참여자들은 위 문제를 바탕으로 다음 사항을 고려하여 코드를 작성해야 합니다:

1. 5x5 격자 세계 생성 및 시각화 
   - agent의 시작 위치와 목표 위치를 임의로 설정
   - 에이전트는 상, 하, 좌, 우로 이동할 수 있으며, 매 이동마다 보상을 받는다. 목표 지점에 도달하면 양의 보상을, 그 외의 경우에는 음의 보상을 받는다.
2. Q-table 초기화 및 업데이트
3. 엡실론-그리디 정책을 사용한 행동 선택
4. 보상 함수 정의
5. Q-learning 알고리즘 구현
6. 학습 결과 출력 및 최적 경로 시각화

In [6]:
import numpy as np
import random

# 1. 격자 세계 생성 및 시각화
grid_size = 5
start_pos = (0, 0)
goal_pos = (4, 4)

In [2]:
# 2. Q-table 초기화 및 업데이트
q_table = np.zeros((grid_size, grid_size, 4))
learning_rate = 0.1
discount_factor = 0.9

In [3]:
# 3. 엡실론-그리디 정책을 사용한 행동 선택
epsilon = 0.1

def choose_action(state):
    if random.uniform(0, 1) < epsilon:
        return random.randint(0, 3)
    else:
        return np.argmax(q_table[state])

In [4]:
# 4. 보상 함수 정의
def get_reward(state):
    return 1 if state == goal_pos else -1

In [5]:
# 5. Q-learning 알고리즘 구현
num_episodes = 1000
max_steps = 100

for episode in range(num_episodes):
    state = start_pos
    for step in range(max_steps):
        action = choose_action(state)
        next_state = (state[0] + (action == 1) - (action == 0), state[1] + (action == 3) - (action == 2))
        
        if next_state[0] < 0 or next_state[0] >= grid_size or next_state[1] < 0 or next_state[1] >= grid_size:
            reward = -10
            next_state = state
        else:
            reward = get_reward(next_state)
        
        q_table[state][action] = q_table[state][action] + learning_rate * (reward + discount_factor * np.max(q_table[next_state]) - q_table[state][action])
        state = next_state
        
        if state == goal_pos:
            break

In [7]:
# 6. 학습 결과 출력 및 최적 경로 시각화
print("최적 경로:")
state = start_pos
path = [state]
while state != goal_pos:
    action = np.argmax(q_table[state])
    state = (state[0] + (action == 1) - (action == 0), state[1] + (action == 3) - (action == 2))
    path.append(state)
print(path)

최적 경로:
[(0, 0), (0, 1), (0, 2), (0, 3), (1, 3), (2, 3), (3, 3), (4, 3), (4, 4)]
