In [10]:
# 기초적인 Q-learning 연습
# 완전한 환경모델 없이 model-free 방식으로 벨만 방적식 기반 (Q값 갱신)의 근사학습 사용
# 1차원 선에서 좌/우 이동하며 보상받기

import numpy as np
import matplotlib.pyplot as plt
import random

state_space = [0,1,2,3,4] # 4 coin
action_space = [-1,1]
# Q 테이블 초기화 (상태 5 * 행동 2)
Q = np.zeros([len(state_space), len(action_space)])
print(Q)

# 하이퍼 파라메터 줌
alpha = 0.1   # 학습률
gamma = 0.9   # Υ 할인율(Discounter factor)
epsilon = 1.0 # ε-greedy 초기 탐험률 , 100%탐험
epsilon_min = 0.1
epsilon_decay = 0.99
episodes = 100

def get_reward(state): # 보상 함수
  return 10 if state == 4 else 0

# 학습루프 : 각 episode 마다 Q-table을 갱신하면서 목표상태(state=4)에 도달하기 위한 최적의 행동 정책을 학습
for episode in range(episodes):
  state = 0
  for step in range(20): # 하나의 에피소드 안에서 최대 20번 이동 시도
  # 행동 선택은 ε-greedy 정책
    if random.random() < epsilon:
      action_index = random.randint(0,1) # 탐험 exploration
    else:
      action_index = np.argmax(Q[state,:]) # 이용 exploitation
    action = action_space[action_index]  # [-1,1] 왼쪽 오른쪽 이동
    next_state = state + action

    # 유효 범위 밖은 이동 금지
    if next_state < 0:
        next_state = 0
    if next_state > 4:
        next_state = 4

    reward = get_reward(next_state)

    # 벨만 방정식을 이용해서 Q-value를 갱신
    old_q = Q[state][action_index] # 현재 추정된 q 값
    next_max = np.max(Q[next_state])  # 다음 상태에서 가능한 모든 행동 중 가장 큰 Q값을 선택
    Q[state][action_index] = old_q + alpha * (reward + gamma*next_max-old_q)
    state = next_state
    if reward == 10:
        break

  epsilon = max(epsilon_min, epsilon*epsilon_decay)
# 결과 출력
print('학습된 Q-table : ')
for s in range(5):
  print(f'state {s} : 왼쪽 = {Q[s][0]:.2f}, 오른쪽 = {Q[s][1]:.2f}')


[[0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]]
학습된 Q-table : 
state 0 : 왼쪽 = 6.26, 오른쪽 = 7.26
state 1 : 왼쪽 = 6.20, 오른쪽 = 8.09
state 2 : 왼쪽 = 6.66, 오른쪽 = 9.00
state 3 : 왼쪽 = 7.88, 오른쪽 = 10.00
state 4 : 왼쪽 = 0.00, 오른쪽 = 0.00
