In [1]:
import numpy as np
import random

# (1) 상태 및 행동 정의
states = ['S', 'R1', 'R2', 'R3', 'F']
state_to_index = {
    'S': 0,
    'R1': 1,
    'R2': 2,
    'R3': 3,
    'F': 4
}

# (2) 상태 전이 및 보상 정의
transitions = {
    'S': [('R1', 0), ('R2', 0)],
    'R1': [('R2', 0), ('R3', 0), ('F', 1)],
    'R2': [('R3', 0), ('F', 1)],
    'R3': [('F', 1)],
    'F': []
}

# (3) Q 테이블 초기화
Q = {}
for s in states:
    Q[s] = {}
    for (s_next, _) in transitions[s]:
        Q[s][s_next] = 0.0

# (4) 학습 파라미터
alpha = 0.1
gamma = 0.9
epsilon = 0.1
episodes = 500

# (5) Q-Learning 학습 루프
for ep in range(episodes):
    state = 'S'

    while state != 'F':
        # (6) ε-greedy 방식으로 행동 선택
        if random.random() < epsilon:
            action = random.choice(list(Q[state].keys()))
        else:
            action = max(Q[state], key=Q[state].get)

        # (7) 다음 상태 및 보상 확인
        next_state = action
        reward = 0
        for (s_next, r) in transitions[state]:
            if s_next == next_state:
                reward = r
                break

        # (8) Q-Learning 업데이트
        if next_state != 'F':
            max_q_next = max(Q[next_state].values())
            td_target = reward + gamma * max_q_next
        else:
            td_target = reward

        Q[state][action] += alpha * (td_target - Q[state][action])

        # (9) 다음 상태로 이동
        state = next_state

# (10) 결과 출력
print("행동 가치 함수 Q(s, a):")
for s in Q:
    for a in Q[s]:
        print(f"Q({s}, {a}) = {Q[s][a]:.2f}")


행동 가치 함수 Q(s, a):
Q(S, R1) = 0.90
Q(S, R2) = 0.63
Q(R1, R2) = 0.53
Q(R1, R3) = 0.77
Q(R1, F) = 1.00
Q(R2, R3) = 0.87
Q(R2, F) = 0.19
Q(R3, F) = 1.00
