In [2]:
import numpy as np
import random

# (1) 상태 및 행동 정의
states = ['S', 'R1', 'R2', 'R3', 'F']
state_to_index = {
    'S': 0,
    'R1': 1,
    'R2': 2,
    'R3': 3,
    'F': 4
}
actions = {}  # (2) 각 상태에서 가능한 행동들 저장

# (3) 상태 전이 및 보상을 행동 단위로 정의
transitions = {
    'S': [('R1', 0), ('R2', 0)],
    'R1': [('R2', 0), ('R3', 0), ('F', 1)],
    'R2': [('R3', 0), ('F', 1)],
    'R3': [('F', 1)],
    'F': []
}

# (4) 행동 가치 함수 Q(s,a) 초기화
Q = {}
for s in states:
    Q[s] = {}
    for (s_next, _) in transitions[s]:
        Q[s][s_next] = 0.0  # 초기 Q값 0

# (5) 학습 파라미터
alpha = 0.1
gamma = 0.9
epsilon = 0.1  # 탐험 확률
episodes = 500

# (6) SARSA 학습 루프
for ep in range(episodes):
    state = 'S'
    #(7) ε-greedy로 행동 선택 -> 정책제어
    if random.random() < epsilon:
        action = random.choice(list(Q[state].keys()))
    else:
        action = max(Q[state], key=Q[state].get)

    while state != 'F':
        next_state = action
        reward = 0
        # (8) 선택된 행동에 따라 다음 상태로 이동
        for (s_next, r) in transitions[state]:
            if s_next == next_state:
                reward = r
                break

        # (9) 다음 행동 선택 (SARSA 방식)  -> 정책제어
        if next_state != 'F':
            if random.random() < epsilon:
                next_action = random.choice(list(Q[next_state].keys()))
            else:
                next_action = max(Q[next_state], key=Q[next_state].get)
            td_target = reward + gamma * Q[next_state][next_action]
        else:
            td_target = reward  # 종료 상태

        # (10) Q값 업데이트 --> 정책평가
        Q[state][action] += alpha * (td_target - Q[state][action])

        # (11) 다음 상태로 이동
        state = next_state
        if state != 'F':
            action = next_action

# (12) 결과 출력
print("행동 가치 함수 Q(s, a):")
for s in Q:
    for a in Q[s]:
        print(f"Q({s}, {a}) = {Q[s][a]:.2f}")

행동 가치 함수 Q(s, a):
Q(S, R1) = 0.77
Q(S, R2) = 0.57
Q(R1, R2) = 0.61
Q(R1, R3) = 0.90
Q(R1, F) = 0.65
Q(R2, R3) = 0.88
Q(R2, F) = 0.10
Q(R3, F) = 1.00
