In [1]:
import numpy as np
import random

# (1) 상태 정의 및 인덱스 매핑
states = ['S', 'R1', 'R2', 'R3', 'F']
state_to_index = {
    'S': 0,
    'R1': 1,
    'R2': 2,
    'R3': 3,
    'F': 4
}

V = np.zeros(len(states))  # 상태 가치 초기화

# (2) 가능한 모든 경로 정의 (상태쌍과 보상 포함)
paths = [
    [('S', 'R1', 0), ('R1', 'R3', 0), ('R3', 'F', 1)],       # 경로 1
    [('S', 'R1', 0), ('R1', 'F', 1)],                        # 경로 2
    [('S', 'R2', 0), ('R2', 'R3', 0), ('R3', 'F', 1)],       # 경로 3
    [('S', 'R2', 0), ('R2', 'F', 1)],                        # 경로 4
    [('S', 'R1', 0), ('R1', 'R2', 0), ('R2', 'R3', 0), ('R3', 'F', 1)]  # 경로 5 (신규)
]

# (3) 학습 파라미터
alpha = 0.1
gamma = 0.9
episodes = 500

# (4) TD(0) 학습 루프
for ep in range(episodes):
    trajectory = random.choice(paths)  # (5) 무작위 경로 선택

    for (s, s_next, reward) in trajectory:
        i = state_to_index[s]
        j = state_to_index[s_next]
        V[i] += alpha * (reward + gamma * V[j] - V[i])  # (6) TD 업데이트

# (7) 결과 출력
print("상태 가치 함수 (V):")
for s in states:
    print(f"V({s}) = {V[state_to_index[s]]:.2f}")


상태 가치 함수 (V):
V(S) = 0.84
V(R1) = 0.92
V(R2) = 0.94
V(R3) = 1.00
V(F) = 0.00
