# 로봇의 샌드위치 탐색 시뮬레이션

## 진행 방법
1. MDP 구성 요소 정의
2. 파이썬으로 MDP 모델링
3. 가치 반복 알고리즘 구현
4. 시뮬레이션 및 결과 시각화

In [1]:
import numpy as np

In [2]:
# 상태와 행동 정의
states = ['Hungry', 'Still Hungry', 'Full']
actions = ['Go to Fridge', 'Go to Subway']

# 상태 전이 확률 정의
P = {
    'Hungry': {
        'Go to Fridge': {'Still Hungry': 0.8, 'Full': 0.2},
        'Go to Subway': {'Full': 1.0}
    },
    'Still Hungry': {
        'Go to Subway': {'Full': 1.0}
    },
    'Full': {}
}

# 보상 함수 정의
R = {
    'Hungry': {
        'Go to Fridge': {'Still Hungry': -1, 'Full': 99},
        'Go to Subway': {'Full': 30}
    },
    'Still Hungry': {
        'Go to Subway': {'Full': 30}
    },
    'Full': {}
}

In [3]:
# 할인율
gamma = 0.9

# 가치 함수 및 정책 초기화
V = {s:0 for s in states}
policy = {s: None for s in states}

In [4]:
# 가치 반복 알고리즘 구현
theta = 0.0001  # 수렴 임계값
iteration = 0

while True:
    delta = 0
    print(f'Iteration {iteration}')
    for s in states:
        v = V[s]
        action_values = {}
        for a in actions:
            if a in P[s]:
                total = 0
                for s_prime in P[s][a]:
                    prob = P[s][a][s_prime]
                    reward = R[s][a][s_prime]
                    total += prob * (reward + gamma * V[s_prime])
                action_values[a] = total
                print(f'  State {s}, Action {a}: Value {total:.2f}')
        if action_values:
            best_action = max(action_values, key=action_values.get)
            V[s] = action_values[best_action]
            policy[s] = best_action
            delta = max(delta, abs(v - V[s]))
    iteration += 1
    print(f"    Updated Values: {V}")
    print(f"    Updated Policy: {policy}\n")
    if delta < theta:
        break

Iteration 0
  State Hungry, Action Go to Fridge: Value 19.00
  State Hungry, Action Go to Subway: Value 30.00
  State Still Hungry, Action Go to Subway: Value 30.00
    Updated Values: {'Hungry': 30.0, 'Still Hungry': 30.0, 'Full': 0}
    Updated Policy: {'Hungry': 'Go to Subway', 'Still Hungry': 'Go to Subway', 'Full': None}

Iteration 1
  State Hungry, Action Go to Fridge: Value 40.60
  State Hungry, Action Go to Subway: Value 30.00
  State Still Hungry, Action Go to Subway: Value 30.00
    Updated Values: {'Hungry': 40.6, 'Still Hungry': 30.0, 'Full': 0}
    Updated Policy: {'Hungry': 'Go to Fridge', 'Still Hungry': 'Go to Subway', 'Full': None}

Iteration 2
  State Hungry, Action Go to Fridge: Value 40.60
  State Hungry, Action Go to Subway: Value 30.00
  State Still Hungry, Action Go to Subway: Value 30.00
    Updated Values: {'Hungry': 40.6, 'Still Hungry': 30.0, 'Full': 0}
    Updated Policy: {'Hungry': 'Go to Fridge', 'Still Hungry': 'Go to Subway', 'Full': None}



In [5]:
# 결과 출력
print('최종 가치 함수:')
for s in states:
    print(f"State {s}: {V[s]}")
    
print('\n최적 정책:')
for s in states:
    print(f'State {s}: {policy[s]}')

최종 가치 함수:
State Hungry: 40.6
State Still Hungry: 30.0
State Full: 0

최적 정책:
State Hungry: Go to Fridge
State Still Hungry: Go to Subway
State Full: None
