In [1]:
#환경 생성
import gym
import numpy as np
env = gym.make('FrozenLake-v1')

In [2]:
#Q값을 저장할 테이블 초기화(rows: cell의 수, cols: 이동할 수 있는 방향의 수)
q_func = np.zeros((16, 4))
q_func

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [3]:
#총 보상
total_reward = 0.0

In [4]:
#게임 시작
for i_episode in range(10000):
    # 초기화
    observation = env.reset()
    
    # 현재 게임의 보상
    episode_reward = 0.0
    
    for t in range(100):
        # 1턴 실행 후의 위치를 현재 위치로 설정
        current_state = observation
    
        if np.random.rand() < 0.1:
            # 무작위로 행동 선택
            action = env.action_space.sample()
        else:
            # Q값이 최대가 되는 행동 선택
            action = np.argmax(q_func[current_state])
    
        # 1턴 실행
        observation, reward, done, info = env.step(action)

        # Q값 업데이트(학습률 0.3, 할인율 0.99): 할인율을 곱하고 보상을 더한 값으로 Q를 업데이트
        q_func[current_state, action] += 0.3 * (reward + 0.99*np.max(q_func[observation, :]) - q_func[current_state, action])
    
        # 종료
        if done:
            # 현재 게임 보상 누적 계산
            episode_reward += reward
    
    # 총 보상 누적 계산
    total_reward += episode_reward

In [5]:
# 총 보상
print(total_reward)

# 게임당 평균 보상
print(total_reward/10000)

3226.0
0.3226


In [6]:
# 학습된 Q값
q_func

array([[0.46281952, 0.44993519, 0.45739872, 0.45097567],
       [0.23481972, 0.13409961, 0.16752168, 0.44442423],
       [0.37658699, 0.40648862, 0.3871895 , 0.4252264 ],
       [0.31859574, 0.30019224, 0.18536329, 0.41251903],
       [0.48724752, 0.41802508, 0.30532628, 0.36757643],
       [0.        , 0.        , 0.        , 0.        ],
       [0.27341345, 0.16523149, 0.21609744, 0.09425668],
       [0.        , 0.        , 0.        , 0.        ],
       [0.31521095, 0.43695078, 0.28687285, 0.52819019],
       [0.43819068, 0.52448097, 0.1341875 , 0.3274763 ],
       [0.42233908, 0.35824783, 0.18171297, 0.2618256 ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.55205848, 0.55531745, 0.61059331, 0.56784946],
       [0.62503953, 0.63626521, 0.7529489 , 0.6359426 ],
       [0.        , 0.        , 0.        , 0.        ]])

In [7]:
#학습된 Q값을 사용하여 게임 진행
# 총 보상
total_reward = 0.0

frames=[]

# 게임 시작
for i_episode in range(10):
    # 초기화
    observation = env.reset()
    
    # 현재 게임의 보상
    episode_reward = 0.0
    
    for t in range(100):
        # 1턴 실행 후의 위치를 현재 위치로 삼음
        current_state = observation
        
        # Q값이 최대가 되는 행동을 선택함
        action = np.argmax(q_func[current_state])
        
        # 1턴 실행
        observation, reward, done, info = env.step(action)
        
        # 애니메이션을 위하여 정보 기록
        frames.append({
            'frame': env.render(mode='ansi'),
            'state': observation,
            'action': action,
            'reward': reward
            }
        )   

        # 종료
        if done:
            # 현재 게임 보상 누적 계산
            episode_reward += reward
    # 총 보상 누적 계산
    total_reward += episode_reward

In [8]:
# 총 보상
print(total_reward)

# 게임당 평균 보상
print(total_reward/1000)

6.0
0.006


In [9]:
from IPython.display import clear_output
from time import sleep

def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print(f"Timestep: {i + 1}")
        print(f"State: {frame['state']}")
        print(f"Action: {frame['action']}")
        print(f"Reward: {frame['reward']}")
        sleep(.1)
        
print_frames(frames)

  (Left)
SFFF
FHFH
FFFH
HFF[41mG[0m

Timestep: 1000
State: 15
Action: 0
Reward: 0
