In [1]:
# Q러닝 방법
# 특정 상황에서 특정한 행동을 할 때 최적의 Policy를 학습하는 방법
# Q: 현재 상태에서 취한 행동의 보상에 대한 quality
import gym
import numpy as np

# 환경 생성
env = gym.make('FrozenLake-v1')

In [2]:
# Q값을 저장할 테이블을 초기화
# rows: cell의 수
# cols: 이동할 수 있는 방향의 수 
q_func = np.zeros((16, 4))
q_func

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [3]:
# 총 보상
total_reward = 0.0

# 게임 시작
for i_episode in range(10000):
    # 초기화
    observation = env.reset()
    # 현재 게임의 보상
    episode_reward = 0.0
    
    for t in range(100):
        # 1턴 실행 후의 위치를 현재 위치로 설정
        current_state = observation
        

        #랜덤값이 0.1 미만이면
        if np.random.rand() < 0.1:
            # 무작위로 행동을 선택함
            action = env.action_space.sample()
        else:
            # Q값이 최대가 되는 행동을 선택함
            action = np.argmax(q_func[current_state])

        # 1턴 실행
        # observatoin: 에이전트의 위치, reward : 행동의 결과로 받은 보상, done: 게임 종료 여부, 
        # info: 행동을 취할 확률
        observation, reward, done, info = env.step(action)
        
        # Q값 업데이트(학습률 0.3, 할인율 0.99)
        # 할인율을 곱하고 보상을 더한 값으로 Q를 업데이트 
        q_func[current_state,action] += 0.3 * (reward + 0.99 * np.max(q_func[observation,:]) - q_func[current_state,action])

        # 종료
        if done:
            # 현재 게임 보상 누적 계산
            episode_reward += reward
            
    # 총 보상 누적 계산
    total_reward += episode_reward

In [4]:
# 총 보상 출력
print(total_reward)

# 게임당 평균 보상 출력
print(total_reward/10000)

3015.0
0.3015


In [5]:
# 학습된 Q값을 출력
q_func

array([[0.49552752, 0.49504907, 0.49183136, 0.49643146],
       [0.40514379, 0.04058173, 0.22658013, 0.473968  ],
       [0.45796571, 0.43742885, 0.41740793, 0.45520184],
       [0.28373231, 0.358263  , 0.43932926, 0.45170815],
       [0.50455383, 0.41603519, 0.30411052, 0.4399667 ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.27628865, 0.02860881, 0.27644053, 0.04201858],
       [0.        , 0.        , 0.        , 0.        ],
       [0.45367406, 0.41397381, 0.4152076 , 0.5576419 ],
       [0.58098387, 0.60274755, 0.3087146 , 0.5299825 ],
       [0.62353334, 0.43750522, 0.28892765, 0.29001513],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.53814744, 0.64303676, 0.7373972 , 0.6165718 ],
       [0.73247837, 0.91062046, 0.76548565, 0.80908862],
       [0.        , 0.        , 0.        , 0.        ]])

In [6]:
#학습된 Q값을 사용하여 게임 진행

# 총 보상
total_reward = 0.0
frames=[]
# 게임 시작
for i_episode in range(1000):
    
    # 초기화
    observation = env.reset()
    # 현재 게임의 보상
    episode_reward = 0.0
    
    for t in range(100):
        # 1턴 실행 후의 위치를 현재 위치로 삼음
        current_state = observation
        
        # Q값이 최대가 되는 행동을 선택함
        action = np.argmax(q_func[current_state])
        
        # 1턴 실행
        observation, reward, done, info = env.step(action)
        # 애니메이션을 위하여 정보 기록
        frames.append({
            'frame': env.render(mode='ansi'),
            'state': observation,
            'action': action,
            'reward': reward
            }
        )   
        # 종료
        if done:
            # 현재 게임 보상 누적 계산
            episode_reward += reward
    
    # 총 보상 누적 계산
    total_reward += episode_reward

In [7]:
# 총 보상 출력
print(total_reward)

# 게임당 평균 보상 출력
print(total_reward/1000)

298.0
0.298


In [8]:
from IPython.display import clear_output
from time import sleep

def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print(f"Timestep: {i + 1}")
        print(f"State: {frame['state']}")
        print(f"Action: {frame['action']}")
        print(f"Reward: {frame['reward']}")
        sleep(.1)
        
print_frames(frames)

  (Left)
SFFF
FHFH
FFFH
HFF[41mG[0m

Timestep: 4198
State: 15
Action: 0
Reward: 0
