In [1]:
# Q러닝 방법
# 특정 상황에서 특정한 행동을 할 때 최적의 Policy를 학습하는 방법
# Q: 현재 상태에서 취한 행동의 보상에 대한 quality
import gym
import numpy as np
# 환경 생성
env = gym.make('FrozenLake-v1')

In [2]:
# Q값을 저장할 테이블을 초기화
# rows: cell의 수
# cols: 이동할 수 있는 방향의 수
q_func = np.zeros((16, 4))
q_func

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
# 총 보상
total_reward = 0.0
# 게임 시작
for i_episode in range(10000):
    # 초기화
    observation = env.reset()
    # 현재 게임의 보상
    episode_reward = 0.0

    for t in range(100):
        # 1턴 실행 후의 위치를 현재 위치로 설정
        current_state = observation
        #랜덤값이 0.1 미만이면
        if np.random.rand() < 0.1:
            # 무작위로 행동을 선택함
            action = env.action_space.sample()
        else:
            # Q값이 최대가 되는 행동을 선택함
            action = np.argmax(q_func[current_state])
    # 1턴 실행
    # observatoin: 에이전트의 위치, reward : 행동의 결과로 받은 보상, done: 게임 종료 여부,
    # info: 행동을 취할 확률
    observation, reward, done, info = env.step(action)
    
    # Q값 업데이트(학습률 0.3, 할인율 0.99)
    # 할인율을 곱하고 보상을 더한 값으로 Q를 업데이트
    q_func[current_state,action] += 0.3 * (reward + 0.99 * np.max(q_func[observation,:]) - q_func[current_state,action])
    # 종료
    if done:
        # 현재 게임 보상 누적 계산
        episode_reward += reward

# 총 보상 누적 계산
total_reward += episode_reward

In [None]:
# 총 보상 출력
print(total_reward)
# 게임당 평균 보상 출력
print(total_reward/10000)

In [None]:
# 학습된 Q값을 출력
q_func

In [None]:
#학습된 Q값을 사용하여 게임 진행
# 총 보상
total_reward = 0.0
# 게임 시작
for i_episode in range(1000):

    # 초기화
    observation = env.reset()
    # 현재 게임의 보상
    episode_reward = 0.0

    for t in range(100):
        # 1턴 실행 후의 위치를 현재 위치로 삼음
        current_state = observation

        # Q값이 최대가 되는 행동을 선택함
        action = np.argmax(q_func[current_state])

        # 1턴 실행
        observation, reward, done, info = env.step(action)
        
        # 종료
        if done:
            # 현재 게임 보상 누적 계산
            episode_reward += reward

# 총 보상 누적 계산
total_reward += episode_reward

In [None]:
# 총 보상 출력
print(total_reward)
# 게임당 평균 보상 출력
print(total_reward/1000)