In [1]:
# Q러닝 방법
# 특정 상황에서 특정한 행동을 할 때 최적의 Policy를 학습하는 방법
# Q: 현재 상태에서 취한 행동의 보상에 대한 quality
import gym
import numpy as np

# 환경 생성
env = gym.make('FrozenLake-v1')

In [2]:
# Q값을 저장할 테이블을 초기화
# rows: cell의 수
# cols: 이동할 수 있는 방향의 수 
q_func = np.zeros((16, 4))
q_func

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [4]:
# 총 보상
total_reward = 0.0

# 게임 시작
for i_episode in range(10000):
    # 초기화
    observation = env.reset()[0]
    # 현재 게임의 보상
    episode_reward = 0.0
    
    for t in range(100):
        # 1턴 실행 후의 위치를 현재 위치로 설정
        current_state = observation
        

        #랜덤값이 0.1 미만이면
        if np.random.rand() < 0.1:
            # 무작위로 행동을 선택함
            action = env.action_space.sample()
        else:
            # Q값이 최대가 되는 행동을 선택함
            action = np.argmax(q_func[current_state])

        # 1턴 실행
        # observatoin: 에이전트의 위치, reward : 행동의 결과로 받은 보상, done: 게임 종료 여부, 
        # info: 행동을 취할 확률
        observation, reward, done, _,info = env.step(action)
        
        # Q값 업데이트(학습률 0.3, 할인율 0.99)
        # 할인율을 곱하고 보상을 더한 값으로 Q를 업데이트 
        q_func[current_state,action] += 0.3 * (reward + 0.99 * np.max(q_func[observation,:]) - q_func[current_state,action])

        # 종료
        if done:
            # 현재 게임 보상 누적 계산
            episode_reward += reward
            
    # 총 보상 누적 계산
    total_reward += episode_reward

In [5]:
# 총 보상 출력
print(total_reward)

# 게임당 평균 보상 출력
print(total_reward/10000)

1915.0
0.1915


In [6]:
# 학습된 Q값을 출력
q_func

array([[0.61678329, 0.57383458, 0.57188848, 0.56864763],
       [0.24103981, 0.3211824 , 0.0898889 , 0.53535138],
       [0.45063609, 0.4206643 , 0.46411016, 0.5122216 ],
       [0.30048679, 0.13562624, 0.3852871 , 0.4816089 ],
       [0.63551746, 0.45918986, 0.32749493, 0.47148564],
       [0.        , 0.        , 0.        , 0.        ],
       [0.10514252, 0.00163701, 0.34940991, 0.27749586],
       [0.        , 0.        , 0.        , 0.        ],
       [0.26271475, 0.30814322, 0.59886627, 0.65666854],
       [0.58156699, 0.67809459, 0.48180574, 0.59936609],
       [0.61192875, 0.23074172, 0.55934048, 0.20869247],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.44441561, 0.57294161, 0.86999549, 0.45357513],
       [0.79481044, 0.94615415, 0.75739782, 0.78856769],
       [0.        , 0.        , 0.        , 0.        ]])

In [8]:
#학습된 Q값을 사용하여 게임 진행

# 총 보상
total_reward = 0.0
frames=[]
# 게임 시작
for i_episode in range(1000):
    
    # 초기화
    observation = env.reset()[0]
    # 현재 게임의 보상
    episode_reward = 0.0
    
    for t in range(100):
        # 1턴 실행 후의 위치를 현재 위치로 삼음
        current_state = observation
        
        # Q값이 최대가 되는 행동을 선택함
        action = np.argmax(q_func[current_state])
        
        # 1턴 실행
        observation, reward, done, _,info = env.step(action)
        # 애니메이션을 위하여 정보 기록
        frames.append({
            'frame': env.render(),
            'state': observation,
            'action': action,
            'reward': reward
            }
        )   
        # 종료
        if done:
            # 현재 게임 보상 누적 계산
            episode_reward += reward
    
    # 총 보상 누적 계산
    total_reward += episode_reward

  logger.warn(


In [9]:
# 총 보상 출력
print(total_reward)

# 게임당 평균 보상 출력
print(total_reward/1000)

734.0
0.734


In [10]:
from IPython.display import clear_output
from time import sleep

def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print(f"Timestep: {i + 1}")
        print(f"State: {frame['state']}")
        print(f"Action: {frame['action']}")
        print(f"Reward: {frame['reward']}")
        sleep(.1)
        
print_frames(frames)

None
Timestep: 33
State: 15
Action: 0
Reward: 0


KeyboardInterrupt: 