### frozen lake Q-learning

In [1]:
# Q러닝 방법

# 특정 상황에서 특정한 행동을 할 때 최적의 Policy를 학습하는 방법

# Q: 현재 상태에서 취한 행동의 보상에 대한 quality

import gym

import numpy as np

# 환경 생성

env = gym.make('FrozenLake-v1')

In [2]:
# Q값을 저장할 테이블을 초기화

# rows: cell의 수

# cols: 이동할 수 있는 방향의 수

q_func = np.zeros((16, 4))
q_func

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [3]:
# 총 보상

total_reward = 0.0

# 게임 시작

for i_episode in range(10000):

    # 초기화

    observation = env.reset()[0]

    # 현재 게임의 보상

    episode_reward = 0.0

    

    for t in range(100):

        # 1턴 실행 후의 위치를 현재 위치로 설정

        current_state = observation

        

        #랜덤값이 0.1 미만이면

        if np.random.rand() < 0.1:

            # 무작위로 행동을 선택함

            action = env.action_space.sample()

        else:

            # Q값이 최대가 되는 행동을 선택함

            action = np.argmax(q_func[current_state])

        # 1턴 실행
        # observatoin: 에이전트의 위치, reward : 행동의 결과로 받은 보상, done: 게임 종료 여부,

        # info: 행동을 취할 확률

        observation, reward, done, _, info = env.step(action)

        

        # Q값 업데이트(학습률 0.3, 할인율 0.99)

        # 학습률: 초반에는 행동-보상에 대한 경험 부족으로 학습률을 낮추는 것이 좋음, 학습이 진행될수록 경험이 쌓이므로 학습률을 높이는 것이 좋음

        # 할인율을 곱하고 보상을 더한 값으로 Q를 업데이트

        # 할인율(미래 가치를 현재 가치로 환산, 미래 가치에 대한 보상)

        # 할인율이 너무 작으면 바로 다음 행동에만 관심(근시안적), 할인율이 너무 높으면 미래의 보상을 기대하여 원시안적인 행동

        q_func[current_state,action] += 0.3 * (reward + 0.99 * np.max(q_func[observation,:]) - q_func[current_state,action])

        # 종료

        if done:

            # 현재 게임 보상 누적 계산

            episode_reward += reward

            

    # 총 보상 누적 계산

    total_reward += episode_reward

  if not isinstance(terminated, (bool, np.bool8)):


In [4]:
# 총 보상 출력
print(total_reward)

# 게임당 평균 보상 출력
print(total_reward/10000)

1951.0
0.1951


In [5]:
# 학습된 Q값을 출력

q_func

array([[0.60302147, 0.57821768, 0.57900051, 0.56832883],
       [0.43971746, 0.33984252, 0.23706362, 0.56321824],
       [0.45410315, 0.45223527, 0.46622286, 0.52969238],
       [0.21301842, 0.21362983, 0.29834325, 0.50275113],
       [0.62884804, 0.44996668, 0.59120585, 0.60383932],
       [0.        , 0.        , 0.        , 0.        ],
       [0.22213372, 0.01726342, 0.32189036, 0.00911149],
       [0.        , 0.        , 0.        , 0.        ],
       [0.19428954, 0.46339406, 0.46892885, 0.67497066],
       [0.32116647, 0.6777264 , 0.57456724, 0.44067703],
       [0.55434568, 0.47945188, 0.25478901, 0.43715   ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.57429359, 0.73183299, 0.88288436, 0.4955061 ],
       [0.82804594, 0.90957383, 0.83117876, 0.77211357],
       [0.        , 0.        , 0.        , 0.        ]])

In [6]:
#학습된 Q값을 사용하여 게임 진행

# 총 보상

total_reward = 0.0

frames=[]

from gym.wrappers.record_video import RecordVideo
from IPython.display import Video

env = gym.make("FrozenLake-v1", render_mode='rgb_array')

env = RecordVideo(env, "video", name_prefix="lake-qlearning")

env.reset(seed=42)

# 게임 시작

for i_episode in range(730):

    

    # 초기화

    observation = env.reset()[0]

    # 현재 게임의 보상

    episode_reward = 0.0

    

    for t in range(100):

        # 1턴 실행 후의 위치를 현재 위치로 삼음

        current_state = observation

        

        # Q값이 최대가 되는 행동을 선택함

        action = np.argmax(q_func[current_state])

        

        # 1턴 실행

        observation, reward, done, _, info = env.step(action)

        # 종료

        if done:

            # 현재 게임 보상 누적 계산

            episode_reward += reward

    

    # 총 보상 누적 계산

    total_reward += episode_reward

env.close()

  logger.warn(


Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-0.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-0.mp4



                                                  

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-0.mp4
Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-1.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-1.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-1.mp4
Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-8.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-8.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-8.mp4
Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-27.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-27.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-27.mp4
Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-64.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-64.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-64.mp4
Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-125.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-125.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-125.mp4
Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-216.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-216.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-216.mp4




Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-343.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-343.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-343.mp4




Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-512.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-512.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-512.mp4




Moviepy - Building video c:\workspace3\230925\video\lake-qlearning-episode-729.mp4.
Moviepy - Writing video c:\workspace3\230925\video\lake-qlearning-episode-729.mp4



                                                   

Moviepy - Done !
Moviepy - video ready c:\workspace3\230925\video\lake-qlearning-episode-729.mp4




In [7]:
Video("video/lake-qlearning-episode-0.mp4", embed=True)

In [8]:
# 총 보상 출력

print(total_reward)

# 게임당 평균 보상 출력

print(total_reward/1000)



556.0
0.556


In [9]:
from IPython.display import clear_output
from time import sleep

def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)

        print(frame['frame'])
        print(f"Timestep: {i + 1}")
        print(f"State: {frame['state']}")
        print(f"Action: {frame['action']}")
        print(f"Reward: {frame['reward']}")
        sleep(.1)

print_frames(frames)