<a href="https://colab.research.google.com/github/nian02/pytorch-grad-cam/blob/master/RL2_FrozenLake_FromBasic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 의존성 설치 및 가상 디스플레이 생성 🔽

노트북에서는 재생 비디오를 생성할 필요가 있습니다. 이를 위해 Colab을 사용할 때 **환경을 렌더링하기 위한 가상 화면이 필요**합니다(그리고 따라서 프레임을 기록합니다).

따라서 다음 셀은 라이브러리를 설치하고 가상 화면을 생성 및 실행합니다 🖥

여러 가지를 설치할 것입니다:

- `gymnasium`: FrozenLake-v1 ⛄ 및 Taxi-v3 🚕 환경을 포함합니다.
- `pygame`: FrozenLake-v1 및 Taxi-v3 UI에 사용됩니다.
- `numpy`: Q-table을 다루는 데 사용됩니다.

Hugging Face Hub 🤗는 누구나 모델과 데이터셋을 공유하고 탐색할 수 있는 중앙 장소로 기능합니다. 버전 관리, 메트릭, 시각화 및 다른 기능들이 협업을 쉽게 할 수 있도록 도와줍니다.

여기에서 Q Learning을 사용하는 모든 Deep RL 모델을 볼 수 있습니다 👉 https://huggingface.co/models?other=q-learning

In [None]:
!pip install -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit2/requirements-unit2.txt

Collecting gymnasium (from -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit2/requirements-unit2.txt (line 1))
  Downloading gymnasium-0.29.1-py3-none-any.whl (953 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/953.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━[0m [32m593.9/953.9 kB[0m [31m17.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m953.9/953.9 kB[0m [31m15.3 MB/s[0m eta [36m0:00:00[0m
Collecting pickle5 (from -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit2/requirements-unit2.txt (line 6))
  Downloading pickle5-0.0.11.tar.gz (132 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.1/132.1 kB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pyyaml==6.0 (from -r https://raw.githubu

## Colab 환경 설정

Colab에서는 일부 환경 설정이나 라이브러리 설치를 위해 Linux 패키지 관리자인 `apt`와 Python 패키지 관리자인 `pip` 명령어를 사용합니다. 아래 설명은 각 명령어가 수행하는 작업에 대해 설명합니다.

### 시스템 패키지 업데이트

```markdown
!sudo apt-get update
```
이 명령어는 사용 가능한 모든 패키지의 목록을 최신 상태로 업데이트합니다. 이 과정을 통해 다음에 설치할 패키지들의 최신 버전을 가져올 수 있습니다.

### Python OpenGL 설치

```markdown
!sudo apt-get install -y python3-opengl
```
이 명령어는 Python을 위한 OpenGL 라이브러리를 설치합니다. OpenGL은 크로스 플랫폼의 그래픽 API로, 3D 그래픽 프로그래밍에 주로 사용됩니다. 이 라이브러리는 Python 프로그램에서 3D 그래픽스를 렌더링하기 위해 필요합니다.

### FFmpeg 및 Xvfb 설치

```markdown
!apt install ffmpeg xvfb
```
- `ffmpeg`: 동영상 파일의 변환, 스트리밍 및 재생을 위한 커맨드라인 도구입니다. 동영상 처리나 오디오/비디오 기록, 변환 작업에 사용됩니다.
- `xvfb`: X Virtual FrameBuffer는 그래픽 디스플레이 기능을 제공하지 않는 서버에서 GUI 프로그램을 실행할 수 있게 해주는 가상 디스플레이 서버입니다. 즉, 실제 디스플레이 없이 그래픽 애플리케이션을 실행할 수 있게 해줍니다.

### PyVirtualDisplay 설치

```markdown
!pip3 install pyvirtualdisplay
```
`PyVirtualDisplay`는 Python으로 가상 디스플레이를 쉽게 생성하고 관리할 수 있게 해주는 라이브러리입니다. `Xvfb`, `Xephyr`, `Xvnc`와 같은 가상 디스플레이 서버를 사용하여, 실제 모니터 없이도 GUI 프로그램을 실행하는 환경을 구성할 수 있습니다. 이는 특히 서버 환경이나 자동화된 테스트에서 유용하게 사용됩니다.

In [None]:
!sudo apt-get update
!sudo apt-get install -y python3-opengl
!apt install ffmpeg xvfb
!pip3 install pyvirtualdisplay

0% [Working]            Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
0% [Waiting for headers] [Connecting to security.ubuntu.com (91.189.91.82)] [Co                                                                               Get:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [119 kB]
                                                                               Get:3 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
0% [2 InRelease 80.8 kB/119 kB 68%] [Connecting to security.ubuntu.com (91.189.                                                                               0% [Waiting for headers] [Waiting for headers] [Waiting for headers]                                                                    Hit:4 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
0% [Waiting for headers] [Waiting for headers] [Waiting for headers]                                                          

새로 설치된 라이브러리가 사용되도록 하기 위해서, **때로는 노트북 런타임을 재시작해야 하는 경우가 있습니다**. 다음 셀은 **런타임을 강제로 종료시키므로, 다시 연결한 후 여기서부터 코드를 실행해야 합니다**. 이 트릭 덕분에, **우리는 가상 화면을 실행할 수 있게 됩니다**.

In [None]:
import os  # os 모듈을 불러옵니다. os 모듈은 운영체제와 상호작용하는 다양한 기능을 제공합니다.

# 현재 실행 중인 Python 스크립트(프로세스)를 강제 종료합니다.
os.kill(os.getpid(), 9)  # os.getpid()는 현재 프로세스의 ID를 반환합니다. 숫자 9는 SIGKILL 신호를 나타냅니다.

In [None]:
# Virtual display
from pyvirtualdisplay import Display  # pyvirtualdisplay 패키지로부터 Display 클래스를 임포트합니다.
# 이 클래스는 가상 디스플레이를 생성하고 관리하는데 사용됩니다.

virtual_display = Display(visible=0, size=(1400, 900))  # 가상 디스플레이 인스턴스를 생성합니다.
# 'visible=0' 옵션은 디스플레이가 실제로 보이지 않게 설정합니다(즉, 백그라운드에서 실행).
# 'size=(1400, 900)' 옵션은 가상 디스플레이의 해상도를 1400x900으로 설정합니다.

virtual_display.start()  # 생성한 가상 디스플레이를 시작합니다.
# 이 코드를 실행함으로써, 프로그램은 마치 물리적인 모니터가 존재하는 것처럼 GUI 애플리케이션을 렌더링할 수 있습니다.
# 이는 서버나 헤드리스 환경에서 GUI 기반 애플리케이션을 실행할 때 유용합니다.


<pyvirtualdisplay.display.Display at 0x7db1c728fc40>

## 패키지 임포트 📦

설치된 라이브러리 외에도 다음을 사용합니다:

- `random`: 임의의 숫자를 생성하기 위해 사용됩니다(이는 엡실론-탐욕 정책에 유용합니다).
- `imageio`: 재생 비디오를 생성하기 위해 사용됩니다.

In [None]:
import numpy as np  # 수학적 계산과 배열, 행렬 연산을 위한 라이브러리인 numpy를 임포트합니다.
import gymnasium as gym  # 강화 학습 환경을 제공하는 gymnasium 라이브러리를 gym이라는 이름으로 임포트합니다.
import random  # 난수 생성을 위한 라이브러리인 random을 임포트합니다.
import imageio  # 이미지를 읽고 쓰는 작업을 위한 라이브러리인 imageio를 임포트합니다.
import os  # 운영 체제와 상호작용하기 위한 다양한 기능을 제공하는 os 모듈을 임포트합니다.
import tqdm  # 반복 작업의 진행 상황을 시각적으로 표시하기 위한 라이브러리인 tqdm을 임포트합니다.

import pickle5 as pickle  # 객체를 파일로 저장하거나 파일에서 객체를 불러오기 위한 pickle 라이브러리를 pickle5 버전으로 임포트하고, pickle로 이름을 지정합니다.
from tqdm.notebook import tqdm  # Jupyter 노트북에서 사용하기 적합하도록 tqdm 라이브러리의 notebook 모듈에서 tqdm을 임포트합니다.

# Part 1: Frozen Lake ⛄ (non slippery version)

## FrozenLake 환경 생성 및 이해하기 ⛄

---

💡 환경을 사용하기 시작할 때 좋은 습관은 그 환경의 문서를 확인하는 것입니다.

👉 https://gymnasium.farama.org/environments/toy_text/frozen_lake/

---

우리는 Q-Learning 에이전트를 훈련시켜 **시작 상태(S)에서 목표 상태(G)로 오직 얼어붙은 타일(F)만 걸어서 이동하고 구멍(H)을 피하도록** 할 것입니다.

환경에는 두 가지 크기가 있습니다:

- `map_name="4x4"`: 4x4 그리드 버전
- `map_name="8x8"`: 8x8 그리드 버전

환경에는 두 가지 모드가 있습니다:

- `is_slippery=False`: 얼어붙은 호수의 미끄럽지 않은 특성 때문에 에이전트는 항상 **의도한 방향으로 이동**합니다 (결정론적).
- `is_slippery=True`: 얼어붙은 호수의 미끄러운 특성 때문에 에이전트가 **항상 의도한 방향으로 이동하지는 않을 수 있습니다** (확률적).

일단 간단하게 4x4 맵과 미끄럽지 않은 환경으로 시작해보겠습니다.
`render_mode`라고 하는 파라미터를 추가하는데, 이는 환경이 어떻게 시각화되어야 하는지를 명시합니다. 우리 경우에는 **마지막에 환경의 비디오를 녹화하고 싶기 때문에, render_mode를 rgb_array로 설정해야 합니다**.

[문서에서 설명한 바와 같이](https://gymnasium.farama.org/api/env/#gymnasium.Env.render) “rgb_array”: 환경의 현재 상태를 나타내는 단일 프레임을 반환합니다. 프레임은 (x, y, 3) 모양의 np.ndarray로, x-by-y 픽셀 이미지에 대한 RGB 값을 나타냅니다.

In [None]:
# Create the FrozenLake-v1 environment using 4x4 map and non-slippery version and render_mode="rgb_array"
env = gym.make() # TODO use the correct parameters

TypeError: make() missing 1 required positional argument: 'id'

### Solution

In [None]:
# gym 라이브러리를 사용하여 "FrozenLake-v1" 환경을 생성합니다. 이 때, 몇 가지 파라미터를 설정하여 환경을 커스터마이즈합니다.
env = gym.make(
    "FrozenLake-v1",  # 환경의 이름. 여기서는 "FrozenLake-v1"이라는 버전의 Frozen Lake 게임 환경을 사용합니다.
    map_name="4x4",  # 환경의 맵 크기를 지정합니다. "4x4"는 4x4 격자의 작은 맵을 의미합니다.
    is_slippery=False,  # 미끄러짐 여부를 설정합니다. False는 미끄럽지 않은(결정론적인 이동이 가능한) 환경을 의미합니다.
    render_mode="rgb_array"  # 환경의 시각화 방식을 설정합니다. "rgb_array"는 환경의 현재 상태를 나타내는 RGB 배열을 반환하도록 설정합니다.
    # 이는 나중에 비디오 녹화나 시각화에 유용하게 사용될 수 있습니다.
)


이렇게 자신만의 맞춤형 격자를 생성할 수 있습니다:

```python
desc=["SFFF", "FHFH", "FFFH", "HFFG"]
gym.make('FrozenLake-v1', desc=desc, is_slippery=True)
```

하지만 우리는 지금은 기본 환경을 사용할 것입니다.

### Let's see what the Environment looks like:


In [None]:
# 우리는 gym.make("<환경의_이름>")을 사용하여 환경을 생성합니다. - `is_slippery=False`: 얼어붙은 호수의 미끄럽지 않은 특성 때문에 에이전트는 항상 의도한 방향으로 이동합니다 (결정론적).
print("_____관측 공간_____ \n")
print("관측 공간", env.observation_space)
print("샘플 관측치", env.observation_space.sample()) # 임의의 관측치를 얻습니다

_____관측 공간_____ 

관측 공간 Discrete(16)
샘플 관측치 11


`Observation Space Shape Discrete(16)`을 보면, 관측치는 **에이전트의 현재 위치를 현재 행 * 열의 수 + 현재 열 (여기서 행과 열 모두 0에서 시작)**로 나타내는 정수입니다.

예를 들어, 4x4 맵에서 목표 위치는 다음과 같이 계산될 수 있습니다: 3 * 4 + 3 = 15. 가능한 관측치의 수는 맵의 크기에 따라 다릅니다. **예를 들어, 4x4 맵은 16개의 가능한 관측치가 있습니다.**

예를 들어, 이것이 state = 0일 때의 모습입니다:

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/frozenlake.png" alt="FrozenLake">

In [None]:
print("\n _____행동 공간_____ \n")
print("행동 공간 크기", env.action_space.n)
print("행동 공간 샘플", env.action_space.sample()) # 임의의 행동을 취합니다


 _____행동 공간_____ 

행동 공간 크기 4
행동 공간 샘플 2


에이전트가 취할 수 있는 가능한 행동의 집합인 행동 공간은 4가지 행동이 가능한 이산적 공간입니다 🎮:
- 0: 왼쪽으로 이동
- 1: 아래로 이동
- 2: 오른쪽으로 이동
- 3: 위로 이동

보상 함수 💰:
- 목표 도달: +1
- 구멍 도달: 0
- 얼음 도달: 0

## Q-테이블 생성 및 초기화 🗄️

(👀 의사 코드의 1단계)

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>

Q-테이블을 초기화할 시간입니다! 몇 개의 행(상태)과 열(행동)을 사용해야 하는지 알기 위해서는, 행동과 관측 공간을 알아야 합니다. 이전에 그 값들을 알고 있지만, 다양한 환경에 대해 우리 알고리즘이 일반화되도록 프로그래밍적으로 그것들을 얻고 싶을 것입니다. Gym은 이를 위한 방법을 제공합니다: `env.action_space.n` 과 `env.observation_space.n`

In [None]:
state_space =
print("There are ", state_space, " possible states")

action_space =
print("There are ", action_space, " possible actions")

SyntaxError: invalid syntax (<ipython-input-14-35328d4257a5>, line 1)

In [None]:
# Let's create our Qtable of size (state_space, action_space) and initialized each values at 0 using np.zeros. np.zeros needs a tuple (a,b)
def initialize_q_table(state_space, action_space):
  Qtable =
  return Qtable

SyntaxError: invalid syntax (<ipython-input-15-5aeba7260327>, line 3)

In [None]:
Qtable_frozenlake = initialize_q_table(state_space, action_space)

NameError: name 'initialize_q_table' is not defined

### Solution

In [None]:
state_space = env.observation_space.n
print("There are ", state_space, " possible states")

action_space = env.action_space.n
print("There are ", action_space, " possible actions")

There are  16  possible states
There are  4  possible actions


In [None]:
# Let's create our Qtable of size (state_space, action_space) and initialized each values at 0 using np.zeros
def initialize_q_table(state_space, action_space):
  Qtable = np.zeros((state_space, action_space))
  return Qtable

In [None]:
Qtable_frozenlake = initialize_q_table(state_space, action_space)

## 탐욕 정책 정의 🤖

Q-Learning이 **off-policy** 알고리즘인 것을 기억합시다. 이는 우리가 **행동과 가치 함수의 업데이트를 위해 다른 정책을 사용**한다는 것을 의미합니다.

- Epsilon-greedy 정책 (행동 정책)
- Greedy 정책 (업데이트 정책)

Greedy 정책은 Q-learning 에이전트가 훈련을 완료했을 때 우리가 가지게 될 최종 정책이기도 합니다. Greedy 정책은 Q-table을 사용하여 행동을 선택하는 데 사용됩니다.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/off-on-4.jpg" alt="Q-Learning" width="100%"/>

탐욕 정책(Greedy Policy)과 엡실론 탐욕 정책(Epsilon-Greedy Policy)은 강화 학습, 특히 Q-Learning과 같은 가치 기반 방법에서 에이전트의 행동 선택 방법을 결정하는 데 사용되는 중요한 전략입니다.

### 탐욕 정책 (Greedy Policy)

탐욕 정책은 가장 간단한 형태의 행동 선택 정책 중 하나입니다. 이 정책에 따르면, 에이전트는 현재 상태에서 가능한 모든 행동에 대해 예상되는 가치가 가장 높은 행동을 선택합니다. 즉, 가장 높은 Q-값을 가진 행동을 선택하는 것입니다. 이 접근 방식은 매우 효율적이지만, 새로운 환경을 탐색하는 데 있어서는 한계가 있습니다. 에이전트가 충분히 탐색하지 않고 빠르게 최적의 경로를 찾아내려고 하면, 최적이 아닌 솔루션에 수렴할 위험이 있습니다.

### 엡실론 탐욕 정책 (Epsilon-Greedy Policy)

엡실론 탐욕 정책은 탐욕 정책의 한계를 극복하기 위해 탐색(Exploration)과 활용(Exploitation) 사이의 균형을 맞추는 전략입니다. 이 정책은 대부분의 시간 동안은 최적의 행동(가장 높은 Q-값을 가진 행동)을 선택하여 활용하지만, 정해진 확률 엡실론(ε)에 따라 무작위 행동을 선택하여 탐색합니다. 이 확률은 일반적으로 0과 1 사이의 작은 값으로 설정됩니다.

엡실론의 값에 따라, 에이전트는 새로운 행동을 탐색할 기회를 가지게 되며, 이는 장기적으로 더 나은 결정을 내릴 수 있도록 합니다. 예를 들어, ε = 0.1이라면, 에이전트는 90%의 확률로 최적의 행동을 선택하고, 10%의 확률로 임의의 행동을 선택합니다.

### 정책의 선택

- **탐욕 정책**은 확실한 환경에서 빠르게 최적의 해답을 찾을 때 유용합니다.
- **엡실론 탐욕 정책**은 탐색이 중요한 불확실한 환경에서 더 나은 선택입니다. 이 정책을 통해 에이전트는 더 많은 상태와 행동을 경험하며, 최적의 정책을 발견할 가능성이 높아집니다.

엡실론 탐욕 정책은 강화 학습에서 흔히 사용되는 전략이며, Q-Learning이나 SARSA와 같은 알고리즘에서 에이전트가 다양한 상황을 탐색하고 학습하는 데 필수적인 역할을 합니다.

In [None]:
def greedy_policy(Qtable, state):
  # Exploitation: take the action with the highest state, action value
  action =

  return action

SyntaxError: invalid syntax (<ipython-input-20-465ed89b6eee>, line 3)

#### Solution

In [None]:
def greedy_policy(Qtable, state):
  # Exploitation: take the action with the highest state, action value
  action = np.argmax(Qtable[state][:])

  return action

본 문제에서 제시된 탐욕 정책(Greedy Policy) 함수는 에이전트가 현재 상태에서 가능한 행동들 중에서 예상되는 가치(Q-값)가 가장 높은 행동을 선택하도록 설계되어 있습니다. 이 함수는 Q-테이블과 현재 상태를 입력으로 받아, 해당 상태에서 가장 높은 Q-값을 가진 행동을 선택합니다. 이는 "활용(Exploitation)"의 개념에 기반한 것으로, 에이전트는 이미 알고 있는 정보를 기반으로 최적의 보상을 얻기 위한 행동을 선택합니다.

함수의 구현은 다음과 같은 과정을 따릅니다:
- `Qtable[state][:]`: 현재 상태에 해당하는 Q-테이블의 행을 가져옵니다. 이 행은 해당 상태에서 각 행동을 선택했을 때의 예상되는 가치(Q-값)를 포함하고 있습니다.
- `np.argmax(Qtable[state][:])`: numpy의 `argmax` 함수를 사용하여 가장 높은 Q-값을 가진 행동의 인덱스(즉, 선택해야 할 행동)를 찾습니다. 이는 현재 상태에서 에이전트가 취할 수 있는 최적의 행동을 나타냅니다.

이러한 탐욕 정책은 간단하고 직관적이지만, 항상 새로운 환경을 탐색하지는 않기 때문에 에이전트가 지역 최적해에 갇힐 위험이 있습니다. 즉, 에이전트가 다양한 경험을 충분히 하지 못하고 알려진 경로만을 반복하게 되어, 전체적인 최적해를 찾지 못할 수 있습니다. 이를 보완하기 위해 엡실론 탐욕 정책(Epsilon-Greedy Policy)과 같은 전략이 사용되어, 일정 확률로 무작위 행동을 선택하게 하여 탐색(Exploration)과 활용(Exploitation) 사이의 균형을 맞출 수 있습니다.

## 엡실론 탐욕 정책 정의 🤖

엡실론 탐욕(Epsilon-greedy)은 탐색과 활용 사이의 균형을 다루는 훈련 정책입니다.

엡실론 탐욕의 아이디어:

- *확률 1 - ε*로: **활용을 합니다** (즉, 우리의 에이전트는 가장 높은 상태-행동 쌍 가치를 가진 행동을 선택합니다).

- *확률 ε*로: **탐색을 합니다** (임의의 행동을 시도합니다).

훈련이 계속됨에 따라, 점진적으로 **엡실론 값을 줄입니다. 왜냐하면 우리는 점점 더 적은 탐색과 더 많은 활용이 필요하기 때문입니다.**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-4.jpg" alt="Q-Learning" width="100%"/>

In [None]:
def epsilon_greedy_policy(Qtable, state, epsilon):
  # Randomly generate a number between 0 and 1
  random_num =
  # if random_num > greater than epsilon --> exploitation
  if random_num > epsilon:
    # Take the action with the highest value given a state
    # np.argmax can be useful here
    action =
  # else --> exploration
  else:
    action = # Take a random action

  return action

In [None]:
#### Solution

In [None]:
def epsilon_greedy_policy(Qtable, state, epsilon):
  # 0과 1 사이의 임의의 숫자를 생성합니다.
  random_num = random.uniform(0,1)
  # random_num이 epsilon보다 크다면 --> 활용
  if random_num > epsilon:
    # 주어진 상태에서 가장 높은 값을 가진 행동을 취합니다.
    # 여기서 np.argmax가 유용하게 사용될 수 있습니다.
    action = greedy_policy(Qtable, state)
  # 그렇지 않다면 --> 탐색
  else:
    action = env.action_space.sample()  # 환경의 행동 공간에서 임의의 행동을 샘플링합니다.

  return action


위의 코드는 엡실론 탐욕(Epsilon-Greedy) 정책을 구현한 것입니다. 이 정책은 강화 학습에서 에이전트가 환경을 탐색하는 방식을 결정하는 데 사용되며, 탐색(Exploration)과 활용(Exploitation) 사이의 균형을 맞추는 데 중요한 역할을 합니다. 코드의 주요 목적은 주어진 상태에서 에이전트가 어떤 행동을 취할지 결정하는 것입니다.

1. **랜덤 숫자 생성**: 코드는 먼저 `random.uniform(0,1)`을 사용하여 0과 1 사이의 임의의 숫자를 생성합니다. 이 숫자는 이후에 탐색을 할지 활용을 할지를 결정하는 데 사용됩니다.

2. **활용(Exploitation)**: 생성된 랜덤 숫자가 엡실론 값보다 큰 경우, 에이전트는 활용을 합니다. 즉, 현재 상태에 대해 Q-테이블에서 가장 높은 예상 보상을 가진 행동을 선택합니다. 이는 `greedy_policy` 함수를 호출하여 수행되며, `np.argmax(Qtable[state][:])`를 통해 구현됩니다. `np.argmax`는 주어진 상태에 대한 모든 가능한 행동들 중에서 가장 높은 Q값을 가진 행동을 찾아내는 함수입니다.

3. **탐색(Exploration)**: 반면, 생성된 랜덤 숫자가 엡실론 값 이하인 경우, 에이전트는 탐색을 합니다. 즉, 가능한 행동 공간에서 임의의 행동을 선택합니다. 이는 `env.action_space.sample()`을 통해 수행됩니다. 이렇게 임의의 행동을 선택함으로써 에이전트는 새로운 상태를 경험하고 학습할 기회를 얻게 됩니다.

**왜 이렇게 짜는가?**: 이 방식을 사용하는 이유는 강화 학습에서 에이전트가 환경을 너무 일찍 판단하고 최적의 해를 놓칠 수 있는 '지역 최적화(local optimum)' 문제를 방지하기 위해서입니다. 엡실론 탐욕 정책을 통해 에이전트는 충분한 탐색을 통해 환경에 대한 더 많은 정보를 수집하고, 장기적으로 더 나은 결정을 내릴 수 있습니다. 탐색과 활용 사이의 이 균형을 맞추는 것은 강화 학습에서 중요한 도전 과제 중 하나입니다.

## 하이퍼파라미터 정의 ⚙️

탐색과 관련된 하이퍼파라미터들은 가장 중요한 것들 중 일부입니다.

- 우리는 에이전트가 좋은 가치 근사치를 학습하기 위해 **상태 공간의 충분한 부분을 탐색**하는지 확인해야 합니다. 이를 위해, 엡실론의 점진적 감소가 필요합니다.
- 엡실론을 너무 빠르게 감소시키면(감소율이 너무 높으면), **에이전트가 막힐 위험이 있습니다**. 에이전트가 상태 공간의 충분한 부분을 탐색하지 못했기 때문에 문제를 해결할 수 없습니다.

In [None]:
# 훈련 파라미터
n_training_episodes = 10000  # 총 훈련 에피소드 수
learning_rate = 0.7          # 학습률

# 평가 파라미터
n_eval_episodes = 100        # 총 테스트 에피소드 수

# 환경 파라미터
env_id = "FrozenLake-v1"     # 환경의 이름
max_steps = 99               # 에피소드 당 최대 스텝 수
gamma = 0.95                 # 할인율
eval_seed = []               # 환경의 평가 시드

# 탐색 파라미터
max_epsilon = 1.0             # 시작 시 탐색 확률
min_epsilon = 0.05            # 최소 탐색 확률
decay_rate = 0.0005           # 탐색 확률의 지수적 감소율


## 훈련 루프 메서드 생성

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>

훈련 루프는 다음과 같이 진행됩니다:

```
총 훈련 에피소드에 대해 반복:

엡실론 감소(우리는 점점 더 적은 탐색이 필요)
환경 리셋

  최대 타임스텝에 대해 반복:    
    엡실론 탐욕 정책을 사용하여 행동 At를 선택
    행동(a)을 취하고 결과 상태(s')와 보상(r)을 관찰
    벨만 방정식을 사용하여 Q-값 Q(s,a) 업데이트: Q(s,a) + 학습률 [R(s,a) + 감마 * max Q(s',a') - Q(s,a)]
    만약 완료되면, 에피소드를 마침
    다음 상태는 새로운 상태임
```

이 이미지에 제시된 알고리즘은 Q-Learning, 특히 Sarsamax 버전의 강화 학습 알고리즘의 의사 코드(pseudocode)입니다. 여기에서 각 줄의 내용을 단계별로 정리하겠습니다:

1. **입력**: 정책 π, 양의 정수 num_episodes, 작은 양의 실수 α, GLIE 시퀀스 {εi}
2. **출력**: 가치 함수 Q (만약 num_episodes가 충분히 크다면 Q ≈ qπ)
3. **초기화**: Q를 임의로 설정합니다. (예: 모든 s에 대해 Q(s,a) = 0 및 종료 상태의 Q(terminal-state, :) = 0)
   - 이 단계에서, 모든 상태와 행동 쌍에 대한 Q-값을 0 또는 다른 임의의 값으로 설정합니다. 종료 상태에 대한 모든 행동은 Q-값이 0입니다.

4. **에피소드 반복 시작**: 1부터 num_episodes까지 반복합니다.
   - ε ← εi: 각 에피소드에 대한 ε 값을 업데이트합니다.
   - S0 관찰: 초기 상태를 관찰합니다.
   - t ← 0: 시간 스텝을 0으로 초기화합니다.

5. **내부 반복 시작**:
   - At를 Q에서 유도된 정책(예: ε-greedy)을 사용하여 선택합니다. 이는 에이전트가 현재 상태에 대한 최적의 행동을 선택하거나 ε 확률로 무작위 행동을 선택하는 단계입니다.
   - 행동 At를 취하고 보상 Rt+1 및 다음 상태 St+1을 관찰합니다.
   - Q-값 업데이트: Q(St, At) ← Q(St, At) + α(Rt+1 + γ maxa Q(St+1, a) - Q(St, At))
     - 이 식은 벨만 최적 방정식을 사용하여 현재 상태-행동 쌍의 Q-값을 업데이트합니다. 여기서 α는 학습률, γ는 할인율입니다.

6. **내부 반복 종료 조건**: 현재 상태 St가 종료 상태일 때까지 내부 반복을 계속합니다.

7. **에피소드 반복 종료**: 모든 에피소드에 대한 반복이 끝나면 외부 반복을 종료합니다.

8. **Q 반환**: 훈련이 끝난 후, 최종 Q-테이블을 반환합니다.

이 의사 코드는 Q-Learning 알고리즘의 전체적인 흐름을 나타내며, 각 스텝마다 강화 학습 에이전트가 어떻게 환경과 상호작용하고, 경험을 통해 학습하는지를 보여줍니다.

In [None]:
def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable):
  for episode in tqdm(range(n_training_episodes)):
    # 엡실론 값을 줄입니다 (왜냐하면 우리는 점점 더 적은 탐색을 필요로 합니다)
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)
    # 환경을 리셋합니다
    state, info = env.reset()
    step = 0
    terminated = False
    truncated = False

    # 반복
    for step in range(max_steps):
      # 엡실론 탐욕 정책을 사용하여 행동 At를 선택합니다
      action =

      # 행동 At를 취하고 Rt+1과 St+1을 관찰합니다
      # 행동(a)를 취하고 결과 상태(s')와 보상(r)을 관찰합니다
      new_state, reward, terminated, truncated, info =

      # Q(s,a)를 업데이트합니다: Q(s,a) := Q(s,a) + 학습률 [R(s,a) + 감마 * max Q(s',a') - Q(s,a)]
      Qtable[state][action] =

      # 만약 종료되었거나 중단되었다면 에피소드를 마칩니다
      if terminated or truncated:
        break

      # 다음 상태는 새로운 상태입니다
      state = new_state
  return Qtable


SyntaxError: invalid syntax (<ipython-input-24-0362642e3fd1>, line 14)

#### Solution

In [None]:

def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable):
  for episode in tqdm(range(n_training_episodes)):
    # 엡실론을 감소시킵니다 (우리는 점점 더 적은 탐색을 필요로 합니다)
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)
    # 환경을 리셋합니다
    state, info = env.reset()
    step = 0
    terminated = False
    truncated = False

    # 반복합니다
    for step in range(max_steps):
      # 엡실론 탐욕 정책을 사용하여 행동 At를 선택합니다
      action = epsilon_greedy_policy(Qtable, state, epsilon)

      # 행동 At를 취하고 보상 Rt+1과 상태 St+1을 관찰합니다
      new_state, reward, terminated, truncated, info = env.step(action)

      # Q(s,a)를 업데이트합니다: Q(s,a) := Q(s,a) + 학습률 * (보상 + 감마 * Qtable에서 new_state의 최대값 - Q(s,a))
      Qtable[state][action] = Qtable[state][action] + learning_rate * (reward + gamma * np.max(Qtable[new_state]) - Qtable[state][action])

      # 만약 terminated 상태이거나 truncated 상태라면 에피소드를 종료합니다
      if terminated or truncated:
        break

      # 다음 상태는 새로운 상태입니다
      state = new_state
  return Qtable


## Train the Q-Learning agent 🏃

In [None]:
Qtable_frozenlake = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable_frozenlake)

  0%|          | 0/10000 [00:00<?, ?it/s]

## Let's see what our Q-Learning table looks like now 👀


In [None]:
Qtable_frozenlake

array([[0.73509189, 0.77378094, 0.77378094, 0.73509189],
       [0.73509189, 0.        , 0.81450625, 0.77378094],
       [0.77378094, 0.857375  , 0.77378094, 0.81450625],
       [0.81450625, 0.        , 0.77378094, 0.77378094],
       [0.77378094, 0.81450625, 0.        , 0.73509189],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.        , 0.81450625],
       [0.        , 0.        , 0.        , 0.        ],
       [0.81450625, 0.        , 0.857375  , 0.77378094],
       [0.81450625, 0.9025    , 0.9025    , 0.        ],
       [0.857375  , 0.95      , 0.        , 0.857375  ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.95      , 0.857375  ],
       [0.9025    , 0.95      , 1.        , 0.9025    ],
       [0.        , 0.        , 0.        , 0.        ]])

## 평가 방법 📝

- 우리는 Q-Learning 에이전트를 테스트하기 위해 사용할 평가 방법을 정의했습니다.

In [None]:
def evaluate_agent(env, max_steps, n_eval_episodes, Q, seed):
  """
  에이전트를 ``n_eval_episodes`` 에피소드 동안 평가하고 평균 보상과 보상의 표준 편차를 반환합니다.
  :param env: 평가 환경
  :param max_steps: 에피소드당 최대 스텝 수
  :param n_eval_episodes: 에이전트를 평가할 에피소드 수
  :param Q: Q-테이블
  :param seed: 평가 시드 배열 (taxi-v3용)
  """
  episode_rewards = []  # 각 에피소드의 총 보상을 저장할 리스트
  for episode in tqdm(range(n_eval_episodes)):  # 평가할 에피소드 수만큼 반복
    if seed:
      state, info = env.reset(seed=seed[episode])  # 시드가 있다면 시드를 사용하여 환경 리셋
    else:
      state, info = env.reset()  # 시드가 없다면 일반적으로 환경 리셋
    step = 0
    truncated = False
    terminated = False
    total_rewards_ep = 0  # 현재 에피소드의 총 보상

    for step in range(max_steps):  # 최대 스텝 수만큼 반복
      # 현재 상태에서 미래 보상이 예상되는 최대값을 가지는 행동을 선택
      action = greedy_policy(Q, state)
      new_state, reward, terminated, truncated, info = env.step(action)
      total_rewards_ep += reward  # 보상을 총 보상에 추가

      if terminated or truncated:  # 에피소드가 종료되거나 중단되면 반복 중단
        break
      state = new_state  # 새로운 상태를 현재 상태로 업데이트
    episode_rewards.append(total_rewards_ep)  # 현재 에피소드의 총 보상을 리스트에 추가
  mean_reward = np.mean(episode_rewards)  # 평균 보상 계산
  std_reward = np.std(episode_rewards)  # 보상의 표준 편차 계산

  return mean_reward, std_reward  # 평균 보상과 표준 편차 반환


위의 `evaluate_agent` 함수는 Q-Learning 에이전트의 성능을 평가하는 과정입니다. 평가는 에이전트가 환경에서 어떻게 작동하는지, 즉 주어진 정책(Q-테이블)을 바탕으로 얼마나 좋은 보상을 얻는지를 측정합니다. 다음 단계에 따라 진행됩니다:

1. **환경 설정**: 평가할 환경(`env`), 에피소드 당 최대 스텝 수(`max_steps`), 평가할 에피소드의 수(`n_eval_episodes`), Q-테이블(`Q`), 그리고 선택적으로 환경의 시드(`seed`)를 매개변수로 받습니다.

2. **에피소드 반복**: `n_eval_episodes`의 수만큼 에피소드를 반복 실행합니다. 각 에피소드에 대해서:

   - 환경은 `env.reset()`을 호출함으로써 초기 상태로 리셋됩니다. 만약 `seed` 배열이 제공되면, 이를 환경 리셋에 사용하여 결과의 일관성을 보장합니다.
   
   - 내부적으로, 에피소드의 각 스텝에 대해 반복을 수행합니다. `max_steps`는 에피소드가 최대로 진행할 수 있는 스텝 수를 정의합니다.

3. **행동 선택**: 현재 상태에 기반하여 `greedy_policy` 함수를 사용해 탐욕적으로 행동을 선택합니다. 이는 Q-테이블에서 주어진 상태에 대한 최대 Q-값을 가진 행동을 의미합니다.

4. **행동 실행 및 관찰**: 선택된 행동을 환경에 적용하고(`env.step(action)`), 새로운 상태(`new_state`), 보상(`reward`), 그리고 에피소드가 종료되었는지(`terminated`) 또는 중단되었는지(`truncated`)를 관찰합니다.

5. **보상 누적**: 각 스텝에서 얻은 보상을 총 보상에 더합니다(`total_rewards_ep += reward`).

6. **에피소드 종료 조건 검사**: 에피소드가 `terminated` 또는 `truncated` 상태에 도달하면 현재 에피소드를 종료하고 다음 에피소드로 넘어갑니다.

7. **에피소드 보상 기록**: 각 에피소드가 끝날 때마다, 그 에피소드에서 얻은 총 보상을 `episode_rewards` 리스트에 추가합니다.

8. **통계 계산**: 모든 에피소드의 평가가 끝나면, 총 보상 리스트를 사용하여 평균 보상(`mean_reward`)과 보상의 표준 편차(`std_reward`)를 계산합니다.

9. **결과 반환**: 계산된 평균 보상과 표준 편차를 반환하여 에이전트의 성능을 나타냅니다.

이 평가 메서드는 에이전트가 얼마나 잘 학습했는지를 객관적으로 측정하는 데 사용됩니다. 평균 보상이 높고 표준 편차가 낮을수록 에이전트는 환경에서 일관되게 좋은 성능을 내고 있다고 볼 수 있습니다.

## Q-Learning 에이전트 평가하기 📈

- 일반적으로 평균 보상이 1.0이 되어야 합니다.
- **환경은 상대적으로 쉽습니다**. 왜냐하면 상태 공간이 매우 작기 때문입니다(16개). 시도해볼 수 있는 것은 [미끄러운 버전으로 교체하는 것](https://gymnasium.farama.org/environments/toy_text/frozen_lake/)인데, 이는 확률성을 도입하여 환경을 더 복잡하게 만듭니다.

In [None]:
# Evaluate our Agent
mean_reward, std_reward = evaluate_agent(env, max_steps, n_eval_episodes, Qtable_frozenlake, eval_seed)
print(f"Mean_reward={mean_reward:.2f} +/- {std_reward:.2f}")

  0%|          | 0/100 [00:00<?, ?it/s]

Mean_reward=1.00 +/- 0.00


#### Do not modify this code

In [None]:
from huggingface_hub import HfApi, snapshot_download
from huggingface_hub.repocard import metadata_eval_result, metadata_save

from pathlib import Path
import datetime
import json

In [None]:
def record_video(env, Qtable, out_directory, fps=1):
  """
  Generate a replay video of the agent
  :param env
  :param Qtable: Qtable of our agent
  :param out_directory
  :param fps: how many frame per seconds (with taxi-v3 and frozenlake-v1 we use 1)
  """
  images = []
  terminated = False
  truncated = False
  state, info = env.reset(seed=random.randint(0,500))
  img = env.render()
  images.append(img)
  while not terminated or truncated:
    # Take the action (index) that have the maximum expected future reward given that state
    action = np.argmax(Qtable[state][:])
    state, reward, terminated, truncated, info = env.step(action) # We directly put next_state = state for recording logic
    img = env.render()
    images.append(img)
  imageio.mimsave(out_directory, [np.array(img) for i, img in enumerate(images)], fps=fps)

  and should_run_async(code)


In [None]:
def push_to_hub(
    repo_id, model, env, video_fps=1, local_repo_path="hub"
):
    """
    Evaluate, Generate a video and Upload a model to Hugging Face Hub.
    This method does the complete pipeline:
    - It evaluates the model
    - It generates the model card
    - It generates a replay video of the agent
    - It pushes everything to the Hub

    :param repo_id: repo_id: id of the model repository from the Hugging Face Hub
    :param env
    :param video_fps: how many frame per seconds to record our video replay
    (with taxi-v3 and frozenlake-v1 we use 1)
    :param local_repo_path: where the local repository is
    """
    _, repo_name = repo_id.split("/")

    eval_env = env
    api = HfApi()

    # Step 1: Create the repo
    repo_url = api.create_repo(
        repo_id=repo_id,
        exist_ok=True,
    )

    # Step 2: Download files
    repo_local_path = Path(snapshot_download(repo_id=repo_id))

    # Step 3: Save the model
    if env.spec.kwargs.get("map_name"):
        model["map_name"] = env.spec.kwargs.get("map_name")
        if env.spec.kwargs.get("is_slippery", "") == False:
            model["slippery"] = False

    # Pickle the model
    with open((repo_local_path) / "q-learning.pkl", "wb") as f:
        pickle.dump(model, f)

    # Step 4: Evaluate the model and build JSON with evaluation metrics
    mean_reward, std_reward = evaluate_agent(
        eval_env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"]
    )

    evaluate_data = {
        "env_id": model["env_id"],
        "mean_reward": mean_reward,
        "n_eval_episodes": model["n_eval_episodes"],
        "eval_datetime": datetime.datetime.now().isoformat()
    }

    # Write a JSON file called "results.json" that will contain the
    # evaluation results
    with open(repo_local_path / "results.json", "w") as outfile:
        json.dump(evaluate_data, outfile)

    # Step 5: Create the model card
    env_name = model["env_id"]
    if env.spec.kwargs.get("map_name"):
        env_name += "-" + env.spec.kwargs.get("map_name")

    if env.spec.kwargs.get("is_slippery", "") == False:
        env_name += "-" + "no_slippery"

    metadata = {}
    metadata["tags"] = [env_name, "q-learning", "reinforcement-learning", "custom-implementation"]

    # Add metrics
    eval = metadata_eval_result(
        model_pretty_name=repo_name,
        task_pretty_name="reinforcement-learning",
        task_id="reinforcement-learning",
        metrics_pretty_name="mean_reward",
        metrics_id="mean_reward",
        metrics_value=f"{mean_reward:.2f} +/- {std_reward:.2f}",
        dataset_pretty_name=env_name,
        dataset_id=env_name,
    )

    # Merges both dictionaries
    metadata = {**metadata, **eval}

    model_card = f"""
  # **Q-Learning** Agent playing1 **{env_id}**
  This is a trained model of a **Q-Learning** agent playing **{env_id}** .

  ## Usage

  ```python

  model = load_from_hub(repo_id="{repo_id}", filename="q-learning.pkl")

  # Don't forget to check if you need to add additional attributes (is_slippery=False etc)
  env = gym.make(model["env_id"])
  ```
  """

    evaluate_agent(env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"])

    readme_path = repo_local_path / "README.md"
    readme = ""
    print(readme_path.exists())
    if readme_path.exists():
        with readme_path.open("r", encoding="utf8") as f:
            readme = f.read()
    else:
        readme = model_card

    with readme_path.open("w", encoding="utf-8") as f:
        f.write(readme)

    # Save our metrics to Readme metadata
    metadata_save(readme_path, metadata)

    # Step 6: Record a video
    video_path = repo_local_path / "replay.mp4"
    record_video(env, model["qtable"], video_path, video_fps)

    # Step 7. Push everything to the Hub
    api.upload_folder(
        repo_id=repo_id,
        folder_path=repo_local_path,
        path_in_repo=".",
    )

    print("Your model is pushed to the Hub. You can view your model here: ", repo_url)

In [None]:
import imageio
import numpy as np
import gym
import random

def record_video(env, Qtable, out_directory, fps=1):
    images = []  # 이미지를 저장할 리스트
    state = env.reset()  # 환경을 리셋하고 초기 상태를 얻음
    img = env.render(mode='rgb_array')  # 현재 환경의 이미지를 얻음
    images.append(img)
    terminated = False
    while not terminated:
        action = np.argmax(Qtable[state])  # Q-테이블을 사용하여 최적의 행동을 선택
        new_state, reward, terminated, truncated, info = env.step(action)
        img = env.render(mode='rgb_array')  # 취한 행동 이후의 환경 이미지를 얻음
        images.append(img)
    imageio.mimsave(out_directory, [np.array(img) for img in images], fps=fps)  # 이미지 리스트를 비디오 파일로 저장

# 환경과 Q-테이블 설정
env = gym.make('FrozenLake-v1', is_slippery=False, new_step_api=True)  # 예시 환경
Qtable = np.zeros((env.observation_space.n, env.action_space.n))  # 예시 Q-테이블, 실제 사용시 학습된 Q-테이블을 사용해야 함
out_directory = './video.mp4'  # 비디오를 저장할 경로

# 녹화 실행
record_video(env, Qtable, out_directory, fps=1)


See here for more information: https://www.gymlibrary.ml/content/api/[0m
  deprecation(
  if not isinstance(terminated, (bool, np.bool8)):


KeyboardInterrupt: 

In [None]:
!rm -rf video_output

In [None]:
import imageio
import numpy as np
import gym
import random
import os
from tqdm import tqdm

def epsilon_greedy_policy(Q, state, epsilon):
    if random.uniform(0, 1) < epsilon:
        return random.randint(0, env.action_space.n - 1)
    else:
        return np.argmax(Q[state])

def train_agent(env, max_steps, n_episodes, alpha, gamma, epsilon_start, epsilon_end, epsilon_decay, out_directory, record_every):
    Q = np.zeros((env.observation_space.n, env.action_space.n))
    epsilon = epsilon_start

    for episode in tqdm(range(n_episodes)):
        state = env.reset()
        truncated = False
        terminated = False

        images = []
        step = 0

        while not (terminated or truncated) and step < max_steps:
            action = epsilon_greedy_policy(Q, state, epsilon)
            new_state, reward, terminated, truncated, info = env.step(action)

            if terminated:
                target = reward
            else:
                target = reward + gamma * np.max(Q[new_state])

            Q[state, action] = Q[state, action] + alpha * (target - Q[state, action])

            if episode % record_every == 0:
                img = env.render(mode='rgb_array')
                images.append(img)

            state = new_state
            step += 1

        if episode % record_every == 0:
            video_path = os.path.join(out_directory, f'episode_{episode:05d}.mp4')
            imageio.mimsave(video_path, [np.array(img) for img in images], fps=30)

        epsilon = max(epsilon_end, epsilon * epsilon_decay)

    return Q

def create_final_video(out_directory, final_video_path, fps=30):
    video_paths = [os.path.join(out_directory, f) for f in os.listdir(out_directory) if f.endswith('.mp4')]
    video_paths.sort(key=lambda x: int(x.split('_')[-1].split('.')[0]))

    with imageio.get_writer(final_video_path, fps=fps) as writer:
        for video_path in video_paths:
            video = imageio.get_reader(video_path)
            for frame in video:
                writer.append_data(frame)

    for video_path in video_paths:
        os.remove(video_path)

env = gym.make('FrozenLake-v1', is_slippery=False, new_step_api=True)
max_steps = 100
# 수정된 하이퍼파라미터
n_episodes = 50000
alpha = 0.05
gamma = 0.99
epsilon_start = 1.0
epsilon_end = 0.01
epsilon_decay = 0.999
record_every = 100
out_directory = './training_videos'
os.makedirs(out_directory, exist_ok=True)

Qtable = train_agent(env, max_steps, n_episodes, alpha, gamma, epsilon_start, epsilon_end, epsilon_decay, out_directory, record_every)

final_video_path = './training_video.mp4'
create_final_video(out_directory, final_video_path, fps=10)

100%|██████████| 50000/50000 [00:54<00:00, 913.31it/s]
