# 第 2 单元：将 Q-Learning 算法应用于 FrozenLake-v1 ⛄ and Taxi-v3 🚕

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/thumbnail.jpg" alt="Unit 2 Thumbnail">

在本 notebook 中，**你将从头开始编写你的第一个强化学习智能体**，使用 Q-Learning 算法来玩 FrozenLake ❄️，并将其与社区分享，还将尝试不同的配置。

⬇️ 以下是你**在几分钟内就能实现**的示例。⬇️


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/envs.gif" alt="Environments"/>

###🎮 环境:

- [FrozenLake-v1](https://gymnasium.farama.org/environments/toy_text/frozen_lake/)
- [Taxi-v3](https://gymnasium.farama.org/environments/toy_text/taxi/)

###📚 RL 库:

- Python and NumPy
- [Gymnasium](https://gymnasium.farama.org/)

我们一直在努力改进我们的教程，因此，**如果你在本 notebook 中发现任何问题**，请[在 GitHub 仓库中提出 issue](https://github.com/huggingface/deep-rl-class/issues)。

## 本 notebook 的目标 🏆

完成本 notebook 后，你将能够：

- 能够使用 **Gymnasium**，即环境库。
- 能够从头开始编写 Q-Learning 智能体。
- 能够**将你训练好的智能体和代码推送到 Hub**，并附上精美的视频回放和评估分数 🔥。




## 本 notebook 来自深度强化学习课程

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/deep-rl-course-illustration.jpg" alt="Deep RL Course illustration"/>

在这门免费课程中，你将：

- 📖 从**理论和实践**两方面学习深度强化学习。
- 🧑‍💻 学习**使用著名的深度强化学习库**，如 Stable Baselines3、RL Baselines3 Zoo、CleanRL 和 Sample Factory 2.0。
- 🤖 在**独特的环境中训练智能体**

更多内容请查看 📚 课程大纲 👉 https://simoninithomas.github.io/deep-rl-course

别忘了**<a href="http://eepurl.com/ic5ZUD">报名参加课程</a>**（我们会收集你的电子邮件，以便在每个单元发布时**向你发送链接，并为你提供有关挑战和更新的信息）。**


保持联系的最佳方式是加入我们的 Discord 服务器，与社区和我们交流 👉🏻 https://discord.gg/ydHrjt3WP5

## 先决条件 🏗️

在深入学习本 notebook 之前，你需要：

🔲 📚 **通过阅读第 2 单元来学习 [Q-Learning](https://huggingface.co/deep-rl-course/unit2/introduction)** 🤗

## Q-Learning 简介

*Q-Learning* **是这样一种强化学习算法**：

- 训练 *Q-Function*，这是一个**动作价值函数**，通过一个*Q-table* **在内存中进行编码，该 Q-table 包含所有状态-动作对的值**。

- 给定一个状态和动作，我们的 Q-Function **将在 Q-table 中搜索相应的值。**
    
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-function-2.jpg" alt="Q function"  width="100%"/>

- 训练完成后，**我们得到一个最优的 Q-Function，即一个最优的 Q-Table。**
    
- 如果我们**有一个最优的 Q-function**，我们就
有了一个最优策略，因为我们**知道在每个状态下要采取的最佳动作。**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/link-value-policy.jpg" alt="Link value policy"  width="100%"/>


但是，在开始时，我们的 **Q-Table 是无用的，因为它为每个状态-动作对提供任意值（大多数情况下，我们将 Q-Table 初始化为 0 值）**。但是，随着我们探索环境并更新我们的 Q-Table，它会为我们提供越来越好的近似值

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/q-learning.jpeg" alt="q-learning.jpeg" width="100%"/>

这是 Q-Learning 的伪代码：

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>


# 让我们编写第一个强化学习算法 🚀

要通过[认证流程](https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process)验证此实践，你需要将训练好的 Taxi 模型推送到 Hub，并**获得 >= 4.5 的结果**。

要找到你的结果，请转到[排行榜](https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard)并找到你的模型，**结果 = mean_reward - std of reward**

有关认证流程的更多信息，请查看此部分 👉 https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process

## 安装依赖项并创建虚拟显示器 🔽

在 notebook 中，我们需要生成一个回放视频。为此，在 Colab 中，**我们需要一个虚拟屏幕来渲染环境**（从而记录帧）。

因此，以下单元格将安装库并创建和运行虚拟屏幕 🖥

我们将安装多个库：

- `gymnasium`：包含 FrozenLake-v1 ⛄ 和 Taxi-v3 🚕 环境。
- `pygame`：用于 FrozenLake-v1 和 Taxi-v3 UI。
- `numpy`：用于处理我们的 Q-table。

Hugging Face Hub 🤗 是一个任何人都可以共享和探索模型和数据集的中心。它具有版本控制、指标、可视化和其他功能，可以让你轻松地与他人协作。

你可以在此处查看所有可用的深度强化学习模型（如果它们使用 Q Learning） 👉 https://huggingface.co/models?other=q-learning

In [1]:
!pip install -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit2/requirements-unit2.txt

^C


In [None]:
!sudo apt-get update
!sudo apt-get install -y python3-opengl
!apt install ffmpeg xvfb
!pip3 install pyvirtualdisplay

为确保使用新安装的库，**有时需要重新启动 notebook 运行时**。下一个单元格将强制**运行时崩溃，因此你需要重新连接并从此处开始运行代码**。多亏了这个技巧，**我们将能够运行我们的虚拟屏幕。**

In [None]:
# import os
# os.kill(os.getpid(), 9)

In [None]:
# # 虚拟显示
# from pyvirtualdisplay import Display
#
# virtual_display = Display(visible=0, size=(1400, 900))
# virtual_display.start()

## 导入包 📦

除了已安装的库之外，我们还使用：

- `random`：生成随机数（对 epsilon-greedy 策略很有用）。
- `imageio`：生成回放视频。

In [2]:
import numpy as np
import gymnasium as gym
import random
import imageio
import os
import tqdm

import pickle # 新版python用直接用pickle
from tqdm.notebook import tqdm

我们现在准备好编写我们的 Q-Learning 算法了 🔥

# 第 1 部分：冰湖 ⛄（非湿滑版本）

## 创建并了解 [FrozenLake 环境 ⛄]((https://gymnasium.farama.org/environments/toy_text/frozen_lake/)
---

💡 开始使用环境时，一个好习惯是查看其文档

👉 https://gymnasium.farama.org/environments/toy_text/frozen_lake/

---

我们将训练我们的 Q-Learning 智能体**从起始状态 (S) 导航到目标状态 (G)，只在冰冻的瓷砖 (F) 上行走，并避开洞 (H)**。

我们可以有两种大小的环境：

- `map_name="4x4"`：一个 4x4 网格版本
- `map_name="8x8"`：一个 8x8 网格版本


环境有两种模式：

- `is_slippery=False`：由于冰湖的非湿滑特性，智能体始终**朝预定方向移动**（确定性）。
- `is_slippery=True`：由于冰湖的湿滑特性，智能体**可能不会总是朝预定方向移动**（随机性）。

现在，让我们使用 4x4 地图和非湿滑版本来简化问题。
我们添加一个名为 `render_mode` 的参数，它指定应如何可视化环境。在我们的情况下，因为我们**希望在最后录制环境的视频，所以需要将 render_mode 设置为 rgb_array**。

正如[文档中所解释的](https://gymnasium.farama.org/api/env/#gymnasium.Env.render)，“rgb_array”：返回表示环境当前状态的单个帧。帧是一个形状为 (x, y, 3) 的 np.ndarray，表示一个 x-by-y 像素图像的 RGB 值。

In [None]:
# 使用 4x4 地图和非湿滑版本以及 render_mode="rgb_array" 创建 FrozenLake-v1 环境
env = gym.make() # TODO 使用正确的参数

### 解决方案

In [3]:
env = gym.make("FrozenLake-v1", map_name="4x4", is_slippery=False, render_mode="rgb_array")

你可以像这样创建自己的自定义网格：

```python
desc=["SFFF", "FHFH", "FFFH", "HFFG"]
gym.make('FrozenLake-v1', desc=desc, is_slippery=True)
```

但我们现在将使用默认环境。

### 让我们看看环境是什么样子的：


In [4]:
# 我们使用 gym.make("<name_of_the_environment>") 创建我们的环境 - `is_slippery=False`：由于冰湖的非湿滑特性，智能体始终朝预定方向移动（确定性）。
print("_____OBSERVATION SPACE_____ \n")
print("Observation Space", env.observation_space)
print("Sample observation", env.observation_space.sample()) # 获取一个随机观察

_____OBSERVATION SPACE_____ 

Observation Space Discrete(16)
Sample observation 11


我们看到 `Observation Space Shape Discrete(16)`，观察结果是一个整数，表示**智能体的当前位置，即 current_row * ncols + current_col（其中行和列都从 0 开始）**。

例如，4x4 地图中的目标位置可以计算如下：3 * 4 + 3 = 15。可能观察的数量取决于地图的大小。**例如，4x4 地图有 16 个可能的观察。**


例如，这是 state = 0 的样子：

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/frozenlake.png" alt="FrozenLake">

In [5]:
print("\n _____ACTION SPACE_____ \n")
print("Action Space Shape", env.action_space.n)
print("Action Space Sample", env.action_space.sample()) # 随机采取一个动作


 _____ACTION SPACE_____ 

Action Space Shape 4
Action Space Sample 0


动作空间（智能体可以采取的可能动作的集合）是离散的，有 4 个可用动作 🎮：
- 0: 向左
- 1: 向下
- 2: 向右
- 3: 向上

奖励函数 💰:
- 到达目标: +1
- 到达洞: 0
- 到达冰面: 0

## 创建和初始化 Q-table 🗄️

(👀 伪代码的第 1 步)

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>


是时候初始化我们的 Q-table 了！要知道要使用多少行（状态）和列（动作），我们需要知道动作和观察空间。我们之前已经知道了它们的值，但我们希望以编程方式获取它们，以便我们的算法可以推广到不同的环境。Gym 为我们提供了一种方法：`env.action_space.n` 和 `env.observation_space.n`


In [None]:
state_space =
print("There are ", state_space, " possible states")

action_space =
print("There are ", action_space, " possible actions")

In [None]:
# 让我们创建大小为 (state_space, action_space) 的 Qtable，并使用 np.zeros 将每个值初始化为 0。np.zeros 需要一个元组 (a,b)
def initialize_q_table(state_space, action_space):
  Qtable =
  return Qtable

In [None]:
Qtable_frozenlake = initialize_q_table(state_space, action_space)

### 解决方案

In [6]:
state_space = env.observation_space.n
print("共有", state_space, "个可能的状态")

action_space = env.action_space.n
print("共有", action_space, "个可能的动作")

共有 16 个可能的状态
共有 4 个可能的动作


In [7]:
# 让我们创建大小为 (state_space, action_space) 的 Qtable，并使用 np.zeros 将每个值初始化为 0
def initialize_q_table(state_space, action_space):
  Qtable = np.zeros((state_space, action_space))
  return Qtable

In [8]:
Qtable_frozenlake = initialize_q_table(state_space, action_space)

## 定义贪婪策略 🤖

请记住，由于 Q-Learning 是一种**离策略**算法，我们有两种策略。这意味着我们使用**不同的策略来执行动作和更新价值函数**。

- Epsilon-greedy 策略（执行策略）
- Greedy 策略（更新策略）

贪婪策略也将是 Q-learning 智能体完成训练时的最终策略。贪婪策略用于使用 Q-table 选择一个动作。

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/off-on-4.jpg" alt="Q-Learning" width="100%"/>


In [None]:
def greedy_policy(Qtable, state):
  # 利用：采取具有最高状态、动作值的动作
  action =

  return action

#### 解决方案

In [9]:
def greedy_policy(Qtable, state):
  # 利用：采取具有最高状态、动作值的动作
  action = np.argmax(Qtable[state][:])

  return action

## 定义 epsilon-greedy 策略 🤖

Epsilon-greedy 是处理探索/利用权衡的训练策略。

Epsilon-greedy 的思想是：

- 以*概率 1-ε*：**我们进行利用**（即我们的智能体选择具有最高状态-动作对值的动作）。

- 以*概率 ε*：我们进行**探索**（尝试一个随机动作）。

随着训练的继续，我们逐渐**减少 epsilon 值，因为我们需要的探索越来越少，而利用越来越多。**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-4.jpg" alt="Q-Learning" width="100%"/>


In [None]:
def epsilon_greedy_policy(Qtable, state, epsilon):
  # 随机生成一个 0 到 1 之间的数字
  random_num =
  # 如果 random_num > epsilon --> 利用
  if random_num > epsilon:
    # 在给定状态下采取具有最高值的动作
    # np.argmax 在这里很有用
    action =
  # 否则 --> 探索
  else:
    action = # 采取一个随机动作

  return action

#### 解决方案

In [10]:
def epsilon_greedy_policy(Qtable, state, epsilon):
  # 随机生成一个 0 到 1 之间的数字
  random_num = random.uniform(0,1)
  # 如果 random_num > epsilon --> 利用
  if random_num > epsilon:
    # 在给定状态下采取具有最高值的动作
    # np.argmax 在这里很有用
    action = greedy_policy(Qtable, state)
  # 否则 --> 探索
  else:
    action = env.action_space.sample()

  return action

## 定义超参数 ⚙️

与探索相关的超参数是最重要的超参数之一。

- 我们需要确保我们的智能体**探索足够的状态空间**以学习一个好的价值近似。为此，我们需要对 epsilon 进行渐进衰减。
- 如果你过快地减少 epsilon（衰减率过高），**你将面临智能体卡住的风险**，因为你的智能体没有探索足够的状态空间，因此无法解决问题。

In [11]:
# 训练参数
n_training_episodes = 10000  # 总训练回合数
learning_rate = 0.7          # 学习率

# 评估参数
n_eval_episodes = 100        # 总测试回合数

# 环境参数
env_id = "FrozenLake-v1"     # 环境名称
max_steps = 99               # 每回合最大步数
gamma = 0.95                 # 折扣率
eval_seed = []               # 环境的评估种子

# 探索参数
max_epsilon = 1.0             # 开始时的探索概率
min_epsilon = 0.05            # 最小探索概率
decay_rate = 0.0005            # 探索概率的指数衰减率

## 创建训练循环方法

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/Q-learning-2.jpg" alt="Q-Learning" width="100%"/>

训练循环如下：

```
对于总训练回合中的每个回合：

减少 epsilon（因为我们需要的探索越来越少）
重置环境

  对于最大时间步中的每一步：
    使用 epsilon greedy 策略选择动作 At
    采取动作 (a) 并观察结果状态 (s') 和奖励 (r)
    使用贝尔曼方程更新 Q 值 Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
    如果完成，则结束回合
    我们的下一个状态是新状态
```

In [None]:
def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable):
  for episode in tqdm(range(n_training_episodes)):
    # 减少 epsilon（因为我们需要的探索越来越少）
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)
    # 重置环境
    state, info = env.reset()
    step = 0
    terminated = False
    truncated = False

    # 重复
    for step in range(max_steps):
      # 使用 epsilon greedy 策略选择动作 At
      action =

      # 采取动作 At 并观察 Rt+1 和 St+1
      # 采取动作 (a) 并观察结果状态 (s') 和奖励 (r)
      new_state, reward, terminated, truncated, info =

      # 更新 Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
      Qtable[state][action] =

      # 如果终止或截断，则结束回合
      if terminated or truncated:
        break

      # 我们的下一个状态是新状态
      state = new_state
  return Qtable

#### 解决方案

In [12]:
def train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable):
  for episode in tqdm(range(n_training_episodes)):
    # 减少 epsilon（因为我们需要的探索越来越少）
    epsilon = min_epsilon + (max_epsilon - min_epsilon)*np.exp(-decay_rate*episode)
    # 重置环境
    state, info = env.reset()
    step = 0
    terminated = False
    truncated = False

    # 重复
    for step in range(max_steps):
      # 使用 epsilon greedy 策略选择动作 At
      action = epsilon_greedy_policy(Qtable, state, epsilon)

      # 采取动作 At 并观察 Rt+1 和 St+1
      # 采取动作 (a) 并观察结果状态 (s') 和奖励 (r)
      new_state, reward, terminated, truncated, info = env.step(action)

      # 更新 Q(s,a):= Q(s,a) + lr [R(s,a) + gamma * max Q(s',a') - Q(s,a)]
      Qtable[state][action] = Qtable[state][action] + learning_rate * (reward + gamma * np.max(Qtable[new_state]) - Qtable[state][action])

      # 如果终止或截断，则结束回合
      if terminated or truncated:
        break

      # 我们的下一个状态是新状态
      state = new_state
  return Qtable

## 训练 Q-Learning 智能体 🏃

In [13]:
Qtable_frozenlake = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable_frozenlake)

  0%|          | 0/10000 [00:00<?, ?it/s]

## 让我们看看我们的 Q-Learning 表现在是什么样子 👀

In [14]:
Qtable_frozenlake

array([[0.73509189, 0.77378094, 0.77378094, 0.73509189],
       [0.73509189, 0.        , 0.81450625, 0.77378094],
       [0.77378094, 0.857375  , 0.77378094, 0.81450625],
       [0.81450625, 0.        , 0.77378094, 0.77378094],
       [0.77378094, 0.81450625, 0.        , 0.73509189],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.        , 0.81450625],
       [0.        , 0.        , 0.        , 0.        ],
       [0.81450625, 0.        , 0.857375  , 0.77378094],
       [0.81450625, 0.9025    , 0.9025    , 0.        ],
       [0.857375  , 0.95      , 0.        , 0.857375  ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.9025    , 0.95      , 0.857375  ],
       [0.9025    , 0.95      , 1.        , 0.9025    ],
       [0.        , 0.        , 0.        , 0.        ]])

## 评估方法 📝

- 我们定义了用于测试我们的 Q-Learning 智能体的评估方法。

In [15]:
def evaluate_agent(env, max_steps, n_eval_episodes, Q, seed):
  """
  评估智能体 ``n_eval_episodes`` 次，并返回平均奖励和奖励的标准差。
  :param env: 评估环境
  :param max_steps: 每回合的最大步数
  :param n_eval_episodes: 评估智能体的回合数
  :param Q: Q-table
  :param seed: 评估种子数组（用于 taxi-v3）
  """
  episode_rewards = []
  for episode in tqdm(range(n_eval_episodes)):
    if seed:
      state, info = env.reset(seed=seed[episode])
    else:
      state, info = env.reset()
    step = 0
    truncated = False
    terminated = False
    total_rewards_ep = 0

    for step in range(max_steps):
      # 采取在该状态下具有最大预期未来奖励的动作（索引）
      action = greedy_policy(Q, state)
      new_state, reward, terminated, truncated, info = env.step(action)
      total_rewards_ep += reward

      if terminated or truncated:
        break
      state = new_state
    episode_rewards.append(total_rewards_ep)
  mean_reward = np.mean(episode_rewards)
  std_reward = np.std(episode_rewards)

  return mean_reward, std_reward

## 评估我们的 Q-Learning 智能体 📈

- 通常，你应该有一个 1.0 的平均奖励
- **环境相对容易**，因为状态空间非常小 (16)。你可以尝试[用湿滑版本替换它](https://gymnasium.farama.org/environments/toy_text/frozen_lake/)，这会引入随机性，使环境更复杂。

In [16]:
# 评估我们的智能体
mean_reward, std_reward = evaluate_agent(env, max_steps, n_eval_episodes, Qtable_frozenlake, eval_seed)
print(f"Mean_reward={mean_reward:.2f} +/- {std_reward:.2f}")

  0%|          | 0/100 [00:00<?, ?it/s]

Mean_reward=1.00 +/- 0.00


## 将我们训练好的模型发布到 Hub 🔥

现在我们在训练后看到了好的结果，**我们可以用一行代码将我们训练好的模型发布到 Hub 🤗**。

这是一个模型卡的示例：

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/modelcard.png" alt="Model card" width="100%"/>


在底层，Hub 使用基于 git 的存储库（如果你不知道 git 是什么，请不要担心），这意味着你可以在试验和改进智能体时使用新版本更新模型。

#### 不要修改此代码

In [17]:
from huggingface_hub import HfApi, snapshot_download
from huggingface_hub.repocard import metadata_eval_result, metadata_save

from pathlib import Path
import datetime
import json

修改: 指明编码格式

In [27]:
def record_video(env, Qtable, out_directory, fps=1):
  """
  生成智能体的回放视频
  :param env
  :param Qtable: 我们智能体的 Qtable
  :param out_directory
  :param fps: 每秒多少帧（对于 taxi-v3 和 frozenlake-v1，我们使用 1）
  """
  images = []
  terminated = False
  truncated = False
  state, info = env.reset(seed=random.randint(0,500))
  img = env.render()
  images.append(img)
  while not terminated or truncated:
    # 采取在该状态下具有最大预期未来奖励的动作（索引）
    action = np.argmax(Qtable[state][:])
    state, reward, terminated, truncated, info = env.step(action) # 我们直接将 next_state = state 用于录制逻辑
    img = env.render()
    images.append(img)
  imageio.mimsave(
        out_directory,
        [np.array(img) for img in images],  # 简化列表生成式（无需枚举i）
        fps=fps,
        codec='libx264'  # 明确指定编码格式为 H.264
    )

In [29]:
def push_to_hub(
    repo_id, model, env, video_fps=1, local_repo_path="hub"
):
    """
    评估、生成视频并将模型上传到 Hugging Face Hub。
    此方法执行完整的流程：
    - 它评估模型
    - 它生成模型卡
    - 它生成智能体的回放视频
    - 它将所有内容推送到 Hub

    :param repo_id: Hugging Face Hub 中模型存储库的 id
    :param env
    :param video_fps: 录制视频回放的每秒帧数
    （对于 taxi-v3 和 frozenlake-v1，我们使用 1）
    :param local_repo_path: 本地存储库的位置
    """
    _, repo_name = repo_id.split("/")

    eval_env = env
    api = HfApi()

    # 第 1 步：创建存储库
    repo_url = api.create_repo(
        repo_id=repo_id,
        exist_ok=True,
    )

    # 第 2 步：下载文件
    repo_local_path = Path(snapshot_download(repo_id=repo_id))

    # 第 3 步：保存模型
    if env.spec.kwargs.get("map_name"):
        model["map_name"] = env.spec.kwargs.get("map_name")
        if env.spec.kwargs.get("is_slippery", "") == False:
            model["slippery"] = False

    # 序列化模型
    with open((repo_local_path) / "q-learning.pkl", "wb") as f:
        pickle.dump(model, f)

    # 第 4 步：评估模型并使用评估指标构建 JSON
    mean_reward, std_reward = evaluate_agent(
        eval_env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"]
    )

    evaluate_data = {
        "env_id": model["env_id"],
        "mean_reward": mean_reward,
        "n_eval_episodes": model["n_eval_episodes"],
        "eval_datetime": datetime.datetime.now().isoformat()
    }

    # 编写一个名为“results.json”的 JSON 文件，其中包含
    # 评估结果
    with open(repo_local_path / "results.json", "w") as outfile:
        json.dump(evaluate_data, outfile)

    # 第 5 步：创建模型卡
    env_name = model["env_id"]
    if env.spec.kwargs.get("map_name"):
        env_name += "-" + env.spec.kwargs.get("map_name")

    if env.spec.kwargs.get("is_slippery", "") == False:
        env_name += "-" + "no_slippery"

    metadata = {}
    metadata["tags"] = [env_name, "q-learning", "reinforcement-learning", "custom-implementation"]

    # 添加指标
    eval = metadata_eval_result(
        model_pretty_name=repo_name,
        task_pretty_name="reinforcement-learning",
        task_id="reinforcement-learning",
        metrics_pretty_name="mean_reward",
        metrics_id="mean_reward",
        metrics_value=f"{mean_reward:.2f} +/- {std_reward:.2f}",
        dataset_pretty_name=env_name,
        dataset_id=env_name,
    )

    # 合并两个字典
    metadata = {**metadata, **eval}

    model_card = f"""
  # **Q-Learning** 智能体玩 **{env_id}**
  这是**Q-Learning** 智能体玩 **{env_id}** 的训练模型。

  ## 用法

  ```python

  model = load_from_hub(repo_id="{repo_id}", filename="q-learning.pkl")

  # 不要忘记检查是否需要添加其他属性（is_slippery=False 等）
  env = gym.make(model["env_id"])
  ```
  """

    evaluate_agent(env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"])

    readme_path = repo_local_path / "README.md"
    readme = ""
    print(readme_path.exists())
    if readme_path.exists():
        with readme_path.open("r", encoding="utf8") as f:
            readme = f.read()
    else:
        readme = model_card

    with readme_path.open("w", encoding="utf-8") as f:
        f.write(readme)

    # 将我们的指标保存到 Readme 元数据
    metadata_save(readme_path, metadata)

    # 第 6 步：录制视频
    video_path = repo_local_path / "replay.mp4"
    record_video(env, model["qtable"], video_path, video_fps)

    # 第 7 步。将所有内容推送到 Hub
    api.upload_folder(
        repo_id=repo_id,
        folder_path=repo_local_path,
        path_in_repo=".",
    )

    print("你的模型已推送到 Hub。你可以在此处查看你的模型：", repo_url)

### .

通过使用 `push_to_hub`，你**评估、录制回放、生成智能体的模型卡并将其推送到 Hub**。

这样：
- 你可以**展示我们的工作** 🔥
- 你可以**可视化你的智能体玩游戏** 👀
- 你可以**与社区共享一个智能体，其他人可以使用** 💾
- 你可以**访问排行榜 🏆，查看你的智能体与同学相比的表现** 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard


为了能够与社区分享你的模型，还需要执行三个步骤：

1️⃣（如果尚未完成）创建一个 HF 帐户 ➡ https://huggingface.co/join

2️⃣ 登录，然后，你需要从 Hugging Face 网站存储你的身份验证令牌。
- 创建一个新令牌（https://huggingface.co/settings/tokens）**具有写入角色**


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/create-token.jpg" alt="Create HF Token">


In [31]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

如果你不想使用 Google Colab 或 Jupyter Notebook，则需要改用此命令：`huggingface-cli login`（或 `login`）

3️⃣ 我们现在准备好使用 `push_to_hub()` 函数将我们训练好的智能体推送到 🤗 Hub 🔥

- 让我们创建**包含超参数和 Q_table 的模型字典**。

In [32]:
model = {
    "env_id": env_id,
    "max_steps": max_steps,
    "n_training_episodes": n_training_episodes,
    "n_eval_episodes": n_eval_episodes,
    "eval_seed": eval_seed,

    "learning_rate": learning_rate,
    "gamma": gamma,

    "max_epsilon": max_epsilon,
    "min_epsilon": min_epsilon,
    "decay_rate": decay_rate,

    "qtable": Qtable_frozenlake
}

让我们填写 `push_to_hub` 函数：

- `repo_id`：将要创建/更新的 Hugging Face Hub 存储库的名称 `
(repo_id = {username}/{repo_name})`
💡 一个好的 `repo_id` 是 `{username}/q-{env_id}`
- `model`：我们的模型字典，包含超参数和 Qtable。
- `env`：环境。
- `commit_message`：提交的消息

In [None]:
model

In [33]:
username = "a1024053774" # 填写此项
repo_name = "q-FrozenLake-v1-4x4-noSlippery"
push_to_hub(
    repo_id=f"{username}/{repo_name}",
    model=model,
    env=env)

Fetching 1 files:   0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/100 [00:00<?, ?it/s]

  0%|          | 0/100 [00:00<?, ?it/s]

q-learning.pkl:   0%|          | 0.00/915 [00:00<?, ?B/s]

恭喜 🥳 你刚刚从头开始实现、训练和上传了你的第一个强化学习智能体。
FrozenLake-v1 no_slippery 是一个非常简单的环境，让我们尝试一个更难的 🔥。

# 第 2 部分：出租车-v3 🚖

## 创建和了解 [Taxi-v3 🚕](https://gymnasium.farama.org/environments/toy_text/taxi/)
---

💡 开始使用环境时，一个好习惯是查看其文档

👉 https://gymnasium.farama.org/environments/toy_text/taxi/

---

在 `Taxi-v3` 🚕 中，网格世界中有四个指定位置，分别用 R（红色）、G（绿色）、Y（黄色）和 B（蓝色）表示。

当回合开始时，**出租车从一个随机方块开始**，乘客在一个随机位置。出租车开到乘客的位置，**接上乘客**，开到乘客的目的地（四个指定位置中的另一个），然后**让乘客下车**。乘客下车后，回合结束。


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/taxi.png" alt="Taxi">


In [34]:
env = gym.make("Taxi-v3", render_mode="rgb_array")

有 **500 个离散状态，因为有 25 个出租车位置，5 个可能的乘客位置**（包括乘客在出租车内的情况）和 **4 个目的地位置。**

In [38]:
state_space = env.observation_space.n
print("共有", state_space, "个可能的状态")

In [39]:
action_space = env.action_space.n
print("共有", action_space, "个可能的动作")


动作空间（智能体可以采取的可能动作的集合）是离散的，有 **6 个可用动作 🎮**：

- 0: 向南移动
- 1: 向北移动
- 2: 向东移动
- 3: 向西移动
- 4: 接上乘客
- 5: 让乘客下车

奖励函数 💰:

- 每走一步扣 1 分，除非触发其他奖励。
- 运送乘客得 20 分。
- 非法执行“接上”和“让下”动作扣 10 分。

In [40]:
# 创建我们的 Q 表，包含 state_size 行和 action_size 列 (500x6)
Qtable_taxi = initialize_q_table(state_space, action_space)
print(Qtable_taxi)
print("Q-table shape: ", Qtable_taxi .shape)

## 定义超参数 ⚙️

⚠ 不要修改 EVAL_SEED：eval_seed 数组**允许我们用相同的出租车起始位置评估每个同学的智能体**

In [41]:
# 训练参数
n_training_episodes = 25000   # 总训练回合数
learning_rate = 0.7           # 学习率

# 评估参数
n_eval_episodes = 100        # 总测试回合数

# 不要修改 EVAL_SEED
eval_seed = [16,54,165,177,191,191,120,80,149,178,48,38,6,125,174,73,50,172,100,148,146,6,25,40,68,148,49,167,9,97,164,176,61,7,54,55,
 161,131,184,51,170,12,120,113,95,126,51,98,36,135,54,82,45,95,89,59,95,124,9,113,58,85,51,134,121,169,105,21,30,11,50,65,12,43,82,145,152,97,106,55,31,85,38,
 112,102,168,123,97,21,83,158,26,80,63,5,81,32,11,28,148] # 评估种子，这确保了所有同学的智能体都在相同的出租车起始位置上进行训练
                                                          # 每个种子都有一个特定的起始状态

# 环境参数
env_id = "Taxi-v3"           # 环境名称
max_steps = 99               # 每回合最大步数
gamma = 0.95                 # 折扣率

# 探索参数
max_epsilon = 1.0             # 开始时的探索概率
min_epsilon = 0.05           # 最小探索概率
decay_rate = 0.005            # 探索概率的指数衰减率


## 训练我们的 Q-Learning 智能体 🏃

In [44]:
Qtable_taxi = train(n_training_episodes, min_epsilon, max_epsilon, decay_rate, env, max_steps, Qtable_taxi)


  0%|          | 0/25000 [00:00<?, ?it/s]

In [45]:
Qtable_taxi

array([[ 0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ],
       [ 2.75200369,  3.94947757,  2.75200369,  3.94947757,  5.20997639,
        -5.05052243],
       [ 7.93349184,  9.40367562,  7.93349184,  9.40367562, 10.9512375 ,
         0.40367562],
       ...,
       [10.9512375 , 12.58025   , 10.9512375 ,  9.40367562,  1.9512375 ,
         1.9512375 ],
       [ 4.92908749,  6.53681725, -3.74332345,  5.56660966, -5.90377538,
        -4.02979836],
       [16.09996805, 14.291498  , 16.09965603, 18.        ,  7.0999992 ,
         7.09999716]])

## 创建一个模型字典 💾 并将我们训练好的模型发布到 Hub 🔥

- 我们创建一个模型字典，其中包含所有训练超参数以实现可重复性，以及 Q-Table。


In [46]:
model = {
    "env_id": env_id,
    "max_steps": max_steps,
    "n_training_episodes": n_training_episodes,
    "n_eval_episodes": n_eval_episodes,
    "eval_seed": eval_seed,

    "learning_rate": learning_rate,
    "gamma": gamma,

    "max_epsilon": max_epsilon,
    "min_epsilon": min_epsilon,
    "decay_rate": decay_rate,

    "qtable": Qtable_taxi
}

In [47]:
username = "a1024053774" # 填写此项
repo_name = "taxi-v3" # 填写此项
push_to_hub(
    repo_id=f"{username}/{repo_name}",
    model=model,
    env=env)

Fetching 1 files:   0%|          | 0/1 [00:00<?, ?it/s]

.gitattributes: 0.00B [00:00, ?B/s]

  0%|          | 0/100 [00:00<?, ?it/s]

  0%|          | 0/100 [00:00<?, ?it/s]

replay.mp4:   0%|          | 0.00/125k [00:00<?, ?B/s]

q-learning.pkl:   0%|          | 0.00/24.6k [00:00<?, ?B/s]

Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]

现在它在 Hub 上，你可以使用排行榜 🏆 将你的 Taxi-v3 的结果与同学进行比较 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard


<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/taxi-leaderboard.png" alt="Taxi Leaderboard">

# 第 3 部分：从 Hub 加载 🔽

Hugging Face Hub 🤗 的惊人之处在于，你可以轻松地从社区加载强大的模型。

从 Hub 加载保存的模型非常简单：

1. 你可以访问 https://huggingface.co/models?other=q-learning 查看所有 q-learning 保存模型的列表。
2. 你选择一个并复制其 repo_id

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit2/copy-id.png" alt="Copy id">

3. 然后我们只需要使用 `load_from_hub`：
- The repo_id
- The filename: the saved model inside the repo.

#### 不要修改此代码

In [None]:
from urllib.error import HTTPError

from huggingface_hub import hf_hub_download


def load_from_hub(repo_id: str, filename: str) -> str:
    """
    从 Hugging Face Hub 下载模型。
    :param repo_id: Hugging Face Hub 中模型存储库的 id
    :param filename: 存储库中模型 zip 文件的名称
    """
    # 从 Hub 获取模型，下载模型并将其缓存在本地磁盘上
    pickle_model = hf_hub_download(
        repo_id=repo_id,
        filename=filename
    )

    with open(pickle_model, 'rb') as f:
      downloaded_model_file = pickle.load(f)

    return downloaded_model_file

### .

In [None]:
model = load_from_hub(repo_id="ThomasSimonini/q-Taxi-v3", filename="q-learning.pkl") # 尝试使用另一个模型

print(model)
env = gym.make(model["env_id"])

evaluate_agent(env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"])

In [None]:
model = load_from_hub(repo_id="ThomasSimonini/q-FrozenLake-v1-no-slippery", filename="q-learning.pkl") # 尝试使用另一个模型

env = gym.make(model["env_id"], is_slippery=False)

evaluate_agent(env, model["max_steps"], model["n_eval_episodes"], model["qtable"], model["eval_seed"])

## 一些额外的挑战 🏆

学习的最好方法是**自己尝试**！正如你所看到的，当前的智能体表现不佳。作为第一个建议，你可以训练更多步。我们看到，经过 1,000,000 步的训练，结果非常出色！

在[排行榜](https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard)中，你会找到你的智能体。你能登上榜首吗？

以下是一些登上排行榜的建议：

* 训练更多步
* 通过查看同学的做法，尝试不同的超参数。
* **将你新训练的模型**推送到 Hub 🔥

在冰上行走和开出租车对你来说太无聊了吗？尝试**更改环境**，为什么不使用 FrozenLake-v1 湿滑版本呢？使用 [gymnasium 文档](https://gymnasium.farama.org/)查看它们的工作原理，玩得开心 🎉。

_____________________________________________________________________
恭喜 🥳，你刚刚实现、训练和上传了你的第一个强化学习智能体。

理解 Q-Learning 是**理解基于价值的方法的重要一步。**

在下一个关于深度 Q-Learning 的单元中，我们会看到，虽然创建和更新 Q-table 是一个很好的策略，但**它不可扩展。**

例如，想象一下你创建了一个学习玩 Doom 的智能体。

<img src="https://vizdoom.cs.put.edu.pl/user/pages/01.tutorial/basic.png" alt="Doom"/>

Doom 是一个具有巨大状态空间（数百万个不同状态）的大型环境。为该环境创建和更新 Q-table 效率不高。

这就是为什么我们将在下一个单元中学习深度 Q-Learning，这是一种算法，**我们使用神经网络来近似，在给定状态下，每个动作的不同 Q 值。**

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit4/atari-envs.gif" alt="Environments"/>


第 3 单元见！🔥

## 继续学习，保持出色 🤗