# 第3单元: 使用RL Baselines3 Zoo的深度Q-Learning玩雅达利的游戏 👾

在这份笔记中, 你将使用[RL Baselines3 Zoo](https://github.com/DLR-RM/rl-baselines3-zoo)训练一个玩太空侵略者的**深度Q-Learning智能体,** 这是一个基于[Stable-Baselines3](https://stable-baselines3.readthedocs.io/en/master/)的训练框架, 它提供了用于训练, 评估智能体, 微调超参数, 可视化结果和录制回放视频的脚本.

❓如果你有任何问题, 请在discord的#study-group-unit3频道发帖 👉 https://discord.gg/aYka4Yhff9

🎮 环境:

* SpacesInvadersNoFrameskip-v4

📚 强化学习库: [Stable-Baselines3](https://stable-baselines3.readthedocs.io/en/master/)

⬇️ 这是**你将在几分钟内实现的目标**的示例([原始视频下载链接](https://huggingface.co/ThomasSimonini/ppo-SpaceInvadersNoFrameskip-v4/resolve/main/replay.mp4)). ⬇️

In [None]:
%%html
<video autoplay controls><source src='./assets/replay.mp4' type='video/mp4'></video>

## 这份笔记的目标🏆

在这份笔记学习结束后, 你将:

* 能够深入了解**RL Baselines3 Zoo的工作原理.**
* 能够通过精彩的回放和得分🔥**发布你训练的智能体到Hugging Face Hub.**

## 这份笔记来自深度强化学习课程
![Deep Reinforcement Learning Course.jpg](./assets/DeepReinforcementLearningCourse.jpg)

在这个免费课程中, 你将:

* 📖 研究深度强化学习的**理论和实践.**
* 🧑‍💻 学习**使用流行的深度强化学习库**, 例如Stable Baselines3, RL Baselines3 Zoo和RLlib.
* 🤖️ **在独特的环境中训练智能体.**

还有更多的课程 📚 内容 👉 https://github.com/huggingface/deep-rl-class

保持进度的最佳方式是加入我们的Discord服务器与社区和我们进行交流. 👉🏻 https://discord.gg/aYka4Yhff9

## 先决条件 🏗

在深入研究笔记之前, 你需要:

🔲 📚 [阅读第3单元的README.](https://github.com/huggingface/deep-rl-class/blob/main/unit3/README.md)

🔲 📚 [阅读**深度Q-Learning**](https://huggingface.co/blog/deep-rl-dqn)

🔲 📢 注册[我们的Discord服务器](https://discord.gg/aYka4Yhff9)并**在#introduce-yourself频道介绍自己 🥳**

🔲 🐕 你是Discord新手吗? 请查看我们**的discord 101以获得最佳实践** 👉 https://github.com/huggingface/deep-rl-class/blob/main/DISCORD.Md

# 让我们训练一个玩雅达利的太空侵略者 👾 的深度Q-Learning智能体并将其上传到Hub.

### 第0步: 设置GPU 💪

* 为了**更快的训练智能体, 我们将使用GPU,** 选择`修改 > 笔记本设置`
![image.png](./assets/image.png)

* `硬件加速器 > GPU`

![image.png](./assets/image1.png)

### 第0+步: 设置一个虚拟屏幕🖥

在笔记中, 我们需要生成一个回放视频. 因此在Colab(或你本地的jupyter)中, **我们需要一个虚拟屏幕能渲染环境**(记录视频帧).

下面的单元格将安装虚拟屏幕库并创建和运行虚拟屏幕. 🖥

In [None]:
!apt install gitlfs ffmpeg
# 如果你使用IDE(例如PyCharm或VS Code)将不需要这些步骤.
!apt install python-opengl xvfb 
!pip install pyvirtualdisplay

In [None]:
# 创建虚拟屏幕.
from pyvirtualdisplay import Display

virtual_display = Display(visible=False, size=(1400, 900))
virtual_display.start()

### 第1步: 克隆RL-Baselines3 Zoo的仓库 📚

In [None]:
!git clone https://github.com/DLR-RM/rl-baselines3-zoo

### 第2步: 安装依赖项 🔽

第一步是安装RL-Baselines3 Zoo需要的依赖项(这可能需要5分钟 ⏲️):

同时我们也需要安装:
* `huggingface_sb3`: Stable-baselines3的插件, 用于从Hugging Face Hub 🤗 上下载或者上传模型.

In [None]:
%cd ./rl-baselines3-zoo/
!pip install -r requirements.txt
!pip install huggingface_sb3

### 第3步: 训练我们的深度Q-Learning智能体来玩太空侵略者 👾
使用RL-Baselines3-Zoo训练智能体, 我们仅需要做2件事:
1. 我们在`rl-baselines3-zoo/hyperparams/dqn.yml`中定义超参数.

![image.png](./assets/image2.png)

这里我们可以看到:
* 我们使用雅达利修饰器对输入预处理(裁切帧, 灰度图, 4帧堆叠)
* 我们使用`CnnPolicy`, 因为我们使用卷积层处理图像帧
* 我们训练它10M个`n_time_steps`
* 缓冲区大小(经验回放)是100000

💡 我的建议是将**训练的时间步减少到1M步,** 如果你想训练10M步, 你应该在你本地的服务器上运行(来避免Colab超时), 只需要点击: `文件>下载`

你可以查阅文档来了解每个超参数的作用: https://stable-baselines3.readthedocs.io/en/master/modules/dqn.html?highlight=deep%20q%20learning#parameters

2. 我们运行`train.py`并将模型保存到`logs`文件夹 📁

In [None]:
!python train.py \
--algo __________ \
--env SpaceInvadersNoFrameskip-v4 \
-f __________

#### 答案

In [None]:
!python train.py \
--algo dqn \
--env SpaceInvadersNoFrameskip-v4 \
-f ./logs/

### 第4步: 评估我们的智能体 👀
* `RL-Baselines3-Zoo`提供了`enjoy.py`来评估我们的智能体.
* 让我们评估它5000个时间步 🔥

In [None]:
!python enjoy.py \
--algo dqn \
--env SpaceInvadersNoFrameskip-v4 \
--no-render \
--n-timesteps __________ \
--folder ./logs/

#### 答案

In [None]:
!python enjoy.py \
--algo dqn \
--env SpaceInvadersNoFrameskip-v4 \
--no-render \
--n-timesteps 5000 \
--folder ./logs/

### 第5步(不涉及核心内容, 可选): 发布我们训练好的模型到Hub上 🚀
现在我们看到经过训练之后得到了很棒的结果, 我们可以通过一行代码发布我们训练的模型到hub 🤗 上.

![ModelCard.gif](./assets/ModelCard.gif)

通过使用`utils.push_to_pub.py`, **你可以评估, 记录回放视频, 生成智能体的模型卡并把它发布到hub.**

看这边:

* 你可以**展示我们的作品** 🔥
* 你可以**可视化智能体的活动** 👀
* 你可以**与社区分享其他人也可以使用的智能体** 💾
* 你可以**访问排行榜🏆以查看你的智能体和你同学的智能体相比如何** 👉 https://huggingface.co/spaces/chrisjay/Deep-Reinforcement-Learning-Leaderboard

为了能分享你的模型到社区, 有以下三个步骤需要做:

1⃣️ (如果没有完成)创建一个Hugging Face账户 ➡ https://huggingface.co/join

2⃣️ 登陆账户, 然后你需要保存一个Hugging Face的身份验证令牌(token).

* 创建一个新的具有**写入规则**的令牌(https://huggingface.co/settings/tokens)

![image.png](./assets/image3.png)

* 复制令牌
* 运行下面脚本并输入令牌

In [None]:
from huggingface_hub import notebook_login

notebook_login()
!git config --global credential.helper store

如果你使用IDE, 也可在终端中使用以下命令:

In [None]:
!huggingface-cli login

3⃣️ 我们现在准备好发布我们训练的智能体到🤗 hub 🔥.

让我们运行push_to_hub.py文件将我们训练的智能体上传到Hub.

`--repo-name`: 仓库的名称.

`--orga`: 你的Hugging Face用户名.

![image.png](./assets/image4.png)

In [None]:
!python -m utils.push_to_hub \
--algo dqn \
--env SpaceInvadersNoFrameskip-v4 \
--repo-name __________ \
--orga __________ \
-f ./logs/

#### 答案

In [None]:
!python -m utils.push_to_hub \
--algo dqn \
--env SpaceInvadersNoFrameskip-v4 \
--repo-name dqn-SpaceInvadersNoFrameskip-v4 \
--orga TomasSimonini \ # 请更改成你自己的id!
-f ./logs/

恭喜🥳你刚刚使用RL-Baselines3 Zoo训练并上传了你的第一个深度Q-Learning智能体. 上面的脚步应该显示了模型仓库的链接, 例如: https://huggingface.co/ThomasSimonini/dqn-SpaceInvadersNoFrameskip-v4. 当你访问这个链接时, 你可以:

* 在右侧你可以看到智能体的回放视频.
* 点击"Files and versions"以查看仓库中的全部文件.
* 点击"Use in stable-baselines3"以获取如何加载模型的代码.
* 得到描述模型和模型使用的超参数的模型卡(文件`README.md`).

在底层, Hub使用基于git的仓库(即使你不知道什么是git也不用担心), 这意味着你可以在实验和提高你的智能体以后更新新版本的模型.

使用排行榜🏆比较你和同学的SpaceInvadersNoFrameskip-v4结果 👉 https://huggingface.co/spaces/chrisjay/Deep-Reinforcement-Learning-Leaderboard

### 第6步: 加载一个强大的预训练模型 🔥

Stable-Baselines3 团队在Hugging Face Hub上上传了**超过150个经过训练的深度强化学习智能体.**

你可以在这发现它们:👉 https://huggingface.co/sb3

一些例子:
* 小行星: https://huggingface.co/sb3/dqn-AsteroidsNoFrameskip-v4
* 光束导弹: https://huggingface.co/sb3/dqn-BeamRiderNoFrameskip-v4
* 打砖块: https://huggingface.co/sb3/dqn-BreakoutNoFrameskip-v4
* 通道跑步者: https://huggingface.co/sb3/dqn-RoadRunnerNoFrameskip-v4

让我们加载一个智能体来玩光束导弹: https://huggingface.co/sb3/dqn-BeamRiderNoFrameskip-v4

In [None]:
%%html
<video autoplay controls><source src='./assets/replay1.mp4' type='video/mp4'></video>

1. 我们使用`utils.load_from_hub`下载模型, 并将它放置到一个叫做`rl_trained`新文件夹中.

In [None]:
# 下载模型并保存到 rl_trained/ 文件夹.
!python -m utils.load_from_hub \
--algo dqn \
--env BeamRiderNoFrameskip-v4 \
--orga sb3 \
-f ./rl_trained/ 

2. 让我们评估5000步.

In [None]:
!python enjoy.py \
--algo dqn \
--env BeamRiderNoFrameskip-v4 \
-n 5000 \
-f ./rl_trained/

为什么不尝试训练你自己的**深度Q-Learning智能体玩BeamRiderNoFrameskip-v4?** 🏆
如果你想尝试, 请检查模型卡https://huggingface.co/sb3/dqn-BeamRiderNoFrameskip-v4#hyperparameters , **你将有训练好的智能体的超参数.**

我们将在下个单元看到, 我们如何**使用Optuna来优化超参数🔥.**

## 额外的挑战(可选) 🏆

最好的学习方式就是**自己进行尝试!**

在[排行榜](https://huggingface.co/spaces/chrisjay/Deep-Reinforcement-Learning-Leaderboard)中, 你将找到你的智能体的位置. 你想要获得第一吗?

以下是一些你可以尝试训练智能体的环境:
* BeamRiderNoFrameskip-v4
* BreakoutNoFrameskip-v4 
* EnduroNoFrameskip-v4
* PongNoFrameskip-v4

![atari-envs.gif](./assets/atari-envs.gif)

---
祝贺你完成本章! 

如果你仍然对这些感到困惑...这是完全正常的! **这对我和所有学习强化学习的人都是一样的.**

**在继续尝试其他挑战之前, 花一点时间真正的掌握这些内容.** 理解这些内容并打下基础是非常重要的.

### 这是专门为你打造的课程 👷🏿‍♀️

我们希望根据你的反馈提高和改进课程. 如果你有建议, 请填写此表格 👉 https://forms.gle/3HgA7bEHwAmmLfwh9

### 不断学习, 不断精彩 🤗