# 第4单元: 让我们学习Hugging Face的Unity ML-Agents 🤗

![cover.png](./assets/cover.png)

在这份笔记中, 你将学习ML-Agents并使用其中一个预制的环境: Pyramids.

在这个环境中, 我们将训练一个智能体. 在按下按钮生成金字塔后, 智能体导航到金字塔并将其撞倒, 然后移动顶部的金色砖块.

❓如果你有任何问题, 请在discord频道#study-group-unit4发帖 👉 https://discord.gg/aYka4Yhff9

🎮 环境:

* [Pyramids](https://github.com/Unity-Technologies/ml-agents/blob/main/docs/Learning-Environment-Examples.md#pyramids)

⬇️ 这是**你将在笔记结束时实现的目标**的示例. ⬇️

![example.gif](./assets/example.gif)

💡 我们建议你使用Linux, 因为提供的环境压缩文件只提供了Linux版本, 如果你想你使用其他操作系统就需要自己编译. 同时由于依赖项的原因, 在Apple silicon上无法安装ml-agents.

## 这份笔记来自深度强化学习课程
![Deep Reinforcement Learning Course.jpg](./assets/DeepReinforcementLearningCourse.jpg)

在这个免费课程中, 你将:

* 📖 研究深度强化学习的**理论和实践.**
* 🧑‍💻 学习**使用流行的深度强化学习库**, 例如Stable Baselines3, RL Baselines3 Zoo和RLlib.
* 🤖️ **在独特的环境中训练智能体.**

还有更多的课程 📚 内容 👉 https://github.com/huggingface/deep-rl-class

保持进度的最佳方式是加入我们的Discord服务器与社区和我们进行交流. 👉🏻 https://discord.gg/aYka4Yhff9

## 先决条件 🏗

在深入研究笔记之前, **你需要阅读并行教程** 👉 https://link.medium.com/KOpvPdyz4qb

### 第1步:克隆仓库并安装依赖项 🔽
* 我们需要克隆仓库, **其中包含允许你将训练好的智能体到发布到HuggingFace Hub的库的实验版本**.

In [None]:
# 克隆ml-agents仓库(可能需要几分钟).
!git clone https://github.com/huggingface/ml-agents.git

In [None]:
# 进入目录并安装包.
%cd ml-agents/
!pip install -e ./ml-agents-envs
!pip install -e ./ml-agents

### 第2步: 下载并移动环境压缩文件到 `./trained-envs-executables/linux/`
* 我们的环境可执行文件位于一个zip文件中.
* 我们需要下载并放置它到 `./trained-envs-executables/linux/`

In [None]:
!mkdir -p ./trained-envs-executables/linux/

使用`wget`从 https://drive.google.com/uc?export=download&id=1UiFNdKlsH0NTu32xV-giYUEVKV4-vc7H 下载文件Pyramids.zip, 点击[此处](https://bcrf.biochem.wisc.edu/2021/02/05/download-google-drive-files-using-wget/)查看从GDrive下载大文件的完整解决方案.

In [None]:
!wget \
 --load-cookies /tmp/cookies.txt \
 "https://docs.google.com/uc?export=download&confirm=$(wget --quiet --save-cookies /tmp/cookies.txt --keep-session-cookies --no-check-certificate 'https://docs.google.com/uc?export=download&id=FILEID' -O- | sed -rn 's/.*confirm=([0-9A-Za-z_]+).*/\1\n/p')&id=1UiFNdKlsH0NTu32xV-giYUEVKV4-vc7H" \
 -O ./trained-envs-executables/linux/Pyramids.zip
!rm -rf /tmp/cookies.txt

**或者**直接下载到本地, 然后将文件从本地上传到`./trained-envs-executables/linux/`

等待上传结束, 然后运行下面的命令.
![image.png](./assets/image.png)

In [None]:
!unzip -d ./trained-envs-executables/linux/ ./trained-envs-executables/linux/Pyramids.zip

确保你的环境文件可访问.

In [None]:
!chmod -R 755 ./trained-envs-executables/linux/Pyramids/Pyramids

### 第3步: 修改PyramidsRND配置文件
* 在ML-Agents中, 你**将在config.yaml文件中定义训练的超参数**. 对于第一次训练, 我们将修改一件事:
* 总训练步数超参数过大, 因为我们只需要1百万步就可以达到基准. 👉 为此, 我们跳转到`config/ppo/PyramidsRND.yaml`并**修改它的max_steps为1,000,000**.

* 点击此处打开`config.yaml`(以Google Colab为例): /content/ml-agents/config/ppo/PyramidsRND.yaml

* 修改`max_steps`为 1,000,000.

![image.png](./assets/image1.png)

作为实验, 你也应该尝试修改其他超参数, Unity提供了[非常完善的文档解释它们](https://github.com/Unity-Technologies/ml-agents/blob/main/docs/Training-Configuration-File.md).

现在准备好训练我们的智能体 🔥.

### 第4步: 训练我们的智能体
训练我们的智能体, 我们仅仅需要**启动ml-agents-learn然后选择包含环境的可执行文件**.

我们定义了4个参数:
1. `mlagents-learn <config>`: 超参数配置文件的路径.
2. `--env`: 环境可执行文件的位置.
3. `--run-id`: 你要为你的训练指定名称.
4. `--no-graphics`: 在训练期间不启动可视化界面.

训练模型并使用`--resume`在中断的情况下继续训练.

> 第一次使用`--resume`时会失败, 请尝试再次运行改单元格跳过错误.

训练大概需要30到45分钟, 具体取决于你的硬件, 去喝一杯 ☕️ 休息一下吧. 🤗

In [None]:
!mlagents-learn \
./config/ppo/PyramidsRND.yaml \
--env=./trained-envs-executables/linux/Pyramids/Pyramids \
--run-id='Pyramids Training' \
--no-graphics

### 第5步: 发布模型到 Hub 上 🤗
* 现在我们已经训练了智能体, 我们**准备将其发布到Hugging Face Hub上并在线观看它的比赛** 🔥 .

为了能分享你的模型到社区, 有以下三个步骤需要做:

1⃣️ (如果没有完成)创建一个Hugging Face账户 ➡ https://huggingface.co/join

2⃣️ 登陆账户, 然后你需要保存一个Hugging Face的身份验证令牌(token).

* 创建一个新的具有**写入规则**的令牌(https://huggingface.co/settings/tokens)

![image.png](./assets/image2.png)

In [None]:
from huggingface_hub import notebook_login
notebook_login()

如果你使用IDE, 也可在终端中使用以下命令:

In [None]:
!huggingface-cli login

然后, 我们只需要运行`mlagents-push-to-hf`.

![image.png](./assets/image3.png)

我们定义了4个参数:
1. `--run-id`: 你的训练的名称.
2. `--local-dir`: 智能体保存的位置, 它在`results/<run-id name>`内, 所以在我的例子中是`results/First Training`.
3. `--repo-id`: 你要创建或更新的Hugging Face仓库名称. 它是`<你的huggingface用户名>/<仓库名>`; 如果仓库不存在, **它将自动创建**.
4. `--commit-message`: 因为Hugging Face仓库基于git仓库, 所以你需要填写提交信息.

In [None]:
!mlagents-push-to-hf \
--run-id='Pyramids Training' \
--local-dir='./results/Pyramids Training' \
--repo-id='ThomasSimonini/ML-Agents-Pyramids' \  # 请更改成你自己的id!
--commit-message='First Pyramids'

如果一切正常, 你在进程结束时应该有这个(注意这里是不同的url 😆):
    
```
Your model is pushed to the hub. You can view your model here: https://huggingface.co/ThomasSimonini/MLAgents-Pyramids
```

它是模型的链接, 它包含了一个解释如何使用的模型卡, 你的TensorBoard和你的配置文件. **值得注意的是, 因为是它一个git仓库, 这意味着你可以有不同的提交, 使用新的提交更新你的仓库等**.

![image.png](./assets/image4.png)

但现在最好的是: **能够在线可视化你的智能体 👀**.