# Блок 1: Обучение вашего первого агента глубокого обучения с подкреплением 🤖

![Обложка](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit1/thumbnail.jpg)

В этом блокноте вы обучите своего **первого агента глубокого обучения с применением подкрепления** - агента Lunar Lander, который научится **правильно приземляться на Луну 🌕**. Используя [Stable-Baselines3](https://stable-baselines3.readthedocs.io/en/master/) библиотеку Deep Reinforcement Learning, поделитесь ими с сообществом и поэкспериментируйте с различными конфигурациями.

⬇️ Вот пример того, чего **вы добьетесь всего за пару минут.** ⬇️

In [None]:
%%html
<video controls autoplay><source src="https://huggingface.co/sb3/ppo-LunarLander-v2/resolve/main/replay.mp4" type="video/mp4"></video>

### The environment 🎮

- [LunarLander-v2](https://gymnasium.farama.org/environments/box2d/lunar_lander/)

### The library used 📚

- [Stable-Baselines3](https://stable-baselines3.readthedocs.io/en/master/)

We're constantly trying to improve our tutorials, so **if you find some issues in this notebook**, please [open an issue on the Github Repo](https://github.com/huggingface/deep-rl-class/issues).

## Objectives of this notebook 🏆

At the end of the notebook, you will:

- Be able to use **Gymnasium**, the environment library.
- Be able to use **Stable-Baselines3**, the deep reinforcement learning library.
- Be able to **push your trained agent to the Hub** with a nice video replay and an evaluation score 🔥.




## This notebook is from Deep Reinforcement Learning Course

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/deep-rl-course-illustration.jpg" alt="Deep RL Course illustration"/>

In this free course, you will:

- 📖 Study Deep Reinforcement Learning in **theory and practice**.
- 🧑‍💻 Learn to **use famous Deep RL libraries** such as Stable Baselines3, RL Baselines3 Zoo, CleanRL and Sample Factory 2.0.
- 🤖 Train **agents in unique environments**
- 🎓 **Earn a certificate of completion** by completing 80% of the assignments.

And more!

Check 📚 the syllabus 👉 https://simoninithomas.github.io/deep-rl-course

Don’t forget to **<a href="http://eepurl.com/ic5ZUD">sign up to the course</a>** (we are collecting your email to be able to **send you the links when each Unit is published and give you information about the challenges and updates).**

The best way to keep in touch and ask questions is **to join our discord server** to exchange with the community and with us 👉🏻 https://discord.gg/ydHrjt3WP5

## Prerequisites 🏗️

Before diving into the notebook, you need to:

🔲 📝 **[Read Unit 0](https://huggingface.co/deep-rl-course/unit0/introduction)** that gives you all the **information about the course and helps you to onboard** 🤗

🔲 📚 **Develop an understanding of the foundations of Reinforcement learning** (MC, TD, Rewards hypothesis...) by [reading Unit 1](https://huggingface.co/deep-rl-course/unit1/introduction).

## A small recap of Deep Reinforcement Learning 📚

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit1/RL_process_game.jpg" alt="The RL process" width="100%">

Let's do a small recap on what we learned in the first Unit:

- Reinforcement Learning is a **computational approach to learning from actions**. We build an agent that learns from the environment by **interacting with it through trial and error** and receiving rewards (negative or positive) as feedback.

- The goal of any RL agent is to **maximize its expected cumulative reward** (also called expected return) because RL is based on the _reward hypothesis_, which is that all goals can be described as the maximization of an expected cumulative reward.

- The RL process is a **loop that outputs a sequence of state, action, reward, and next state**.

- To calculate the expected cumulative reward (expected return), **we discount the rewards**: the rewards that come sooner (at the beginning of the game) are more probable to happen since they are more predictable than the long-term future reward.

- To solve an RL problem, you want to **find an optimal policy**; the policy is the "brain" of your AI that will tell us what action to take given a state. The optimal one is the one that gives you the actions that max the expected return.

There are **two** ways to find your optimal policy:

- By **training your policy directly**: policy-based methods.
- By **training a value function** that tells us the expected return the agent will get at each state and use this function to define our policy: value-based methods.

- Finally, we spoke about Deep RL because **we introduce deep neural networks to estimate the action to take (policy-based) or to estimate the value of a state (value-based) hence the name "deep."**

# Давайте обучим нашего первого агента Deep Reinforcement Learning и загрузим его в хаб 🚀.

## Получите сертификат 🎓

Чтобы подтвердить эту практическую работу для [процесса сертификации](https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process), вам нужно загрузить обученную модель в Хаб и **получить результат >= 200**.

Чтобы узнать свой результат, перейдите на [таблицу лидеров](https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard) и найдите свою модель, **результат = mean_reward - std of reward**.

Более подробную информацию о процессе сертификации вы можете найти в этом разделе 👉 https://huggingface.co/deep-rl-course/en/unit0/introduction#certification-process

## Настройте GPU 💪.

- Чтобы **ускорить обучение агента, мы будем использовать GPU**. Для этого перейдите в раздел `Runtime > Change Runtime type`.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/gpu-step1.jpg" alt="GPU Step 1">

- `Hardware Accelerator > GPU`

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/gpu-step2.jpg" alt="GPU Step 2">

## Установите зависимости и создайте виртуальный экран 🔽.

Первым шагом будет установка необходимых зависимостей, мы установим несколько из них.

- `gymnasium[box2d]`: Содержит окружение LunarLander-v2 🌛
- `stable-baselines3[extra]`: Библиотека глубокого обучения с подкреплением.
- `huggingface_sb3`: Дополнительный код для Stable-baselines3 для загрузки и выгрузки моделей из Hugging Face 🤗 Hub.

Чтобы упростить работу, мы создали скрипт для установки всех этих зависимостей.

In [None]:
!apt install swig cmake

In [None]:
!pip install -r https://raw.githubusercontent.com/huggingface/deep-rl-class/main/notebooks/unit1/requirements-unit1.txt

Во время работы с ноутбуком нам нужно будет создать видеозапись. Для этого, с помощью colab, **нам нужен виртуальный экран, чтобы иметь возможность рендерить окружение** (и, соответственно, записывать кадры).

Поэтому в следующей ячейке мы установим библиотеки виртуального экрана, создадим и запустим виртуальный экран 🖥.

In [None]:
!sudo apt-get update
!sudo apt-get install -y python3-opengl
!apt install ffmpeg
!apt install xvfb
!pip3 install pyvirtualdisplay

Чтобы убедиться, что новые установленные библиотеки используются, **иногда требуется перезапустить среду выполнения ноутбука**. Следующая ячейка приведет к сбою **среды выполнения, поэтому вам нужно будет снова подключиться и запустить код, начиная с этого места**. Благодаря этому трюку **мы сможем запустить наш виртуальный экран**.

In [None]:
import os
os.kill(os.getpid(), 9)

In [None]:
# Виртуальный экран
from pyvirtualdisplay import Display

virtual_display = Display(visible=0, size=(1400, 900))
virtual_display.start()

## Импорт пакетов 📦

Еще одна библиотека, которую мы импортируем - huggingface_hub **для загрузки и скачивания обученных моделей с хаба**.


Hugging Face Hub 🤗 работает как центральное место, где каждый может делиться и исследовать модели и наборы данных. В нем есть контроль версий, метрики, визуализации и другие функции, которые позволят вам легко сотрудничать с другими.

Здесь вы можете увидеть все модели глубокого обучения с подкреплением 👉 https://huggingface.co/models?pipeline_tag=reinforcement-learning&sort=downloads

In [None]:
import gymnasium

from huggingface_sb3 import load_from_hub, package_to_hub
from huggingface_hub import notebook_login # Войдите в наш аккаунт Hugging Face, чтобы иметь возможность загружать модели в хаб.

from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
from stable_baselines3.common.evaluation import evaluate_policy
from stable_baselines3.common.monitor import Monitor

## Поймите Gymnasium и как он работает 🤖

🏋 Библиотека, содержащая наше окружение, называется Gymnasium.
**Вы будете часто использовать Gymnasium в Deep Reinforcement Learning.**.

Gymnasium - это **новая версия библиотеки Gym** [поддерживается Фондом Фарама] (https://farama.org/).

Библиотека Gymnasium предоставляет две вещи:

- Интерфейс, позволяющий **создавать RL-среды**.
- Коллекцию **окружений** (gym-control, atari, box2D...).

Давайте рассмотрим пример, но сначала вспомним цикл RL.
<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit1/RL_process_game.jpg" alt="The RL process" width="100%">

На каждом шаге:
- Наш агент получает **состояние (S0)** от **окружения** - мы получаем первый кадр нашей игры (окружение).
- Основываясь на этом **состоянии (S0),** агент предпринимает **действие (A0)** - наш агент перемещается вправо.
- Окружение переходит в **новое** **состояние (S1)** - новый кадр.
- Окружающая среда дает некоторое **вознаграждение (R1)** Агенту - мы не умерли *(Положительное вознаграждение +1)*.


С помощью Gymnasium:

1️⃣ Мы создаем окружение с помощью `gymnasium.make()`.

2️⃣ Мы возвращаем окружение в исходное состояние с помощью `observation = env.reset()`.

На каждом шаге:

3️⃣ Получаем действие, используя нашу модель (в нашем примере мы берем случайное действие).

4️⃣ Используя `env.step(action)`, мы выполняем это действие в окружении и получаем
- `наблюдение`: Новое состояние (st+1)
- `вознаграждение`: Вознаграждение, которое мы получаем после выполнения действия
- `terminated`: Указывает, завершился ли эпизод (агент достиг терминального состояния)
- `truncated`: Введено в новой версии, указывает на ограничение по времени или, например, если агент вышел за пределы окружения.
- `info`: Словарь, предоставляющий дополнительную информацию (зависит от окружения).

За более подробными объяснениями обратитесь к этому 👉 https://gymnasium.farama.org/api/env/#gymnasium.Env.step.

Если эпизод завершается:
- Мы возвращаем окружение в исходное состояние с помощью `observation = env.reset()`.

**Давайте посмотрим на пример!** Обязательно прочитайте код

In [None]:
import gymnasium as gym

# Сначала мы создаем среду под названием LunarLander-v2
env = gym.make("LunarLander-v2")

# Затем мы инициализируем эту среду
observation, info = env.reset()

for _ in range(20):
  # Выбираем случайное действие
  action = env.action_space.sample()
  print("Action taken:", action)

  # Выполняем это действие в среде и получаем
  # наблюдение, вознаграждение, terminated (завершился ли эпизод),
  # truncated (ограничение по времени или, например, если агент вышел за пределы окружения),
  # info (дополнительная информация)
  observation, reward, terminated, truncated, info = env.step(action)

  # Если игра завершена (в нашем случае мы приземлились, разбились) или прервана (таймаут)
  if terminated or truncated:
      # Перезагружаем среду
      print("Environment is reset")
      observation, info = env.reset()

env.close()

## Создайте окружение LunarLander 🌛 и поймите, как оно работает

### [Среда 🎮](https://gymnasium.farama.org/environments/box2d/lunar_lander/)

В этом первом уроке мы будем обучать нашего агента, [Lunar Lander](https://gymnasium.farama.org/environments/box2d/lunar_lander/), **правильной посадке на Луну**. Для этого агент должен научиться **адаптировать свою скорость и положение (горизонтальное, вертикальное и угловое) для правильной посадки**.

---


💡 Хорошая привычка, когда вы начинаете использовать среду - прочитать ее документацию.

👉 https://gymnasium.farama.org/environments/box2d/lunar_lander/

---

Давайте посмотрим, как выглядит среда:

In [None]:
# Создаем наше окружение с помощью gym.make("<имя_окружения>")
env = gym.make("LunarLander-v2")
env.reset()
print("_____OBSERVATION SPACE_____ \n")
print("Observation Space Shape", env.observation_space.shape)
print("Sample observation", env.observation_space.sample()) # Получаем случайное наблюдение 

 `Observation Space Shape (8,)` означает, что наблюдение - это вектор размера 8, где каждое значение содержит различную информацию об окружении:
- Горизонтальная координата площадки (x)
- Вертикальная координата площадки (y)
- Горизонтальная скорость посадочного аппарата (x)
- Вертикальная скорость посадочного аппарата (y)
- Угол наклона посадочного аппарата
- Угловая скорость посадочного аппарата
- Если точка контакта левой ноги коснулась земли (булевое значение)
- Если точка контакта правой ноги коснулась земли (булевое значение)

In [None]:
print("\n _____ACTION SPACE_____ \n")
print("Action Space Shape", env.action_space.n)
print("Action Space Sample", env.action_space.sample()) # Берем случайное действие 

 Пространство действий (множество возможных действий агента) дискретно и имеет 4 варианта 🎮:

- Действие 0: Ничего не делать,
- Действие 1: Запустить левый двигатель ориентации,
- Действие 2: запустить основной двигатель,
- Действие 3: запустить двигатель правой ориентации.

Функция вознаграждения (функция, которая будет выдавать вознаграждение на каждом временном шаге) 💰:

После каждого шага выдается награда. Общая награда за эпизод - это **сумма наград за все шаги в этом эпизоде**.

За каждый шаг награда:

- Увеличивается/уменьшается, чем ближе/дальше находится посадочная площадка.
- Увеличивается/уменьшается, чем медленнее/быстрее движется посадочный аппарат.
- Уменьшается тем больше, чем больше наклонен посадочный аппарат по отношению к горизонту.
- Увеличивается на 10 очков за каждую ногу, соприкасающуюся с землей.
- Уменьшается на 0,03 балла за каждый кадр, когда работает боковой двигатель.
- Уменьшается на 0,3 балла за каждый кадр работы основного двигателя.

Эпизод получает **дополнительное вознаграждение в размере -100 или +100 очков за крушение или благополучное приземление соответственно*.

Эпизод считается **решением, если он набирает не менее 200 очков.**.

#### Векторизованная среда

- Мы создаем векторизованное окружение (метод объединения нескольких независимых окружений в одно) из 16 окружений. Таким образом, **мы получим больше разнообразного опыта во время обучения**.

In [None]:
# Create the environment
env = make_vec_env('LunarLander-v2', n_envs=16)

## Создание модели 🤖
- Мы изучили наше окружение и поняли задачу: **уметь правильно посадить Lunar Lander на посадочную площадку, управляя левым, правым и главным двигателем ориентации**. Теперь давайте построим алгоритм, который мы будем использовать для решения этой задачи 🚀.

- Для этого мы воспользуемся нашей первой библиотекой Deep RL - [Stable Baselines3 (SB3)](https://stable-baselines3.readthedocs.io/en/master/).

- SB3 - это набор **надежных реализаций алгоритмов обучения с подкреплением в PyTorch**.

---

💡 Хорошая привычка при использовании новой библиотеки - сначала погрузиться в документацию https://stable-baselines3.readthedocs.io/en/master/, а затем попробовать несколько туториалов.

----

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit1/sb3.png" alt="Stable Baselines3">

Для решения этой задачи мы будем использовать SB3 **PPO**. [PPO (он же Проксимальная оптимизация политики) - один из алгоритмов SOTA (State Of The Art, самый современный метод) глубокого обучения с подкреплением, которые вы изучите в ходе этого курса] (https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html#example%5D).

PPO - это комбинация из:
- *Метод подкрепляющего обучения на основе ценности*: обучение функции "действие-ценность", которая подсказывает нам **наиболее ценное действие, которое следует предпринять, учитывая состояние и действие**.
- *Метод обучения с подкреплением на основе политики*: обучение политике, которая **даст нам распределение вероятностей по действиям**.

Stable-Baselines3 легко настраивается:

1️⃣ Вы **создаете свое окружение** (в нашем случае это было сделано выше).

2️⃣ Вы определяете **модель, которую хотите использовать, и инстанцируете эту модель** `model = PPO("MlpPolicy")`.

3️⃣ Вы **обучаете агента** с помощью `model.learn` и определяете количество временных шагов обучения

```
# Создаем среду
env = gym.make('LunarLander-v2')

# Инстанциируем агента
model = PPO('MlpPolicy', env, verbose=1)

# Обучаем агента
model.learn(total_timesteps=int(2e5))
```



In [None]:
# НЕОБХОДИМО СДЕЛАТЬ: Определите архитектуру PPO MlpPolicy.
# Мы используем многослойный перцептрон (MLPPolicy), потому что на входе вектор,
# если бы на входе были кадры, мы бы использовали CnnPolicy
model =

#### Решение

In [None]:
# РЕШЕНИЕ
# Мы добавили несколько параметров для ускорения обучения
model = PPO(
    policy = 'MlpPolicy',
    env = env,
    n_steps = 1024,
    batch_size = 64,
    n_epochs = 4,
    gamma = 0.999,
    gae_lambda = 0.98,
    ent_coef = 0.01,
    verbose=1)

## Обучение агента PPO 🏃.
- Давайте обучим нашего агента на 1 000 000 временных шагов, не забудьте использовать GPU на Colab. Это займет примерно 20 минут, но вы можете использовать меньшее количество временных шагов, если хотите просто попробовать.
- Во время тренировки сделайте перерыв ☕ вы его заслужили 🤗.

In [None]:
# НЕОБХОДИМО СДЕЛАТЬ: Обучите модель на 1 000 000 временных шагов.

# НЕОБХОДИМО СДЕЛАТЬ: Укажите имя файла для модели и сохраните модель в файл
model_name = ""


#### Solution

In [None]:
# РЕШЕНИЕ
# Обучите модель на 1 000 000 временных шагов.
model.learn(total_timesteps=1000000)
# Сохраните модель
model_name = "ppo-LunarLander-v2"
model.save(model_name)

## Оцените агента 📈.
- Не забудьте обернуть окружение в [Monitor](https://stable-baselines3.readthedocs.io/en/master/common/monitor.html).
- Теперь, когда наш агент Lunar Lander обучен 🚀, нам нужно **проверить его работу**.
- Stable-Baselines3 предоставляет метод для этого: `evaluate_policy`.
- Чтобы заполнить эту часть, вам нужно [посмотреть документацию](https://stable-baselines3.readthedocs.io/en/master/guide/examples.html#basic-usage-training-saving-loading)
- В следующем шаге мы увидим **как автоматически оценить и поделиться своим агентом, чтобы соревноваться в таблице лидеров, а пока давайте сделаем это сами**.


💡 Когда вы оцениваете своего агента, вы должны использовать не свою тренировочную среду, а создать среду оценки.

In [None]:
# НЕОБХОДИМО СДЕЛАТЬ: Оцените агента
# Создайте новую среду для оценки
eval_env =

# Оценить модель с 10 эпизодами оценки и детерминированностью=True
mean_reward, std_reward =

# Вывести результаты



#### Решение

In [None]:
#@title
eval_env = Monitor(gym.make("LunarLander-v2"))
mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")

- В моем случае я получил среднее вознаграждение `200.20 +/- 20.80` после обучения на 1 миллионе шагов, что означает, что наш агент лунохода готов к посадке на Луну 🌛🥳.

## Опубликуйте нашу обученную модель на хабе 🔥.
Теперь, когда мы увидели, что получили хорошие результаты после обучения, мы можем опубликовать нашу обученную модель на хабе 🤗 с помощью одной строки кода.

📚 Документация по библиотекам 👉 https://github.com/huggingface/huggingface_sb3/tree/main#hugging-face--x-stable-baselines3-v20

Вот пример карточки модели (с Space Invaders):

**FIXME**

Используя `package_to_hub` **вы оцениваете, записываете реплей, генерируете карту модели вашего агента и отправляете ее в хаб**.

Таким образом:
- Вы можете **показать нашу работу** 🔥.
- Вы можете **визуализировать игру вашего агента** 👀
- Вы можете **поделиться с сообществом агентом, который может быть использован другими** 💾
- Вы можете **зайти в таблицу лидеров 🏆 и посмотреть, насколько хорошо ваш агент играет по сравнению с вашими одноклассниками** 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard

Чтобы получить возможность поделиться своей моделью с сообществом, нужно выполнить еще три шага:

1️⃣ (если это еще не сделано) создайте учетную запись на Hugging Face ➡ https://huggingface.co/join

2️⃣ Войдите в систему, а затем вам нужно сохранить токен аутентификации с сайта Hugging Face.
- Создайте новый токен (https://huggingface.co/settings/tokens) **с ролью записи**.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/create-token.jpg" alt="Создать HF-токен">.

- Скопируйте токен
- Выполните ячейку ниже и вставьте токен

In [None]:
notebook_login()
!git config --global credential.helper store

Если вы не хотите использовать Google Colab или Jupyter Notebook, вам нужно использовать эту команду: `huggingface-cli login`.

3️⃣ Теперь мы готовы отправить нашего обученного агента в 🤗 хаб 🔥 с помощью функции `package_to_hub()`.

Заполним функцию `package_to_hub`:
- `model`: наша обученная модель.
- `model_name`: имя обученной модели, которое мы определили в `model_save`.
- `model_architecture`: архитектура модели, которую мы использовали, в нашем случае PPO
- `env_id`: имя окружения, в нашем случае `LunarLander-v2`.
- `eval_env`: среда оценки, определенная в eval_env
- `repo_id`: имя репозитория Hugging Face Hub, который будет создан/обновлен `(repo_id = {username}/{repo_name})`.

💡 **Хорошее имя - {username}/{model_architecture}-{env_id}**.

- `commit_message`: сообщение commit

In [None]:
import gymnasium as gym
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.env_util import make_vec_env

from huggingface_sb3 import package_to_hub

## НЕОБХОДИМО СДЕЛАТЬ: Определите repo_id
## repo_id - это идентификатор репозитория модели из хаба Hugging Face (repo_id = {organization}/{repo_name} для примера ThomasSimonini/ppo-LunarLander-v2
repo_id =

# НЕОБХОДИМО СДЕЛАТЬ: Определите имя окружения
env_id =

# Создайте оценочное окружение и установите render_mode="rgb_array"
eval_env = DummyVecEnv([lambda: Monitor(gym.make(env_id, render_mode="rgb_array"))])


# НЕОБХОДИМО СДЕЛАТЬ: Определите архитектуру модели, которую мы использовали
model_architecture = ""

## НЕОБХОДИМО СДЕЛАТЬ: Определите сообщение commit
commit_message = ""

# метод сохраняет, оценивает, генерирует карточку модели и записывает видео с воспроизведением вашего агента перед отправкой репозитория в хаб
package_to_hub(model=model, # Наша обученная модель
               model_name=model_name, # Имя нашей обученной модели
               model_architecture=model_architecture, # Архитектура модели, которую мы использовали: в нашем случае PPO
               env_id=env_id, # Имя окружения
               eval_env=eval_env, # Окружение оценки
               repo_id=repo_id, # id репозитория модели из Hugging Face Hub (repo_id = {organization}/{repo_name} для примера ThomasSimonini/ppo-LunarLander-v2
               commit_message=commit_message)

#### Решение


In [None]:
import gymnasium as gym

from stable_baselines3 import PPO
from stable_baselines3.common.vec_env import DummyVecEnv
from stable_baselines3.common.env_util import make_vec_env

from huggingface_sb3 import package_to_hub

# Определите имя окружения
env_id = "LunarLander-v2"

# Определите архитектуру модели, которую мы использовали
model_architecture = "PPO"

## Определите repo_id
## repo_id - это идентификатор репозитория модели из хаба Hugging Face (repo_id = {organization}/{repo_name} для примера ThomasSimonini/ppo-LunarLander-v2
## ИЗМЕНИТЕ НА ИДЕНТИФИКАТОР ВАШЕГО РЕПО
repo_id = "ThomasSimonini/ppo-LunarLander-v2" # Измените на идентификатор вашего репо, вы не можете использовать мой 😄.

## Определите сообщение commit
commit_message = "Upload PPO LunarLander-v2 trained agent"

# Создайте оценочное окружение и установите render_mode="rgb_array"
eval_env = DummyVecEnv([lambda: gym.make(env_id, render_mode="rgb_array")])

# PLACE the package_to_hub function you've just filled here
package_to_hub(model=model, # Наша обученная модель
               model_name=model_name, # Имя нашей обученной модели
               model_architecture=model_architecture, # Архитектура модели, которую мы использовали: в нашем случае PPO
               env_id=env_id, # Имя окружения
               eval_env=eval_env, # Окружение оценки
               repo_id=repo_id, # id репозитория модели из Hugging Face Hub (repo_id = {organization}/{repo_name} для примера ThomasSimonini/ppo-LunarLander-v2
               commit_message=commit_message)


Поздравляем 🥳 Вы только что обучили и загрузили своего первого агента глубокого обучения с подкреплением. Приведенный выше сценарий должен был отобразить ссылку на хранилище моделей, например https://huggingface.co/osanseviero/test_sb3. Перейдя по этой ссылке, вы сможете:
* Посмотреть предварительный просмотр видео вашего агента справа.
* Щелкнуть "Файлы и версии", чтобы увидеть все файлы в репозитории.
* Нажмите "Use in stable-baselines3", чтобы получить фрагмент кода, показывающий, как загрузить модель.
* Карточка модели (файл `README.md`), в которой дается описание модели.

Под капотом Хаб использует репозитории на основе git (не волнуйтесь, если вы не знаете, что такое git), что означает, что вы можете обновлять модель новыми версиями по мере того, как вы экспериментируете и улучшаете своего агента.

Сравните результаты своего LunarLander-v2 с одноклассниками с помощью таблицы лидеров 🏆 👉 https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard

## Загрузите сохраненную модель LunarLander из хаба 🤗.
Спасибо [ironbar](https://github.com/ironbar) за предоставленный материал.

Загрузить сохраненную модель из хаба очень просто.

Зайдите на https://huggingface.co/models?library=stable-baselines3, чтобы увидеть список всех сохраненных моделей Stable-baselines3.
1. Выбираете одну из них и копируете ее repo_id

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit1/copy-id.png" alt="Copy-id"/>

2. Тогда нам просто нужно использовать load_from_hub с:
- repo_id
- filename: сохраненная модель в репозитории и ее расширение (*.zip)

Поскольку модель, которую я загружаю с хаба, была обучена с помощью Gym (бывшая версия Gymnasium), нам нужно установить shimmy - инструмент для преобразования API, который поможет нам правильно запустить среду.

Документация по Shimmy: https://github.com/Farama-Foundation/Shimmy

In [None]:
!pip install shimmy

In [None]:
from huggingface_sb3 import load_from_hub
repo_id = "Classroom-workshop/assignment2-omar" # идентификатор репозитория
filename = "ppo-LunarLander-v2.zip" # имя файла модели с расширением .zip

# Если модель была обучена на Python 3.8, использовался протокол pickle 5.
# Но в Python 3.6, 3.7 используется протокол 4.
# Чтобы добиться совместимости, нам нужно:
# 1. Установить pickle5 (мы сделали это в начале коллаба)
# 2. Создать пользовательский пустой объект, который мы передадим в качестве параметра в PPO.load()
custom_objects = {
            "learning_rate": 0.0,
            "lr_schedule": lambda _: 0.0,
            "clip_range": lambda _: 0.0,
}

checkpoint = load_from_hub(repo_id, filename)
model = PPO.load(checkpoint, custom_objects=custom_objects, print_system_info=True)

Давайте оценим этого агента:

In [None]:
#@title
eval_env = Monitor(gym.make("LunarLander-v2"))
mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")

## Некоторые дополнительные трудности 🏆
Лучший способ научиться **это попробовать все самому**! Как вы видели, текущий агент работает не очень хорошо. В качестве первого предложения вы можете тренироваться на большем количестве шагов. С 1 000 000 шагов мы увидели отличные результаты!

В [Таблице лидеров](https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard) вы найдете своих агентов. Сможете ли вы добраться до вершины?

Вот несколько идей, как этого добиться:
* Тренировать больше шагов
* Попробуйте различные гиперпараметры для `PPO`. Вы можете посмотреть их на https://stable-baselines3.readthedocs.io/en/master/modules/ppo.html#parameters.
* Проверьте документацию [Stable-Baselines3](https://stable-baselines3.readthedocs.io/en/master/modules/dqn.html) и попробуйте другую модель, например DQN.
* **Поместите вашу новую обученную модель** на хаб 🔥

**Сравните результаты LunarLander-v2 со своими одноклассниками**, используя [таблицу лидеров](https://huggingface.co/spaces/huggingface-projects/Deep-Reinforcement-Learning-Leaderboard) 🏆.

Посадка на Луну слишком скучна для вас? Попробуйте **изменить окружение**, почему бы не использовать MountainCar-v0, CartPole-v1 или CarRacing-v0? Проверьте, как они работают [используя документацию по gymlibrary](https://www.gymlibrary.dev/) и получайте удовольствие 🎉.

________________________________________________________________________
Поздравляю с окончанием этой главы! Это была самая большая глава, **и в ней было много информации**.

Если вы все еще чувствуете, что запутались во всех этих элементах... это абсолютно нормально! **Так было и со мной, и со всеми, кто изучал RL.

Потратьте время, чтобы по-настоящему **освоить материал, прежде чем продолжать и пробовать дополнительные задания**. Очень важно освоить эти элементы и заложить прочный фундамент.

Естественно, в ходе курса мы будем углубляться в эти понятия, но **лучше хорошо понять их сейчас, прежде чем погружаться в следующие главы**.

В следующий раз, в бонусном блоке 1, вы обучите собаку Хагги приносить палку.

<img src="https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/notebooks/unit1/huggy.jpg" alt="Huggy"/>

## Продолжайте учиться, оставайтесь крутыми 🤗