## **Skiings** 🎿🚀

# **Домашнее задание 1: Выбор задачи и подготовка среды**

## **1. Описание задачи**

### **Цель задачи**
Целью является обучение агента спускаться по горнолыжному склону, избегая препятствий (например, деревьев) и собирая флаги для получения наград. Это классическая задача Atari Skiing, которая предоставляет динамичную среду с визуальными входными данными.

### **Обоснование выбора задачи**
- **Почему RL подходит?**
  - Задача требует принятия последовательных решений на основе наблюдений за окружающей средой.
  - Агент должен учиться на основе взаимодействия с средой через награды (положительные за сбор флагов и отрицательные за столкновения с деревьями).
  - Входные данные представлены в виде RGB-изображений, что делает её идеальной для исследования алгоритмов глубокого обучения с подкреплением (Deep RL).

- **Ограничения:**
  - Высокая размерность состояний (пиксельные данные) усложняет обучение.
  - Сложность работы с динамичной средой, где действия влияют на долгосрочные результаты.

### **Почему выбрана среда Skiing-v4?**
- `Skiing-v4` — это обновленная версия классической среды Atari, которая обеспечивает лучшую совместимость с современными библиотеками и инструментами.
- Она предоставляет режим рендеринга (`render_mode='human'`), что позволяет легко визуализировать взаимодействие агента со средой.

---

## **2. Структура среды**

### **Состояния**
- Входные данные представлены в виде RGB-изображений размером **210x160 пикселей**.
- Каждое состояние содержит информацию о текущем кадре игры, включая положение лыжника, деревьев и флагов.

### **Действия**
Агент может выполнять три типа действий:
1. **Ничего не делать (0)**: Лыжник продолжает движение прямо.
2. **Двигаться влево (1)**: Лыжник поворачивает влево.
3. **Двигаться вправо (2)**: Лыжник поворачивает вправо.

### **Награды**
- Положительные награды начисляются за сбор флагов.
- Отрицательные награды начисляются за столкновения с деревьями или медленное движение.
- Итоговый счет агента зависит от суммы полученных наград.

In [None]:
import gym

# Создаем среду Skiing-v4 с визуализацией
env = gym.make('Skiing-v4', render_mode='human')

# Сбрасываем среду в начальное состояние
state = env.reset()

# Цикл взаимодействия с средой
for _ in range(1000):
    env.render()  # Визуализируем текущее состояние
    action = env.action_space.sample()  # Выбираем случайное действие
    state, reward, done, truncated, info = env.step(action)  # Выполняем действие
    print(f"Reward: {reward}")  # Выводим награду
    if done:  # Если эпизод завершен, выходим из цикла
        break

env.close()  # Закрываем среду

## **3. Подготовка среды**

### **Установка необходимого программного обеспечения**
Для работы со средой `Skiing-v4` потребуется установить библиотеку OpenAI Gym:
```bash
pip install gym[atari]
pip install autorom[accept-rom-license]
```

## **4. Визуализация**

https://drive.google.com/file/d/14J5sNzCGuCUAfu0heW9XQ3kJ35Gt-R02/view?usp=sharing

## **4. Заключение**

В рамках данного задания была выбрана среда `Skiing-v4` из OpenAI Gym, которая представляет собой сложную задачу с визуальными входными данными. Был подготовлен тестовый скрипт для проверки корректности работы среды, а также созданы визуализации (скриншоты и видео). Этот подход полностью соответствует требованиям задания и готовит основу для дальнейшего исследования методов обучения с подкреплением. 