## N экспериментов?

Для расчета интервальной оценки используем стандартное отклонение (`σ`).

**Уровень значимости α = 0.1:**



$ n = \left(\frac{{z \cdot σ}}{{\text{точность}}}\right)^2 $

**Уровень значимости α = 0.05:**


$ n = \left(\frac{{z \cdot σ}}{{\text{точность}}}\right)^2 $

Здесь:
- `n` - количество экспериментов,
- `σ` - стандартное отклонение выборки,
- `z` - z-значение для заданного уровня значимости,
- `точность` - половина ширины доверительного интервала.


# Теоретический анализ сложности алгоритмов SARSA и Actor-Critic

Сравнение по длине эпизодов нецелесообразно, так как функция награды итак отражает время, затраченное на выполнение эпизода, поэтому проведем теоретический анализ:

## 1. Вычислительная сложность

### SARSA
- **Основные операции**: Обновление Q-значений, выбор действий.
- **Обновление Q-значений**: SARSA обновляет одно Q-значение на каждом шаге.
  $
  Q(s_t, a_t) \leftarrow Q(s_t, a_t) + \alpha [r_{t+1} + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t)]
  $
- **Сложность на один шаг**: O(1), так как обновление одного Q-значения требует постоянного времени.
- **Выбор действий**: O(A), где A - количество возможных действий (если используется ε-жадная стратегия).

### Actor-Critic
- **Основные операции**: Обновление функции ценности (Critic), обновление политики (Actor), выбор действий.
- **Обновление функции ценности (Critic)**: 
  $
  V(s_t) \leftarrow V(s_t) + \alpha [r_{t+1} + \gamma V(s_{t+1}) - V(s_t)]
  $
- **Обновление политики (Actor)**: 
  $
  \theta \leftarrow \theta + \beta \nabla_\theta \log \pi(a_t | s_t) [r_{t+1} + \gamma V(s_{t+1}) - V(s_t)]
  $
- **Сложность на один шаг**:
  - Обновление функции ценности: O(1)
  - Обновление политики: зависит от сложности вычисления градиента, обычно O(d), где d - количество параметров политики.
- **Выбор действий**: зависит от стратегии, обычно O(A) для дискретных действий.

## 2. Требования к памяти

### SARSA
- **Хранение Q-таблицы**: Требуется память для хранения Q-значений для всех пар состояний и действий.
  $
  O(S \times A)
  $
  где S - количество состояний, A - количество действий.

### Actor-Critic
- **Хранение параметров критика**: Память для хранения параметров функции ценности.
  $
  O(S)
  $
- **Хранение параметров актера**: Память для хранения параметров политики.
  $
  O(d)
  $
- **Общий объем памяти**: 
  $
  O(S + d)
  $
  где d - количество параметров политики.

## 3. Сходимость

### SARSA
- **Сходимость**: Гарантированная сходимость при соблюдении условий на α (скорость обучения) и γ (дисконт-фактор).
- **Теоретическая стабильность**: Более устойчива к вариациям, так как является on-policy алгоритмом.

### Actor-Critic
- **Сходимость**: Меньше теоретических гарантий по сравнению с SARSA, но может сходиться быстрее в практике.
- **Теоретическая стабильность**: Меньше устойчивости, так как используется градиентный метод для обновления политики (off-policy).

## 4. Устойчивость

### SARSA
- **Устойчивость**: Высокая устойчивость благодаря on-policy подходу, что делает алгоритм менее подверженным нестабильности.

### Actor-Critic
- **Устойчивость**: Меньшая устойчивость, так как разделение оценки и политики может приводить к нестабильности, особенно при неправильной настройке гиперпараметров.

## Заключение

### SARSA
- **Плюсы**:
  - Простая реализация и теоретическое обоснование.
  - Высокая устойчивость и гарантированная сходимость.
  - Низкие требования к памяти и вычислительной сложности.
- **Минусы**:
  - Менее эффективен в больших и сложных пространствах состояний и действий.
  - Ограниченная возможность оптимизации политики.

### Actor-Critic
- **Плюсы**:
  - Высокая гибкость и масштабируемость для сложных задач с непрерывными действиями.
  - Возможность быстрого обучения и эффективного обновления политики.
- **Минусы**:
  - Более сложная реализация и настройка.
  - Более высокие требования к памяти и вычислительным ресурсам.
  - Потенциальная нестабильность и меньше теоретических гарантий сходимости.