<img src="Pics/hyper.png" width=1000>

**Валидационное множество** - тестовой множество, которое используется для валидации при настройке гиперпараметров.

## Выбор алгоритма и настройка гиперпараметров

### Выбор алгоритма настройкой гиперпараметров

Построим универсальный алгоритм $A^u$ со списком гиперпараметров $\{c, p^1, ..., p^n\}$ где гиперпараметр $c$ указывает на выбираемый алгоритм $A^c$.

### Настройка гиперпараметров выбором алгоритма

* Специализируем алгоритмы $A^1, A^2, ...$ соответствующими гиперпараметрами $\{p^1_1, p^1_2\}$...
* Выберем наилучший

# Эволюционные алгоритмы

## Оптимизация чёрного ящика

* Алгоритм оптимизации может вычислять функцию ошибку $L$
на произвольном входе из её области определения, но не
может получить никакой дополнительной информации о ней.
* Как правило применяется для недифференцируемых,
невыпуклых или медленно вычислимых функций.
* Тестирование (сравнение) алгоритмов оптимизации:
* Минимум $L$ при фиксированном времени или числе вызовов $L$.
* Количество времени или число вызовов $L$ для достижения
требуемого значения $L$.
Данные ограничения называются **критерием остановки**.

## Операторы

**Генерация** - создаёт новый объект

**Мутация** - делает из объекта $x$ похожий объект $x^'$

**Кроссовер** — делает из двух объектов третий, который одновременно похож на первый и второй

## Алгоритмы оптимизации

### Случайный поиск

```
    x ← rand()
    while StoppingCriteria() = false do
        x′ ← rand()
        if L(x′) < L(x) then
            x ← x′
        end if
    end while
```

### Поиск с восхождением к вершине

```
x ← rand()
while StoppingCriteria() = false do
    x′ ← mutate(x)
    if L(x′) < L(x) then
        x ← x′
    end if
end while
```

### Имитация отжига

Чем ниже температура, тем меньше вероятность ухудшить состояние.

```
x ← rand(), t ← Tstart
while StoppingCriteria() = false do
    x′ ← mutate(x)
    if random() < exp((L(x) − L(x′))/t) then
        x ← x′
    end if
        t ← decrease(t)
end while
```

### Численные методы

**Поиск по сетке**

```
for x′1 = 0, δ, 2 · δ, . . . , 1 do
    ...
    for x′m = 0, δ, 2 · δ, . . . , 1 do
        if L(x′) < L(x) then
            x ← x′
        end if
    end for
    ...
end for
```

### Субградиентные методы

$\frac{\partial L}{\partial x_j} = \frac{L(x_j + \delta \cdot one-hot(j)) - L(x)}{\delta}$

Градиентный спуск
$x_{new} = x_{old} - \lambda \cdot \frac{\partial L}{\partial x}$

# Переобучение и регуляризация

**Проблема переобучения** — начиная с определенного уровня
сложности предсказательной модели, чем лучше алгоритм
показывает себя на тренировочном наборе данных $D$, тем хуже
он работает на реальных объектах.

**Регуляризация** — метод добавления некоторых
дополнительных ограничений к условию с целью предотвратить
переобучение или повысить вербализуемость моделей.

* *Мягкая*

$L_{reg}(\theta, D) = L(\theta, D) + \lambda \cdot complexity(\theta)$

* *Жёсткая*

$L(\theta, D) \rightarrow min$,
$complexety(\theta) \leq C$

**Смещение (bias)** — это погрешность оценки, возникающая в результате ошибочного предположения в алгоритме обучения (недообучение).

**Дисперсия (variance)** — это ошибка чувствительности к малым отклонениям в тренировочном наборе (переобучение).
<img src="Pics/bias%20and%20var.png" width=500>

**Задача найти оптимальную точку**
![optimal](Pics/optimal.png)

# Перекрёстная проверка

Не всегда у нас достаточно данных, чтобы правильно посчитать. Можно несколько разбивать одно и то же множество данных на тестовую и тренировочную выборку, а потом сделать оптимальный алгоритм.

## Полная кросс-валидация

1. Фиксируем $e, r$. $|D_{train}| = r$, $|D_{test}| = e$
2. Разобьём $D$ всевозможными способами
3. $L(A, D) = \frac{1}{C^e_{e+r}} \cdot \sum L(A(D_{train}), D_{test})$

## Кросс-валидация по k блокам

Разбиваем на $k$ блоков и $k$ раз проводим эксперимент, но уже с другим блоком.

## Что ещё приводит к переобучению

* Смещенный (нерепрезентативный) набор данных
* Плохо подобранная метрика качества измерения алгоритмов (например, точность для редких классов)
* Систематические смещения в методах валидации
* Непонимание скрытых гиперпараметров

В этих случаях кросс-валидация **бессмыслена**.

# Обучение с учителем

## Оценка задач

* Модель $a$ аппроксимирует зависимость $y$.
* Требуется оценить результат предсказания $\bar y$
функцией $L(y, \bar y)$.
* Для задачи классификации: $y$ и $\bar y$ массивы категорий.
* Для задачи регрессии: $y$ и $\bar y$ массивы чисел.

## Оценка задачи классификации

**Точность**: $Accuracy(y, \bar y) = \frac{1}{n} \cdot \sum_{i=1}^n [y_i = \bar y_i]$
Но тут возникают вопросы:
1. Точность 70% это хорошо?
2. А если в тестовой выборке 70% объектов одного класса?

**Коэффициент Каппа Коэна (kappa statistic)**: $κ(po, pe) = \frac{po−pe}{1−pe}$, где $po$ — полученный результат (точность), а $pe$ - случайный / наивный.

**Ошибка**: $ErrorRate = 1 - Accuracy$

**Матрица ошибок:**

$CM_{t,c}$ - число объектов класса t попавших в класс c.
$CM(y, \bar y)_{t,c} = \sum_{i=1}^n [(y_i = t) \& (\bar y_i = c)]$

Предположим, что у нас 2 класса, тогда
*TP (true positive)* - число верно угаданных в 1
*TN (true negative)* - верно угаданные во 2
*FP* - ошибка первого рода
*FN* - ошибка второго рода

**Точность**: $Precision = \frac{TP}{TP + FP}$
**Плотность**: $Recall = \frac{TP}{TP + FN}$
**F-мера**: $F_{\beta} = (1 + \beta^2) \cdot \frac{Precision \cdot Recall}{\beta^2 \cdot Precision + Recall}$
<img src="Pics/f-score.png" width=1000>

## AUC ROC

1. $TRP = Recall$
2. $TNR = \frac{TN}{TN + FP}$
3. ROC - зависимость TRP от TNR
4. Площадь под ROC - функция качества

## Функция ошибки для линейной регрессии

**Сумма квадратов**: $SS(y, \bar y) = ||y - \bar y||^2_2$
**Средний квадрат ошибки** $MSE(y, \bar y) = \frac{SS(y, \bar y)}{n}$
**Среднеквадтратичная ошибка**: $RMSE(y, \bar y) = \sqrt{NRMSE(y, \bar y)}$
**Нормализованная среднеквадратическая ошибка**: $NRMSE(y, \bar y) = \frac{RMSE}{\sigma(y)$
**Коэффициент детерминации**: $R^2$
**Средняя абсолютная процентная ошибка**: $MAPE(y, \bar y) = \frac{100 \%}{n} \cdot \sum |\frac{y_i - \bar y_i}{y_i}|$