# Дизайн эксперимента

**Задача:**
Дано пространство $n$-мерное пространство $X$ и число $l$.

Необходимо построить выборку размера $l$ из пространства $X$, покрывающую это пространство наиболее равномерно.

Далее будем считать, что пространство $X=[0, 1]^n$.

Например, нужно решать задачу регрессии для самолета (сколько самолет может поднимать). Есть только 100 объектов в обучающей выборке (огранниченность в числе экспериментов).

Задача нечетко поставлена. Что значит "наиболее равномерно"? 
Введем метрики равномерности. 

## Метрики равномерности

* расхождение (discrepancy) $D$

$$P_{u,v}$$ - параллилепипед (если n = 2, то квадрат)

$$
P_{u,v}=\bigotimes_{k=1}^d[u_k, v_k),
$$

где $0\le u_k < v_k < 1$ для всех $k=1,\ldots, d$.

$$
D(X) = \sup_{u_k, v_k} \big|\frac{(X\cap P_{u, v})}{N}-\big|P_{u, v}\big|\big|,
$$

где $\#(\cdot)$ - число точек в указанном множестве, $\big|P_{u,v}\big|=\prod_{k=1}^d(v_k-u_k)$ - объем $P_{u, v}$.

* минимаксное расстояние (minimax interpoint distance) $p$
$$
p(X)=\max_i\min_{j:j\neq i}||x_i-x_j||,
$$

берем все пары точки и измеряем рассстояние от точки до ближайшей, получаем набор расстояний для каждой точки. И берем максимум растояний. 

* $\phi$-метрика ($\phi$-metric)
$$
\phi_p(X)=\big(\sum_{i > j}^N||x_i-x_j||^{-p}\big)^{1/p}
$$
$$
\phi_\infty(X)=\frac{1}{\min_{i>j}||x_i-x_j||}
$$

## Техники дизайна эксперимента

Два вида техник:

* batch; не позволяют добавлять новые объекты после формирования первого набора.

* sequential; можно добавлять новые объекты в любой момент.

<img src="FullFactorial_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* поддерживает переменные разных типов;
* хорошая равномерность.

**Минусы:**
* batch;
* проклятие размерности.

Ставим точки по сетке. слишком большая размерность (очень сложная задача) и нельзя добавить новые точки

<img src="RandomSeq_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* поддерживает переменные разных типов;
* sequential.

**Минусы:**
* низкая равномерность, особенно при больших размерностях.

случайным образом накидаем точки по равномерному распределению. Могут быть дыры и сгустки

<img src="LHS_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* поддерживает переменные разных типов;
* может сгенерировать выборку с хорошей равномерностью.

**Минусы:**
* batch;
* есть вероятность сгенерировать выборку с низкой равномерностью.

<img src="LHS_ugly.png" style="float: center; width: 300px;" />

Идея: нужно разместить 5 объектов. Каждый ризнак режем на 5 интерваллов. Выбираем квадратики так, чтобы в каждой колонке 1 квадратик, и в строке только 1 квадратик. Внутри квадрата случайным образом кидаем точку. Так мы страхуемся от дырок. 

<img src="OLHS_256.png" style="width: 600px;" />

**Плюсы:**
* хорошая равномерность;
* поддерживает переменные разных типов.

**Минусы:**
* batch;
* медленно генерируется.

Генерируем несколько LHS, выбираем лучший.

<tr>
    <td> <img src="LHS_bad.png" style="float: left; width: 150px;" /> </td>
    <td> <img src="LHS_good.png" style="float: left; width: 150px;" /> </td>
</tr>

Защищает от точек по диагонали. Генерируем много lhs (латинский гиперкуб) и выбираем лучшую по метрике. Непонятно, как добавлять новые точки. 

<img src="HaltonSeq_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* хорошая равномерность на малых ($n<6$) размерностях;
* sequential.

**Минусы:**
* поддерживает только вещественные переменные;
* на больших размерностях возникает сильная корреляция.

$$
\psi_p(m)=\sum_{i=0}^{R(m)}\frac{a_i(m)}{p^{i+1}},
$$
где $a_i$ - числа из записи $m$ в системе счисления с основанием $p$, $R(m)$ - максимальный индекс, для которого $a_i(m)$ не ноль.

$$
x_s=\big(\psi_{p_1}(s), \ldots, \psi_{p_n}(s)\big),
$$
где $p_i$ - $i$-ое простое число.

Расскидываем числа, используя формулу. Генерируем значения признаков по формуле. Можно генерировать новые точки. На больших размерностях наблюдается корреляция. 

<img src="SobolSeq_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* хорошая равномерность на малых размерностях;
* sequential.

**Минусы:**
* поддерживает только вещественные переменные;
* на больших размерностях возникает сильная корреляция (хотя меньшая, чем в Halton);
* "симметричность" выборки.

Подробнее можно почитать [тут](https://en.wikipedia.org/wiki/Sobol_sequence)

Очень симметричная картинка, есть сгустки и дырки. 

<img src="FaureSeq_256.png" style="width: 600px;" />

**Плюсы:**
* неплохая равномерность;
* sequential.

**Минусы:**
* поддерживает только вещественные переменные;
* тяжело вычислима.

Подробнее можно почитать [тут](https://www.datadvance.net/product/macros/manual/6.11/guide/gtdoe/techniques.html#faure-sequence)

Почему-то иногда показывает лучше результаты. Можно использовать несколько техник и считать для них равномерность. Выбирать лучший метод 

## Адаптивный дизайн

Допустим, (в тетради). Но не знаем, как функция примерно выглядит. 

<img src="toy_example.png" style="width: 600px;" />

Зеленый график - предстказанная ошибка для каждого значения признака. В известных точках ошибка 0. Чем дальше от известных точек, чем ошибка больше. Считаем значения функции в тех местах, где наибольшая ошибка (делаем эксперимент). 