# Дизайн эксперимента

**Задача:**
Дано пространство $n$-мерное пространство $X$ и число $l$.

Необходимо построить выборку размера $l$ из пространства $X$, покрывающую это пространство наиболее равномерно.

Далее будем считать, что пространство $X=[0, 1]^n$.

## Метрики равномерности

* расхождение (discrepancy) $D$
$$
P_{u,v}=\bigotimes_{k=1}^d[u_k, v_k),
$$

где $0\le u_k < v_k < 1$ для всех $k=1,\ldots, d$.

$$
D(X) = \sup_{u_k, v_k} \big|\frac{(X\cap P_{u, v})}{N}-\big|P_{u, v}\big|\big|,
$$

где $\#(\cdot)$ - число точек в указанном множестве, $\big|P_{u,v}\big|=\prod_{k=1}^d(v_k-u_k)$ - объем $P_{u, v}$.

* минимаксное расстояние (minimax interpoint distance) $p$
$$
p(X)=\max_i\min_{j:j\neq i}||x_i-x_j||,
$$

* $\phi$-метрика ($\phi$-metric)
$$
\phi_p(X)=\big(\sum_{i > j}^N||x_i-x_j||^{-p}\big)^{1/p}
$$
$$
\phi_\infty(X)=\frac{1}{\min_{i>j}||x_i-x_j||}
$$

## Техники дизайна эксперимента

Два вида техник:

* batch; не позволяют добавлять новые объекты после формирования первого набора.

* sequential; можно добавлять новые объекты в любой момент.

<img src="FullFactorial_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* поддерживает переменные разных типов;
* хорошая равномерность.

**Минусы:**
* batch;
* проклятие размерности.

<img src="RandomSeq_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* поддерживает переменные разных типов;
* sequential.

**Минусы:**
* низкая равномерность, особенно при больших размерностях.

<img src="LHS_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* поддерживает переменные разных типов;
* может сгенерировать выборку с хорошей равномерностью.

**Минусы:**
* batch;
* есть вероятность сгенерировать выборку с низкой равномерностью.

<img src="LHS_ugly.png" style="float: center; width: 300px;" />

<img src="OLHS_256.png" style="width: 600px;" />

**Плюсы:**
* хорошая равномерность;
* поддерживает переменные разных типов.

**Минусы:**
* batch;
* медленно генерируется.

Генерируем несколько LHS, выбираем лучший.

<tr>
    <td> <img src="LHS_bad.png" style="float: left; width: 150px;" /> </td>
    <td> <img src="LHS_good.png" style="float: left; width: 150px;" /> </td>
</tr>

<img src="HaltonSeq_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* хорошая равномерность на малых ($n<6$) размерностях;
* sequential.

**Минусы:**
* поддерживает только вещественные переменные;
* на больших размерностях возникает сильная корреляция.

$$
\psi_p(m)=\sum_{i=0}^{R(m)}\frac{a_i(m)}{p^{i+1}},
$$
где $a_i$ - числа из записи $m$ в системе счисления с основанием $p$, $R(m)$ - максимальный индекс, для которого $a_i(m)$ не ноль.

$$
x_s=\big(\psi_{p_1}(s), \ldots, \psi_{p_n}(s)\big),
$$
где $p_i$ - $i$-ое простое число.

<img src="SobolSeq_256.png" style="width: 600px;" />

**Плюсы:**
* легко генерируется;
* хорошая равномерность на малых размерностях;
* sequential.

**Минусы:**
* поддерживает только вещественные переменные;
* на больших размерностях возникает сильная корреляция (хотя меньшая, чем в Halton);
* "симметричность" выборки.

Подробнее можно почитать [тут](https://en.wikipedia.org/wiki/Sobol_sequence)

<img src="FaureSeq_256.png" style="width: 600px;" />

**Плюсы:**
* неплохая равномерность;
* sequential.

**Минусы:**
* поддерживает только вещественные переменные;
* тяжело вычислима.

Подробнее можно почитать [тут](https://www.datadvance.net/product/macros/manual/6.11/guide/gtdoe/techniques.html#faure-sequence)

## Адаптивный дизайн

<img src="toy_example.png" style="width: 600px;" />