# Генерация случайных выборок

In [None]:
%pylab inline
import scipy.stats as stats
from ipywidgets import interact

In [None]:
x = normal(size=40)
x

In [None]:
plot(x, 'o');

> Объедините две ячейки, чтобы сразу отображать массив сгенерированных точек на рисунке. 
Нажатием Ctrl-Enter выполните код несколько раз, чтобы убедиться, что наборы каждый раз генерятся по новому.
Увеличьте размер выборки (например, 400, 4000).

Случайная выборка представляет собой массив положительных и отрицательных чисел в диапазоне от -3 до 3.

In [None]:
hist(x);

У нормального распределения можно задать два параметра - `loc` (локализацию) и `scale` (шкалу, размах). Локализация сдвигает центр распределения туда, где ожидается среднее значение. Шкала задает размер ожидаемого стандартного отклонения.

По-умолчанию `loc=0.0, scale=1.0`, что дает стандартное нормальное распределение.

Если при z-нормализации мы отнимаем среднее и делим на стандартное отклонение, то при генерации распределения с заданными параметрами мы прибавляем среднее (задаем `loc`) и умножаем на стандартное отклонение (задаем `scale`).

Попробуем сгенерить выборку с заданными параметрами и посчитаем ее среднее и стандартное отклонение.

In [None]:
x = normal(loc=50, scale=10, size=30)
hist(x, density=True, label='выборка')

M=mean(x); S=std(x);
xx = arange(M-4*S, M+4*S, 0.01) #подробные значения абсцисс для гладкой кривой
yy = stats.norm.pdf(xx, M,S)
plot(xx, yy, 'r-', label='модель'); legend(); xlabel('у.е.');
title(f'среднее = {M:.3f}, стандартное отклонение = {S:.3f}');

Повторите выполнение предыдущей ячейки несколько раз и обратите внимание, что параметры созданного выборочного распределения отличаются от заданных в модели. Они похожи, но отличаются. Т.е. варьируют в некоторых пределах.
Такое повторное многократное создание случайных выборок для одной и тоже модели и последующая оценка вариации параметров этих выборок лежит в основе идеи о доверительном интервале.

In [None]:
M + array([-1,1])*S/(30**.5)

Наилучшим предсказанием, каким будет следующее значение случайной величины, является *математическое ожидание* - оно равно среднему значению.
Однако если нужно предсказать несколько значений (т.е. сгенерить выборку значений, похожих на эмпирические) и все они будут равны среднему, то один параметр мы повторим (среднее будет такое же), а другой нет (стандартное отклонение будет равно 0). Статистическая модель должна давать выборки похожие по всем параметрам на исходную выборку значений.
Поэтому для нормальной модели мы всегда оцениваем оба параметра: среднее и стандартное отклонение.

Также можно сгенерить выборки для других важных статистических распределений.
- np.random.standard_t - $t$ Стьюдента
- np.random.chisquare - $\chi ^2$ (хи-квадрат)
- np.random.exponential - экcпоненциальное
- np.random.binomial - биномиальное
- np.random.poisson - Пуассона

См. [Полный список в документации](https://numpy.org/doc/stable/reference/random/legacy.html#distributions)

Функции для генерации входят в модуль `random` пакета `numpy`, поэтому полный путь к ним будет, например, таким: `np.random.normal()`. Однако при использовании команды `%pylab` они становятся доступны без преамбулы. Чтобы убедиться, что переменные ссылаются на один и тот же объект используют оператор `is`.

In [None]:
np.random.exponential is exponential

> Попробуйте сгенерить выборки для всех упомянутых видов распределений. Для некоторых из них необходимо указать параметры (см. справку). При этом обратите внимание на то, как параметры влияют на форму гистограммы.

In [None]:
hist(binomial( 20, 0.7, size=20 ))

Напоследок, давайте экспериментально убедимся, что распределение Стьюдента при повышении степеней свободы переходит в нормальное.

Сравним генерацию выборок с моделями, вычисленными по формулам. Функции для работы со статистическими моделями доступны в модуле `scipy.stats`. Для каждого распределения можно получить моменты, PDF (Probability density function, плотность распределения), CDF (Cumulative distribution function), PPF (Percent point function) и др. производные от них функции.

In [None]:
xx=linspace(-5,5, 100)

@interact(order=(1,6), df=(3,50), iseed=(0,1000))
def _pic(order=2, df=3, iseed=None):
         
    n = 10**order
    seed(iseed)

    fig, (ax1,ax2) = subplots(1,2, figsize=(12,5))

    ax1.hist(standard_normal(n), xx, alpha=0.8, color='g', histtype='step', label='normal');
    ax1.hist(standard_t(df, n), xx, alpha=0.8, color='r', histtype='step', label='t(df={})'.format(df));
    ax1.legend();
    ax1.set_title('Выборки по {} значений'.format(n))

    ax2.plot(xx, stats.norm.pdf(xx), 'g-', lw=2, alpha=0.8, label='normal')
    ax2.plot(xx, stats.t.pdf(xx, df), 'r--', lw=2, alpha=0.8, label='t(df={})'.format(df))
    legend();
    title('Теоретические распределения (PDF)')


> Определите, при каком значении степени свободы (df) распределения перестают отличаться;

> Определите, при каких размерах выборки экспериментальные данные начинают соответствовать теоретическим.
