# Теория вероятностей
## Практическое задание


**Правила:**

* Дедлайн **30 апреля 23:59**. После дедлайна работы не принимаются кроме случаев наличия уважительной причины.
* Выполненную работу нужно отправить на почту `probability.diht@yandex.ru`, указав тему письма `"[номер группы] Фамилия Имя"`. Квадратные скобки обязательны.
* Прислать нужно ноутбук и его pdf-версию (без архивов). Названия файлов должны быть такими: `N.ipynb` и `N.pdf`, где `N` - ваш номер из таблицы с оценками.
* Решения, размещенные на каких-либо интернет-ресурсах не принимаются. Кроме того, публикация решения в открытом доступе может быть приравнена к предоставлении возможности списать.
* Для выполнения задания используйте этот ноутбук в качествие основы, ничего не удаляя из него.
* Никакой код из данного задания при проверке запускаться не будет.

**Баллы за задание:**

* Задача 1 - 5 баллов
* Задача 2 - 20 баллов
* Задача 3 - 10 баллов
* Задача 4 - 10 баллов

Весь код в авторском решении задания выполняется за полминуты.

In [None]:
import numpy as np
import scipy.stats as sps
import ipywidgets as widgets
import matplotlib.pyplot as plt

%matplotlib inline

**Задача 1.** В этой задаче вам нужно исследовать свойства плотности.

Для перечисленных ниже распределений нужно
1). На основе графиков плотности для различных параметров пояснить, за что отвечает каждый параметр.
2). Сгенерировать набор независимых случайных величин из этого распределения и построить по ним гистограмму.

Распределения:
* Нормальное (для этого распределения ниже дается большая часть кода, решение также было разобрано на презентации)
* Равномерное
* Экспоненциальное
* Гамма-распределение
* Бета-распределение

Функция, рисующая график плотности с заданными параметрами

In [None]:
def show_pdf(pdf, xmin, xmax, ymax, grid_size=100, **kwargs):
    """
    Рисует график плотности непрерывного распределения
    pdf -- плотность
    xmin, xmax -- границы графика по оси x
    ymax -- граница графика по оси y
    grid_size -- размер сетки, по которой рисуется график
    kwargs -- параметры плотности
    """
    
    grid = np.linspace(xmin, xmax, grid_size)
    
    plt.figure(figsize=(12, 5))
    plt.plot(grid, pdf(grid, **kwargs), lw=3)
    plt.grid(ls=':')
    plt.xlim((xmin, xmax))
    plt.ylim((None, ymax))
    plt.show()

Пример работы функции для нормального распределения $\mathcal{N}(0, 0.85^2)$

In [None]:
show_pdf(sps.norm.pdf, -3, 3, 0.5, scale=0.85)

Ответ на задачу проще дать с помощью виджетов. Ниже приведен пример создания виджета для нормального распределения. О том, что такое виджеты и как заставить их работать, см. в инструкциях к библиотеках на странице курса.

In [None]:
# создать виджет, но не отображать его
ip = widgets.interactive(show_pdf,
                         pdf=widgets.fixed(sps.norm.pdf),
                         grid_size=widgets.IntSlider(min=25, max=300, step=25, value=100),
                         xmin=widgets.FloatSlider(min=-10, max=0, step=0.1, value=-5),
                         xmax=widgets.FloatSlider(min=0, max=10, step=0.1, value=5),
                         ymax=widgets.FloatSlider(min=0, max=2, step=0.1, value=1),
                         loc=widgets.FloatSlider(min=-10, max=10, step=0.1, value=0),
                         scale=widgets.FloatSlider(min=0.01, max=2, step=0.01, value=1));

# отображаем слайдеры группами
display(widgets.HBox(ip.children[:2]))
display(widgets.HBox(ip.children[2:4]))
display(widgets.HBox(ip.children[4:6]))
# отображаем вывод функции
display(ip.children[-1])

ip.update()  # чтобы функция запустилась до первого изменения слайдеров

Виджет в pdf передать не получится, поэтому нарисуйте еще несколько плотностей на одном графике, как это сделано ниже для нормального распределения.

In [None]:
grid = np.linspace(-7, 7, 1000)  # сетка для построения графика
a_list = [0, 3, 0]  # набор значений параметра a
sigma_list = [1, 1, 2]  # набор значений параметра sigma

plt.figure(figsize=(12, 4))
for i, (a, sigma, color) in enumerate(zip(a_list, sigma_list, ['b', 'r', 'g'])):
    plt.plot(grid, sps.norm(a, sigma).pdf(grid), color=color, lw=3, 
             label='$\mathcal{N}' + '({}, {})$'.format(a, sigma))
plt.legend(fontsize=16)
plt.grid(ls=':')
plt.show()

**Вывод:**
Для нормального распределения:
* параметр $a$ отвечает за <...>;
* параметр $\sigma$ отвечает за <...>.

Выполните те же действия для остальных распределений.

In [None]:
...

**Задача 2.** Имеется симметричная монета. Напишите функцию генерации независимых случайных величин из многомерного нормального распределения с заданными параметрами.

*Часть 1.* Напишите сначала функцию генерации случайных величин из равномерного распределения на отрезке $[0, 1]$ с заданной точностью. Это можно сделать, записав случайную величину $\xi \sim U[0, 1]$ в двоичной системе системе счисления $\xi = 0,\xi_1\xi_2\xi_3...$. Тогда $\xi_i \sim Bern(1/2)$ и независимы в совокупности. Приближение заключается в том, что вместо генерации бесконечного количества $\xi_i$ мы полагаем $\xi = 0,\xi_1\xi_2\xi_3...\xi_n$.

Для получения максимального балла реализовать функцию нужно так, чтобы она могла принимать на вход в качестве параметра `size` объект `tuple` любой размерности, и возвращать объект `numpy.array` соответствующей размерности. Например, если `size=(10, 1, 5)`, то функция должна вернуть объект размера $10 \times 1 \times 5$. Кроме того, функцию `coin` можно вызвать только один раз, и, конечно же, не использовать какие-либо циклы.

In [None]:
coin = sps.bernoulli(0.5).rvs  # симметричная монета
# coin(size=10) --- реализация 10 бросков монеты

def uniform(size=1, precision=30):
    return # В одну строчку не выходя за границы? ;)

Для $U[0, 1]$ сгенерируйте 200 независимых случайных величин, постройте график плотности на отрезке $[-0.25, 1.25]$, а также гистограмму по сгенерированным случайным величинам. Сколько бросков монеты пришлось совершить?

In [None]:
size = 200
grid = np.linspace(-0.25, 1.25, 500)
sample = <Сгенерируйте size случайных величин точности 50>

plt.figure(figsize=(10, 4))
# отображаем значения случайных величин полупрозрачными точками
plt.scatter(sample, np.zeros(size), alpha=0.4, label='случайные величины')
# по точкам строим нормированную полупрозрачную гистограмму
plt.hist(sample, bins=10, normed=True, alpha=0.4, color='orange')
# рисуем график плотности
plt.plot(grid, 
         <Посчитайте плотность в точках grid, используя sps.uniform.pdf>, 
         color='red', lw=3, label='плотность')
plt.legend()
plt.grid(ls=':')
plt.show()

Исследуйте, как меняются значения случайных величин в зависимости от precision.

In [None]:
size = 100

plt.figure(figsize=(15, 3))
for i, precision in enumerate([1, 2, 3, 5, 10, 30]):
    plt.subplot(3, 2, i + 1)
    plt.scatter(<Сгенерируйте выборку размера size точности precision>, 
                np.zeros(size), alpha=0.4)
    plt.yticks([])
    if i < 4: plt.xticks([])
plt.show()

**Вывод:**

<...>

*Часть 2.* Напишите функцию генерации случайных величин в количестве `size` штук (как и раньше, тут может быть `tuple`) из распределения $\mathcal{N}(loc, scale^2)$ с помощью преобразования Бокса-Мюллера (задача 7.12 из книги по теории вероятностей).

Для получения полного балла реализация должна быть без циклов.

In [None]:
def normal(size=1, loc=0, scale=1, precision=30):
    <...>

Для $\mathcal{N}(0, 1)$ сгенерируйте 200 независимых случайных величин, постройте график плотности на отрезке $[-3, 3]$, а также гистограмму по сгенерированным случайным величинам. Сколько бросков монеты пришлось совершить?

In [None]:
<...>

*Часть 3.* Теперь напишите функцию генерации выборки многомерного нормального распределения с заданным вектором средних `mean` и матрицей ковариаций `cov_matrix`. Помочь в этом может теорема об эквивалентных определениях гауссовского вектора. Для извлечения квадратного корня от матрицы может пригодится следующая функция, которая вычисляет собственные значения и векторы матрицы.

In [None]:
from scipy.linalg import eigh

На этот раз достаточно, чтобы функция корректно работала в случае, когда `size` является числом.

In [None]:
def gauss(mean, cov_matrix, size=1, precision=30):
    # Преобразование типов
    mean = np.array(mean)
    cov_matrix = np.array(cov_matrix)
    
    # Проверка на корректность входа
    assert mean.ndim == 1 and cov_matrix.ndim == 2
    assert mean.shape[0] == cov_matrix.shape[0]
    assert cov_matrix.shape[0] == cov_matrix.shape[1]
    
    <...>

Сгенерируйте 200 случайных векторов из двумерного нормального распределения с нулевым вектором средних и матрицей ковариаций $\begin{pmatrix}2 & 1 \\ 1 & 2\end{pmatrix}$.
Нанесите сгенерированные точки на график и отметьте цветом значение плотности.

В инструкциях по Питону плотность вычислялась с помощью неэффективного кода. Подумайте, как можно написать эффективный короткий код, не использующий циклы.

In [None]:
size = 1000
sample = <...>  # Генерация векторов

grid = np.mgrid[-4:4:0.05, -4:4:0.05]
# Вычисление плотности
density = sps.multivariate_normal.pdf(<...>)

plt.figure(figsize=(10, 10))
plt.pcolormesh(grid[0], grid[1], density, cmap='Oranges')
plt.scatter(sample[:, 0], sample[:, 1], alpha=0.4, label='случайные векторы')
plt.legend()
plt.grid(ls=':')
plt.xlim((-4, 4))
plt.ylim((-4, 4))
plt.show()

**Вывод:**

<...>

*Еще одна часть задачи.* Вы уже научились генерировать случайные величины из равномерного распределения. Напишите функцию генерации случайных величин из экспоненциального распределения, используя результат задачи 6.9 из книги по теории вероятностей.

Для получения полного балла реализация должна быть без циклов, а параметр `size` может быть типа `tuple`.

In [None]:
def expon(size=1, lambd=1, precision=30):
    return <...>

Для $Exp(1)$ сгенерируйте 200 независимых случайных величин, постройте график плотности на отрезке $[-0.5, 5]$, а также гистограмму по сгенерированным случайным величинам. 

In [None]:
<...>

**Вывод:**

<...>

В следующих задачах для генерации случайных величин можно использовать библиотеку `scipy.stats`.

**Задача 3.** В этой задаче нужно визуализировать *закон больших чисел*.

*a).* Пусть $\xi_1, ..., \xi_n$ --- независимые случайные величины из распределения $\mathcal{N}(a, \sigma^2)$. Согласно закону больших чисел выполнена сходимость $\frac{\xi_1 + ... + \xi_n}{n} \stackrel{п.н.}{\to} a$. Вам нужно убедиться в этом, сгенерировав множество наборов случайных величин и посчитав по каждому из наборов среднее в зависимости от размера набора.

Сгенерируйте 500 наборов случайных величин $\xi_1^j, ..., \xi_{300}^j$ из распределения $\mathcal{N}(0, 1)$. По каждому из них посчитайте среднее $X_{jn} = \frac{1}{n}\sum\limits_{i=1}^n \xi_i^j$ для $1 \leqslant n \leqslant 300$, то есть среднее по первым $n$ величинам $j$-го набора. При написании кода может помочь функция `numpy.cumsum(axis=...)`.

Для каждого $j$ нанесите на один график зависимость $X_{jn}$ от $n$ с помощью `plt.plot`. Каждая кривая должна быть нарисована *одним цветом* с прозрачностью `alpha=0.05`. Поскольку при малых $n$ значения средних могут быть большими по модулю, ограничьте область графика по оси *y* с помощью функции `plt.ylim((min, max))`.

*b).* Выполните те же действия для распределений $Exp(1)$ и $Pois(1)$.

Сделайте вывод о смысле закона больших чисел. Подтверждают ли сделанные эксперименты теоретические свойства?

**Задача 4.** В этой задаче нужно визуализировать *центральную предельную теорему*.

*a).* Пусть $\xi_1, ..., \xi_n$ --- независимые случайные величины из распределения $Exp(\lambda)$. Согласно центральной предельной теореме выполнена сходимость $Z_n = \frac{X_n - \mathsf{E}X_n}{\sqrt{\mathsf{D}X_n}} \stackrel{d}{\to} \mathcal{N}(0, 1)$, где $X_n = \sum\limits_{i=1}^n \xi_i$. Вам нужно убедиться в этом, сгенерировав множество наборов случайных величин и посчитав по каждому из наборов величину $Z_n$ в зависимости от размера набора. 

Сгенерируйте 500 наборов случайных величин $\xi_1^j, ..., \xi_{300}^j$ из распределения $Exp(1)$. По каждому из них посчитайте сумму $X_{jn} = \sum\limits_{i=1}^n \xi_i^j$ для $1 \leqslant n \leqslant 300$, то есть сумма первых $n$ величин $j$-го набора. Для этого среднего посчитайте величину $Z_{jn} = \frac{X_{jn} - \mathsf{E}X_{jn}}{\sqrt{\mathsf{D}X_{jn}}}$.

Для каждого $j$ нанесите на один график зависимость $Z_{jn}$ от $n$ с помощью `plt.plot`. Каждая кривая должна быть нарисована *одним цветом* с прозрачностью `alpha=0.05`. Сходятся ли значения $Z_{jn}$ к какой-либо константе?

Для $n=300$ по набору случайных величин $Z_{1,300}, ..., Z_{500,300}$ постройте гистограмму. Похожа ли она на плотность распределения $\mathcal{N}(0, 1)$ (ее тоже постройте на том же графике)? Не забудьте сделать легенду.

*b).* Выполните те же действия для распределений $U(0, 1)$ и $Pois(1)$.


Сделайте вывод о смысле центральной предельной теоремы. Подтверждают ли сделанные эксперименты теоретические свойства?