In [None]:
import numpy as np
import scipy.stats as sps
import matplotlib.pyplot as plt
import seaborn as sns
import math
import time
from pprint import pprint

#sns.set_palette("Set2")

%matplotlib inline

Пусть нам попались какие-то данные.

В данном случае - 100 различных значений какой-то величины.

In [None]:
size = 100
sample = sps.norm.rvs(size=size) #генерируем реализацию выборки из стандартного нормального распределения

In [None]:
# рисуем график
# по оси x - значения реализаций случайной величины

plt.figure(figsize=(15, 5))
plt.scatter(sample, np.zeros(size), alpha=0.5, color='purple', label="Реализация выборки")
plt.legend()
plt.show()

Для начала давайте попробуем прикинуть, как распределены данные:

## Гистограмма

Идея: разделим всю числовую прямую на несколько "корзин" и посмотрим, сколько объектов попало в каждую.

Формально: $X_1, \ldots X_n$ - выборка.

$-\infty = a_0 < \ldots < a_i < \ldots < a_{m} = +\infty$ - разбиение на $m$ корзин.

$n_k = \sum \limits_{i=0}^{n-1} I(X_i \in [a_k, a_{k+1}])$ - количество элементов в $i$-й корзине.


Можно построить график в виде столбиков, где высота столбика показывает, сколько объектов попало в соответствующую корзину.

Этот график по форме похож на график плотности распределения нашей случайной величины.



Гистограмму можно построить с помощью библиотеки matplotlib.

In [None]:
plt.figure(figsize=(15, 5))

plt.title("Нормированная гистограмма и график истинной плотности")

plt.hist(x=sample, bins = 10, density=True, label = "Гистограмма")
#x - данные, bins - количество корзин, density - нормируем, так что сумма высот столбиков равна 1

grid = np.linspace(-3, 3, 500)

plt.plot(grid, sps.norm.pdf(grid), color='red', label='Истинная плотность')

plt.legend()

plt.show()

Другой способ:

Для построения гистограммы удобно использовать библиотеку seaborn (подробнее - в туториалах).

In [None]:
plt.figure(figsize=(15, 5))

plt.title("Гистограмма")

sns.histplot(data=sample, bins = 10)
#data - наши данные, bins - количество корзин

plt.show()

Посмотрим, на что влияет количество корзин.

In [None]:
fig, axs = plt.subplots(figsize=(20, 5), ncols=3)

axs[0].set_title("4 корзины" )
axs[1].set_title("20 корзин" )
axs[2].set_title("50 корзин" )

sns.histplot(data=sample, bins = 4, ax=axs[0])
sns.histplot(data=sample, bins = 10, ax=axs[1])
sns.histplot(data=sample, bins = 30, ax=axs[2])

#data - наши данные, bins - количество корзин

plt.show()

## Задание 1
Рассмотрим функцию `np.random.randint()`.

Выберите любые значения a и b и создайте массив рандомных чисел от a до b (размер массива 100).

In [None]:
a, b = 0, 300
arr = np.random.randint(a, b, size = 100)
print(arr)

Постройте гистограмму для этого массива.

In [None]:
plt.figure(figsize=(15, 5))

plt.title("Гистограмма")

sns.histplot(data=arr, bins = 100)
#data - наши данные, bins - количество корзин

plt.show()

Постройте более четкий график, увеличив параметр `bins`.

In [None]:
plt.figure(figsize=(15, 5))

plt.title("Гистограмма")

sns.histplot(data=arr, bins = 300)
#data - наши данные, bins - количество корзин

plt.show()

Создайте массив sizes, который будет состоять из 1e2, 1e3, 1e4, 1e5 (используйте `np.logspace()`). Числа должны быть целыми.

In [None]:
sizes = np.logspace(start=2, stop=5, num = 4, dtype='int')
print(sizes)

Постройте plt.subplots в виде строки из 4 графиков. Параметр `bins` укажите 100. На каждом графике отрисуйте гистограмму массива заданного размера из массива sizes. Подпишите, какой размер массивы к какому графику относится.

In [None]:
fig, axs = plt.subplots(figsize=(20, 5), ncols=4)

axs[0].set_title("Размер 100" )
axs[1].set_title("Размер 1000" )
axs[2].set_title("Размер 10000" )
axs[3].set_title("Размер 100000" )

sns.histplot(data=np.random.randint(a, b, size = sizes[0]), bins = 100, ax=axs[0])
sns.histplot(data=np.random.randint(a, b, size = sizes[1]), bins = 100, ax=axs[1])
sns.histplot(data=np.random.randint(a, b, size = sizes[2]), bins = 100, ax=axs[2])
sns.histplot(data=np.random.randint(a, b, size = sizes[3]), bins = 100, ax=axs[3])

#data - наши данные, bins - количество корзин

plt.show()

На какое распределение похоже?

**Ответ:** равномерное.

## Задание 2*
Напишите собственную реализацию нормального распределения. Создайте класс и определите в нем функцию _pdf. Напомню, что плотность нормального распределения расчитывается следующим образом:
$$ \frac{1}{\sigma \sqrt{2 \pi}} exp \left( -\frac{(x-\mu)^2}{2 \sigma ^2}\right)$$
Для построения функции возьмите $\mu$ = 0, $\sigma$ = 1


In [None]:
class Norm():
  def __init__(self, mu, sigma):
    self.mu = mu
    self.sigma = sigma

  def _pdf(self, x):
    value = 1/(sigma * math.sqrt(2*math.pi)) * math.exp(-(x - mu)**2/2*sigma**2)
    return value

  def generate_sample(self, sample_size):
      start_time = time.time()
      sample = [np.random.normal(self.mu, self.sigma) for i in range(sample_size)]
      end_time = time.time()
      t = end_time - start_time
      return sample, t

Сгенерируйте выборку из 2000 элементов. Засеките время генерации выборки.

In [None]:
mu, sigma = 0, 1
Normal_Distribution = Norm(mu, 1)

sample_size = 2000
generated_sample, t = Normal_Distribution.generate_sample(sample_size)

print('Время генераиии выборки - ' + str(t))

Постройте гистограмму для вашей выборки

In [None]:
sns.histplot(generated_sample, bins = 100)

plt.title('Гистограмма сгенерированной выборки')

plt.show()

Сравните время работы вашей реализации и реализации из `scipy.stats`

In [None]:
from scipy.stats import norm

In [None]:
start_time = time.time()
scipy_sample = norm.rvs(loc = mu, scale = sigma, size = sample_size)
end_time = time.time()
scipy_t = end_time - start_time

print('Время генераиии выборки классом Norm - ' + str(t))
print('Время генераиии выборки scipy.stats - ' + str(scipy_t))

Как видно, модуль `scipy.stats` генерирует выборку быстрее по сравнению с тем, что было написано ручками.

Как, используя вашу функцию, можно создавать выборки для других значений $\mu$ и $\sigma$? Проиллюстрируйте.

In [None]:
mus = [0, 2, 1]
sigmas = [1, 1, 1]

for mu, sigma in zip(mus, sigmas):
    Norm_Distribution = Norm(mu, sigma)

    sample_size = 2000
    generated_sample, _ = Norm_Distribution.generate_sample(sample_size)

    sns.histplot(generated_sample, bins = 30, label=f'mu={mu}, sigma={sigma}')

plt.show()

## Ядерная оценка плотности

KDE (kernel density estimation) - непараметричсекий способ оценивания случайной величины.

In [None]:
size = 100
sample = sps.norm.rvs(size=size) #генерируем реализацию выборки из стандартного нормального распределения

In [None]:
plt.figure(figsize=(15, 5))

plt.title("Ядерная оценка плотности")

sns.kdeplot(data=sample, lw=3, label="Ядерная оценка")

plt.scatter(sample, np.zeros(size)+0.005, color='purple', label='Реализация выборки')

plt.legend()
plt.show()


Сравним график ядерной оценки с графиком истинной плотности.

In [None]:
plt.figure(figsize=(15, 5))

plt.title("Ядерная оценка плотности")

sns.kdeplot(data=sample, label="Ядерная оценка")

plt.scatter(sample, np.zeros(size)+0.005, color='purple', label='Реализация выборки')

plt.plot(grid, sps.norm.pdf(grid), color='crimson', label='Истинная плотность')


plt.legend()
plt.show()

Также метод histplot позволяет сразу строить и гистограмму, и ядерную оценку плотности.

In [None]:
plt.figure(figsize=(15, 5))

plt.title("Гистограмма и ядерная оценка")

sns.histplot(data=sample, kde=True)
plt.show()

## Точечные оценки

Рассмотрим **выборочное среднее**.

$\overline{X}  = \sum\limits_{i=1}^n X_i$

Сгенерируем выборку из $\mathcal{N}(3, 25)$ размера 1000:


In [None]:
size = 1000
sample = sps.norm(loc=3, scale=5).rvs(size=size) #генерируем реализацию выборки из стандартного нормального распределения

Посчитаем выборочное среднее

In [None]:
mean = sample.sum() / size

print("Выборочное среднее:", mean)

Что хорошего может нам дать эта величина?

Давайте посмотрим, как она ведет себя с ростом размера выборки!

Посчитаем выборочное среднее по всем префиксам выборки ($j \in {1, \ldots n}$):

$(\overline{X} )_j = \sum\limits_{i=1}^j X_i$

In [None]:
means = sample.cumsum() / (np.arange(size) + 1)

Построим график зависимости среднего от размера префикса:

In [None]:
plt.figure(figsize=(15, 5))
plt.plot(means, lw=3)
plt.hlines(3, 0, size, alpha=0.5)
plt.xlabel('Количество случайных величин')
plt.ylabel('Значение среднего')
plt.xlim((0, size));

Но одного эксперимента мало, чтобы понять свойства вероятностных объектов. **Запомните это!**

Повторим эксперимент 10 раз **независимо**.

In [None]:
plt.figure(figsize=(20, 15))

for i in range(10):

    # Генерация выборки и вычисление средних
    sample = sps.norm(loc=3, scale=5).rvs(size=size)
    means = sample.cumsum() / (np.arange(size) + 1)

    # График
    plt.subplot(5, 2, i+1)
    plt.plot(means, lw=3)
    plt.hlines(3, 0, size, alpha=0.5)
    plt.xlabel('Количество случайных величин')
    plt.ylabel('Значение среднего')
    plt.xlim((-5, size))

plt.tight_layout()

Как видим, со временем график среднего приближается к значению параметра $a$ нормального распределения.

Вспомним теорию вероятностей!

## Закон больших чисел

#### Формулировка

Пусть $\xi_1, ..., \xi_n$ &mdash; независимые случайные величины из некоторого распределения, причем $\mathsf{E}\xi_i = a$. Тогда выполнена сходимость $$\frac{\xi_1 + ... + \xi_n}{n} \stackrel{п.н.}{\longrightarrow} a.$$

*Замечание 1.* Закон больших чисел имеет несколько формулировок. Данная формулировка часто называется *усиленным законом больших чисел*. В частности, усиленной она является, поскольку в отличии от "простой" версии она не требует условия на дисперсии и утверждает о более сильной сходимости "почти наверное".

*Замечание 2.* Последовательность случайных величин $\xi_1, \xi_2, ...$ сходится почти наверное к случайной величине $\xi$, если $\mathsf{P}\big(\big\{ \omega \in \Omega\:\big|\: \xi_n(\omega) \to \xi(\omega)\big\}\big) = 1$

---

####  Визуализация

Убедимся в справедливости ЗБЧ, сгенерировав набор из случайных величин  $\xi_1, ..., \xi_{1000}$ и посчитав по нему среднее в зависимости от размера набора, то есть величины $S_{n} = \frac{1}{n}\sum\limits_{i=1}^n \xi_i$ для $1 \leqslant n \leqslant 1000$.

Для примера рассмотрим бернуллиевское распределение.







In [None]:
size = 1000
samples_count = 500

sample = sps.bernoulli(p=0.5).rvs(size=(samples_count, size))
means = sample.cumsum(axis=1) / (np.arange(size) + 1)

Нарисуем траектории среднего для всех реализациий на одном графике.

In [None]:
plt.figure(figsize=(15, 7))
for i in range(samples_count):
    plt.plot(np.arange(size) + 1, means[i], color='crimson')
plt.xlabel('Количество случайных величин')
plt.ylabel('Значение среднего')
plt.xlim((0, size));

В подобных "тяжелых" графиках нужно выставлять прозрачность объектов

In [None]:
plt.figure(figsize=(15, 7))
for i in range(samples_count):
    plt.plot(np.arange(size) + 1, means[i], color='crimson', alpha=0.05)
plt.xlabel('Количество случайных величин')
plt.ylabel('Значение среднего')
plt.xlim((0, size));

Поставим ее еще меньше

In [None]:
plt.figure(figsize=(15, 7))
for i in range(samples_count):
    plt.plot(np.arange(size) + 1, means[i], color='crimson', alpha=0.01)
plt.xlabel('Количество случайных величин')
plt.ylabel('Значение среднего')
plt.xlim((0, size));

**Вывод:** При достаточность большом количестве случайных величин значение среднего не сильно
отклоняется от математического ожидания, причем чем больше случайных величин просуммированы, тем меньше отклонения. Данный эксперимент хорошо визуализирует закон больших чисел.


Таким образом, в данном случае выборочное среднее -- "хорошая оценка", т.к. с ростом выборки его значение приближается к истинному значению параметра.


Это  эксперимент намекает нам, что некоторые оценки могут быть "хорошими" в каком-лмбо смысле. О том, какие у оценок бывают "хорошие" свойства -- на следующих занятиях!

## Задание 3
Проведите подобный эксперимент для ядерной оценки плотности.

Сгенерируйте 100 выборок по 100 элементов из нормального распределения ($\mu$=0, $\sigma$=1).

In [None]:
size = 100
samples_count = 100
sample = sps.norm.rvs(size=(samples_count, size))
sample.shape

Отрисуйте их ядерные оценки плотности на одном графике.  На этом же графике отрисуйте плотность искомого распределения

In [None]:
def nuclear_assessment(sample):
  plt.figure(figsize=(15, 5))

  plt.title("Ядерная оценка плотности")

  for i in sample:
    sns.kdeplot(data=i, color = 'blue', alpha = 0.05, label="Ядерная оценка")
    plt.plot(grid, sps.norm.pdf(grid), color='crimson', label='Истинная плотность')

  plt.show()

nuclear_assessment(sample)

Увеличьте размер выборок до 1000 и повторите эксперимент.

In [None]:
size = 1000
samples_count = 100
sample = sps.norm.rvs(size=(samples_count, size))
sample.shape

In [None]:
nuclear_assessment(sample)

А теперь наоборот - поставьте размер выборки 100, а кол-во - 1000 и повторите эксперимент.

In [None]:
size = 100
samples_count = 1000
sample = sps.norm.rvs(size=(samples_count, size))
sample.shape

In [None]:
nuclear_assessment(sample)