# Центральная предельная теорема

Поэкспериментируем с центральной предельной теоремой на примере экспоненциального распределения с коеэффициентом по-умолчанию.
Сгенерируем 1000 случайный значений, распределяющихся в соответствии с ним

In [1]:
from scipy.stats import expon
random_vals = expon.rvs(size=1000)
random_vals

array([  1.58044746e-01,   2.98185639e+00,   2.32095235e-02,
         3.12341912e-01,   2.03001062e+00,   3.40084135e+00,
         7.16475752e-01,   1.58643446e-01,   2.86969132e+00,
         2.09715614e-01,   2.87337230e-01,   8.40469477e-01,
         3.80758874e-01,   7.61944548e-02,   5.20092838e-01,
         5.73809289e-02,   1.22986249e+00,   2.77418427e+00,
         4.73258363e-01,   1.05792747e+00,   7.43101303e-01,
         8.06488989e-01,   9.23613941e-01,   8.55005182e-01,
         1.38121700e+00,   3.05080591e+00,   3.75277480e-01,
         1.16439635e+00,   4.30436459e-01,   1.61785282e-01,
         7.09550198e-01,   1.41092710e+00,   5.81825161e-01,
         3.76514755e-01,   1.23887123e+00,   2.01104670e-01,
         1.20495121e+00,   6.01833897e-01,   7.19250756e-01,
         1.24183011e+00,   2.70170224e-01,   4.36028376e-01,
         1.48473459e+00,   4.34230537e-01,   8.81755434e-01,
         1.86698081e-01,   3.18702868e-01,   8.49352228e-01,
         8.17916206e-01,

Выведем гистограмму данной выборки и ее теоретическую плотность распределения

In [2]:
import matplotlib.pyplot as plt
import numpy as np
plt.hist(random_vals, normed=True, label='Sample Histogram')
x = np.linspace(0,7,100)
pdf = expon.pdf(x)
plt.plot(x, pdf, label='Theorethical PDF')

plt.ylabel('f(x)')
plt.xlabel('$x$')
plt.legend(loc='upper right')
plt.show()



Сгенерируем для 4х значений n: 5, 10, 50 по 1000 выборок и составим список их средних.

In [3]:
averages = {}
for n in [5,10,50,100]:
    averages[n] = [np.mean(expon.rvs(size=n)) for i in range(1000)]

Согласно центральной предельной теореме математическое ожидание выборочного среднего распределяется по формуле нормального распределения

$$\bar{X}=~N(EX,\frac{DX}{n})$$

где

* EX - математическое ожидание исходного распределения 
* DX - дисперсия исходного распределения
* n - число элементов в выборке

Значит, чтобы оценить параметры нормального распределения выборочного среднего прежде всего нужны математическое ожидание и дисперсия исходного распределения. Их легко получить с помощью функции stats()

In [4]:
expon.stats()

(array(1.0), array(1.0))

Теперь для каждого размера выборки можно оценить их среднеквадратичное отклонение (именно оно, а не сама дисперсия потребуется для метода pdf(), вычисляющего плотность распределения вероятности):

In [5]:
import math

sigma = {}
for n in [5,10,50,100]:
    sigma[n] = math.sqrt(1.0/n)
sigma

{5: 0.4472135954999579,
 10: 0.31622776601683794,
 50: 0.1414213562373095,
 100: 0.1}

Последнее подготовительное действие. Перед выводом гистограмм и теоретических плотностей распределения вероятностей ожидаемых средних ограничим ось x для наглядности отрезком [0,3]. Все существенные значения для выборочных средних на нем поместятся. 

In [6]:
import scipy.stats as stats
from scipy.stats import norm

x=np.linspace(0,3,60)

Теперь можно начертить гистограммы выборочных средних и соответствующие теоретические плотности распределения вероятности нормального распределения для каждого числа элеменов в выборке.

In [7]:
plt.hist(averages[5], normed=True, bins=20, label='5 members sample averages')
plt.plot(x, norm.pdf(x,loc=1, scale=sigma[5]), label='Theorethical PDF')
plt.legend()
plt.ylabel('f(x)')
plt.xlabel('$x$')
plt.show()


In [8]:
plt.hist(averages[10], normed=True, bins=20, label='10 members sample averages')
plt.plot(x, norm.pdf(x,loc=1, scale=sigma[10]), label='Theorethical PDF')
plt.legend()
plt.ylabel('f(x)')
plt.xlabel('$x$')
plt.show()

In [9]:
plt.hist(averages[50], normed=True, bins=20, label='50 members sample averages')
plt.plot(x, norm.pdf(x,loc=1, scale=sigma[50]), label='Theorethical PDF')
plt.legend()
plt.ylabel('f(x)')
plt.xlabel('$x$')
plt.show()

In [10]:
plt.hist(averages[100], normed=True, bins=20, label='100 members sample averages')
plt.plot(x, norm.pdf(x,loc=1, scale=sigma[100]), label='Theorethical PDF')
plt.legend()
plt.ylabel('f(x)')
plt.xlabel('$x$')
plt.show()

Графики функций показывают, что нормальное распределение хорошо описывает распределение выборочного среднего. При этом при росте числа элементов в выборке 

* форма гистограммы становится все симметричнее, приближаясь к форме нормального распределения
* точность определения среднего увеличивается: все большая часть значений вписывается во все более узкую область вокруг своего математического ожидания

Опишем это уточнение среднего в терминах 95% доверительного интервала (2*sigma):

In [11]:
[2*sigma[n] for n in [5,10,50,100]]

[0.8944271909999159, 0.6324555320336759, 0.282842712474619, 0.2]

In [12]:
[4*sigma[n] for n in [5,10,50,100]]

[1.7888543819998317, 1.2649110640673518, 0.565685424949238, 0.4]

Т.е. 95% значений средних группируются на промежутках длинной 4 sigma вокруг своего математического ожидания:

* n=5,   1.79 [0.11; 1.89]
* n=10,  1.26 [0.37; 1.63]
* n=50,  0.57 [0.72; 1.28]
* n=100, 0.4  [0.8;  1.2 ]