# Центральная предельная теорема

In [1]:
import math
import numpy as np
import scipy.stats as st
from matplotlib import pylab as plt

Добрый день! 
alpha = 5
beta = 1. Среднее и дисперсия определены следующим образом: 

$$\mu = \frac{\alpha}{\alpha + \beta} $$ 

$$\sigma^2 = \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta +1)} $$




In [2]:
A = 5.
B = 1.

beta_rv = st.beta(A, B)

MU = A / (A + B)
DISPERSION = (A * B) / (((A + B)**2)*(A+B+1))
SIGMA = math.sqrt(DISPERSION)

Построем график нашей функции


In [3]:
def show_beta_func_graph(N):
    def add_theoretical(N):
        x = np.linspace(0,1,N)
        pdf = beta_rv.pdf(x)
        plt.plot(x, pdf, label='theoretical pdf', c='r', alpha=0.5)

    def add_practical_hist(N, bins=50):
        stats = beta_rv.rvs(N)
        plt.hist(stats, bins, normed=True, facecolor='green', alpha=0.5, label='actual', edgecolor='black', linewidth=.2)

    fig = plt.figure()
    fig.suptitle('Beta Function', fontsize=20)
    plt.ylabel('$f(x)$', fontsize=18)
    plt.xlabel('$x$', fontsize=18)
    add_practical_hist(N, 30)
    add_theoretical(N)
    plt.show()
    plt.clf()
show_beta_func_graph(1000)

In [5]:
MU = a/(a+b)
VAR = (a*b)/(((a+b)**2)*(a+b+1))
SIGMA = sqrt(VAR)
MU, SIGMA

Теперь напишу функцию для генерации выборок и подсчета выборочных средних. В вывод так же включу теоретические и приближенные значения параметров, а так же график теоретического нормального распределения.

In [6]:
def clt(sample,sub_sample_size,n_sub_samples=1000):
    means = []
    for i in range(n_sub_samples):
        sub_sample = sample[np.random.randint(0,len(sample),sub_sample_size)]
        means.append(np.mean(sub_sample))
        
    mu = np.mean(means)
    sigma = np.std(means,ddof=1)
    SE = SIGMA/sqrt(sub_sample_size) # стандартная ошибка среднего
    
    norm_rv = stats.norm(MU,SE)
    
    print 'Теоретическое среднее vs приближенное: {:.2f} vs {:.2f}'.format(MU,mu)
    print 'Теоретическое стандартное откл. vs приближенное: {:.2f} vs {:.2f}'.format(SE,sigma)
    print 'Приближенное среднее 95% доверительный интервал = {:.2f} +/- {:.2f}'.format(mu,2*SE)
    
    plt.hist(means,normed=True,label='actual')
    plt.plot(x,norm_rv.pdf(x),label='theoretical')
    plt.legend()
    plt.ylabel('$f(x)$')
    plt.xlabel('$x$')

Запустим эту функцию для n = 5, 10 и 50.

In [7]:
clt(sample_beta,5)

In [8]:
clt(sample_beta,10)

In [9]:
clt(sample_beta,50)

Глядя на эти графики видно:

1. Центральная предельная теорема действительно рабоет, и это приводит меня в неописуемый восторг!
2. Даже при маленьком размере выбрки среднее уже неплохо приближено.
3. Увеличение n "уплотняет" распределение выборочных средних, что говорит нам об увеличение точности оценки. В цифровом виде это можно выразить через доверительный интервал - видно, что с увеличением n он сужается.

Спасибо за внимание!