# Связь биномиального распределения с нормальным

### Цель: посмотреть, при каком количестве наблюдений в эксперименте вместо биномиального распределения можно использовать нормальное

In [None]:
%matplotlib inline
from matplotlib import pyplot as plt
from scipy import stats as st
import numpy as np
from numpy.random import binomial
from numpy.random import normal

## Сгенерируем семпл данных

Сгенерируем точки из биномиального распределения: N=20 точек с вероятностью P=0.1 успеха.

In [None]:
P = 0.1  # convertion rate
N = 20   # sample size

In [None]:
sample = binomial(1, P, N)
print('sample: %s' % sample)
print('mean: %s' % np.mean(sample))

### Задание 1.

Сгенерируйте 200 точек из биномиального распределения с вероятностью P=0.1 успеха. Запустите ячейку несколько раз. Сравните с результатом в предыдущей ячейке. В чем разница?

In [None]:
#your code here

## Оценим параметры распределения

Проведем M=1000 таких экспериментов.

In [None]:
M = 1000  # number of experiments

In [None]:
experiments = binomial(1, P, (M, N))
print('experiemnts shape: %sх%s' % experiments.shape)

In [None]:
# TODO: оценить среднее для каждого эксперимента
Means = [experiment.mean() for experiment in experiments]

In [None]:
# TODO: оценить дисперсию средних
np.std(Means)

### Задание 2. 

Только что мы провели M=1000 экспериментов,  при этом в каждом эксперименте было N = 20 наблюдений. Что произойдет с дисперсией средних, если поставим N=200?

In [None]:
#your code here

## Оценим зависимость дисперсии от числа наблюдений (в одном эксперименте)

**Мы должны увидеть, что дисперсия убывает при увеличении N. Потому что дисперсия выборочного среднего равна $\sigma^2/N,$ где $\sigma^2 = P(1 - P)$ - дисперсия одного наблюдения.**

In [None]:
# TODO: построить график зависимости дисперсии от числа наблюдений
Stds = []

for N in np.arange(10,1000,10):
    experiments = binomial(1, P, (M, N))
    
    Means = [experiment.mean() for experiment in experiments]
    std = np.std(Means)
    Stds.append(std)
    
plt.plot(Stds)

## Сравним распределение средних с нормальным
(хотим понять, насколько хорошо наше биномиальное распределние приближается нормальным)

**Такие mean и std должны теоретически получиться у нормального закона при достаточно большом N**

In [None]:
# https://en.wikipedia.org/wiki/Bernoulli_distribution
mean = P
std = np.sqrt(P * (1 - P) / N)

In [None]:
# TODO: сравнить распределение с нормальным

# Fit a normal distribution to the data:
m, std = np.mean(Means), np.std(Means) #среднее и дисперсия у исходного бин.распределения и у нормального (которым приближаем) одинаковая

# Plot the histogram.
plt.hist(Means, bins=20, density=True, alpha=0.6, color='g')

# Plot the PDF.
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = st.norm.pdf(x, m, std)
plt.plot(x, p, 'k', linewidth=2)
title = "Fit results: m = %.2f,  std = %.2f" % (m, std)
plt.title(title)

In [None]:
import seaborn as sns

sns.distplot(Means, hist=True, kde=True,
             bins=20, color = 'darkblue', 
             hist_kws={'edgecolor':'black'},
             kde_kws={'linewidth': 4})

## Доверительный интервал

Доверительный интервал для истинного значения вероятности P.

In [None]:
confidence = 0.975 #по 0.025 с каждой стороны, то есть вероятность попадания в интервал 95%.
z = st.norm.ppf(confidence) #квантиль уровня 0.975
margin = z * std #формула из статистики - отступ
print('z: %s' % z)
print('margin: %s' % m)
print('interval: %s %s' % (P - margin, P + margin))

**Должна быть примерно 0.05**

In [None]:
# TODO: оценить долю средних, вышедших за границы доверительного интервала в эксперименте
MeansArr = np.array(Means)
len(MeansArr[(MeansArr < P - margin) | (MeansArr > P + margin)]) / len(MeansArr)