In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as sts

plt.style.use('ggplot')

%matplotlib inline

RND_SEED = 1234

# Распределения

## Нормальное распределение

Вот так можно сгенерировать выборку из нормально распределённой случайной величины с параметрами $\mu=2.0$ и $\sigma=0.5$:

In [2]:
mu = 2.0
sigma = 0.5

# зададим нормально распределенную случайную величину
norm_rv = sts.norm(loc=mu, scale=sigma)

# сгенерируем 10 значений
norm_rv.rvs(size=10)

array([ 2.90289287,  2.04608494,  3.179007  ,  0.85527609,  0.95027393,
        1.55227471,  2.23482515,  1.69094783,  1.92301676,  2.11697299])

Параметр ```loc``` задаёт $\mu$, ```scale``` — среднеквадратичное отклонение $\sigma$, ```size``` — размер выборки. Имя параметра ```size``` при вызове функции ```rvs``` можно не писать.

Следующая функция возвращает значение функции распределения нормальной случайной величины в точке, соответствующей её аргументу:

In [None]:
norm_rv.cdf(3)

Построим график функции распределения:

In [None]:
x = np.linspace(0,4,100)
cdf = norm_rv.cdf(x) # функция может принимать и вектор (x)
plt.plot(x, cdf)
plt.ylabel('$F(x)$')
plt.xlabel('$x$')

А так можно вычислить значение функции плотности вероятности нормального распределения в заданной точке:

In [None]:
norm_rv.pdf(3)

Построим график функции плотности вероятности:

In [None]:
x = np.linspace(0,4,100)
pdf = norm_rv.pdf(x)
plt.plot(x, pdf)

plt.ylabel('$f(x)$')
plt.xlabel('$x$')

## Равномерное распределение на отрезке

Вот так можно сгенерировать выборку из случайной величины, имеющей равномерное распределение на отрезке $[a,b]$:

In [None]:
a = 1
b = 4

# обратите внимание, что в этой функции задается левая граница и масштаб, а не левая и правая границы:
uniform_rv = sts.uniform(a, b-a)

uniform_rv.rvs(10)

А так — вычислять значения функций распределения и плотностей:

In [None]:
x = np.linspace(0,5,100)
cdf = uniform_rv.cdf(x)
plt.plot(x, cdf)

plt.ylabel('$F(x)$')
plt.xlabel('$x$')

In [None]:
x = np.linspace(0,5,1000)
pdf = uniform_rv.pdf(x)
plt.plot(x, pdf)

plt.ylabel('$f(x)$')
plt.xlabel('$x$')

## Распределение Бернулли

Генерация выборок из распределения Бернулли с заданным параметром $p$:

In [None]:
bernoulli_rv = sts.bernoulli(0.7)

bernoulli_rv.rvs(10)

## Биномиальное распределение

Генерация выборок из биномиального распределения:

In [None]:
binomial_rv = sts.binom(20, 0.7)
binomial_rv.rvs(10)

Первый аргумент функции binom — значение параметра  nn , второй — параметра  pp .
Функция распределения:

In [None]:
x = np.linspace(0,20,21)
cdf = binomial_rv.cdf(x)
plt.step(x, cdf)

plt.ylabel('$F(x)$')
plt.xlabel('$x$')

Функция вероятности ```pmf``` для дискретных случайных величин заменяет функцию плотности ```pdf```:

In [None]:
x = np.linspace(0,20,21)
pmf = binomial_rv.pmf(x)
plt.plot(x, pmf, 'o')

plt.ylabel('$P(X=x)$')
plt.xlabel('$x$')

Посмотрим, как ведут себя биномиально распределенные величины при разных значениях параметров:

In [None]:
x = np.linspace(0,45,46)
for N in [20, 30]:
    for p in [0.2, 0.7]:
        rv = sts.binom(N, p)
        cdf = rv.cdf(x)
        plt.step(x, cdf, label="$N=%s, p=%s$" % (N,p))
plt.legend()
plt.title("CDF (binomial)")

plt.ylabel('$F(X)$')
plt.xlabel('$x$')

In [None]:
x = np.linspace(0,45,46)
symbols = iter(['o', 's', '^', '+'])
for N in [20, 30]:
    for p in [0.2, 0.8]:
        rv = sts.binom(N, p)
        pmf = rv.pmf(x)
        plt.plot(x, pmf, next(symbols), label="$N=%s, p=%s$" % (N,p))
plt.legend()
plt.title("PMF (binomial)")

plt.ylabel('$P(X=x)$')
plt.xlabel('$x$')

## Распределение Пуассона

Генерация выборок из распределения Пуассона с параметром $\lambda$:

In [None]:
poisson_rv = sts.poisson(5)
poisson_rv.rvs(10)

In [None]:
x = np.linspace(0,30,31)
for l in [1, 5, 10, 15]:
    rv = sts.poisson(l)
    cdf = rv.cdf(x)
    plt.step(x, cdf, label="$\lambda=%s$" % l)
plt.legend()
plt.title("CDF (poisson)")

plt.ylabel('$F(x)$')
plt.xlabel('$x$')

In [None]:
x = np.linspace(0,30,31)

symbols = iter(['o', 's', '^', '+'])
for l in [1, 5, 10, 15]:
    rv = sts.poisson(l)
    pmf = rv.pmf(x)
    plt.plot(x, pmf, next(symbols), label="$\lambda=%s$" % l)
plt.legend()
plt.title("PMF (poisson)")

plt.ylabel('$P(X=x)$')
plt.xlabel('$x$')

## Дискретное распределение общего вида

Чтобы сгенерировать дискретную случайную величину общего вида, нужно задать множество её значений и соответствующих вероятностей и использовать функцию ```numpy.random.choice```:

In [None]:
elements = np.array([1, 5, 12])
probabilities = [0.05, 0.7, 0.25]
np.random.choice(elements, 10, p=probabilities)

## Другие распределения

Существует большое количество других стандартных семейств распределений, многие из которых также можно генерировать в Питоне. 
Например, распределение хи-квадрат $\chi^2_k$, имеющее наутральный параметр $k$, который называется числом степеней свободы:

In [None]:
x = np.linspace(0,30,100)
for k in [1, 2, 3, 4, 6, 9]:
    rv = sts.chi2(k)
    cdf = rv.cdf(x)
    plt.plot(x, cdf, label="$k=%s$" % k)
plt.legend()
plt.title("CDF ($\chi^2_k$)")

In [None]:
x = np.linspace(0,30,100)
for k in [1, 2, 3, 4, 6, 9]:
    rv = sts.chi2(k)
    pdf = rv.pdf(x)
    plt.plot(x, pdf, label="$k=%s$" % k)
plt.legend()
plt.title("PDF ($\chi^2_k$)")

Полный список функций SciPy для работы со всеми распределениями можно найти тут: http://docs.scipy.org/doc/scipy-0.14.0/reference/stats.html

# Дискретное распределение

Сгенерируем выборку объёма 100 из дискретного распределения с шестью равновероятными исходами.

In [None]:
sample = np.random.choice([1,2,3,4,5,6], 100)

Представим теперь, что эта выборка была получена не искусственно, а путём подбрасывания симметричного шестигранного кубика 100 раз. Оценим вероятности выпадения каждой из сторон с помощью частот:

In [None]:
# посчитаем число выпадений каждой из сторон:
from collections import Counter

c = Counter(sample)

print("Число выпадений каждой из сторон:")    
print(c)

# теперь поделим на общее число подбрасываний и получим вероятности:
print("Вероятности выпадений каждой из сторон:")
print({k: v/100.0 for k, v in c.items()})

Это и есть оценка функции вероятности дискретного распределения.

# Непрерывное распределение

Сгенерируем выборку объёма 100 из стандартного нормального распределения (с $\mu=0$ и $\sigma^2=1$):

In [None]:
norm_rv = sts.norm(0, 1)
sample = norm_rv.rvs(100)

Эмпирическая функция распределения для полученной выборки:

In [None]:
x = np.linspace(-4,4,100)
cdf = norm_rv.cdf(x)
plt.plot(x, cdf, label='theoretical CDF')

# для построения ECDF используем библиотеку statsmodels
from statsmodels.distributions.empirical_distribution import ECDF
ecdf = ECDF(sample)
plt.step(ecdf.x, ecdf.y, label='ECDF')

plt.ylabel('$f(x)$')
plt.xlabel('$x$')
plt.legend(loc='upper left')

Гистограмма выборки:

In [None]:
plt.hist(sample, normed=True)
plt.ylabel('number of samples')
plt.xlabel('$x$')

Попробуем задавать число карманов гистограммы вручную:

In [None]:
plt.hist(sample, bins=3, normed=True)
plt.ylabel('number of samples')
plt.xlabel('$x$')

In [None]:
plt.hist(sample, bins=40, normed=True)
plt.ylabel('number of samples')
plt.xlabel('$x$')

Эмпирическая оценка плотности, построенная по выборке с помощью ядерного сглаживания:

In [None]:
# для построения используем библиотеку Pandas:
df = pd.DataFrame(sample, columns=['KDE'])
ax = df.plot(kind='density')

# на том же графике построим теоретическую плотность распределения:
x = np.linspace(-4,4,100)
pdf = norm_rv.pdf(x)
plt.plot(x, pdf, label='theoretical pdf', alpha=0.5)
plt.legend()
plt.ylabel('$f(x)$')
plt.xlabel('$x$')

# Оценка доверительных интервалов, бутстреп

### Доверительный интервал для доли

Например, был проведен опрос, на котором респондентам задавали вопрос с бинарным ответом, который был закодирован `0` и `1` (Представим, что все люди честные). Требуется оценить доверительный интервал доли ответов.

In [None]:
np.random.seed(RND_SEED)

In [None]:
# Сначала генеральная совокупность
statistical_population = np.random.randint(2, size = 100000) 

# Теперь наша выборка
random_sample = np.random.choice(statistical_population, size = 1000)

In [None]:
# Истинное значение доли
statistical_population.mean()

In [None]:
# Точечная оценка доли 
random_sample.mean()

In [None]:
# Хотим доверительный интервал!
from statsmodels.stats.proportion import proportion_confint

#### Доверительный интервал на основе нормального распределения

$$\hat{p}\pm z_{1-\frac{\alpha}{2}} \sqrt{\frac{\hat{p}\left(1-\hat{p}\right)}{n}}$$

In [None]:
normal_interval = proportion_confint(random_sample.sum(), random_sample.shape[0], method = 'normal', alpha=0.05)
normal_interval

In [None]:
# Тоже самое только своими руками
def mean_confidence_interval(data, alpha=0.05):
    from scipy.stats import norm
    p = data.sum() * 1.0 / data.shape[0] # p^
    quantile = norm.cdf(1 - alpha) * np.sqrt((p * (1 - p))/data.shape[0])
    return (p - quantile, p + quantile)

In [None]:
mean_confidence_interval(random_sample)

#### Доверительный интервал Уилсона

$$\frac1{ 1 + \frac{z^2}{n} } \left( \hat{p} + \frac{z^2}{2n} \pm z \sqrt{ \frac{ \hat{p}\left(1-\hat{p}\right)}{n} + \frac{
z^2}{4n^2} } \right), \;\; z \equiv z_{1-\frac{\alpha}{2}}$$

In [None]:
wilson_interval = proportion_confint(random_sample.sum(), random_sample.shape[0], method = 'wilson')
wilson_interval

#### Размер выборки для интервала заданной ширины

In [None]:
from statsmodels.stats.proportion import samplesize_confint_proportion

In [None]:
n_samples = int(np.ceil(samplesize_confint_proportion(random_sample.mean(), 0.01)))
n_samples

In [None]:
np.random.seed(1)
random_sample = np.random.choice(statistical_population, size = n_samples)

In [None]:
normal_interval = proportion_confint(sum(random_sample), len(random_sample), method = 'normal')
normal_interval[1] - normal_interval[0]

### Доверительный интервал для двух долей

Пускай у нас есть рекламные баннеры. Мы хотим сравнить их "кликабельность"

In [None]:
data = pd.read_csv('banner_click_stat.txt', header = None, sep = '\t')
data.columns = ['banner_a', 'banner_b']

   | $X_1$ | $X_2$  
  ------------- | -------------|
  1  | a | b 
  0  | c | d 
  $\sum$ | $n_1$| $n_2$
  
$$ \hat{p}_1 = \frac{a}{n_1}$$

$$ \hat{p}_2 = \frac{b}{n_2}$$


$$\text{Доверительный интервал для }p_1 - p_2\colon \;\; \hat{p}_1 - \hat{p}_2 \pm z_{1-\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}}$$

In [None]:
def proportions_confint_diff_ind(sample1, sample2, alpha = 0.05):    
    

In [None]:
print "confidence interval: [%f, %f]" % proportions_confint_diff_ind(data.banner_a, data.banner_b)

## Доверительные интервалы для средних

Рассмотрим некий набор данных.

* Выберем два алгоритма классификации.
* Запустим кросс-валидацию с оценкой AUC
* Сравним средние AUC и их доверительные интервалы

In [None]:
from sklearn import cross_validation, datasets, linear_model, metrics

In [None]:
X, y = datasets.make_blobs(300, centers=2, cluster_std=3, random_state=RND_SEED)

In [None]:
plt.scatter(X[:,0], X[:,1], c=y, s=50)

Выберите два алгоритма и оцените их AUC на каждой итерации кросс-валидации

Доверительные интервалы для среднего можно оценить двумя способами.

Допустим, нам откуда-то известно, что дисперсия auc_scores $\sigma^2=0.25$. 
Построим доверительные интервалы для средних вида $$\bar{X}_n \pm z_{1-\frac{\alpha}{2}} \frac{\sigma}{\sqrt{n}}$$

Вместо гипотетической теоретической дисперсии $\sigma^2$, которую мы на самом деле в данном случае не знаем, можно использовать выборочные дисперсии, и построить доверительные интервалы вида $$\bar{X}_n \pm t_{1-\frac{\alpha}{2}} \frac{S}{\sqrt{n}}$$

In [None]:
from statsmodels.stats.weightstats import _zconfint_generic, _tconfint_generic

## Доверительный интервал статистик на основе bootstrap

Verizon — основная региональная телекоммуникационная компания (Incumbent Local Exchange Carrier, ILEC) в западной 
части США. В связи с этим данная компания обязана предоставлять сервис ремонта телекоммуникационного оборудования 
не только для своих клиентов, но и для клиентов других локальных телекоммуникационых компаний (Competing Local Exchange Carriers, CLEC). При этом в случаях, когда время ремонта оборудования для клиентов других компаний существенно выше, чем для собственных, Verizon может быть оштрафована. 

In [None]:
data = pd.read_csv('verizon.txt', sep='\t')
data.shape

С помощью бутстрепа оцените 95% доверительные интервалы для медианы в каждой из категорий, а так же для разности медиан

## Доверительный интервал коэффициентов регрессии

С помощью бутстрепа оцените доверительный интервал коэффициентов регрессии на данных

In [None]:
X, y = datasets.make_regression(n_samples=100, n_features=1, n_informative=1,
                                n_targets=1, bias=2.0, tail_strength=0.5, noise=50, shuffle=True, random_state=RND_SEED)

In [None]:
plt.scatter(X[:,0], y)