Итак, мы с вами знаем, что на основе выборки (части наблюдений) мы всегда можем измерить следующие показатели:

выборочное среднее (центральная мера распределения);
выборочное стандартное отклонение (мера разброса);
выборочную пропорцию (доля объектов из выборки, выбранных по условию, например доля пользователей, совершивших покупки).
Однако эти оценки не являются нашим основным предметом интереса. На самом деле нас интересуют параметры генеральной совокупности: 

истинное среднее — математическое ожидание ();
истинное стандартное отклонение ();
истинная пропорция ().
Если вы взяли выборку клиентов и выяснили их предпочтения, вам важно не то, что вы узнали предпочтения именно этих клиентов — вам важно, что теперь вы знаете предпочтения всех ваших клиентов (генеральная совокупность).

**Выборочная статистика** является случайной величиной, ведь она рассчитана на случайной выборке. Если мы возьмём одну выборку и посчитаем значение среднего, мы получим одно значение; возьмём другую — получим другое значение.

А вот параметр **генеральной совокупности** — это константа, конкретное число, которое, как правило, нам неизвестно и никогда известным не станет. Однако его можно приблизительно оценить!

С **точечными оценками** на самом деле мы уже знакомы и не раз их вычисляли — это просто выборочные статистики. Например, мы собрали данные о росте прохожих людей и посчитали среднее, стандартное отклонение и так далее. Почему они точечные? Потому что они дают ответ точечно, то есть в виде одного числа.

Однако есть у такого подхода и существенный недостаток: полученное значение практически никогда не равно истинному. 

**Интервальные оценки** — это ещё один способ оценки параметров генеральной совокупности, при использовании которого ответ даётся не в виде одного числа, а в виде интервала. 

Поиск интервальной оценки заключается в построении доверительного интервала. 

**Доверительный интервал** — интервал, который с заданной надёжностью покрывает значение неизвестного параметра. 

Доверительные интервалы бывают **двусторонними, левосторонними и правосторонними** (как гипотезы). Мы с вами будем рассматривать только построение **двусторонних доверительных интервалов**, так как они являются наиболее популярными.

Любой двусторонний доверительный интервал обладает следующей структурой:

Параметр = Выборочная оценка ± Предел погрешности

![alt](https://lms.skillfactory.ru/assets/courseware/v1/3523cd3c845cff57b3cfe494a76a7e82/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-27.png)

На оси возможных значений параметра откладывается точка X. Влево и вправо от  откладывается погрешность E . Обратите внимание, что выборочная оценка **всегда находится в центре двустороннего доверительного интервала**. В результате построения интервала мы получаем зону, в которой предположительно лежит истинное значение параметра. 

### <center> ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ПРИ ИЗВЕСТНОМ ИСТИННОМ СТАНДАРТНОМ ОТКЛОНЕНИИ

Теперь, когда мы ввели все обозначения, пора нам познакомиться с формулой **доверительного интервала для истинного среднего при известном стандартном отклонении:**

$$\mu=X_{mean}\pm z_{крит} \times \frac{\sigma}{\sqrt{n}}$$

Другая запись этой формулы:

$$\mu \in (X_{mean} - z_{крит} \times \frac{\sigma}{\sqrt{n}}; X_{mean} + z_{крит} \times \frac{\sigma}{\sqrt{n}})$$

Оба варианта формулы читаются следующим образом: истинное среднее  лежит в диапазоне от $$X_{mean} - z_{крит} \times \frac{\sigma}{\sqrt{n}}$$ до $$X_{mean} + z_{крит} \times \frac{\sigma}{\sqrt{n}}$$ 

Примечание. Не будем сильно углубляться в статистику, скажем лишь то, что данная формула выводится из [центральной предельной теоремы](https://www.machinelearningmastery.ru/a-gentle-introduction-to-the-central-limit-theorem-for-machine-learning/) — одной из основных теорем теории вероятностей.

### ОТКУДА БЕРЁТСЯ Z-КРИТИЧЕСКОЕ?

Вообще z в формуле доверительного интервала для среднего — это случайная величина, имеющая нормальное распределение с математическим ожиданием (центром) $$\mu=0$$ и стандартным отклонением (разбросом) $$\mu=1$$

Компонент $$z_{крит}$$ в доверительном интервале определяется уровнем надёжности. А что вообще такое уровень надёжности (его ещё называют уровнем доверия)? 

Вывод. Под уровнем надёжности понимается вероятность того, что истинное значение параметра окажется в построенном интервале. А под уровнем значимости — вероятность того, что построенный доверительный интервал «промахнётся» и не захватит истинное значение параметра.

Значение z-критического мы можем найти при помощи специальных таблиц, библиотек Python или [калькулятора](https://planetcalc.ru/7803/). Он поможет нам выяснить, что  приблизительно равно 1.96.

Тогда:

$$\mu = X_{mean} \pm z_{\frac{\alpha}{2}} \times \frac{\sigma}{\sqrt{n}}$$

Найти значение z-критического для любого уровня значимости можно при помощи функции norm.ppf() из модуля scipy.stats. По специфическим причинам реализации функция возвращает не совсем z-критическое, а его отрицательный модуль, поэтому мы берём его со знаком минус.

In [28]:
n = 36 # размер выборки
x_mean = 16100 # выборочное среднее
sigma = 12000 # истинное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости

In [30]:
from scipy.stats import norm
z_crit = -norm.ppf(alpha/2) # z критическое
print(z_crit)

1.959963984540054


In [31]:
eps = z_crit * sigma/(n ** 0.5) #погрешность
lower_bound = x_mean - eps # левая (нижняя) граница
upper_bound = x_mean + eps # правая (верхняя) граница
confidence_interval =((round(lower_bound, 2)), (round(upper_bound, 2))) # создаём кортеж из округлённых границ интервала
print('Доверительный интервал: {}'.format(confidence_interval)) # выводим результат
 
 
 
# Доверительный интервал: (12180, 20020)

Доверительный интервал: (12180.07, 20019.93)


*Полученный результат интерпретируется следующим образом: мы на 95 % уверены, что истинные расходы жителей на продукты питания лежат в интервале от 12 180 рублей до 20 020 рублей.*

### <center> ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО ПРИ НЕИЗВЕСТНОМ СТАНДАРТНОМ ОТКЛОНЕНИИ

В реальной жизни нам приходится заменять $$\sigma$$значение  значением выборочного стандартного отклонения, которое мы можем посчитать на основании выборки.

Вероятно, итоговая величина будет похожа на нормальное распределение, но будет обладать бОльшим разбросом.
Такая случайная величина называется [Распределение Стьюдента](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%A1%D1%82%D1%8C%D1%8E%D0%B4%D0%B5%D0%BD%D1%82%D0%B0) — это целое семейство родственников стандартного нормального распределения.

![alt](https://lms.skillfactory.ru/assets/courseware/v1/29adc7996458db714b453d5e11b05541/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-eda-5-30.png)

На рисунке фиолетовым цветом изображено нормальное распределение с параметрами 0 и 1, а зелёным цветом — распределение Стьюдента. Отчётливо видно, что распределение Стьюдента несколько «шире» — обладает бОльшим разбросом.

✏️ А теперь давайте решим задачу!

Управляющий супермаркета хочет оценить, сколько денег покупатели тратят за один поход в супермаркет в среднем. На основании ранее собранных данных известно, что расходы одного покупателя распределены приблизительно нормально. Управляющий взял случайную выборку из 15 покупателей и выяснил, что их средние расходы равны 2 000 рублей, а выборочное стандартное отклонение равно 400 рублей.

Для оценки управляющий хочет построить доверительный интервал с надёжностью в 95 %.

Давайте поможем управляющему, решив несколько задачек с помощью Python.

Итак, зададим необходимые для решения задачи переменные:

In [33]:
n = 15 # размер выборки
k = n - 1 # число степеней свободы
x_mean = 2000 # выборочное среднее
x_std = 400 # выборочное стандартное отклонение
gamma = 0.95 # уровень надёжности
alpha = 1 - gamma # уровень значимости

In [34]:
from scipy.stats import t
t_crit = -t.ppf(alpha/2, k) # t-критическое
t_crit

2.1447866879169273

Теперь составим доверительный интервал для истинного среднего. Вычислим левую и нижнюю границу по формуле. Округлим результат и выведем на экран:

In [35]:
eps = t_crit * x_std/(n ** 0.5) # погрешность
lower_bound = x_mean - eps # левая (нижняя) граница
upper_bound = x_mean + eps # правая (верхняя) граница
confidence_interval = (round(lower_bound), round(upper_bound)) # создаём кортеж из округлённых границ интервала
print('Доверительный интервал: {}'.format(confidence_interval)) # выводим результат
 
 
# Доверительный интервал: (1778, 2222)

Доверительный интервал: (1778, 2222)


Примечание. Важно отметить, что при достаточной выборке (примерно более 30 наблюдений) распределение Стьюдента очень похоже на стандартное нормальное распределение. В этом случае можно использовать первую формулу (z-критическое) даже при неизвестном стандартном отклонении. Однако используя вторую формулу при оценке среднего, вы не ошибётесь.

Ещё один важный факт состоит в том, что обе формулы работают только при соблюдении двух условий:

Выборка должна быть случайной.
Выборка должна быть достаточно велика. Но есть исключение: если выборка маленькая, но сама величина распределена нормально, то выборочное среднее тоже будет распределено нормально. В таком случае мы можем пользоваться формулой доверительного интервала.

In [36]:
# Задание 6.6

n = 25 # размер выборки
k = n - 1 # число степеней свободы
x_mean = 3540 # выборочное среднее
x_std = 1150 # выборочное стандартное отклонение
gamma = 0.90 # уровень надёжности
alpha = 1 - gamma # уровень значимости

In [37]:
from scipy.stats import t
t_crit = -t.ppf(alpha/2, k) # t-критическое
t_crit

1.7108820799094284

In [38]:
eps = t_crit * x_std/(n ** 0.5) # погрешность
lower_bound = x_mean - eps # левая (нижняя) граница
upper_bound = x_mean + eps # правая (верхняя) граница
confidence_interval = (round(lower_bound), round(upper_bound)) # создаём кортеж из округлённых границ интервала
print('Доверительный интервал: {}'.format(confidence_interval)) # выводим результат
 
 
# Доверительный интервал: (3146, 3934)

Доверительный интервал: (3146, 3934)


### <center> ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ПРОПОРЦИИ

**Конверсия** — это доля пользователей, совершивших целевое действие, по отношению к общей массе пользователей. 

То есть конверсия — это вероятность того, что пользователь совершит целевое действие (вероятность успеха традиционно обозначается как p):

$p=conv= \frac{N^{+}}{N}$

$N^+$ — количество успехов (количество пользователей, осуществивших конверсию)

$N^-$ — общее количество исходов (количество пользователей)

$conv$ — конверсия.

✏️ Пора приступать к реализации на Python. Будем работать с данными о посетителях веб-сайта из прошлого юнита: