# Статистика вывода

## Расчет размера выборки

**Генеральная совокупность (N)** — это весь набор объектов, о которых мы хотим получить информацию.

**Выборка (n)** — подмножество объектов из генеральной совокупности.

Задача: определить размер выборки для исследования с доверительным уровнем в 95% и ошибкой не более 4%.

In [None]:
import scipy.stats as st
conf = 0.95 #доверительный уровень в долях
Z = st.norm.ppf(conf + (1-conf)/2)
p = 0.5
q = 1 - p
delta = 0.04 #ошибка в долях

round(((Z**2)*p*q)/delta**2)


600

## Доверительный интервал

**Доверительный интервал** — это такой интервал,	 который покрывает неизвестный параметр с заданной надежностью. Чем меньше выборка, тем в большей степени доверительный интервал предпочтительнее точечной оценки.

**Надежность** — вероятность того, что оценка параметра принадлежит доверительному интервалу. Часто также используют термин **статистическая значимость**, которая определяется как (1 — надежность).



In [None]:
import numpy as np

data = [187, 185, 165, 145, 152, 168, 172, 179, 180, 195, 168, 168, 170, 172, 160]

In [None]:
#90% надежность
print(st.t.interval(confidence=0.90, df=len(data)-1,  loc=np.mean(data), scale=st.sem(data)))

(165.11615700777816, 177.01717632555517)


In [None]:
#95% надежность
print(st.t.interval(confidence=0.95, df=len(data)-1, loc=np.mean(data), scale=st.sem(data)))


(163.82059816147947, 178.31273517185386)


In [None]:
#99% надежность
print(st.t.interval(confidence=0.99, df=len(data)-1, loc=np.mean(data), scale=st.sem(data)))

(161.00953301227102, 181.1238003210623)


Доверительный интервал для доли:

In [None]:
from statsmodels.stats.proportion import proportion_confint

proportion_confint(93, 150, alpha=(1 - 0.95))

(0.5423234184516537, 0.6976765815483463)