## Урок 6. Сравнение долей. Построение доверительного интервала

In [1]:
import numpy as np
from scipy.stats import norm, t as t_stat

### Задача 1.

Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением, равным 16. Найти доверительный интервал для оценки математического ожидания с надежностью 0.95, если выборочная средняя M = 80, а объем выборки n = 256.

Что есть:

In [2]:
sigma = 16           # Среднее квадратическое отклонение
alpha = 1 - 0.95     # Уровень значимости
X = 80               # Выборочное среднее
n = 256              # Размер выборки

Чтобы найти доверительный интервал, в данном случае, воспользуемся z-статистикой, т.к. среднее квадратическое отклонение ГС нам известно:

$\displaystyle \overline{X} \pm z_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt n}$

Из всей формулы нам неизвестен только 1 показатель: $z_{\alpha / 2}$. Найдем его:

In [3]:
z = norm.ppf(alpha / 2)
z

-1.959963984540054

Рассчитаем

In [4]:
left = X + z * (sigma / np.sqrt(n))
right = X - z * (sigma / np.sqrt(n))

np.around([left, X, right], 3)

array([78.04, 80.  , 81.96])

### Задача 2.

В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, получены опытные данные:

6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1

Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0,95.

Все, что нам известно в этой задаче, это то, что чего-то измерили 10 раз и результаты этих измерений.

In [5]:
measures = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])
alpha = 1 - 0.95

Измерений, прямо скажем немного, и параметры ГС неизвестны, поэтому, для построения доверительного интервала будем использовать t-статистику:

$\displaystyle \overline{X} \pm t_{\frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt n}$

Посчитаем недостающие части (некоторые - исключительно для удобства)

In [6]:
X = measures.mean()
n = measures.shape[0]
SD = np.sqrt(measures.var(ddof=1))

t = t_stat.ppf(alpha / 2, df=n-1)
t

-2.2621571627409915

In [7]:
left = X + t * (SD / np.sqrt(n))
right = X - t * (SD / np.sqrt(n))

np.around([left, X, right], 3)

array([6.268, 6.59 , 6.912])

### Задача 3.

- Рост дочерей 175, 167, 154, 174, 178, 148, 160, 167, 169, 170
- Рост матерей 178, 165, 165, 173, 168, 155, 160, 164, 178, 175

Используя эти данные построить 95% доверительный интервал для разности среднего роста родителей и детей.

In [8]:
m_height = np.around([178, 165, 165, 173, 168, 155, 160, 164, 178, 175])
d_height = np.around([175, 167, 154, 174, 178, 148, 160, 167, 169, 170])

alpha = 1 - 0.95

Как обычно - измерений не так много, поэтому воспользуемся t-статистикой:

$\displaystyle \Delta \pm t_{\frac{\alpha}{2}} \cdot S_{\Delta}$

где 

$\displaystyle S_{\Delta} = \sqrt{\frac{D}{n_m} + \frac{D}{n_d}}$

$\displaystyle D = \frac{1}{2}(D_m + D_d)$

\+ посчитаем, для удобства, некоторые показатели

In [9]:
m_mean = m_height.mean()
d_mean = d_height.mean()

n_m = m_height.shape[0]
n_d = d_height.shape[0]

D_m = m_height.var(ddof=1)
D_d = d_height.var(ddof=1)

D = (D_m + D_d) / 2
S = np.sqrt(D/n_m + D/n_d)
delta = m_mean - d_mean

t = t_stat.ppf(alpha / 2, df=n_m+n_d-2)

Подставим в формулу:

In [10]:
left = delta + t * S
right = delta - t * S

np.around([left, delta, right], 3)

array([-6.268,  1.9  , 10.068])