# Урок 6. Сравнение долей. Построение доверительного интервала

1. Известно, что генеральная совокупность распределена нормально
со средним квадратическим отклонением, равным 16.
Найти доверительный интервал для оценки математического ожидания a с надежностью 0.95,
если выборочная средняя M = 80, а объем выборки n = 256.

$ \bar{X}\pm Z_\frac{\alpha}{2}*\frac{\sigma}{\sqrt{n}} $  
$ \sigma=16 $  
$ \bar{X}=80 $  
$ \alpha=1-0.95 $  
$ \alpha=0.05 $  
Так как $ \sigma $ известна используем $ Z_{\frac{\alpha}{2}} $  
Табличное значение Z критерия  
$ Z_{\frac{\alpha}{2}}=1.96 $  
n = 256

In [9]:
left_value = 80 - 1.96 * (16/(256**0.5))
left_value

78.04

In [10]:
right_value = 80 + 1.96 * (16/(256**0.5))
right_value

81.96

In [11]:
print(f"Ответ:\nдоверительный интервал [{left_value}; {right_value}]")

Ответ:
доверительный интервал [78.04; 81.96]


2. В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью,
получены опытные данные: 6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1  
Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей,
оценить истинное значение величины X при помощи доверительного интервала, покрывающего это
значение с доверительной вероятностью 0,95.

Так как $ \sigma $ неизвестна воспользуемся формулой  
$ \bar{X}\pm t_\frac{\alpha}{2}*\frac{\sigma}{\sqrt{n}} $

In [16]:
import numpy as np
from scipy import stats

a = np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])

# найдём среднее арифметическое для выборки a
x_mean = np.mean(a)
x_mean

6.590000000000001

In [17]:
# несмещённая дисперсияа для выборки
D = np.var(a, ddof=1)
D

0.2032222222222223

In [18]:
# доверительный интервал для среднего
t1 = stats.t.ppf(0.975, 9)
t1

2.2621571627409915

In [19]:
left_v = x_mean - t1 * np.sqrt(D/10)
left_v

6.267515851415713

In [27]:
right_v = x_mean + t1 * np.sqrt(D/10)
right_v

6.912484148584288

In [28]:
print(f"Ответ:\nдоверительный интервал [{left_v:.4f}; {right_v:.4f}]")

Ответ:
доверительный интервал [6.2675; 6.9125]


3. Рост дочерей 175, 167, 154, 174, 178, 148, 160, 167, 169, 170  
Рост матерей 178, 165, 165, 173, 168, 155, 160, 164, 178, 175  
Используя эти данные построить 95% доверительный интервал для разности среднего роста родителей и детей.

Используем формулу для нахождения доверительного интервала для разности средних арифметических  
$ \Delta\pm t_\frac{\alpha}{2}*S_\Delta $ ,  
где $ \Delta=\bar{X_1}-\bar{X_2} $

In [72]:
a = np.array([175, 167, 154, 174, 178, 148, 160, 167, 169, 170])

In [73]:
b = np.array([178, 165, 165, 173, 168, 155, 160, 164, 178, 175])

In [74]:
n1 = len(a)
n = n1
n1

10

In [75]:
n2 = len(b)
n2

10

In [76]:
# найдём среднее арифметическое для выборки a
x_a = np.mean(a)
x_a

166.2

In [77]:
# найдём среднее арифметическое для выборки b
x_b = np.mean(b)
x_b

168.1

In [78]:
# разность средних
delta = x_a - x_b
delta

-1.9000000000000057

$ D=\frac{1}{2}(D_1+D_2) $,  
где $ D_1 $ и $ D_2 $ - дисперсии обеих групп

In [79]:
# несмещённая дисперсия для выборки a
D1 = np.var(a, ddof=1)
D1

91.06666666666666

In [80]:
# несмещённая дисперсия для выборки b
D2 = np.var(b, ddof=1)
D2

60.10000000000001

In [81]:
# объединённая оценка дисперсии
D = (D1 + D2)/2
D

75.58333333333334

$ S_\Delta=\sqrt{\frac{D}{n_1}+\frac{D}{n_2}} $,  
где $ n_1 $ и $ n_2 $ - объёмы выборок

In [82]:
# стандартная ошибка разности средних
SE = np.sqrt(D/n1 + D/n2)
SE

3.8880157750022915

$ df=2*(n-1) $,  
где n - объём выборки

In [84]:
# степени свободы
df = 2 * (n - 1)
df

18

In [85]:
# найдём t-критерий Стьюдента
t = stats.t.ppf(0.975, df)
t

2.10092204024096

In [86]:
# нижняя граница интервала
L = delta - t * SE
L

-10.068418034506857

In [87]:
# верхняя граница интервала
U = delta + t * SE
U

6.268418034506846

In [88]:
print("Ответ:\n"
f"95% доверительный интервал для разности среднего роста родителей и детей [{L:.4f}, {U:.4f}]")

Ответ:
95% доверительный интервал для разности среднего роста родителей и детей [-10.0684, 6.2684]
