<a href="https://colab.research.google.com/github/AlexeyKatko/ColabKatko/blob/main/%D0%A2%D0%B5%D0%BE%D1%80%D0%B8%D1%8F_%D0%B2%D0%B5%D1%80%D0%BE%D1%8F%D1%82%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%D0%94%D0%BE%D0%BC%D0%B0%D1%88%D0%BD%D0%B5%D0%B5_%D0%B7%D0%B0%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Урок 6. Сравнение долей. Построение доверительного интервала

## Задача 1

Известно, что генеральная совокупность распределена нормально со средним квадратическим отклонением, равным 16.
Найти доверительный интервал для оценки математического ожидания a с надежностью 0.95, если выборочная средняя M = 80, а объем выборки n = 256.

Поскольку нам известно среднее квадратическое отклонение генеральной совокупности $\sigma=16$, то для расчета $95\%$-го доверительного интервала, будем использовать $Z$-критерий. И границы доверительного интервала расчитаем по формуле:

$\displaystyle\bar X\pm z_{\alpha/2}\cdot\frac{\sigma}{\sqrt n}$, где:

$\bar X=M=80$-среднее значение выборки

$z_{\alpha/2}$ табличное значение $Z$-критерия, и для $95\%$-го доверительного интервала $z_{\alpha/2}=1,96$

$\sigma=16$-среднее квадратическое отклонение генеральной совокупности

$n=256$-объем выборки

Таким образом $95\%$-й доверительный интервал расчитаем как:

$\left[80-1.96\cdot\frac{16}{\sqrt 256};80+1.96\cdot\frac{16}{\sqrt 256}\right]$

In [1]:
left=80-1.96*16/256**(1/2)
right=80+1.96*16/256**(1/2)
print(f'95%-й доверительный интервал для оценки мат. ожидания генеральной совокупности: [{left};{right}].')

95%-й доверительный интервал для оценки мат. ожидания генеральной совокупности: [78.04;81.96].


Ответ:

[78.04;81.96]

## Задача 2

В результате 10 независимых измерений некоторой величины X, выполненных с одинаковой точностью, получены опытные данные:

6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1

Предполагая, что результаты измерений подчинены нормальному закону распределения вероятностей, оценить истинное значение величины X при помощи доверительного интервала, покрывающего это значение с доверительной вероятностью 0,95.

Поскольку из условия задачи нам ничего не известно ни о мат. ожидании генеральной совокупности ни о среднем квадратическом отклонении для генеральной совокупности, то для расчета $95\%$-го доверительного интервала будем использовать $t$-критерий,  и формулу:

$\displaystyle\bar X\pm t_{\alpha/2}\cdot\frac{\sigma_{несмещ}}{\\sqrt{n}}$,

где
$\sigma_{несмещ}$-несмещённое среднее квадратическое отклонение выборки,

$n$-размер выборки
Воспользуемся встроенными функциями библиотеки numpy:

In [None]:
import numpy as np

In [None]:
arr=np.array([6.9, 6.1, 6.2, 6.8, 7.5, 6.3, 6.4, 6.9, 6.7, 6.1])
print(f'Среднее выборочное: {np.mean(arr): .2f},\n'
      f'Размер выборки n={len(arr)},\n'
      f'Среднее квадратическое отклонение по выборке(несмещенное): {np.std(arr, ddof=1): .2f}.'
     )

Для вычисления t-критерия воспользуемся библиотекой scipy

In [None]:
import scipy.stats as stats

In [None]:
def t_from_table(confidens, len_array):
    alpha=(1-confidens)
    return stats.t.ppf(1-alpha/2, len_array-1)
print(f'Табличное значение t-критерия для 95%-го доверительного интервала данной выборки: {t_from_table(0.95, len(arr)): .3f}')

Итоговая функция для расчета доверительного интервала:

In [None]:
def confidens_int(arr, confidens):
    return round(np.mean(arr)-t_from_table(confidens,len(arr))*np.std(arr, ddof=1)/len(arr)**0.5,3), \
           round(np.mean(arr)+t_from_table(confidens,len(arr))*np.std(arr, ddof=1)/len(arr)**0.5,3)

print(f'95%-й доверительный интервал для истинного значения Х: {confidens_int(arr, 0.95)}.')

Ответ:

(6.268, 6.912)

## Задача 3

Рост дочерей 175, 167, 154, 174, 178, 148, 160, 167, 169, 170

Рост матерей  178, 165, 165, 173, 168, 155, 160, 164, 178, 175

Используя эти данные построить 95% доверительный интервал для разности среднего роста родителей и детей.

Используем формулу интернациональная оценка для разности средних арифметических
$\bar{X}_1 - \bar{X}_2 \pm t{\frac{\alpha}{2}} \sqrt{\frac{D_1}{n_1} + \frac{D_2}{n_2}}$, где

$\bar{X}_1$ - среднее арифметическое в группе 1

$\bar{X}_2$ - среднее арифметическое в группе 2

$D_1$ - дисперсия в группе 1

$D_2$ - дисперсия в группе 2  

$n_1$ - число элементов в группе 1

$n_2$ - число элементов в группе 2

In [2]:
import numpy as np
import scipy.stats as stats

In [3]:
arr1 = np.array([175, 167, 154, 174, 178, 148, 160, 167, 169, 170])
arr2 = np.array([178, 165, 165, 173, 168, 155, 160, 164, 178, 175])
n1 = len(arr1)
n2 = len(arr2)
X1 = np.mean(arr1)
X2 = np.mean(arr2)
alpha = 0.05 / 2

delta = X2 - X1
deltaS = np.sqrt(np.var(arr2, ddof=1) / n2 + np.var(arr1, ddof=1) / n1)
t_critical = stats.t.ppf(alpha, n2 + n1 - 2)
l1 = delta - t_critical * deltaS
l2 = delta + t_critical * deltaS

print(f'95% Доверительный интервал для разности среднего роста родителей и детей: [{round(l2, 4)}; {round(l1, 4)}]')

95% Доверительный интервал для разности среднего роста родителей и детей: [-6.2684; 10.0684]


Ответ:

95% Доверительный интервал для разности среднего роста родителей и детей: [-6.2684; 10.0684]