### Модуль 4. Статистические гипотезы. Параметрические критерии.

In [18]:
import numpy as np
import math
from scipy.stats.distributions import t, chi2, norm, f


#### Задача 1

Проверяется гипотеза о равенстве мат. ожидания нормально распределенной генеральной совокупности 0 при альтернативе "мат.ожидание больше 0". Дисперсия известна и равна 4. В качестве статистики критерия было выбрано выборочное среднее. Найдите p-значение (p-value), если  значение выборочного среднего, посчитанного по выборке объемом 25, составило 0.85.

$$Z = \dfrac{(x - \bar{x})}{\sigma/\sqrt{N}}$$, где x - выборочное среднее,
$\bar{x}$ - предполагаемое гипотезой значение среднего, $\sigma$ - корень из выборочной или истинной дисперсии (оно же стандартное отклонение) и N - количество измерений.

In [12]:
var = 4
n = 25
x = 0.85

Z = (x - 0) / (var**(1/2)/n**(1/2))
print('P-value: {x:.3f}'.format(x=1-norm.cdf(Z)))

P-value: 0.017


#### Задача 2

Вы хотите найти такой вид инвестирования, который бы давал твердый доход, по крайней мере 13.2%. Для этого вам необходимо проверить, является ли выборочное среднее доказательством того, что реальный доход больше проверяемого значения доходности. Вы подумываете инвестировать в облигации A. По данным 40 наблюдений среднемесячная доходность, приведенная к годовому базису, по выбранным облигациям составила 14.4%, а выборочное среднеквадратическое отклонение - 2.915%. Предположим, что доходность подчиняется нормальному закону. Уровень значимости 0.01.

Найдите выборочное значение статистики Z и примите статистическое решение

In [13]:
from scipy.stats import t

n = 40
a = 14.4  # Среднее по выборке
a_0 = 13.2
s = 2.915 * np.sqrt(n / (n - 1))  # делаем выборочное СКО несмещённым
alpha = 0.01
t1 = t.ppf(1 - alpha, df=n - 1)  # Нужный квантиль распределения Стьюдента

Z = (a - a_0) / (s / np.sqrt(n))
print(f'Z: {Z:.2f}, V_k: ({t1:.3f}, +inf)')

Z: 2.57, V_k: (2.426, +inf)


#### Задача 3

Пусть ξ∼N(a,σ), a неизвестно, σ=2

Проверяется гипотеза H0:a=5 при альтернативе H1=5.5 

Какого объема следует взять выборку, чтобы вероятность ошибки первого рода не превосходила  0.05, а вероятность ошибки второго рода не превосходила 0.1?  Найдите наименьшее значение

In [19]:
def find_optimal_n(alpha, beta, m0, m1, std):
    """
    :param alpha: desired type 1 error (FP)
    :param beta: desired type 2 error (FN)
    :param m0: mean for zero-hypothesis
    :param m1: mean for first-hypothesis
    :param std: std
    :return: minimal optimal n
    """
    u_a = norm.ppf(1-alpha)
    u_b = norm.ppf(beta)
    n = std**2*(u_a-u_b)**2/(m1-m0)**2
    return math.ceil(n)
find_optimal_n(0.05,0.1,5,5.5,2)

138

#### Задача 4

Десять разных термометров сопротивления откалибровали по стандартному термометру. При показании стандартного термометра 1000мВ, испытуемые термометры показали:

986, 1005, 991, 994, 983, 1002, 996, 998,1002, 983.

Можно ли считать эти отклонения допустимыми или на характеристики термометров повлиял некоторый фактор (при изготовлении или транспортировке)? Показания термометров считать распределенными нормально. Уровень значимости принять 0.05


Найдите p-значение и примите статистическое решение.

In [20]:
a = np.array([986, 1005, 991, 994, 983, 1002, 996, 998, 1002, 983])

n = len(a)
alpha = 0.05

# считаем матожидание, дисперсию и статистику
m = a.mean()
d = sum((a - m)**2) / (n-1) # берем несмещенную оценку
Z = (m - 1000) / (np.sqrt(d) / np.sqrt(n))

# проверяем двухстороннюю область (т.к. альтернативная гипотеза звучит как a1 != a0)
p = 2 * min(t.cdf(Z, df=n-1), 1 - t.cdf(Z, df=n-1)) # дисперсию не знали
print(p, f"H{int(p < alpha)}")
print(f"Критическая область: (-inf, {t.ppf(alpha/2, df=n-1)}) U ({t.ppf(1 - alpha/2, df=n-1)}, +inf)")
print(f"Z = {Z}")

0.042923125026275044 H1
Критическая область: (-inf, -2.262157162740992) U (2.2621571627409915, +inf)
Z = -2.3554076516559617


#### Задача 5

Пусть ξ∼N(a,σ), a и σ  неизвестны.

Проверяется нулевая гипотеза H0:σ2=21 при альтернативе H1:σ2<21. 

Статистика критерия Z=(n−1)s2/σ02

Найдите квантиль распределения статистики критерия, участвующий в построении критической области, если уровень значимости равен 0.1, а объем выборки 20.

In [21]:
chi2.ppf(0.1, 19)

11.650910032126951

#### Задача 6

При отлаженном процессе наполнения тюбиков с зубной пастой в одну упаковку в среднем помещается 100 мл зубной пасты, при этом дисперсия объема зубной пасты в упаковке не должна превышать 9 (мл в квадрате). Отдел контроля качества отобрал 25 упаковок и рассчитал несмещённую оценку дисперсии s2=1n−1∑(xi−xˉ)^2, она составила 13.5.

Есть ли основания считать, что дисперсия объема зубной пасты превышает допустимый предел? Используйте уровень значимости 0.05. Предполагается, что объем зубной пасты в упаковке подчиняется нормальному закону распределения.

Найдите p-значение, примите статистическое решение

In [24]:
from scipy.stats import chi2

v = 100 # мл
sigma2 = 9 # мл в квадрате
n = 25 # упаковок
s2 = 13.5
alpha = 0.05

# H0:  sigma2 = 9
# H1: sigma2 > 9
z = (n-1) * s2 / sigma2
p_value = 1 - chi2.cdf(z, n-1)
print(p_value)

0.05488742448818906


#### Задача 7

Пусть ξ∼N(a,σ), a известно и равно 205, σ неизвестно.

Проверяется нулевая гипотеза H0:σ2=21 при альтернативе H1:σ2<21.

Статистика критерия Z=∑i=1n(Xi−a)2σ02.

Найдите квантиль распределения статистики критерия, участвующий в построении критической области, если уровень значимости равен 0.01, а объем выборки 20.

In [29]:
alpha = 0.01
n = 20
round(chi2.ppf(alpha, n), 3)

8.26

#### Задача 7

Производитель одежды хочет узнать, какие футболки предпочитает целевая группа: однотонные без рисунка или футболки с рисунком. Правда ли, что производителю следует выпускать больше однотонных футболок без рисунка, чем футболок с рисунком, чтобы удовлетворить пожулания покупателей?

Для проверки этой гипотезы  были опрошены 225 человек, 90 высказались в пользу футболок с рисунком, а 135 – в пользу футболок без рисунка.

Будем считать, что "успех" = покупатель предпочитает футболку без рисунка.
Используя приближенный критерий, постройте критическую область и примите статистическое решение при уровне значимости 0.01.

In [30]:
alpha = 0.01
n = 225
p0 = 0.5

Z = 135


V1 = n * p0 + np.sqrt(n*p0*(1-p0)) * norm.ppf(1-alpha)
print(f"Критическая область: ({V1}, {n})")
print(f"Z = {Z}, Z > V1: {Z > V1}")

Критическая область: (129.94760905530632, 225)
Z = 135, Z > V1: True
