### Необходимый объем выборки

Пусть $\xi\sim N(a,\sigma)$, a неизвестно, $\sigma=2$

Проверяется гипотеза 
<li> $H_0$: $a = 5$
<li> $H_1$: $a = 5.5$

Какого объема следует взять выборку, чтобы вероятность ошибки первого рода не превосходила  0.05, а вероятность ошибки второго рода не превосходила 0.1?  Найдите наименьшее значение

$\large n\geq \dfrac{\sigma^{2} \left( U_{1-\alpha _{0}} - U_{\beta_{0}}\right) ^{2} }{\left( a_{1}-a_{0}\right) ^{2}}$

In [1]:
from scipy.stats import norm
from math import floor, ceil

def return_sample_size(alpha_0: float, beta_0: float, a_0: float, a_1: float, sigma: float) -> int:
    alpha_quantile = norm.ppf(1 - alpha_0)
    beta_quantile = norm.ppf(beta_0)
    
    return ceil((sigma * (alpha_quantile - beta_quantile) / (a_1 - a_0)) ** 2)

print('Необходимый объем выборки при задданых ошибках первого и второго рода: ', 
      return_sample_size(alpha_0=0.05, beta_0=0.1, a_0=5, a_1=5.5, sigma=2)
     )

Необходимый объем выборки при задданых ошибках первого и второго рода:  138


### Проверкой простой статистической гипотезы

Десять разных термометров сопротивления откалибровали по стандартному термометру. При показании стандартного термометра 1000мВ, испытуемые термометры показали:

<p>
<li> $X_n = (986, 1005, 991, 994, 983, 1002, 996, 998,1002, 983)$</li>
<p >Можно ли считать эти отклонения допустимыми или на характеристики термометров повлиял некоторый фактор (при изготовлении или транспортировке)? Показания термометров считать распределенными нормально. Уровень значимости принять 0.05
<p>
<li> Найдите p-значение и примите статистическое решение.</li>

In [2]:
import numpy as np
from scipy.stats import t

def return_stat_value(X_n: list, a: float) -> float:
    s = (1 / (len(X_n) - 1) * sum([(x_i - np.mean(X_n)) ** 2 for x_i in X_n])) ** (1/2)
    
    return (np.mean(X_n) - a) / (s / (len(X_n) ** (1/2)))

input_data = [986, 1005, 991, 994, 983, 1002, 996, 998, 1002, 983]
Z_B = return_stat_value(X_n=input_data, a=1000)
t_alpha = t.ppf(0.05/2, df = 9)
t_minus_alpha = t.ppf((1 - 0.05)/2, df = 9)
p_value = round(2 * min([t.cdf(Z_B, df=9), 1 - t.cdf(Z_B, df=9)]), 3)

<p> Критическая область:
    $\large V_k: (-\infty, -2.262) \cup (-0.064, +\infty)$
</p>

<p> p_value:  $\large p = 0.043$ </p>
<p>Выборочное значение статистики $Z_B = -2.355$</p>
<p>Выборочное значение статистики принадлежит критической области, отвергаем нулевую гипотезу</p>

### Проверка гипотезы о значении дисперсии $N(a, \sigma)$

При отлаженном процессе наполнения тюбиков с зубной пастой в одну упаковку в среднем помещается 100 мл зубной пасты, при этом дисперсия объема зубной пасты в упаковке не должна превышать 9 (мл в квадрате). Отдел контроля качества отобрал 25 упаковок и рассчитал несмещённую оценку дисперсии $\large s^2 =\frac{1}{n-1}\sum_{i=1}^n (x_i -\bar x)^2$, она составила 13.5.

Есть ли основания считать, что дисперсия объема зубной пасты превышает допустимый предел? Используйте уровень значимости 0.05. Предполагается, что объем зубной пасты в упаковке подчиняется нормальному закону распределения.
Найдите p-значение, примите статистическое решение

<p>Гипотезы: </p>
<li> $H_0: \sigma^{2} = 9$</li>
<li> $H_1: \sigma^{2} > 9$</li>


In [3]:
from scipy.stats import chi2

chi_quantile = chi2.ppf(1 - 0.05, df=24) 
print('Критическая область: ', (chi_quantile, '+inf'))


Z_B = 24 * (13.5) / 9
print('Выборочное значение статистики: ', Z_B)

p_value = 1 - chi2.cdf(Z_B, df=24)
print('p_value: ', round(p_value, 3))

print('Нет оснований не принимать нулевую гипотезу')

Критическая область:  (36.41502850180731, '+inf')
Выборочное значение статистики:  36.0
p_value:  0.055
Нет оснований не принимать нулевую гипотезу


### Однофакторный дисперсионный анализ

Время химической реакции при различном содержании катализатора распределилось следующим образом

<p>5%</p>
<li>5.9, 6.0, 7.0, 6.5, 5.5, 7.0, 8.1, 7.5, 6.2, 6.4, 7.1, 6.9</li>
<p>10%</p>
<li>4.0, 5.1, 6.2, 5.3, 4.5, 4.4, 5.3, 5.4,5.6,5.2</li>
<p>15%</p>
<li>8.2, 6.8, 8.0, 7.5, 7.2, 7.9, 8.1, 8.5, 7.8, 8.1</li>

Выборки получены из нормально распределенных генеральных совокупностей с равными дисперсиями. Проверить гипотезу о равенстве средних. Уровень значимости принять равным 0.1.

Найдите значение статистики, которая является точечной оценкой дисперсии независимо от того, верна нулевая гипотеза или нет

In [4]:
import numpy as np
from scipy.stats import f

def calculate_var_stat(X_general: list) -> float:
    total_sum = 0
    for X_j in X_general:
        total_sum += sum([(X_ij - np.mean(X_j)) ** 2 for X_ij in X_j])
    
    return total_sum / (len(np.concatenate(X_general)) - len(X_general))

def calculate_alternative_var(X_general: list) -> float:
    general_mean = np.mean(np.concatenate(X_general))
    result = [len(X_j) * (np.mean(X_j) - general_mean) ** 2 for X_j in X_general]
    return sum(result) / (len(X_general) - 1)

X_1 = [5.9, 6.0, 7.0, 6.5, 5.5, 7.0, 8.1, 7.5, 6.2, 6.4, 7.1, 6.9]
X_2 = [4.0, 5.1, 6.2, 5.3, 4.5, 4.4, 5.3, 5.4, 5.6, 5.2]
X_3 = [8.2, 6.8, 8.0, 7.5, 7.2, 7.9, 8.1, 8.5, 7.8, 8.1]

X_general = [X_1, X_2, X_3]
k = len(X_general)
N = len(np.concatenate(X_general))
alpha = 0.1
quantile = f.ppf(1-alpha, k-1, N-k)

denominator = calculate_var_stat(X_general)
print('Точечная оценка дисперсии независимо от того, верна нулевая гипотеза или нет: ', 
      round(denominator, 3))

numerator = calculate_alternative_var(X_general)
F_B = numerator / denominator

print('Выборочное значение статистики: ', round(F_B, 3))
print('Критическая область ({}, +inf)'.format(round(quantile, 3)))
print('Отвергаем нулевую гипотезу')

Точечная оценка дисперсии независимо от того, верна нулевая гипотеза или нет:  0.412
Выборочное значение статистики:  44.991
Критическая область (2.495, +inf)
Отвергаем нулевую гипотезу


### Метод линейных контрастов

Найдите точечную оценку линейного контраста для проверки частной нулевой гипотезы о равенстве среднего времени химической реакции при содержании катализатора  5% и 10% 
<p>$H_0:a_{5\%}=a_{10\%}$</p>

In [5]:
Lk_hat = np.mean(X_1) - np.mean(X_2)
Q1 = calculate_var_stat(X_general) * (N - k)
Sk_hat = Q1 / (len(X_1) * (N - k)) + Q1 / (len(X_2) * (N - k))

lowerbound = Lk_hat -  (Sk_hat * (k - 1) * quantile) ** (1 / 2)
upperbound = Lk_hat + (Sk_hat * (k - 1) * quantile) ** (1 / 2)

print('Точечная оценка линейного контраста: ', round(Lk_hat, 3))
print('Доверительный интервал: ',
    (round(lowerbound, 3),
     round(upperbound, 3)))
print('Отвергаем нулевую гипотезу')

Точечная оценка линейного контраста:  1.575
Доверительный интервал:  (0.961, 2.189)
Отвергаем нулевую гипотезу


Проверьте, правда ли, что болевой барьер у блондинов и брюнетов разный.
Найдите средний ранг болевого барьера для  светлых брюнетов.

In [6]:
from scipy.stats import chi2

def get_ranks(sorted_sample: list, current_sample: list) -> list:
    return [sorted_sample.index(elmnt) + 1 for elmnt in current_sample]

def get_h_stat(samples: list) -> float:
    sorted_sample = sorted(np.concatenate(samples))
    N = len(sorted_sample)
    inner_sum = sum([len(sample) * np.mean(get_ranks(sorted_sample, sample)) ** 2 for sample in samples])
    return 12 * inner_sum / (N * (N + 1)) - 3 * (N + 1)

light_blonde =  [62, 60, 71, 55, 48]
dark_blonde = [63, 57, 52, 41, 43]
light_brunette = [42, 50, 44, 37]
dark_brunette = [32, 39, 51, 30, 35]

samples = [light_blonde, dark_blonde, light_brunette, dark_brunette]
sorted_sample = sorted(np.concatenate(samples))
alpha = 0.05

print('средний ранг болевого барьера для светлых брюнетов: ',
      np.mean(get_ranks(sorted_sample, light_brunette)))
print('Выборочное значение статистики H: ', round(get_h_stat(samples), 3))
print('Критическая область ({}, +inf)'.format(round(chi2.ppf(1 - alpha, df=len(samples)-1), 3)))
print('Отвергаем нулевую гипотезу')

средний ранг болевого барьера для светлых брюнетов:  7.75
Выборочное значение статистики H:  10.145
Критическая область (7.815, +inf)
Отвергаем нулевую гипотезу


### Задача про регби

In [7]:
import pandas as pd

rugby_data = pd.read_csv('rugby.txt', sep='\t')
rugby_data.head()

Unnamed: 0,Game,Time
0,1,39.2
1,1,2.7
2,1,9.2
3,1,14.6
4,1,1.9


In [8]:
alpha = 0.05
k = len(set(rugby_data.Game.values))
N = rugby_data.shape[0]

game_list = np.arange(1, 11, 1)
samples = [rugby_data.loc[rugby_data.Game == game].Time.values for game in game_list]

numerator = calculate_alternative_var(samples)
denominator = calculate_var_stat(samples)
F_B = numerator / denominator

print('Выборочное значение статистики: ', round(F_B, 3))
print('Критическая область ({}, +inf)'.format(round(f.ppf(1 - alpha, k-1, N-k), 3)))
print('Отвергаем нулевую гипотезу')

Выборочное значение статистики:  3.887
Критическая область (1.89, +inf)
Отвергаем нулевую гипотезу


### Пульс

<p>У студентов измерили пульс до и после тренировки. Верно ли, что пульс в среднем увеличился на 50 ударов в минуту?</p>
<p>Проверьте данное предположение с помощью доверительных интервалов. Уровень значимости 0.02
Постройте приближенный доверительный интервал для a_1-a_2a. Примите статистическое решение</p>

In [9]:
from scipy.stats import norm

In [10]:
pulse_data = pd.read_csv('pulse.txt', sep='\t')
pulse_data.head()

Unnamed: 0,Pulse1,Pulse2
0,82,150
1,96,176
2,78,141
3,88,150
4,76,88


In [11]:
a = (pulse_data['Pulse1'] - pulse_data['Pulse2']).values

alpha = 0.02

lowerbound_a = norm.ppf(alpha / 2) * np.std(a, ddof=1) / len(a) ** (1/2) + np.mean(a)
upperbound_a = norm.ppf(1 - alpha / 2) * np.std(a, ddof=1) / len(a) ** (1/2) + np.mean(a)

print('Доверительный интервал: ',
    (round(lowerbound_a, 3),
    round(upperbound_a, 3)))

Доверительный интервал:  (-58.625, -44.157)
