### Модуль 5. Критерии однородности 

In [1]:
from scipy.stats.distributions import t, chi2, norm, f
import numpy as np
import pandas as pd
import math
import scipy.stats as st

#### Задача 1

Два токарных автомата изготавливают детали по одному чертежу. Из продукции первого станка было отобрано 9 деталей, а из продукции второго - 11 деталей. Выборочные дисперсии контролируемого  размера, определенные по этим выборкам 5.9мкм2 и 23.3мкм2. Проверьте гипотезу о равенстве дисперсий при уровне значимости 0.01, если альтернативная гипотеза утверждает, что дисперсии не равны. (предполагаем, что контролируемый размер подчиняется нормальному закону распределения)

In [3]:
m = 9
n = 11
print("quantile", f.ppf(0.6, n-1, m-1))

quantile 1.212827164860947


Проверьте гипотезу о равенстве дисперсий при уровне значимости 0.01, если альтернативная гипотеза утверждает, что дисперсии не равны. (предполагаем, что контролируемый размер подчиняется нормальному закону распределения)

In [4]:
alpha = 0.01
m = 9
n = 11

d1 = 5.9
d2 = 23.3

Z = (d2 * n / (n-1)) / (d1 * m / (m-1)) # берем отношение большего к меньшему
p = 2*min(f.cdf(Z, n-1, m-1), 1 - f.cdf(Z, n-1, m-1))
print(f"Критическая область: (-inf, {f.ppf(alpha/2, n-1, m-1)}) U ({f.ppf(1 - alpha/2, n-1, m-1)}, +inf)")
print(f"Z = {Z}")
print(f"p-value = {p}, p-value < alpha: {p < alpha}")

Критическая область: (-inf, 0.16350773135811494) U (7.210635915223316, +inf)
Z = 3.8613935969868174
p-value = 0.06771319884993998, p-value < alpha: False


#### Задача 2

Можно ли считать, что средние двух нормально распределенных совокупностей равны, если выборочные средние и дисперсии, вычисленные по двум выборкам объема 16 и 9 равны соответственно $\bar{x_1}=12.57, D^∗_1=0.91,  \bar{x_2}=11.87, D^∗_2=1.51$? Известно, что дисперсии не  равны. Уровень значимости 0.02

Найдите p-значение и примите статистическое решение

In [7]:
alpha = 0.02

m = 16
x1 = 12.57
d1 = 0.91

n = 9
x2 = 11.87
d2 = 1.51

# считаем несмещенные оценки
s1 = d1 * m / (m-1)
s2 = d2 * n / (n-1)

# ищем K

def get_student_k(s1,s2,m,n):
    a = (s1/m + s2/n)**2
    b = ((s1/m)**2)/(m-1) + ((s2/n)**2)/(n-1)
    return np.round(a/b)
k = get_student_k(s1, s2, m, n)
print("K - ", k)

# квантиль
q = t.ppf(0.3, k)
# статистика
Z = (x1 - x2) / np.sqrt(s1/m + s2/n)

# проверяем
p = 2*min(t.cdf(Z, k), 1 - t.cdf(Z, k))
print("квантиль 0.3 - ", q)
print(f"Критическая область: (-inf, {t.ppf(alpha, k)}) U ({1 - t.ppf(alpha, k)}, +inf)")
print(f"Z = {Z}")
print(f"p-value = {p}, p-value < alpha: {p < alpha}")

K -  13.0
квантиль 0.3 -  -0.5375040895368409
Критическая область: (-inf, -2.28160356373812) U (3.28160356373812, +inf)
Z = 1.4016361972359104
p-value = 0.18444537108003667, p-value < alpha: False


#### Задача 3

У 28 пациентов, имевших сердечный приступ, измерили уровень холестерина в крови через 2 и через 4 дня после сердечного приступа. Изменился ли уровень холестерина при втором измерении по сравнению с первым?

Найдите квантиль распределения статистики критерия порядка 0.9.

Найдите p-значение и примите статистическое решение при уровне значимости 0.05

In [22]:
data = pd.read_csv('data/cholesterol.txt', sep = '\t')
n = data.shape[0]
alpha = 0.05

data['Q'] = data['Day2'] - data['Day4']
Z_sample = data['Q'].mean() / data['Q'].std() * math.sqrt(n)
p_value = 2 * min(t.cdf(Z_sample, n - 1), 1 - t.cdf(Z_sample, n - 1))

print('Квантиль: {q:.3f}'.format(q=t.ppf(0.9,27)))
print('P-value: {:.3f}'.format(p_value))

Квантиль: 1.314
P-value: 0.003


#### Задача 4



Кокаин чрезвычайно вреден для сердца, он может вызвать инфаркт миокарда даже у молодых людей без атеросклероза. Кокаин сужает коронарные сосуды, что приводит к уменьшению притока крови к миокарду кроме того, он ухудшает насосную функцию сердца. Нифедипин (препарат из группы антагонистов кальция) обладает способностью расширять сосуды, его применяют при ишемической болезни сердца. Ш. Хейл и соавт. (S. L. Hale, К. J. Alker, S. H. Rezkalla et al. Nifedipine protects the heart from the acute deleterious effects of cocaine if administered before but not after cocaine. Circulation, 83:1437—1443, 1991) предположили, что нифедипин можно использовать и при поражении сердца,

вызванном кокаином. Собакам вводили кокаин, а затем нифедипин либо физиологический раствор. Показателем насосной функции сердца служило среднее артериальное давление. Были получены следующие данные.

Среднее артериальное давление после приема кокаина, мм рт. ст. 

Влияет ли нифедипин на среднее артериальное давление после приема кокаина?

Постройте статистику критерия, приняв за Yi Y_i Yi​ наблюдения артериального давления при приеме Нифедипина

In [23]:
placebo = [156, 171, 133, 102, 129, 150, 120, 110, 112, 130]
truth = [73, 81, 103, 88, 131, 106, 107, 111, 122, 108]
y = [(i, 'p') for i in placebo] + [(i, 't') for i in truth]
y = sorted(y, key=lambda x: x[0])
y = [(x[0], x[1], i + 1) for i, x in enumerate(y)]
W = sum(x[2] for x in y if x[1] == 't')
print(W)

71


#### Задача 5

Десяти людям была предложена специальная диета для похудания. После двухнедельного питания по этой диете масса тела участников эксперимента изменилась следующим образом:

Оказывает ли эта диета какое-либо существенное действие на массу тела? Найдите значение статистики критерия знаков. Уровень значимости 0.05.

In [24]:
before = [69, 80, 92, 81, 70, 79, 78, 66, 57, 77]
after = [60, 84, 87, 79, 73, 71, 72, 67, 59, 70]
alpha = 0.05
n = len(after)

z = [before[i] - after[i] for i in range(n)]
L = np.sum([1 for i in z if i < 0])
print(L)

4


Найдите значение статистики критерия Вилкоксона. Уровень значимости 0.05.



In [32]:
before = np.array([69,80,92,81,70,79,78,66,57,77])
after = np.array([60,84,87,79,73,71,72,67,59,70])
z = before - after
z_abs = np.abs(z)
print('abs(z) = {z}'.format(z = z_abs))

ranks = st.rankdata(z_abs,  method='average')
print('ranks = {r}'.format(r=ranks))
print('Критерий = {summ}'.format(summ = sum(ranks[z < 0])))

abs(z) = [9 4 5 2 3 8 6 1 2 7]
ranks = [10.   5.   6.   2.5  4.   9.   7.   1.   2.5  8. ]
Критерий = 12.5


#### Задача 6. ANOVA

Время химической реакции при различном содержании катализатора распределилось следующим образом

Выборки получены из нормально распределенных генеральных совокупностей с равными дисперсиями. Проверить гипотезу о равенстве средних. Уровень значимости принять равным 0.1.

Найдите значение статистики, которая является точечной оценкой дисперсии независимо от того, верна нулевая гипотеза или нет.

In [35]:
'''
Статистика, когда не важно верна или нет H0
sigma2 = Q1 / (N - k)
'''
X_1 = np.array([5.9, 6.0, 7.0, 6.5, 5.5, 7.0, 8.1, 7.5, 6.2, 6.4, 7.1, 6.9])
X_2 = np.array([4.0, 5.1, 6.2, 5.3, 4.5, 4.4, 5.3, 5.4, 5.6, 5.2])
X_3 = np.array([8.2, 6.8, 8.0, 7.5, 7.2, 7.9, 8.1, 8.5, 7.8, 8.1])
Q_1 = sum([sum((y - np.mean(y)) ** 2) for y in [X_1, X_2, X_3]])
N = X_1.size + X_2.size + X_3.size
k = 3
print(round(Q_1/(N-k), 3))

0.412


Определите распределение статистики критерия в предположении справедливости нулевой гипотезы. Найдите квантиль распределения статистики критерия, участвующий в построении критической области. 

In [36]:
f.ppf(0.9,2,29)

2.4954833142354644

Найдите выборочное значение статистики критерия и примите статистическое решение

In [3]:

alpha = 0.1

x_1 = np.array([5.9, 6.0, 7.0, 6.5, 5.5, 7.0, 8.1, 7.5, 6.2, 6.4, 7.1, 6.9])
x_2 = np.array([4.0, 5.1, 6.2, 5.3, 4.5, 4.4, 5.3, 5.4, 5.6, 5.2])
x_3 = np.array([8.2, 6.8, 8.0, 7.5, 7.2, 7.9, 8.1, 8.5, 7.8, 8.1])

# вычисляем общую выборку, общую длину и общее среднее
k = 3
A = np.concatenate([x_1, x_2, x_3])
N = len(A)
m = A.mean()

# задаем распределение Фишера, которое будет использоваться
f_local = f(k - 1, N - k)

a1_d = sum((x_1 - x_1.mean())**2)
a2_d = sum((x_2 - x_2.mean())**2)
a3_d = sum((x_3 - x_3.mean())**2)

Q1 = a1_d + a2_d + a3_d
print(f"Q1 = {Q1}")

Q2 = \
    len(x_1) * (m - x_1.mean())**2 + \
    len(x_2) * (m - x_1.mean())**2 + \
    len(x_3) * (m - x_3.mean())**2
print(f"Q2 = {Q2}")

Fv = (Q2 / (k - 1)) / (Q1 / (N - k))
print(f"Выборочное значение статистики: {Fv}")
print(f"Критическая область: ({f_local.ppf(1-alpha)}; +inf)")
print(f"p-value: {1 - f_local.cdf(Fv)}")

Q1 = 11.951499999999998
Q2 = 16.608500000000003
Выборочное значение статистики: 20.150043927540484
Критическая область: (2.4954833142354644; +inf)
p-value: 3.2668642195865516e-06


Найдите точечную оценку линейного контраста для проверки частной нулевой гипотезы о равенстве среднего времени химической реакции при содержании катализатора  5% и 10% (H0:a5%=a10% )

In [5]:
print(round(np.mean(x_1) - np.mean(x_2),3))

1.575


Найдите доверительный интервал для линейного контраста для проверки частной нулевой гипотезы о равенстве среднего времени химической реакции при содержании катализатора  5% и 10% (H0:a5%=a10%) и примите статистическое решение о равенстве сравниваемых мат.ожиданий

In [6]:
def Lk_pe(k1, k2):        # точечная оценка линейного контраста с индексом 'k1k2'
    
    return np.mean(X[k1]) - np.mean(X[k2])

def n(j):
    
    return len(X[j])


X = {
    '5%': (5.9, 6.0, 7.0, 6.5, 5.5, 7.0, 8.1, 7.5, 6.2, 6.4, 7.1, 6.9),
    '10%': (4.0, 5.1, 6.2, 5.3, 4.5, 4.4, 5.3, 5.4, 5.6, 5.2),
    '15%': (8.2, 6.8, 8.0, 7.5, 7.2, 7.9, 8.1, 8.5, 7.8, 8.1)
}
alpha = 0.1
k = len(X) 
k1, k2 = '5%', '10%'
N, Q1 = 0, 0

for j in X.keys():
    Xj_mean = np.mean(X[j])
    N += n(j)
    
    for i in range(0, n(j)):
        Q1 += (X[j][i] - Xj_mean) ** 2

S2_pe = Q1 / (N - k) * (1 / n(k1) + 1 / n(k2))        # оценка дисперсии Lk_pe
f_alpha = f.ppf(1 - alpha, k - 1, N - k)        # квантиль распределения Фишера

Lk_rb = Lk_pe(k1, k2) + np.sqrt(S2_pe * (k - 1) * f_alpha)        # правая граница ДИ
Lk_lb = Lk_pe(k1, k2) - np.sqrt(S2_pe * (k - 1) * f_alpha)        # левая граница ДИ

if (0 > Lk_lb) & (0 < Lk_rb) :
    H = 'H0'
else:
    H = 'H1'

print('{:.3f}, {:.3f}, {}'.format(Lk_lb, Lk_rb, H))

0.961, 2.189, H1


#### Задача 7

Проверьте, правда ли, что болевой барьер у блондинов и брюнетов разный. 

Найдите средний ранг болевого барьера для  светлых брюнетов.

In [12]:
light_blond = [62, 60, 71, 55, 48]
dark_blond = [63, 57, 52, 41, 43]
light_brunet = [42, 50, 44, 37]
dark_brunet = [32, 39, 51, 30, 35]

var_series = light_brunet + light_blond + dark_blond + dark_brunet

ranks = st.rankdata(var_series)

n_j = len(light_brunet)

mean_rank = sum(ranks[:n_j]) / n_j

print(f'Средний ранг = {mean_rank:.2f}')

Средний ранг = 7.75


Найдите выборочное значение статистики критерия и примите статистическое решение. Уровень значимости 0.05

In [11]:
st.kruskal(light_blond, dark_blond, light_brunet, dark_brunet)

KruskalResult(statistic=10.14473684210526, pvalue=0.017375049894891817)