Scripts by Alexey Sek)))

In [58]:
import numpy as np
import scipy.stats as sts
import statistics as st

# 1. Общие функции

## 1.1 Выборочное среднее, выброчные дисперсии

In [59]:
# На случай, если параметры не даны, а дана реализация выборки

# На вход функция должна получить некоторую реализацию выборки

def basic_calc(x : list):
    x_mean = st.mean(x)
    x_var = np.var(x, ddof=1)
    x_var_bias = np.var(x)
    
    return x_mean, x_var_bias, x_var

    
x = [1, 2, 3, 4]
x_mean, x_var_bias, x_var = basic_calc(x)


print('Выборочное среднее: ' + str(x_mean))
print('Смещенная дисперсия: ' + str(x_var_bias))
print('Несмещенная дисперсия: ' + str(x_var))

Выборочное среднее: 2.5
Смещенная дисперсия: 1.25
Несмещенная дисперсия: 1.6666666666666667


# 2. Проверка гипотез

## 2.1 Матожидание: равенство const / больше const / меньше const 

In [60]:
def x_mean(x_mean, x_var_any, x_mean_hypothesis, n, alpha=0.05):
    
    t = sts.t(df=n-1)
    
    two_sided_t = abs(t.ppf(1-alpha/2)) # для гипотезы со знаком равенства, эти границы симметричны
    right_t = t.ppf(1-alpha) # для гипотезы со знаком больше
    left_t = t.ppf(alpha) # для гипотезы со знаком меньше
    
    t_calc = (x_mean - x_mean_hypothesis)/np.sqrt(x_var_any/n) # расчетное значение t статистики
    
    two_sided_hyp = two_sided_t < t_calc < two_sided_t
    right_hyp = t_calc > right_t
    left_hyp = t_calc < left_t # проверить
    
    p_val_two_sided = 2 * (1 - t.cdf(abs(t_calc)))
    p_val_left = t.cdf(t_calc)
    p_val_right = 1 - t.cdf(t_calc)
    
    return t_calc, two_sided_t, right_t, left_t, two_sided_hyp, right_hyp, left_hyp, p_val_two_sided, p_val_left, p_val_right

In [61]:
# В нижней строке прописать необходимые параметры:

# x_mean - выборочное среднее
# x_var_any - истинная дисперсия или выборочная несмещенная дисперсия
# x_mean_hypothesis проверяемое гипотетическое значение среднего
# n - количество элементов в выборке
# alpha - уровень доверия (точнее уровень доверия = 1-alpha)

t_calc, two_sided_t, right_t, left_t, two_sided_hyp, right_hyp, left_hyp, p_val_two_sided, p_val_left, p_val_right = \
x_mean(x_mean=3.8, x_var_any=0.76, x_mean_hypothesis=4, n=156, alpha=0.05)

In [62]:
print('Расчетная t-статистика: ' + str(t_calc))

print(' ')
print('Границы:')
print('t- статстика для гипотезы со знаком равно: ' + str(two_sided_t))
print('t- статстика для гипотезы со знаком больше: ' + str(right_t))
print('t- статстика для гипотезы со знаком меньше: ' + str(left_t))

print(' ')
print('Результаты:')
print('Выполнена (не отвергается) ли гипотеза со знаком равно: ' + str(two_sided_hyp))
print('Выполнена (не отвергается) ли гипотеза со знаком меньше: ' + str(left_hyp))
print('Выполнена (не отвергается) ли гипотеза со знаком больше: ' + str(right_hyp))

print(' ')
print('P-Values:')
print('P_Value для гипотезы со знаком равно: ' + str(p_val_two_sided))
print('P_Value для гипотезы со знаком меньше: ' + str(p_val_left))
print('P_Value для гипотезы со знаком больше: ' + str(p_val_right))

Расчетная t-статистика: -2.8654015976455183
 
Границы:
t- статстика для гипотезы со знаком равно: 1.9753871310468782
t- статстика для гипотезы со знаком больше: 1.6547437739175987
t- статстика для гипотезы со знаком меньше: -1.6547437739175994
 
Результаты:
Выполнена (не отвергается) ли гипотеза со знаком равно: False
Выполнена (не отвергается) ли гипотеза со знаком меньше: True
Выполнена (не отвергается) ли гипотеза со знаком больше: False
 
P-Values:
P_Value для гипотезы со знаком равно: 0.004743306399938918
P_Value для гипотезы со знаком меньше: 0.0023716531999695267
P_Value для гипотезы со знаком больше: 0.9976283468000304


# Для известной дисперсии

In [69]:
def x_mean(x_mean, x_var_any, x_mean_hypothesis, n, alpha=0.05):
    
    t = sts.norm()
    
    two_sided_t = abs(t.ppf(1-alpha/2)) # для гипотезы со знаком равенства, эти границы симметричны
    right_t = t.ppf(1-alpha) # для гипотезы со знаком больше
    left_t = t.ppf(alpha) # для гипотезы со знаком меньше
    
    t_calc = (x_mean - x_mean_hypothesis)/np.sqrt(x_var_any/n) # расчетное значение t статистики
    
    two_sided_hyp = two_sided_t < t_calc < two_sided_t
    right_hyp = t_calc > right_t
    left_hyp = t_calc < left_t # проверить
    
    p_val_two_sided = 2 * (1 - t.cdf(abs(t_calc)))
    p_val_left = t.cdf(t_calc)
    p_val_right = 1 - t.cdf(t_calc)
    
    return t_calc, two_sided_t, right_t, left_t, two_sided_hyp, right_hyp, left_hyp, p_val_two_sided, p_val_left, p_val_right

In [70]:
# В нижней строке прописать необходимые параметры:

# x_mean - выборочное среднее
# x_var_any - истинная дисперсия или выборочная несмещенная дисперсия
# x_mean_hypothesis проверяемое гипотетическое значение среднего
# n - количество элементов в выборке
# alpha - уровень доверия (точнее уровень доверия = 1-alpha)

t_calc, two_sided_t, right_t, left_t, two_sided_hyp, right_hyp, left_hyp, p_val_two_sided, p_val_left, p_val_right = \
x_mean(x_mean=3.8, x_var_any=0.76, x_mean_hypothesis=4, n=156, alpha=0.05)

In [71]:
print('Расчетная t-статистика: ' + str(t_calc))

print(' ')
print('Границы:')
print('t- статстика для гипотезы со знаком равно: ' + str(two_sided_t))
print('t- статстика для гипотезы со знаком больше: ' + str(right_t))
print('t- статстика для гипотезы со знаком меньше: ' + str(left_t))

print(' ')
print('Результаты:')
print('Выполнена (не отвергается) ли гипотеза со знаком равно: ' + str(two_sided_hyp))
print('Выполнена (не отвергается) ли гипотеза со знаком меньше: ' + str(left_hyp))
print('Выполнена (не отвергается) ли гипотеза со знаком больше: ' + str(right_hyp))

print(' ')
print('P-Values:')
print('P_Value для гипотезы со знаком равно: ' + str(p_val_two_sided))
print('P_Value для гипотезы со знаком меньше: ' + str(p_val_left))
print('P_Value для гипотезы со знаком больше: ' + str(p_val_right))

Расчетная t-статистика: -2.8654015976455183
 
Границы:
t- статстика для гипотезы со знаком равно: 1.959963984540054
t- статстика для гипотезы со знаком больше: 1.6448536269514722
t- статстика для гипотезы со знаком меньше: -1.6448536269514729
 
Результаты:
Выполнена (не отвергается) ли гипотеза со знаком равно: False
Выполнена (не отвергается) ли гипотеза со знаком меньше: True
Выполнена (не отвергается) ли гипотеза со знаком больше: False
 
P-Values:
P_Value для гипотезы со знаком равно: 0.004164806898991236
P_Value для гипотезы со знаком меньше: 0.0020824034494956187
P_Value для гипотезы со знаком больше: 0.9979175965505044


## 2.2 Дисперсия: равенство дисперсий

In [63]:
def var_equal(x_var_any, y_var_any, n_x, n_y, alpha):
    
    f = sts.f(dfn=n_x-1, dfd=n_y-1)

    f_0 = abs(f.ppf(alpha/2)) # для гипотезы со знаком равенства
    f_1 = abs(f.ppf(1-alpha/2)) # для гипотезы со знаком равенства
    
    # Чтобы понять, какая граница слева/справа в гипотезе     
    if f_0 > f_1:
        left = f_1
        right = f_0
    else:
        left = f_0
        right = f_1
    
    f_calc = x_var_any / y_var_any
    
    f_hyp = left < f_calc < right
    
    return f_calc, left, right, f_hyp

In [64]:
# В нижней строке прописать необходимые параметры:

# x_var_any - выборочная несмещенная дисперсия x
# y_var_any - выборочная несмещенная дисперсия y
# n_x - количество элементов в выборке x
# n_y - количество элементов в выборке y
# alpha - уровень доверия (точнее уровень доверия = 1-alpha)

f_calc, left, right, f_hyp =\
var_equal(x_var_any=0.8, y_var_any=0.76, n_x=132, n_y=156, alpha=0.05)

In [65]:
print('Расчетная f-статистика: ' + str(f_calc))

print(' ')
print('Границы:')
print('f- статстика для левой границы: ' + str(left))
print('f- статстика для правой границы: ' + str(right))

print(' ')
print('Рузльтаты:')
print('Выполнена (не отвергается) ли гипотеза о равенстве дисперсий: ' + str(f_hyp))

Расчетная f-статистика: 1.0526315789473684
 
Границы:
f- статстика для левой границы: 0.7170499540635331
f- статстика для правой границы: 1.3881542171063488
 
Рузльтаты:
Выполнена (не отвергается) ли гипотеза о равенстве дисперсий: True


## 2.3 Дисперсия: равенство const / больше const / меньше const 

In [66]:
def x_var(x_var, x_var_hyp, n, alpha=0.05):
    
    xi_2 = sts.chi2(df=n-1)
    
    two_sided_xi_2_right = abs(xi_2.ppf(1-alpha/2)) # для гипотезы со знаком равенства
    two_sided_xi_2_left = abs(xi_2.ppf(alpha/2)) # для гипотезы со знаком равенства
    
    right_xi_2 = xi_2.ppf(1-alpha) # для гипотезы со знаком больше
    left_xi_2 = xi_2.ppf(alpha) # для гипотезы со знаком меньше
    
    xi_2_calc_bias_mean = (x_var * (n - 1)) / x_var_hyp # расчетное значение хи-квадрат статистики при выборочном среднем
    xi_2_calc_true_mean = (x_var * n) / x_var_hyp # расчетное значение хи-квадрат статистики при истинном матожидании
    
    two_sided_hyp_true = two_sided_xi_2_left < xi_2_calc_true_mean < two_sided_xi_2_right
    right_hyp_true = xi_2_calc_true_mean > right_xi_2
    left_hyp_true = xi_2_calc_true_mean < left_xi_2 # проверить
    
    two_sided_hyp_bias = two_sided_xi_2_left < xi_2_calc_bias_mean < two_sided_xi_2_right
    right_hyp_bias = xi_2_calc_bias_mean > right_xi_2
    left_hyp_bias = xi_2_calc_bias_mean < left_xi_2 # проверить
    
    return xi_2_calc_bias_mean, xi_2_calc_true_mean, two_sided_xi_2_left, two_sided_xi_2_right, left_xi_2, right_xi_2, two_sided_hyp_true, left_hyp_true, right_hyp_true, two_sided_hyp_bias, left_hyp_bias, right_hyp_bias

In [67]:
# В нижней строке прописать необходимые параметры:

# x_var - выборочная несмещенная дисперсия x
# x_var_hyp - проверяемая гипотетическая дисперсия x
# n - количество элементов в выборке x
# alpha - уровень доверия (точнее уровень доверия = 1-alpha)

xi_2_calc_bias_mean, xi_2_calc_true_mean, two_sided_xi_2_left,\
two_sided_xi_2_right, left_xi_2, right_xi_2, two_sided_hyp_true,\
left_hyp_true, right_hyp_true, two_sided_hyp_bias, left_hyp_bias, right_hyp_bias =\
x_var(x_var=0.8, x_var_hyp=1, n=132, alpha=0.05)

In [68]:
print('Расчетная xi2-статистика с выборочным средним: ' + str(xi_2_calc_bias_mean))
print('Расчетная xi2-статистика с истинным мат. ожиданием: ' + str(xi_2_calc_true_mean))

print(' ')
print('Двусторонняя гипотезы:')
print('xi2 - левая статстика для гипотезы со знаком равно: ' + str(two_sided_xi_2_left))
print('xi2 - правая статстика для гипотезы со знаком равно: ' + str(two_sided_xi_2_right))

print(' ')
print('Левосторонняя и правосторонняя гипотезы:')
print('xi2 - статстика для гипотезы со знаком меньше: ' + str(left_xi_2))
print('xi2 - статстика для гипотезы со знаком больше: ' + str(right_xi_2))

print(' ')
print('Выборочное среднее:')
print('Выполнена (не отвергается) ли гипотеза со знаком равно: ' + str(two_sided_hyp_bias))
print('Выполнена (не отвергается) ли гипотеза со знаком меньше: ' + str(left_hyp_bias))
print('Выполнена (не отвергается) ли гипотеза со знаком больше: ' + str(right_hyp_bias))

print(' ')
print('Истинное мат. ожидание:')
print('Выполнена (не отвергается) ли гипотеза со знаком равно: ' + str(two_sided_hyp_true))
print('Выполнена (не отвергается) ли гипотеза со знаком меньше: ' + str(left_hyp_true))
print('Выполнена (не отвергается) ли гипотеза со знаком больше: ' + str(right_hyp_true))

Расчетная xi2-статистика с выборочным средним: 104.80000000000001
Расчетная xi2-статистика с истинным мат. ожиданием: 105.60000000000001
 
Двусторонняя гипотезы:
xi2 - левая статстика для гипотезы со знаком равно: 101.20979107059382
xi2 - правая статстика для гипотезы со знаком равно: 164.5746391483825
 
Левосторонняя и правосторонняя гипотезы:
xi2 - статстика для гипотезы со знаком меньше: 105.56023893286982
xi2 - статстика для гипотезы со знаком больше: 158.71193003013374
 
Выборочное среднее:
Выполнена (не отвергается) ли гипотеза со знаком равно: True
Выполнена (не отвергается) ли гипотеза со знаком меньше: True
Выполнена (не отвергается) ли гипотеза со знаком больше: False
 
Истинное мат. ожидание:
Выполнена (не отвергается) ли гипотеза со знаком равно: True
Выполнена (не отвергается) ли гипотеза со знаком меньше: False
Выполнена (не отвергается) ли гипотеза со знаком больше: False


## 2.4 Для долей нормальное распределение, и так просто посчитать