In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import math
from scipy import stats, integrate

In [2]:
df = pd.read_csv('customers.csv')

In [3]:
df

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40
...,...,...,...,...,...
195,196,Female,35,120,79
196,197,Female,45,126,28
197,198,Male,32,126,74
198,199,Male,32,137,18


# Метод максимального правдоподобия

## Norm одна для всех

In [4]:
def pe_norm(x, version):
    """
    Функция использует входящую выборку в виде списка или массива numpy
    Выбор версии определяет возвращаемые функцией значения
    Т.к. в работе были получены одни и те же зависимости для ТО МО нормальнго
    распределения по ММП, ММ, МНК, то используем одну функцию
    """
    m = (1/len(x)) * sum(x)
    sum_sq = 0
    for i in x:
        sum_sq += (i - m) ** 2
    d_adj = sum_sq / (len(x) - 1)
    sigma_m = d_adj / len(x)
    sigma_d = 2 * ((d_adj) ** 2) / len(x)
    if version == 'both':
        return m, d_adj, sigma_m, sigma_d
    elif version == 'm_full':
        return m, sigma_m
    elif version == 'd_full':
        return d_adj, sigma_d
    elif version == 'm':
        return m
    elif version == 'd':
        return d_adj
    elif version == 'm_d':
        return m, d_adj

In [5]:
def pe_r_mmp(x):
    """
    Оцениваем границы, на вход выборка в виде массива numpy или списка
    Возвращаем оценки границ распределения
    """
    a = x.min()
    b = x.max()
    return a, b

In [118]:
def pe_exp_mmp(x, T, n, m):
    """
    Оцениваем параметр лямбда, на вход выборка в виде массива numpy или списка,
    период, количество не появившихся и появившихся событий
    Возвращаем оценки границ распределения
    """
    s = sum(x) + n * T
    pe_lambda = m / s
    sigma_l = pe_ambda ** 2 / m
    return pe_lambda, sigma_l

# Метод моментов

In [7]:
def pe_r_mm(x, version='def'):
    """
    Оцениваем границы, на вход выборка в виде массива numpy или списка и версия
    Возвращаем оценки границ распределения и погрешность
    """
    a = x.mean() - (3 * x.var()) ** (1 / 2)
    b = x.mean() + (3 * x.var()) ** (1 / 2)
    sigma = x.var() / len(x) + (3 * (x.var() ** 2) / len(x)) / (4 * x.var())
    if version == 'for_adj':
        return a, b
    else:
        return a, b, sigma

In [119]:
def pe_exp_mm(x, method='m'):
    """
    Оцениваем параметр лямбда, на вход выборка в виде массива numpy или списка
    и метод поиска
    Возвращаем оценки границ распределения
    """
    if method == 'd':
        pe_lambda = 1 / (x.var()) ** (1 / 2)
        sigma_l = (x.var() ** 2) / (n * 4 * x.var() ** 3)
    pe_lambda = 1 / x.mean()
    sigma_l = (x.var() / len(x)) / (x.mean() ** 4)
    return pe_lambda, sigma_l

# Интервальное оценивание

In [9]:
head = ['p', 'q']
data = [
    [90, 1.282],
    [95, 1.645],
    [99, 2.326]
]
table_norm = pd.DataFrame(data, columns=head)

# MO

In [10]:
def ie_m_norm(x, p):
    """
    На вход выборка и доверительная вероятность
    Возвращает левую и правую границу ДИ
    """
    m, sigma = pe_norm(x, 'm_full')
    q = stats.t.ppf((1 + p)/2, len(x) - 1)
    m_l = m - q * sigma
    m_r = m + q * sigma
    print("Доверительный интервал с вероятностью ",p, " для МО: [", m_l, ";", m_r, "]")
    return m_l, m_r

In [11]:
l, r = ie_m_norm(df.Age, 0.95)

Доверительный интервал с вероятностью  0.95  для МО: [ 36.92602938321557 ; 40.77397061678443 ]


# Disper

In [12]:
def ie_d_norm(x, p_l, p_r):
    """
    На вход выборка и вероятности для левой и правой границы
    Возвращает левую и правую границу ДИ
    """
    d = pe_norm(x, 'd')
    q_l = stats.chi2.ppf(p_l, len(x) - 1)
    q_r = stats.chi2.ppf(p_r, len(x) - 1)
    d_l = (len(x) * d) / q_r
    d_r = (len(x) * d) / q_l
    print('Доверительный интервал при общей вероятности ', p_r - p_l, ' для Дисперсии : [', d_l, ';', d_r, ']')
    return d_l, d_r

In [13]:
l, r = ie_d_norm(df.Age, 0.05, 0.95 )

Доверительный интервал при общей вероятности  0.8999999999999999  для Дисперсии : [ 167.55969220241334 ; 233.18834289123268 ]


# KK

In [14]:
df.Age.corr(df.CustomerID)

-0.02676288945786289

In [15]:
def ie_corr(df, x, y, d):
    """
    На вход фрейм, две сравниваемых перменных и общая вероятность
    Возвращает левую и правую границу ДИ
    """
    p = (d + 1) / 2
    corr = df[x].corr(df[y])
    m = 0.5 * math.log((1 + corr) / (1 - corr))
    m_m = m + corr / (2 * (len(df[x]) - 1))
    sigma_m = (1 / (len(df[x]) - 3)) ** (1 / 2)
    q = stats.norm.ppf(0.95)
    m_l = m_m - q * sigma_m
    m_r = m_m + q * sigma_m
    r_l = -(1 - math.exp(2 * m_l)) / (1 + math.exp(2 * m_l))
    r_r = -(1 - math.exp(2 * m_r)) / (1 + math.exp(2 * m_r))
    print('Доверительный интервал при общей вероятности ', d, ' для KK : [', r_l, ';', r_r, ']')

In [16]:
data = [
    [-0.5, -0.2],
    [1.2, 1],
    [0.7, 0.8],
    [-1.5, -1],
    [-2.2, -1.5],
    [-0.5, -0.7],
    [1.8, 2],
    [0.3, 0.5],
    [-0.8, -1.2],
    [1, 1.3]
]
head = ['x', 'y']
df_corr = pd.DataFrame(data, columns=head)
df_corr

Unnamed: 0,x,y
0,-0.5,-0.2
1,1.2,1.0
2,0.7,0.8
3,-1.5,-1.0
4,-2.2,-1.5
5,-0.5,-0.7
6,1.8,2.0
7,0.3,0.5
8,-0.8,-1.2
9,1.0,1.3


In [17]:
ie_corr(df_corr, 'x', 'y', 0.9)

Доверительный интервал при общей вероятности  0.9  для KK : [ 0.8928532636945415 ; 0.9906275091679739 ]


# Tolerant

In [18]:
def tolerant(x, p, g):
    """
    Вход - выборка, доверительная вероятность и доля совокупности ГС
    Возвращает границы интервала
    """
    m, std = pe_norm(x, 'm_d')
    std **= 1 / 2
    q = stats.norm.ppf(p)
    k = stats.norm.ppf(0.5 * (1 + g)) * (1 + q / ((2 * len(x)) ** (1 / 2)) + (5 * (q ** 2) + 10) / (12 * len(x)))
    print(k)
    a = m - k * std
    b = m + k * std
    print('Толерантный интервал доли ', g, ' при доверительной вероятности ', p, ' : [', a, ';', b, ']')

In [19]:
x = np.array([3.1, 2.7, 0.5, 3.5, 2.9, 4.2, 2.2, 5.1, 1.3, 4.5])

In [20]:
tolerant(x, 0.98, 0.9)

2.8263696558557427
Толерантный интервал доли  0.9  при доверительной вероятности  0.98  : [ -1.023649331298476 ; 7.023649331298477 ]


# Гипотезы о мо

In [21]:
def hypothesis_mo(x, alpha, m0):
    m, sigma = pe_norm(x, 'm_full')
    z = (m - m0) / sigma ** (1 / 2)
    z_cr = stats.t.ppf(1 - alpha, len(x) - 1)
    if abs(z) <= z_cr:
        print('z =', round(z, 4), '≤ z_cr =', round(z_cr, 4) ,'\nПринимаем гипотезу МО =', m0,
             'с доверительной вероятностью ', 1 - alpha)
        print('Значение z, при принятой гипотезе, на самом деле может быть ', 
              '\nеще больше с вероятностью', round((1 - stats.t.cdf(abs(z), len(x))), 4))
        return True
    else:
        print('Отклоняем гипотезу МО = ', m0)
        return False

In [22]:
x = np.array([0.6, 2.3, 1.1, -1.7, 3.4, -0.3, 4.6, 1.9, -2.8, 1.4, 2.7, -0.9])

In [23]:
hypothesis_mo(x, 0.05, 0)

z = 1.6416 ≤ z_cr = 1.7959 
Принимаем гипотезу МО = 0 с доверительной вероятностью  0.95
Значение z, при принятой гипотезе, на самом деле может быть  
еще больше с вероятностью 0.0633


True

# Гипотезы о дисперсии

In [24]:
def hypothesis_d(x, alpha, d0):
    p = 1 - alpha
    k = len(x) - 1
    d = pe_norm(x, 'd')
    chi_sq = (len(x) - 1) * d / d0
    chi_sq_cr = stats.chi2.ppf(p, len(x) - 1)
    if chi_sq <= chi_sq_cr:
        print('χ^2 =', round(chi_sq, 4), '≤ χ^2_cr =', round(chi_sq_cr, 4) ,'\nПринимаем гипотезу D <', d0,
             'с доверительной вероятностью ', p)
        return True
    else:
        print('χ^2 =', round(chi_sq, 4), '> χ^2_cr =', round(chi_sq_cr, 4) ,'\nОтклоняем гипотезу D < ', d0)
        return False

In [25]:
hypothesis_d(x, 0.1, 4)

χ^2 = 12.8656 ≤ χ^2_cr = 17.275 
Принимаем гипотезу D < 4 с доверительной вероятностью  0.9


True

# Гипотезы о мо в 2 выборкам

In [26]:
def hypothesis_double_mo(x, y, alpha):
    m_x, d_x = pe_norm(x, 'm_d')
    m_y, d_y = pe_norm(y, 'm_d')
    t = (abs(m_x - m_y)) / (d_x / len(x) + d_y / len(y)) ** (1 / 2)
    t_cr = stats.t.ppf(1 - alpha, len(x) + len(y) - 2)
    if abs(t) <= t_cr:
        print('t =', round(t, 4), '≤ t_cr =', round(t_cr, 4) ,'\nПринимаем гипотезу M(X) = M(Y) с доверительной вероятностью ',
             1 - alpha)
        return True
    else:
        print('t =', round(t, 4), '> t_cr =', round(t_cr, 4) ,'\nОтклоняем гипотезу M(X) = M(Y)')
        return False

In [27]:
x = np.array([5.5, 7.6, 2.8, 4.2, 11.2, 4.7, 1.5, 8.2, 9.9, 3.4, 8.4, 6.2])
y = np.array([5.8, 8.5, 10.2, 6.3, 9.1, 10.6, 7.9, 5.2, 9.4, 7.4])

In [28]:
hypothesis_double_mo(x, y, 0.05)

t = 1.8315 > t_cr = 1.7247 
Отклоняем гипотезу M(X) = M(Y)


False

# Гипотезы о дисперсии по 2 выборкам

In [29]:
def hypothesis_double_d(x, y, alpha):
    k_x = len(x) - 1
    k_y = len(y) - 1
    d_x = pe_norm(x, 'd')
    d_y = pe_norm(y, 'd')
    f = d_x / d_y
    f_cr = stats.f.ppf(1 - alpha, k_x, k_y)
    if f <= f_cr:
        print('f =', round(f, 4), '≤ f_cr =', round(f_cr, 4) ,'\nПринимаем гипотезу D(X) = D(Y) с доверительной вероятностью ', 
              1 - alpha)
        return True
    else:
        print('t =', round(t, 4), '> t_cr =', round(t_cr, 4) ,'\nОтклоняем гипотезу D(X) = D(Y)')
        return False

In [30]:
hypothesis_double_d(x, y, 0.05)

f = 2.5824 ≤ f_cr = 3.1025 
Принимаем гипотезу D(X) = D(Y) с доверительной вероятностью  0.95


True

# Гипотезы о кк

In [31]:
def hypothesis_cc(df, x, y, r0, alpha):
    m_z = 0.5 * math.log((1 + r0) / (1 - r0)) + r0 / (2 * (len(df[x]) - 1))
    sigma_z = 1 / (len(df[x]) - 3)
    q = stats.norm.ppf(1 - alpha)
    z_cr = sigma_z * q + m_z
    pe_corr = df[x].corr(df[y])
    pe_z = 0.5 * math.log((1 + pe_corr) / (1 - pe_corr))
    if abs(pe_z) <= z_cr:
        print('z =', round(pe_z, 4), '≤ z_cr =', round(z_cr, 4) ,'\nПринимаем гипотезу R(X, Y) =', r0, ' с доверительной вероятностью ', 
              1 - alpha)
        return True
    else:
        print('z =', round(pe_z, 4), '< z_cr =', round(z_cr, 4) ,'\nОтклоняем гипотезу R(X, Y) =', r0)
        if pe_corr > r0:
            print('Значение КК больше', r0)
        else:
            print('Значение КК меньше', r0)
        return False

In [32]:
data = [
    [-0.5, -0.2],
    [1.2, 1],
    [0.7, 0.8],
    [-1.5, -1],
    [-2.2, -1.5],
    [-0.5, -0.7],
    [1.8, 2],
    [0.3, 0.5],
    [-0.8, -1.2],
    [1, 1.3]
]
head = ['x', 'y']
df_corr = pd.DataFrame(data, columns=head)
hypothesis_cc(df_corr, 'x', 'y', 0.8, 0.1)

z = 2.0039 < z_cr = 1.3261 
Отклоняем гипотезу R(X, Y) = 0.8
Значение КК больше 0.8


False

# Гипотезы об однородности

In [33]:
data = [
    [0.5],
    [1.2],
    [1.7],
    [2.3],
    [2.7],
    [3.1],
    [3.2],
    [3.9],
    [4.4],
    [4.6]
]
head = ['value']
x = pd.DataFrame(data, columns=head)
x['own'] = 'x'
x

Unnamed: 0,value,own
0,0.5,x
1,1.2,x
2,1.7,x
3,2.3,x
4,2.7,x
5,3.1,x
6,3.2,x
7,3.9,x
8,4.4,x
9,4.6,x


In [34]:
data = [
    [2.4],
    [2.8],
    [3.3],
    [3.7],
    [4.2],
    [4.3],
    [4.9],
    [5.8]
]
head = ['value']
y = pd.DataFrame(data, columns=head)
y['own'] = 'y'
y

Unnamed: 0,value,own
0,2.4,y
1,2.8,y
2,3.3,y
3,3.7,y
4,4.2,y
5,4.3,y
6,4.9,y
7,5.8,y


In [35]:
df = pd.concat([x, y], ignore_index=True)

In [36]:
df = df.sort_values('value')
df

Unnamed: 0,value,own
0,0.5,x
1,1.2,x
2,1.7,x
3,2.3,x
10,2.4,y
4,2.7,x
11,2.8,y
5,3.1,x
6,3.2,x
12,3.3,y


In [37]:
df['rank'] = [i for i in range(1, len(df.value) + 1)]
df

Unnamed: 0,value,own,rank
0,0.5,x,1
1,1.2,x,2
2,1.7,x,3
3,2.3,x,4
10,2.4,y,5
4,2.7,x,6
11,2.8,y,7
5,3.1,x,8
6,3.2,x,9
12,3.3,y,10


In [38]:
def hypothesis_same_distr(x, y, value_name, alpha):
    x['own'] = 'x'
    y['own'] = 'y'
    df = pd.concat([x, y], ignore_index=True)
    df = df.sort_values(value_name)
    df['rank'] = [i for i in range(1, len(df.value) + 1)]
    u_x = df[df.own == 'x']['rank'].sum()
    u_y = df[df.own == 'y']['rank'].sum()
    n_x = len(df[df.own == 'x'])
    n_y = len(df[df.own == 'y'])
    m_u_x = 0.5 * n_x * (n_x + n_y + 1)
    m_u_y = 0.5 * n_y * (n_x + n_y + 1)
    sigma_u = (1 / 12) * n_x * n_y * (n_x + n_y + 1)
    q = stats.norm.ppf(1 - alpha / 2)
    u_x_l = m_u_x - q * sigma_u ** (1 / 2)
    u_x_r = m_u_x + q * sigma_u ** (1 / 2)
    u_y_l = m_u_y - q * sigma_u ** (1 / 2)
    u_y_r = m_u_y + q * sigma_u ** (1 / 2)
    print(u_x, u_x_l, u_x_r)
    print(u_y, u_y_l, u_y_r)
    if (u_x in (u_x_l, u_x_r)) and (u_y in (u_y_l, u_y_r)):
        print('U_x =', u_x, ', Доверительный интервал [', round(u_x_l, 4), ';', round(u_x_r, 4), ']')
        print('U_y =', u_y, ', Доверительный интервал [', round(u_y_l, 4), ';', round(u_y_r, 4), ']')
        print('Принимаем гипотезу f(x) = f(y)')
        return True
    else:
        print('U_x =', u_x, ', Доверительный интервал [', round(u_x_l, 4), ';', round(u_x_r, 4), ']')
        print('U_y =', u_y, ', Доверительный интервал [', round(u_y_l, 4), ';', round(u_y_r, 4), ']')
        print('Отклоняем гипотезу f(x) = f(y)')
        return False

In [39]:
hypothesis_same_distr(x, y, 'value', 0.1)

76 76.48778319994913 113.51221680005087
95 57.487783199949135 94.51221680005087
U_x = 76 , Доверительный интервал [ 76.4878 ; 113.5122 ]
U_y = 95 , Доверительный интервал [ 57.4878 ; 94.5122 ]
Отклоняем гипотезу f(x) = f(y)


False

# Гипотезы о типе распр

# хи квадрат

In [40]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 12.6, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 2.7, 7.8])

In [41]:
def get_length(x, k):
    return math.ceil((x.max() - x.min()) / k)

In [42]:
def hypothesis_distr_chi_sq_norm(x, k, alpha, start, version='def'):
    mean, d = pe_norm(x, 'm_d')
    std = d ** (1 / 2)
    n = get_length(x, k)
    table = []
    for i in range(k):
        table.append(x[np.where((x > i * n) & (x < (i + 1) * n))])
    p_e = [len(i) / len(x) for i in table]
    p_t = [stats.norm(loc=mean, scale=std).cdf(start + n)]
    for i in range(1, k):
        p_t.append(stats.norm(loc=mean, scale=std).cdf((i + 1) * n) - 
                  stats.norm(loc=mean, scale=std).cdf((i * n)))
    value = []
    for i in range(k):
        value.append((p_t[i] - p_e[i]) ** 2 / p_t[i])
    chi_sq = len(x) * sum(value)
    chi_sq_cr = stats.chi2.ppf(1 - alpha, k - 3)
    if version == 'for_adj':
        return table, p_t, k, alpha
    if chi_sq < chi_sq_cr:
        print('χ^2 =', round(chi_sq, 4), '< χ^2_cr =', round(chi_sq_cr, 4) ,'\nПринимаем гипотезу f(x) ~ Norm(', mean,
              ',', std, ') с доверительной вероятностью ', 1 - alpha)
        return True
    else:
        print('χ^2 =', round(chi_sq, 4), '≥ χ^2_cr =', round(chi_sq_cr, 4) ,'\nОтклоняем гипотезу f(x) ~ Norm(', mean,
              ',', std, ') с доверительной вероятностью ', 1 - alpha)
        return False

In [43]:
hypothesis_distr_chi_sq_norm(x, 5, 0.05, 0)

χ^2 = 1.6053 < χ^2_cr = 5.9915 
Принимаем гипотезу f(x) ~ Norm( 9.805 , 4.367641179593879 ) с доверительной вероятностью  0.95


True

# Крамера мизеса

In [44]:
data = [
    [0.5, 0.118],
    [0.6, 0.147],
    [0.7, 0.184],
    [0.8, 0.241],
    [0.9, 0.347],
    [0.95, 0.461],
    [0.99, 0.744],
    [0.999, 1.168]
]
head = ['p', 'value']
w_square_table = pd.DataFrame(data, columns=head)

In [45]:
def hypothesis_distr_w_norm(x, alpha, version='default'):
    x = np.sort(x)
    n = len(x)
    mean, std = pe_norm(x, 'm_d')
    std **= (1 / 2)
    w = 1 / (12 * n)
    for i in range(n):
        w += ((stats.norm.cdf((x[i] - mean) / std) - (2 * (i + 1) - 1) / (2 * n)) ** 2)
    p = 1 - alpha
    w_cr = w_square_table[w_square_table.p == 1 - alpha].values[0][1]
    if version == 'for_adj':
        return w
    if w <= w_cr:
        print('ω^2 =', round(w, 4), '≤ ω^2_cr =', round(w_cr, 4) ,'\nПринимаем гипотезу f(x) ~ Norm(', round(mean, 4),
              ',', round(std, 4), ') с доверительной вероятностью ', 1 - alpha)
        return True
    else:
        print('ω^2 =', round(w, 4), '> ω^2_cr =', round(w_cr, 4) ,'\nОтклоняем гипотезу f(x) ~ Norm(', round(mean, 4),
              ',', round(std, 4), ') с доверительной вероятностью ', 1 - alpha)
        return False

In [46]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 12.6, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 2.7, 7.8])

hypothesis_distr_w_norm(x, 0.05)

ω^2 = 0.0505 ≤ ω^2_cr = 0.461 
Принимаем гипотезу f(x) ~ Norm( 9.805 , 4.3676 ) с доверительной вероятностью  0.95


True

# Модификация хи квадр

In [47]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 12.6, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 2.7, 7.8])

In [48]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 18.7, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 8.7, 7.8])
x.mean()

10.41

In [49]:
table_laplace = pd.read_csv('laplace.csv')

In [50]:
def chi_sq_adj(x, alpha, n, p, k):
    n_len = [len(i) for i in n]
    m = []
    for i in range(k):
        m.append(sum(n_len) * p[i])
    sigma = []
    for i in range(k):
        sigma.append((sum(n_len) * p[i] * (1 - p[i])) ** (1 / 2))
    v = []
    for i in range(k):
        v.append(((n_len[i] - m[i]) / sigma[i]) ** 2)
    v = (sum(v) / k) ** (1 / 2)
    s = ((2 * k) ** (1 / 2)) * (v - 1)
    f = 0.5 - alpha
    s_cr = table_laplace[table_laplace.F < f].max()['x']
    s_plus = 0
    if s < 0:
        s_plus = 0.5  - (stats.norm.cdf(s) - 0.5)
    else:
        s_plus = stats.norm.cdf(s) - 0.5
    if s <= s_cr:
        print('S =', round(s, 4), '≤ S_cr =', round(s_cr, 4) ,'\nПринимаем гипотезу f(x) ~ Norm с доверительной вероятностью ', 1 - alpha)
        print('Вероятность соответствия выборки нормальному распределению s_plus = ', round(s_plus, 4))
    else:
        print('S =', round(s, 4), '> S_cr =', round(s_cr, 4) ,'\nОтклоняем гипотезу f(x) ~ Norm') 
    return s, s_cr, s_plus

In [51]:
n, p, k, alpha = hypothesis_distr_chi_sq_norm(x, 5, 0.1, 0, 'for_adj')
chi_sq_adj(x, alpha, n, p, k)

S = -2.4469 ≤ S_cr = 1.28 
Принимаем гипотезу f(x) ~ Norm с доверительной вероятностью  0.9
Вероятность соответствия выборки нормальному распределению s_plus =  0.9928


(-2.446923326385537, 1.28, 0.9927959256886051)

# Модификация крамера

In [52]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 18.7, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 8.7, 7.8])
x.sort()
data = [
    [0.9, 0.316],
    [0.95, 0.348],
    [0.99, 0.418]
]
head = ['p', 'value']
w_adj_table = pd.DataFrame(data, columns=head)
w_adj_table

Unnamed: 0,p,value
0,0.9,0.316
1,0.95,0.348
2,0.99,0.418


In [89]:
def cramer_adj(x, alpha):
    mean, sigma = pe_norm(x, 'm_d')
    sigma **= (1 / 2)
    summ = 0
    for i in range(len(x)):
        summ += (stats.norm(loc=mean, scale=sigma).cdf(x[i]) -  (2 * (i + 1) - 1) / 40) ** 2
    w = (summ + 1/240) ** (1 / 2)
    w_cr = w_adj_table[w_adj_table.p == 1 - alpha].values[0, 1]
    if w <= w_cr:
        print('G =', round(w, 4), '≤ G_cr =', round(w_cr, 4) ,'\nПринимаем гипотезу f(x) ~ Norm с доверительной вероятностью ', 1 - alpha)
        return True
    else:
        print('G =', round(w, 4), '> G_cr =', round(w_cr, 4) ,'\nОтклоняем гипотезу f(x) ~ Norm')
        return False

In [90]:
cramer_adj(x, 0.1)

G = 1.815 > G_cr = 0.316 
Отклоняем гипотезу f(x) ~ Norm


False

# Шапиро Уилка

In [63]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 18.7, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 8.7, 7.8])
x = np.sort(x)
#x = np.array([0.251, 0.280, 0.285, 0.290, 0.292, 0.298, 0.29, 0.305, 0.308, 0.312, 0.313, 0.315, 0.330, 0.333, 0.340, 0.357, 0.380, 0.401, 0.410, 0.452])

In [64]:
def shapiro_test(x, alpha):
    x = np.sort(x)
    n = len(x)
    z = []
    a0 = 0.899 / ((n - 2.4) ** 0.4162) - 0.02
    a = []
    for i in range(n):
        z.append((n - 2 * (i + 1) + 1) / (n - 0.5))
        a.append(a0 * (z[i] + 1483 / ((3 - z[i]) ** 10.845) + (71.6 * 10 ** (-10)) / ((1.1 - z[i]) ** 8.26)))
    mean, sigma = pe_norm(x, 'm_d')
    w = []
    for i in range(n):
        w.append(a[n - i - 1]*(x[n-i - 1] - x[i]))
    w = sum(w)
    sigma = [(i - mean) ** 2 for i in x]
    sigma = sum(sigma)
    w **= 2 
    w /= sigma
    w_cr = (-0.0084 * n ** 4 + 1.2513 * n ** 3 - 70.724 * n ** 2 + 1890 * n + 73840)  / 100000
    if w > w_cr:
        print('W =', round(w, 4), '> W_cr =', round(w_cr, 4) ,'\nПринимаем гипотезу f(x) ~ Norm с доверительной вероятностью ', 1 - alpha)
        return True
    else:
        print('W =', round(w, 4), '≤ W_cr =', round(w_cr, 4) ,'\nОтклоняем гипотезу f(x) ~ Norm') 

In [65]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 18.7, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 8.7, 7.8])

In [66]:
shapiro_test(x, 0.1)

W = 2.7262 > W_cr = 0.9202 
Принимаем гипотезу f(x) ~ Norm с доверительной вероятностью  0.9


True

In [67]:
def chi_test(x, k, alpha, start, version='def'):
    types = ['Norm', 'Exp', 'R']
    mean, d = pe_norm(x, 'm_d')
    std = d ** (1 / 2)
    l, err = pe_exp_mm(x, 'm')
    a, b = pe_r_mm(x, 'for_adj')
    n = get_length(x, k)
    table = []
    for i in range(k):
        table.append(x[np.where((x > i * n) & (x < (i + 1) * n))])
    p_e = [len(i) / len(x) for i in table]
    
    p_t_n = [stats.norm(loc=mean, scale=std).cdf(start + n)]
    p_t_e = [1 - math.exp(-l * (start + n))]
    p_t_r = [(start + n - a) / (b - a)]
    for i in range(1, k):
        p_t_n.append(stats.norm(loc=mean, scale=std).cdf((i + 1) * n) - stats.norm(loc=mean, scale=std).cdf((i * n)))
        p_t_e.append(1 - math.exp(-l * ((i + 1) * n)) - 1 + math.exp(-l * (i * n)))
        p_t_r.append(((i + 1) * n - a) / (b - a) - ((i * n - a) / (b - a)))
    value_n, value_e, value_r = [], [], []
    for i in range(k):
        value_n.append((p_t_n[i] - p_e[i]) ** 2 / p_t_n[i])
        value_e.append((p_t_e[i] - p_e[i]) ** 2 / p_t_e[i])
        value_r.append((p_t_r[i] - p_e[i]) ** 2 / p_t_r[i])
    chi_sq = [len(x) * sum(i) for i in [value_n, value_e, value_r]]
    chi_sq_cr = [stats.chi2.ppf(1 - alpha, k - 3), stats.chi2.ppf(1 - alpha, k - 2), stats.chi2.ppf(1 - alpha, k - 3)]
    if version == 'for_adj':
        return table, p_t_n, p_t_e, p_t_r, k, alpha
    for i in range(3):
        if chi_sq[i] < chi_sq_cr[i]:
            print('χ^2 =', round(chi_sq[i], 4), '< χ^2_cr =', round(chi_sq_cr[i], 4) ,'\nПринимаем гипотезу f(x) ~ ', types[i], ' с доверительной вероятностью ', 1 - alpha)
        else:
            print('χ^2 =', round(chi_sq[i], 4), '≥ χ^2_cr =', round(chi_sq_cr[i], 4) ,'\nОтклоняем гипотезу f(x) ~ ', types[i])

In [68]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 18.7, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 8.7, 7.8])
chi_test(x, 5, 0.1, 0)

χ^2 = 0.2288 < χ^2_cr = 4.6052 
Принимаем гипотезу f(x) ~  Norm  с доверительной вероятностью  0.9
χ^2 = 13.2646 ≥ χ^2_cr = 6.2514 
Отклоняем гипотезу f(x) ~  Exp
χ^2 = 3.1321 < χ^2_cr = 4.6052 
Принимаем гипотезу f(x) ~  R  с доверительной вероятностью  0.9


In [69]:
x = stats.norm.rvs(5, 2, 20)
chi_test(x, 5, 0.1, 0)

χ^2 = 1.4192 < χ^2_cr = 4.6052 
Принимаем гипотезу f(x) ~  Norm  с доверительной вероятностью  0.9
χ^2 = 32.6905 ≥ χ^2_cr = 6.2514 
Отклоняем гипотезу f(x) ~  Exp
χ^2 = 8.8052 ≥ χ^2_cr = 4.6052 
Отклоняем гипотезу f(x) ~  R


In [70]:
target = 0.09
beta = 1 / target
x = np.random.exponential(beta, 20)
chi_test(x, 5, 0.1, 0)

χ^2 = 5.032 ≥ χ^2_cr = 4.6052 
Отклоняем гипотезу f(x) ~  Norm
χ^2 = 1.7769 < χ^2_cr = 6.2514 
Принимаем гипотезу f(x) ~  Exp  с доверительной вероятностью  0.9
χ^2 = 6.8165 ≥ χ^2_cr = 4.6052 
Отклоняем гипотезу f(x) ~  R


In [71]:
x = stats.uniform.rvs(1, 10, 20)
chi_test(x, 5, 0.1, 0)

χ^2 = 8.031 ≥ χ^2_cr = 4.6052 
Отклоняем гипотезу f(x) ~  Norm
χ^2 = 18.0353 ≥ χ^2_cr = 6.2514 
Отклоняем гипотезу f(x) ~  Exp
χ^2 = 5.9578 ≥ χ^2_cr = 4.6052 
Отклоняем гипотезу f(x) ~  R


In [72]:
def chi_sq_adj(x, alpha, n, p_n, p_e, p_r, k):
    types = ['Norm', 'Exp', 'R']
    n_len = [len(i) for i in n]
    m_n, m_e, m_r = [], [], []
    for i in range(k):
        m_n.append(sum(n_len) * p_n[i])
        m_e.append(sum(n_len) * p_e[i])
        m_r.append(sum(n_len) * p_r[i])
    sigma_n, sigma_e, sigma_r = [], [], []
    for i in range(k):
        sigma_n.append((sum(n_len) * p_n[i] * (1 - p_n[i])) ** (1 / 2))
        sigma_e.append((sum(n_len) * p_e[i] * (1 - p_e[i])) ** (1 / 2))
        sigma_r.append((sum(n_len) * p_r[i] * (1 - p_r[i])) ** (1 / 2))
    v_n, v_e, v_r = [], [], []
    for i in range(k):
        v_n.append(((n_len[i] - m_n[i]) / sigma_n[i]) ** 2)
        v_e.append(((n_len[i] - m_e[i]) / sigma_e[i]) ** 2)
        v_r.append(((n_len[i] - m_r[i]) / sigma_r[i]) ** 2)
    v_n, v_e, v_r = (sum(v_n) / k) ** (1 / 2), (sum(v_e) / k) ** (1 / 2), (sum(v_r) / k) ** (1 / 2)
    s = [((2 * k) ** (1 / 2)) * (v_n - 1), ((2 * k) ** (1 / 2)) * (v_e - 1), ((2 * k) ** (1 / 2)) * (v_r - 1)]
    f = 0.5 - alpha
    s_cr = table_laplace[table_laplace.F < f].max()['x']
    s_plus = 0
    for i in range(3):
        if s[i] <= s_cr:
            print(types[i], ': S =', round(s[i], 4), '≤ S_cr =', round(s_cr, 4) ,'\nПринимаем гипотезу f(x) ~', types[i], 'с доверительной вероятностью ', 1 - alpha)
        else:
            print('S =', round(s[i], 4), '> S_cr =', round(s_cr, 4) ,'\nОтклоняем гипотезу f(x) ~ ', types[i]) 


In [73]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 18.7, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 8.7, 7.8])
n, pn, pe, pr, k, alpha = chi_test(x, 5, 0.1, 0, 'for_adj')

In [74]:
chi_sq_adj(x, alpha, n, pn, pe, pr, k)

Norm : S = -2.4469 ≤ S_cr = 1.28 
Принимаем гипотезу f(x) ~ Norm с доверительной вероятностью  0.9
S = 2.5221 > S_cr = 1.28 
Отклоняем гипотезу f(x) ~  Exp
R : S = -0.259 ≤ S_cr = 1.28 
Принимаем гипотезу f(x) ~ R с доверительной вероятностью  0.9


In [75]:
x = stats.norm.rvs(5, 2, 20)
n, pn, pe, pr, k, alpha = chi_test(x, 5, 0.1, 0, 'for_adj')
chi_sq_adj(x, alpha, n, pn, pe, pr, k)

Norm : S = 0.2611 ≤ S_cr = 1.28 
Принимаем гипотезу f(x) ~ Norm с доверительной вероятностью  0.9
S = 3.1769 > S_cr = 1.28 
Отклоняем гипотезу f(x) ~  Exp
S = 1.8035 > S_cr = 1.28 
Отклоняем гипотезу f(x) ~  R


In [76]:
target = 0.09
beta = 1 / target
x = np.random.exponential(beta, 20)
n, pn, pe, pr, k, alpha = chi_test(x, 5, 0.1, 0, 'for_adj')
chi_sq_adj(x, alpha, n, pn, pe, pr, k)

Norm : S = 0.9963 ≤ S_cr = 1.28 
Принимаем гипотезу f(x) ~ Norm с доверительной вероятностью  0.9
Exp : S = 0.0171 ≤ S_cr = 1.28 
Принимаем гипотезу f(x) ~ Exp с доверительной вероятностью  0.9
S = 1.4541 > S_cr = 1.28 
Отклоняем гипотезу f(x) ~  R


In [77]:
x = stats.uniform.rvs(1, 5, 20)
n, pn, pe, pr, k, alpha = chi_test(x, 5, 0.1, 0, 'for_adj')
chi_sq_adj(x, alpha, n, pn, pe, pr, k)

Norm : S = -0.7598 ≤ S_cr = 1.28 
Принимаем гипотезу f(x) ~ Norm с доверительной вероятностью  0.9
S = 3.5658 > S_cr = 1.28 
Отклоняем гипотезу f(x) ~  Exp
S = nan > S_cr = 1.28 
Отклоняем гипотезу f(x) ~  R


  sigma_r.append((sum(n_len) * p_r[i] * (1 - p_r[i])) ** (1 / 2))


In [91]:
def kramer_test(x, alpha, version='default'):
    x = np.sort(x)
    n = len(x)
    mean, std = pe_norm(x, 'm_d')
    std **= (1 / 2)
    types = ['Norm', 'Exp', 'R']
    l, err = pe_exp_mm(x, 'm')
    a, b = pe_r_mm(x, 'for_adj')
    wn, we, wr = 1 / (12 * n), 1 / (12 * n), 1 / (12 * n)
    for i in range(n):
        wn += ((stats.norm.cdf((x[i] - mean) / std) - (2 * (i + 1) - 1) / (2 * n)) ** 2)
        we += (1 - math.exp(-l * x[i]) - (2 * (i + 1) - 1) / (2 * n)) ** 2
        wr += ((x[i] - a) / (b - a) - (2 * (i + 1) - 1) / (2 * n)) ** 2
    p = 1 - alpha
    w_cr = w_square_table[w_square_table.p == 1 - alpha].values[0][1]
    if version == 'for_adj':
        return wn, we, wr
    w = [wn, we, wr]
    for i in range(3):  
        if w[i] <= w_cr:
            print('ω^2 =', round(w[i], 4), '≤ ω^2_cr =', round(w_cr, 4) ,'\nПринимаем гипотезу f(x) ~ ', types[i], 'с доверительной вероятностью ', 1 - alpha)
        else:
            print('ω^2 =', round(w[i], 4), '> ω^2_cr =', round(w_cr, 4) ,'\nОтклоняем гипотезу f(x) ~ ', types[i])

In [92]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 12.6, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 2.7, 7.8])
kramer_test(x, 0.05)

ω^2 = 0.0505 ≤ ω^2_cr = 0.461 
Принимаем гипотезу f(x) ~  Norm с доверительной вероятностью  0.95
ω^2 = 0.5266 > ω^2_cr = 0.461 
Отклоняем гипотезу f(x) ~  Exp
ω^2 = 0.0665 ≤ ω^2_cr = 0.461 
Принимаем гипотезу f(x) ~  R с доверительной вероятностью  0.95


In [93]:
x = stats.norm.rvs(5, 2, 20)
kramer_test(x, 0.05)

ω^2 = 0.0201 ≤ ω^2_cr = 0.461 
Принимаем гипотезу f(x) ~  Norm с доверительной вероятностью  0.95
ω^2 = 0.7557 > ω^2_cr = 0.461 
Отклоняем гипотезу f(x) ~  Exp
ω^2 = 0.0995 ≤ ω^2_cr = 0.461 
Принимаем гипотезу f(x) ~  R с доверительной вероятностью  0.95


In [94]:
target = 0.09
beta = 1 / target
x = np.random.exponential(beta, 20)
kramer_test(x, 0.05)

ω^2 = 0.7367 > ω^2_cr = 0.461 
Отклоняем гипотезу f(x) ~  Norm
ω^2 = 0.1774 ≤ ω^2_cr = 0.461 
Принимаем гипотезу f(x) ~  Exp с доверительной вероятностью  0.95
ω^2 = 1.3955 > ω^2_cr = 0.461 
Отклоняем гипотезу f(x) ~  R


In [95]:
x = stats.uniform.rvs(1, 5, 20)
kramer_test(x, 0.05)

ω^2 = 0.0446 ≤ ω^2_cr = 0.461 
Принимаем гипотезу f(x) ~  Norm с доверительной вероятностью  0.95
ω^2 = 0.6301 > ω^2_cr = 0.461 
Отклоняем гипотезу f(x) ~  Exp
ω^2 = 0.0307 ≤ ω^2_cr = 0.461 
Принимаем гипотезу f(x) ~  R с доверительной вероятностью  0.95


In [96]:
(0.0505 + 1/240) ** (1 / 2)

0.23380903889000243

In [100]:
def kramer_test_adj(x, alpha):
    types = ['Norm', 'Exp', 'R']
    n = len(x)
    w_n, w_e, w_p = kramer_test(x, alpha, 'for_adj')
    w = [(1 / (12 * n) + w_n) ** (1 / 2), (1 / (12 * n) + w_e) ** (1 / 2), (1 / (12 * n) + w_p) ** (1 / 2)]
    w_cr = w_adj_table[w_adj_table.p == 1 - alpha].values[0, 1]
    for i in range(3):
        if w[i] <= w_cr:
            print('G =', round(w[i], 4), '≤ G_cr =', round(w_cr, 4) ,'\nПринимаем гипотезу f(x) ~', types[i], 'с доверительной вероятностью ', 1 - alpha)
        else:
            print('G =', round(w[i], 4), '> G_cr =', round(w_cr, 4) ,'\nОтклоняем гипотезу f(x) ~', types[i])

In [101]:
x = np.array([7.3, 10.9, 3.4, 14.4, 12.2, 12.6, 13.7, 10.1, 15.6, 4.7,
           17.2, 1.6, 9.2, 6.3, 11.8, 12.7, 10.6, 11.3, 2.7, 7.8])
kramer_test_adj(x, 0.05)

G = 0.2337 ≤ G_cr = 0.348 
Принимаем гипотезу f(x) ~ Norm с доверительной вероятностью  0.95
G = 0.7285 > G_cr = 0.348 
Отклоняем гипотезу f(x) ~ Exp
G = 0.2659 ≤ G_cr = 0.348 
Принимаем гипотезу f(x) ~ R с доверительной вероятностью  0.95


In [105]:
x = stats.norm.rvs(5, 2, 20)
kramer_test_adj(x, 0.05)

G = 0.252 ≤ G_cr = 0.348 
Принимаем гипотезу f(x) ~ Norm с доверительной вероятностью  0.95
G = 0.8783 > G_cr = 0.348 
Отклоняем гипотезу f(x) ~ Exp
G = 0.3652 > G_cr = 0.348 
Отклоняем гипотезу f(x) ~ R


In [106]:
target = 0.09
beta = 1 / target
x = np.random.exponential(beta, 20)
kramer_test_adj(x, 0.05)

G = 0.4356 > G_cr = 0.348 
Отклоняем гипотезу f(x) ~ Norm
G = 0.1981 ≤ G_cr = 0.348 
Принимаем гипотезу f(x) ~ Exp с доверительной вероятностью  0.95
G = 0.5813 > G_cr = 0.348 
Отклоняем гипотезу f(x) ~ R


In [114]:
x = stats.uniform.rvs(1, 5, 20)
kramer_test_adj(x, 0.05)

G = 0.3519 > G_cr = 0.348 
Отклоняем гипотезу f(x) ~ Norm
G = 0.7925 > G_cr = 0.348 
Отклоняем гипотезу f(x) ~ Exp
G = 0.241 ≤ G_cr = 0.348 
Принимаем гипотезу f(x) ~ R с доверительной вероятностью  0.95


# Дисперсионный анализ

# Однофакторный

In [115]:
def one_way_anova(df, group):
    """
    Аргументы: df - выборка, имеющая разделение на группы, 
    group - столбец, определяющий группу
    
    Производится сравнение нескольких групп между собой.
    H0 - средние в группах не отличаются
    H1 - хотя бы одно среднее значительно отличается
    
    Вывод: f-value, p-value(т.е. P(>f))
    """
    df_bg = len(df[group].unique()) - 1
    df_wg = len(df[group]) - df_bg - 1

        # Вычисляем размеры и количество групп
    group_sizes = []
    groups = df[group].unique()
    for gr in groups:
        group_sizes.append(df[df[group] == gr])
    for gr in group_sizes:
        gr.index = range(0, len(gr))
    means = []
    for gr in group_sizes:
        means.append(gr.mean())
    average = sum(means) / len(means)
    ssb = 0
    for i in range(len(means)):
        ssb += (means[i].value - average) ** 2 * len(group_sizes[i])
    ms_bg = ssb / df_bg
    ssw = 0
    for i in range(len(group_sizes)):
        for j in range(len(group_sizes[i])):
            ssw += (group_sizes[i].value[j] - means[i]) ** 2
    ms_wg = ssw / df_wg
    f_value = ms_bg / ms_wg
    p_value = round(1 - stats.f.cdf(f_value, df_bg, df_wg)[0], 5)
    return f_value, p_value

In [116]:
df_a = pd.DataFrame(stats.norm(loc=99.7, scale=4.1).rvs(size=15), columns=['value'])
df_a['group'] = 'a'
df_b = pd.DataFrame(stats.norm(loc=98.8, scale=5.8).rvs(size=15), columns=['value'])
df_b['group'] = 'b'
df_c = pd.DataFrame(stats.norm(loc=94.4, scale=5.1).rvs(size=15), columns=['value'])
df_c['group'] = 'c'
df_d = pd.DataFrame(stats.norm(loc=92.3, scale=3.8).rvs(size=15), columns=['value'])
df_d['group'] = 'd'
df = pd.concat([df_a, df_b, df_c, df_d], ignore_index=True)

In [117]:
one_way_anova(df, 'group')

(value    6.563127
 dtype: float64,
 0.0007)