In [1]:
import math
import numpy as np
import random
import matplotlib.pyplot as plt
from scipy.integrate import quad
%matplotlib inline

low_indexes  = ['₀', '₁', '₂', '₃', '₄', '₅']
beta_repr = '𝛽'
ksi_repr =  '𝜉'

def generate():
    x = [random.uniform(-1, 1) for _ in range(5)]
    mean = 2+3*x[0]-2*x[1]+x[2]+x[3]-x[4]
    x.append(random.normalvariate(mean, 1.5))
#     x.append(mean + random.normalvariate(0, 1))
    return x

volume = 50
p = 6
alpha = 0.05
x = [generate() for _ in range(volume)]

class linear_resression():
    def __init__(self, Y, PSI):
        self.Y = Y
        self.PSI = PSI
        self._calc()
    
    def _calc(self):
        self.Finv = np.linalg.inv(self.PSI.T.dot(self.PSI))
        self.beta = self.Finv.dot(self.PSI.T).dot(self.Y)
        self.e = self.Y - self.PSI.dot(self.beta)
        self.RSS = self.e.T.dot(self.e)

        y_mean = sum(self.Y)/len(self.Y)
        TSS = 0
        for el in self.Y:
            TSS += (el - y_mean)**2
        self.TSS = TSS
        self.R2 = (self.TSS - self.RSS)/self.TSS

        
        
        

## Пункт $a$. Проверка мультиколлинеарности $\xi_k$

In [2]:
def get_PSI_and_Y_for_MC(without_ksi_n, sample):
    PSI = []
    Y = []
    for el in sample:
        string = el[:-1]
        if without_ksi_n == 0:
            string = string[1:]
        elif without_ksi_n == 4:
            string = string[:-1]
        else:
            string = string[:without_ksi_n] + string[without_ksi_n+1:]
            
        PSI.append([1] + string)
        Y.append(el[without_ksi_n])
        
    return np.array(PSI), np.array(Y).T

def check_multicollinearity(without_ksi_n, sample):
    PSI, Y = get_PSI_and_Y_for_MC(without_ksi_n=without_ksi_n, sample=sample)
    regr = linear_resression(PSI=PSI, Y=Y)
    return (regr.TSS-regr.RSS)/regr.TSS

_flag = False
for i in range(5):
    a = check_multicollinearity(without_ksi_n=i,sample=x)
    print(f"Значение коэффициента детерминации при построении регрессии относительно фактора {ksi_repr}{low_indexes[i+1]} равно {round(a,4)}")
    if(a > 0.7):
        _flag = True
        break
        
if _flag:
    print(f"\nЭта выборка мультиколлинеарна по параметру {ksi_repr}{low_indexes[i+1]}! Необходимо пересобрать выборку")
else:
    print(f"\nЭта выборка не является мультиколлинеарной!")

    

Значение коэффициента детерминации при построении регрессии относительно фактора 𝜉₁ равно 0.0767
Значение коэффициента детерминации при построении регрессии относительно фактора 𝜉₂ равно 0.026
Значение коэффициента детерминации при построении регрессии относительно фактора 𝜉₃ равно 0.1186
Значение коэффициента детерминации при построении регрессии относительно фактора 𝜉₄ равно 0.0699
Значение коэффициента детерминации при построении регрессии относительно фактора 𝜉₅ равно 0.0506

Эта выборка не является мультиколлинеарной!


## Пункт $b1$. Нахождение уравнения линейной регрессии

In [3]:
def get_PSI_and_Y(sample):
    PSI = []
    Y = []
    for el in sample:
        PSI.append([1] + el[:-1])
        Y.append(el[-1])
    return np.array(PSI), np.array(Y).T

def format_equation(beta):
    ret = f"Уравнение регрессии: 𝜂 = {round(beta[0],2)}"
    for i in range(1, len(beta)):
        number = round(beta[i], 2)
        if number > 0:
            ret += f" + {number}∙{ksi_repr}{low_indexes[i]}"
        else:
            ret += f" - {-number}∙{ksi_repr}{low_indexes[i]}"
    return ret


PSI, Y = get_PSI_and_Y(x)
main_regr = linear_resression(PSI = PSI, Y = Y)
print(format_equation(main_regr.beta))


Уравнение регрессии: 𝜂 = 2.0 + 3.0∙𝜉₁ - 3.14∙𝜉₂ + 1.14∙𝜉₃ + 0.48∙𝜉₄ - 0.74∙𝜉₅


## Пункт $b2$. Проверка значимости коэффициентов регрессии

## $\Delta = \frac{\widetilde\beta_0}{\sqrt{RSS∙F_{00}^{-1}}}\sqrt{n-p} \sim t(n-p)$

In [4]:
def delta_assessment_b2(delta_index):
    if delta_index >= p:
        raise RuntimeError(f"Индекс коэффициента регрессии может принимать только значения от 0 до {p-1}!")
    return main_regr.beta[delta_index]/(main_regr.RSS*main_regr.Finv[delta_index][delta_index])**0.5*(volume - p)**0.5

def get_pvalue_b2(fr): # распределение Стьюдента
    fr = abs(fr)
    k = volume-p
    def f(x):
        return math.gamma((k+1)/2)/((k*math.pi)**0.5 * math.gamma(k/2) * (1 + x**2/k)**((k+1)/2))
    ret, _ = quad(f, fr, math.inf)
    return 2*ret


index_less_important = 0
pval_less_important = 0

for i in range(6):
    delta = delta_assessment_b2(i)
    pval = get_pvalue_b2(delta)
    if pval > pval_less_important:
        pval_less_important = pval
        index_less_important = i
    if pval > alpha:
        print(f"Коэффициент {beta_repr}{low_indexes[i]} не является значимым {pval}")
    else:
        print(f"Коэффициент {beta_repr}{low_indexes[i]} значим! {pval}")


Коэффициент 𝛽₀ значим! 9.331402409539412e-12
Коэффициент 𝛽₁ значим! 3.2123813834247523e-10
Коэффициент 𝛽₂ значим! 1.0445759649253894e-09
Коэффициент 𝛽₃ значим! 0.016699670744114565
Коэффициент 𝛽₄ не является значимым 0.24859265546615128
Коэффициент 𝛽₅ не является значимым 0.05780523693945885


## Пункт $c$. Определение коэффициента детерминации $R^2$ и проверка его значимости

## $\Delta = \frac{R^2}{1-R^2}\frac{n-p}{p-1} \sim F(p-1, n-p)$

In [5]:
print(f"R² = {round(main_regr.R2, 3)}")

R² = 0.736


In [6]:
delta = main_regr.R2/(1-main_regr.R2)*(volume - p)/(p-1)

def get_pvalue_c(fr): # распределение Фишера
    d1 = p - 1
    d2 = volume - p
    def f(x):
        return (((d1*x)**d1 * d2**d2) / (d1*x+d2)**(d1+d2))**0.5 / \
                (x * math.gamma(d1/2)*math.gamma(d2/2)/math.gamma((d1+d2)/2))
    ret, _ = quad(f, fr, math.inf)
    return ret

pval = get_pvalue_c(delta)
if pval < alpha:
    print(f"Гипотеза о незначимости регрессии отвергается, коэффициент детерминации является значимым")
else:
    print(f"Гипотеза о незначимости регрессии принимается")
    
print(f"Значение pvalue = {pval}")
    

Гипотеза о незначимости регрессии отвергается, коэффициент детерминации является значимым
Значение pvalue = 1.0003051394457153e-11


## Пункт $d$. Определение значения в точке $x_k = 0$ и построение 95% ДИ

In [7]:
PSI_assessment = np.array([1,0,0,0,0,0])
y_assessment = PSI_assessment.dot(main_regr.beta)
print(f"Значение 𝜂 в точке 0 равно {round(y_assessment, 4)}")

Значение 𝜂 в точке 0 равно 1.999


In [8]:
def Student_integral(to):
    k = volume-p
    def f(x):
        return math.gamma((k+1)/2)/((k*math.pi)**0.5 * math.gamma(k/2) * (1 + x**2/k)**((k+1)/2))
    ret, _ = quad(f, -math.inf, to)
    return ret

def find_percentile(part):
    if part < 0.5:
        a = -1
        b = 0
        while Student_integral(a) > part:
            a *= 2
    else:
        a = 0
        b = 1
        while Student_integral(b) < part:
            b *= 2
    eps = 0.0001
    while abs(Student_integral((a+b)/2) - part) > eps:
        if Student_integral((a+b)/2) > part:
            b = (a+b)/2
        else:
            a = (a+b)/2
    return (a+b)/2

A = 1 + PSI_assessment.dot(main_regr.Finv).dot(PSI_assessment.T)

conf_probability = 0.95
percentile_left = (1-conf_probability)/2
percentile_right = (1+conf_probability)/2
left = find_percentile(percentile_left)
right = find_percentile(percentile_right)
coeff = ((A * main_regr.RSS) / (volume - p))**0.5
CI_left = [y_assessment - right*coeff, y_assessment - left*coeff]
print(f"Доверительный интервал для значения в точке х=0 с доверительной вероятностью {conf_probability}: [{round(CI_left[0],3)}, {round(CI_left[1],3)}]")

Доверительный интервал для значения в точке х=0 с доверительной вероятностью 0.95: [-1.08, 5.078]


## Пункт $e$.  Проверка предположения о независимости ошибок измерения


## $\Delta = \frac{I - \frac{n∙(n-1)}{4}}{\sqrt{\frac{n^3}{36}}} \sim N(0,1)$

In [9]:
def count_invertions(e):
    ret = 0
    for i in range(len(e)):
        for j in range(i, len(e)):
            if(e[i] > e[j]):
                ret += 1
    return ret

def calc_pvalue_e(fr):
    def f(x):
        return 1/(2*math.pi)**0.5 * math.exp(-x*x / 2)
    ret, _ = quad(f, fr, math.inf)
    return ret

I = count_invertions(main_regr.e)
math_expectation = volume*(volume-1)/4
variation = (volume**3 / 36)**0.5
delta_assessment = abs((I - math_expectation) / variation)
pval = 2*calc_pvalue_e(delta_assessment)
if pval < alpha:
    print(f"Attention! Значения ошибки выглядят зависимыми! pvalue = {pval}")
else:
    print("Все хорошо, ошибки независимы")

Все хорошо, ошибки независимы


## Пункт $f$.  Проверка предположения о нормальности распределения ошибок


In [10]:
def OMM(e):
    a1 = sum(e) / len(e)
    a2 = 0
    for el in e:
        a2 += el**2
    a2 /= len(e)
    d = a2 - a1**2
    return (a1, d**0.5)

def norm_probability(fr, to, params):
    a = params[0]
    b = params[1]
    def f(x):
        return 1/(2*math.pi)**0.5/b*math.exp(-(x-a)**2/2/b/b)
    ret, _ = quad(f, fr, to);
    return ret

def create_subsample(volume, a, b):
    return sorted(b * np.random.randn(volume) + a)

def get_real_F():
    pass

def get_delta_Kolmog(sample, params):
    F_down = [0] + list(sample[:-1])
    F_up = sample.copy()
    
    p = [norm_probability(-math.inf, sample[0], params)]
    for i in range(1, len(sample)):
        p.append(norm_probability(sample[i-1], sample[i], params))
    F_real = [p[0]]
    for i in range(1, len(p)):
        F_real.append(F_real[-1] + p[i])
        
    ret = 0
    
#     print(len(F_real), len(F_down), len(F_up))
    for i in range(len(F_real)):
        curr = max(abs(F_real[i] - F_down[i]), abs(F_real[i] - F_up[i]))
        if curr > ret:
            ret = curr
            
    return ret
    


main_params = OMM(main_regr.e)

delta_main = volume**0.5 * get_delta_Kolmog(sample = main_regr.e, params = main_params)

LL = 50000


deltas = []
for i in range(LL):
    if i%(LL//15) == 0:
        print(f"Progress: {round(i/LL*100)}%")
    sample = create_subsample(volume=volume, a = main_params[0], b = main_params[1])
    curr_params = OMM(sample)
    curr_delta = volume**0.5 * get_delta_Kolmog(sample = sample, params = curr_params)
    deltas.append(curr_delta)

deltas.sort()
k = 0
for i  in range(len(deltas)):
    if deltas[i] < delta_main and deltas[i+1] >= delta_main:
        k = i
        break
pval = 1 - k/LL
print(f"По выборке 𝛿: {delta_main}")
print(f"p-value: {pval}")

if pval > alpha:
    print("Нет оснований отвергать нормальность распределения")
else:
    print("Ошибки распределены не нормально!")



Progress: 0%
Progress: 7%
Progress: 13%
Progress: 20%
Progress: 27%
Progress: 33%
Progress: 40%
Progress: 47%


KeyboardInterrupt: 

## Пункт $g$. Проверка регрессии на выбросы 

In [None]:
e_abs = [abs(el) for el in main_regr.e]
e_median = e_abs[len(e_abs)//2] if len(e_abs) % 2 == 1 else 0.5*(e_abs[len(e_abs)//2 - 1] + e_abs[len(e_abs)//2]) 
sigma = e_median / 0.675

bad = []
for i in range(len(e_abs)):
    if e_abs[i] >= 2*sigma:
        bad.append(i)
        print(f"Элемент номер {i} - выброс, значение отклонения {round(e_abs[i] / sigma, 3)} 𝜎")

## Для выборки без выбросов:

In [None]:
x_norm = []
for i in range(len(x)):
    if i in bad:
        continue
    else:
        x_norm.append(x[i])
        
PSI_norm, Y_norm = get_PSI_and_Y(x_norm)
r = linear_resression(PSI = PSI_norm, Y = Y_norm)
print(format_equation(r.beta))
print(f"Для выборки без выбросов R² = {round(r.R2, 3)}")


## Пункт $h$. Кросс-валидация регрессии

In [None]:
CVSS = 0
for i in range(len(x)):
    subsample = []
    for j in range(len(x)):
        if i == j:
            continue
        else:
            subsample.append(x[j])
    checker = x[i]
    CURR_PSI, CURR_Y = get_PSI_and_Y(subsample)
    curr_regr = linear_resression(PSI = CURR_PSI, Y = CURR_Y)
    PSI_assessment = np.array([1, checker[0],checker[1],checker[2],checker[3],checker[4]])
    y_assessment = PSI_assessment.dot(curr_regr.beta)
    curr_delta = (checker[5] - y_assessment)**2
    CVSS += curr_delta

R2CV = (main_regr.TSS - CVSS)/main_regr.TSS
print(f"R²CV = {round(R2CV,3)}, по регрессии R² = {round(main_regr.R2, 3)}")
    

## То же самое, но для выборки без выбросов:

In [None]:
CVSS = 0
for i in range(len(x_norm)):
    subsample = []
    for j in range(len(x_norm)):
        if i == j:
            continue
        else:
            subsample.append(x_norm[j])
    checker = x_norm[i]
    CURR_PSI, CURR_Y = get_PSI_and_Y(subsample)
    curr_regr = linear_resression(PSI = CURR_PSI, Y = CURR_Y)
    PSI_assessment = np.array([1, checker[0],checker[1],checker[2],checker[3],checker[4]])
    y_assessment = PSI_assessment.dot(curr_regr.beta)
    curr_delta = (checker[5] - y_assessment)**2
    CVSS += curr_delta

R2CV = (r.TSS - CVSS)/r.TSS
print(f"R²CV = {round(R2CV,3)}, по регрессии R² = {round(r.R2,3)}")

## Пункт $i$. Проверка адекватности регрессии


In [None]:
k = 5

def get_pvalue_i(fr): # распределение Фишера
    d1 = volume - p
    d2 = k - 1
    def f(x):
        return (((d1*x)**d1 * d2**d2) / (d1*x+d2)**(d1+d2))**0.5 / \
                (x * math.gamma(d1/2)*math.gamma(d2/2)/math.gamma((d1+d2)/2))
    ret, _ = quad(f, fr, math.inf)
    return ret

fix_x = x[0][:-1]
mean = 2+3*fix_x[0]-2*fix_x[1]+fix_x[2]+fix_x[3]-fix_x[4]
values = [random.normalvariate(mean, 1.5) for _ in range(k)]

sigma1_squared = 0
value_mean = sum(values) / len(values)
for el in values:
    sigma1_squared += (el - value_mean)**2
sigma1_squared /= (len(values) - 1)

delta = main_regr.RSS / (volume - p)/sigma1_squared
pvalue = get_pvalue_i(delta)
print(pvalue)
if pvalue > alpha:
    print(f"Регрессия адекватна")
else:
    print(f"Регрессия не является адекватной!")

## Пункт $j$. Удаление наименее значимого коэффициента и повторение пунктов $b, c$

In [None]:
def get_PSI_and_Y_for_simplified(without_ksi_n, sample):
    PSI = []
    Y = []
    for el in sample:
        string = el[:-1]
        if without_ksi_n == 0:
            string = string[1:]
        elif without_ksi_n == 4:
            string = string[:-1]
        else:
            string = string[:without_ksi_n] + string[without_ksi_n+1:]
            
        PSI.append([1] + string)
        Y.append(el[-1])
        
    return np.array(PSI), np.array(Y).T

new_PSI, new_Y = get_PSI_and_Y_for_simplified(without_ksi_n=index_less_important-1, sample=x)

new_regr = linear_resression(PSI = new_PSI, Y = new_Y)
print(format_equation(new_regr.beta))

In [None]:
loc_p = p - 1

def delta_assessment_b2(delta_index):
    if delta_index >= loc_p:
        raise RuntimeError(f"Индекс коэффициента регрессии может принимать только значения от 0 до {loc_p-1}!")
    return main_regr.beta[delta_index]/(main_regr.RSS*main_regr.Finv[delta_index][delta_index])**0.5*(volume - loc_p)**0.5

def get_pvalue_b2(fr): # распределение Стьюдента
    fr = abs(fr)
    k = volume-loc_p
    def f(x):
        return math.gamma((k+1)/2)/((k*math.pi)**0.5 * math.gamma(k/2) * (1 + x**2/k)**((k+1)/2))
    ret, _ = quad(f, fr, math.inf)
    return 2*ret

for i in range(loc_p):
    delta = delta_assessment_b2(i)
    pval = get_pvalue_b2(delta)
    if pval > pval_less_important:
        pval_less_important = pval
        index_less_important = i
    if pval > alpha:
        print(f"Коэффициент {beta_repr}{low_indexes[i]} не является значимым")
    else:
        print(f"Коэффициент {beta_repr}{low_indexes[i]} значим!")

In [None]:
print(f"R² = {round(new_regr.R2, 3)}")

In [None]:
delta = new_regr.R2/(1-new_regr.R2)*(volume - loc_p)/(loc_p-1)

def get_pvalue_c(fr): # распределение Фишера
    d1 = loc_p - 1
    d2 = volume - loc_p
    def f(x):
        return (((d1*x)**d1 * d2**d2) / (d1*x+d2)**(d1+d2))**0.5 / \
                (x * math.gamma(d1/2)*math.gamma(d2/2)/math.gamma((d1+d2)/2))
    ret, _ = quad(f, fr, math.inf)
    return ret

pval = get_pvalue_c(delta)
if pval < alpha:
    print(f"Гипотеза о незначимости регрессии отвергается, коэффициент детерминации является значимым")
else:
    print(f"Гипотеза о незначимости регрессии принимается")
    
print(f"Значение pvalue = {pval}")
    

## Пункт $k$. Сравнение уравнений двух регрессии бутстрапом

In [None]:
def get_simplified_sample(without_ksi_n, sample):
    ret = []
    for el in sample:
        string = el
        if without_ksi_n == 0:
            string = string[1:]
        else:
            string = string[:without_ksi_n] + string[without_ksi_n+1:]
            
        ret.append(string)
        
    return ret

main_sample = x.copy()

LL = 1000

deltas = []

for i in range(LL):
    main_subsample = random.choices(main_sample, k=volume)
    simplified_subsample = get_simplified_sample(without_ksi_n=index_less_important-1, sample=main_subsample)
    PSI1, Y1 = get_PSI_and_Y(main_subsample)
    curr_main_r = linear_resression(PSI = PSI1, Y = Y1)
    PSI2, Y2 = get_PSI_and_Y(simplified_subsample)
    curr_simple_r = linear_resression(PSI = PSI2, Y = Y2)
    deltas.append(curr_main_r.R2 - curr_simple_r.R2)
    
deltas.sort()
delta_assessment = main_regr.R2 - new_regr.R2
pval = 0
for i in range(len(deltas)):
    if delta_assessment > deltas[i] and delta_assessment <= deltas[i+1]:
        pval = i/LL
        print(f"Pvalue сравнения двух регрессий бутстрапом: {pval}\n")
        break
        
if pval > alpha:
    print("Нет оснований отвергать упрощенную версию регрессии")
else:
    print("Новая упрощенная регрессия сильно хуже, ее стоит отвергнуть")