In [3]:
import numpy as np
import copy
from random import randint
from scipy.stats import uniform
from scipy.stats import norm
from scipy.stats import t
from scipy.stats import f
from scipy import integrate

N = 50
kof = np.array([3,-2,1,1,-1]).T

def ran_vec():
    global kof
    xi = uniform.rvs(scale=2, size=5) - 1
    sr = 2 + np.matmul(xi,kof)
    eta = norm.rvs(loc=sr, scale=1.5, size=1)
    return np.concatenate((xi,eta))
    
def make_vyb(N):
    return np.array([ran_vec() for i in range(N)])

In [4]:
def lin_regr(X):
    N, dim = X.shape[0], X.shape[1] - 1
    Y = X.T[dim].T
    
    PSI = np.array([[1]+[X[j][i] for i in range(dim)] for j in range(N)])
    F = np.matmul(PSI.T,PSI)
    F1 = np.linalg.inv(F)
    BETA = np.matmul(np.matmul(F1,PSI.T),Y)
    
    e = Y - np.matmul(PSI,BETA)
    RSS = np.matmul(e.T,e)
    TSS = np.sum((Y-np.mean(Y))**2)
    R = (1 - RSS/TSS)**0.5
    
    PVAL = []
    for i in range(len(BETA)):
        df = N-dim
        delta = BETA[i]*(df)**0.5/(RSS*F1[i][i])**0.5
        
        def func(x):
            return t.pdf(x, df, loc=0, scale=1)
        pval, err = integrate.quad(func, np.abs(delta), np.inf)
        PVAL.append(2*pval)
        
    return (BETA, R, PVAL, e)

In [5]:
def regr_info(X):
    beta,r,pval,err = lin_regr(X)
    
    mnoj = [f"{round(beta[0],2)}"]+[f"({round(beta[i+1],2)})*x{i+1}" for i in range(beta.shape[0]-1)]
    urav = " + ".join(mnoj)
    print("Уравнение лин. регрессии:\n"+urav+"\n")
    
    alpha = 0.05
    print("При этом коэфф.:")
    for i in range(len(pval)):
        ne = "не "
        if pval[i]<alpha:
            ne = ""
        print(f"\tb{i} {ne}явл. значимым с p-val = {round(pval[i],4)}")
    print()
        
    print(f"Коэфф. детерм. R = {r}")

In [6]:
def mul_koll(X):
    N, dim = X.shape[0], X.shape[1] - 1
    Rs = []
    for k in range(dim):
        X_ = copy.copy(X.T)
        X_[dim] = X_[k]
        X_ = np.delete(X_,k,0).T
        beta,r,pval,err = lin_regr(X_)
        Rs.append(r)
    
    return Rs

In [7]:
def koll_info(X):
    Rdov = 0.7
    R = mul_koll(X)
    
    for k in range(len(R)):
        print(f"x{k+1}:")
        if R[k]>=Rdov:
            print(f"\tR={round(R[k],2)} > {Rdov}\n\t x{k+1} лин. зависима от остальных")
        else:
            print(f"\tR={round(R[k],2)} < {Rdov}\n\t x{k+1} лин. не зависима от остальных")
        print()

In [51]:
def x0_dover(X, x0):
    N, dim = X.shape[0], X.shape[1] - 1
    Y = X.T[dim].T
    
    PSI = np.array([[1]+[X[j][i] for i in range(dim)] for j in range(N)])
    F = np.matmul(PSI.T,PSI)
    F1 = np.linalg.inv(F)
    BETA = np.matmul(np.matmul(F1,PSI.T),Y)
    
    e = Y - np.matmul(PSI,BETA)
    RSS = np.matmul(e.T,e)
    
    PSI0x = np.array([1]+[x0[i] for i in range(dim)])
    A = 1+np.matmul(np.matmul(PSI0x,F1),PSI0x.T)
    y0 = np.matmul(PSI0x,BETA.T)
    dov = np.array([-2.0086,2.0086])
    dov = y0 + dov*((A*RSS)/(N-dim))**0.5
    
    return y0,dov

In [52]:
def dover_info(X, x0):
    y0,dov = x0_dover(X, x0)
    print(f"Прогноз в точке x0 = {x0}:\n\ty0 = {y0}\nДовер. интервал\n\t{dov}")

In [57]:
def prov_osh(X):
    beta,r,pval,err = lin_regr(X)
    n = len(err)
    I = 0
    for i in range(n-1):
        for j in range(i+1,n):
            if err[i]>err[j]:
                I+=1
    delta = (I-n*(n-1)/4)/(n**3/36)**0.5
    pval, err = integrate.quad(norm.pdf, np.abs(delta), np.inf)
    pval = 2*pval
    
    alpha = 0.05
    h0 = pval>alpha
    ne = "не "
    if h0:
        ne = ""
    print(f"pval = {pval}\nГипотеза H0 {ne}является правдоподобной\nОшибки {ne}являются независимыми")

In [10]:
def vybr_info(X):
    beta,r,pval,err = lin_regr(X)
    
    e_a = np.abs(err)
    m = np.median(e_a)
    sigma = m/0.675
    edge = 2*sigma
    print("Выбросы выборки:")
    for i in range(len(err)):
        if not(-edge<err[i]<edge):
            print(f"\te{i} = {err[i]} != ({round(-edge,2)};{round(edge,2)})")

In [11]:
def cross_check(X):
    N, dim = X.shape[0], X.shape[1] - 1
    CV = []
    Y = X.T[dim].T
    
    for i in range(N):
        X_ = copy.copy(X)
        check_v = X_[i]
        X_ = np.delete(X_,i,0)
        
        beta,r,pval,err = lin_regr(X_)
        zn = np.concatenate((np.array([1]),check_v[0:dim]))
        y_oc = sum(zn*beta)
        CV.append((y_oc - check_v[dim])**2)
    
    CVSS = sum(CV)
    TSS = np.sum((Y-np.mean(Y))**2)
    RCV = ((TSS-CVSS)/TSS)**0.5
    
    return RCV

In [12]:
def cross_info(X):
    r = cross_check(X)
    print(f"Коэфф. детерм. Rcv = {r}")

In [13]:
def adekv_check(X, n):
    N, dim = X.shape[0], X.shape[1] - 1
    Y = X.T[dim].T
    
    PSI = np.array([[1]+[X[j][i] for i in range(dim)] for j in range(N)])
    F = np.matmul(PSI.T,PSI)
    F1 = np.linalg.inv(F)
    BETA = np.matmul(np.matmul(F1,PSI.T),Y)
    
    e = Y - np.matmul(PSI,BETA)
    RSS = np.matmul(e.T,e)
    
    global kof
    x0 = uniform.rvs(scale=2, size=dim) - 1
    print(f"Проверка в точке x0 = {x0}, {n} раз")
    
    sr = 2 + np.matmul(x0,kof)
    eta = norm.rvs(loc=sr, scale=1.5, size=n)
    me = np.mean(eta)
    sigma = np.sum((eta-me)**2)/(n-1)
    delta = RSS/((N-dim)*sigma)
    
    alpha = 0.05
    def func(x):
        return f.pdf(x, N-dim, n-1)
    pval, err = integrate.quad(func, delta, np.inf)
    h0 = pval>alpha
    ne = "не "
    if h0:
        ne = ""
    print(f"pval = {pval}\nГипотеза H0 {ne}является правдоподобной\nРегрессия {ne}является адекватной")

In [15]:
def del_maxp(X):
    beta,r,pval,err = lin_regr(X)
    minzn = np.max(pval)
    index = pval.index(minzn)
    print(f"Наим. значимость (pval = {round(minzn,2)}) имеет b{index}")
    return np.delete(X.T,index,0).T

In [33]:
def bootstrap(X, todel, n):
    N, dim = X.shape[0], X.shape[1] - 1
    
    beta,r,pval,err = lin_regr(X)
    r2 = r*r
    X_ = np.delete(X.T,todel,0).T
    
    beta,r,pval,err = lin_regr(X_)
    r12 = r*r
    
    d = r2-r12
    
    deltas = []
    for k in range(n):
        podX = np.array([X[randint(0,N-1)] for i in range(N)])
        podXdel = np.delete(podX.T,todel,0).T
        
        beta,r,pval,err = lin_regr(podX)
        r2 = r*r
        beta,r,pval,err = lin_regr(podXdel)
        r12 = r*r
        delta = r2-r12
        
        deltas.append(delta)
    
    deltas.sort()
    k=0
    while deltas[k]<d:
        k+=1
    return (k-1)/n

In [36]:
def bootstrap_info(X):
    regr_info(X)
    print()
    X_del = del_maxp(X)
    print()
    regr_info(X_del)
    print()
    
    beta,r,pval,err = lin_regr(X)
    minzn = np.max(pval)
    index = pval.index(minzn)
    
    pval = bootstrap(X, index, 1000)
    
    alpha = 0.05
    ne = "не "
    if pval<alpha:
        ne = ""
    print(f"Удаление переменой {ne}имеет смысл(a) т.к. pval = {pval}")

In [24]:
X = make_vyb(N)
print(X.shape)

(50, 6)


In [25]:
koll_info(X)

x1:
	R=0.21 < 0.7
	 x1 лин. не зависима от остальных

x2:
	R=0.31 < 0.7
	 x2 лин. не зависима от остальных

x3:
	R=0.31 < 0.7
	 x3 лин. не зависима от остальных

x4:
	R=0.27 < 0.7
	 x4 лин. не зависима от остальных

x5:
	R=0.24 < 0.7
	 x5 лин. не зависима от остальных



In [26]:
regr_info(X)

Уравнение лин. регрессии:
1.67 + (3.4)*x1 + (-1.76)*x2 + (0.69)*x3 + (1.28)*x4 + (-1.53)*x5

При этом коэфф.:
	b0 явл. значимым с p-val = 0.0
	b1 явл. значимым с p-val = 0.0
	b2 явл. значимым с p-val = 0.0
	b3 явл. значимым с p-val = 0.0376
	b4 явл. значимым с p-val = 0.0011
	b5 явл. значимым с p-val = 0.0001

Коэфф. детерм. R = 0.8851489295287048


In [55]:
x0 = np.array([0 for i in range(5)])

dover_info(X, x0)

Прогноз в точке x0 = [0 0 0 0 0]:
	y0 = 1.67169024866366
Довер. интервал
	[-1.14209568  4.48547618]


In [58]:
prov_osh(X)

pval = 0.44001931095321856
Гипотеза H0 является правдоподобной
Ошибки являются независимыми


In [27]:
vybr_info(X)

Выбросы выборки:


In [28]:
cross_info(X)

Коэфф. детерм. Rcv = 0.848914799992312


In [29]:
adekv_check(X, 5)

Проверка в точке x0 = [-0.55441062 -0.89112991  0.03335005 -0.07872059  0.88140777], 5 раз
pval = 0.14084534798741224
Гипотеза H0 является правдоподобной
Регрессия является адекватной


In [31]:
X_del = del_maxp(X)
print()
regr_info(X_del)

Наим. значимость (pval = 0.04) имеет b3

Уравнение лин. регрессии:
1.76 + (3.22)*x1 + (-1.55)*x2 + (0.66)*x3 + (-1.38)*x4

При этом коэфф.:
	b0 явл. значимым с p-val = 0.0
	b1 явл. значимым с p-val = 0.0
	b2 явл. значимым с p-val = 0.0001
	b3 не явл. значимым с p-val = 0.0733
	b4 явл. значимым с p-val = 0.0011

Коэфф. детерм. R = 0.8515004650987709


In [37]:
bootstrap_info(X)

Уравнение лин. регрессии:
1.67 + (3.4)*x1 + (-1.76)*x2 + (0.69)*x3 + (1.28)*x4 + (-1.53)*x5

При этом коэфф.:
	b0 явл. значимым с p-val = 0.0
	b1 явл. значимым с p-val = 0.0
	b2 явл. значимым с p-val = 0.0
	b3 явл. значимым с p-val = 0.0376
	b4 явл. значимым с p-val = 0.0011
	b5 явл. значимым с p-val = 0.0001

Коэфф. детерм. R = 0.8851489295287048

Наим. значимость (pval = 0.04) имеет b3

Уравнение лин. регрессии:
1.76 + (3.22)*x1 + (-1.55)*x2 + (0.66)*x3 + (-1.38)*x4

При этом коэфф.:
	b0 явл. значимым с p-val = 0.0
	b1 явл. значимым с p-val = 0.0
	b2 явл. значимым с p-val = 0.0001
	b3 не явл. значимым с p-val = 0.0733
	b4 явл. значимым с p-val = 0.0011

Коэфф. детерм. R = 0.8515004650987709

Удаление переменой не имеет смысл(a) т.к. pval = 0.543
