In [1]:
import numpy as np 
import pandas as pd 
import scipy as sps 
from scipy.stats import f as F, t as T

np.set_printoptions(suppress=True, precision=3)
pd.set_option('precision', 2)

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [2]:
def regression(X, b, Y, end='\n'):
    if isinstance(X, pd.DataFrame): X = X.values 
    if isinstance(Y, pd.DataFrame) or isinstance(Y, pd.Series): Y = Y.values 

    for x, y in zip(X, Y):
        print('y = ' + ' + '.join([f'{b_.round(2)}*{x_.round(2)}' for (x_, b_) in zip(x, b)]) + f' = {y.round(3)}', end=end)

$y = b_0 + b_1 x_1 + b_2 x_2 + b_3 x_3 + b_{12} x_1 x_2 + b_{13} x_1 x_3 + b_{23} x_2 x_3 + b_{123} x_1 x_2 x_3 + b_{11} x^{2}_1 + b_{22} x^{2}_2 + b_{33} x^{2}_3$

In [3]:
x1, x2, x3 = (-2, 5), (0, 3), (-9, 10) 


columns = []
for c1 in ['x1', 'x2', 'x3']: columns += [(c1, 'min'), (c1, 'max')]
    
df = pd.DataFrame(data=[[*x1, *x2, *x3]], columns=columns, index=['105'])
df.columns = pd.MultiIndex.from_tuples(columns)
df

Unnamed: 0_level_0,x1,x1,x2,x2,x3,x3
Unnamed: 0_level_1,min,max,min,max,min,max
105,-2,5,0,3,-9,10


In [4]:
x_cp_max = sum(map(max, [x1, x2, x3])) / 3
x_cp_min = sum(map(min, [x1, x2, x3])) / 3
y_imax, y_imin = 200 + x_cp_max, 200 + x_cp_min

Для того щоб отримати значення факторів для зоряних точок і для нульової точки, необхідно використовувати формули з лабораторної роботи № 1, нагадаємо їх:

In [5]:
x0i = np.array([np.mean(xi) for xi in [x1, x2, x3]])
dxi = np.array(list(map(max, [x1, x2, x3]))) - x0i 

p = 0
k = 3 
N = 15 

l = np.sqrt(np.sqrt(2 ** (k - p - 2) * (2 ** (k - p) + 2 * k + 1)) - 2 ** (k - p - 1))

Матриця планування експерименту для ОЦКП при k=3 із нормованими значеннями факторів наведена нижче

In [6]:
from sklearn.preprocessing import PolynomialFeatures

X = np.array([
    [-1, -1, -1],
    [-1, -1, +1],
    [-1, +1, -1],
    [-1, +1, +1],
    [+1, -1, -1],
    [+1, -1, +1],
    [+1, +1, -1],
    [+1, +1, +1],
    *np.zeros((7, 3)).tolist()
])

inds = np.diag_indices(3)
inds = inds[0] + 8 + range(3), inds[1]
X[inds] -= l 
inds = inds[0] + 1, inds[1]
X[inds] += l


poly_x = PolynomialFeatures(3, include_bias=False, interaction_only=True).fit_transform(X)

m = 3
y = np.random.randint(y_imin, y_imax, size=(15, m))
                      
poly_x = np.column_stack([poly_x, poly_x[:, :3] ** 2, y, y.mean(axis=1, keepdims=True)])
MPnorm = pd.DataFrame(poly_x, columns=['x1', 'x2', 'x3', 'x1x2', 'x1x3', 'x2x3', 'x1x2x3', 'x1^2', 'x2^2', 'x3^3', 'y1', 'y2', 'y3', 'y'])
MPnorm

Unnamed: 0,x1,x2,x3,x1x2,x1x3,x2x3,x1x2x3,x1^2,x2^2,x3^3,y1,y2,y3,y
0,-1.0,-1.0,-1.0,1.0,1.0,1.0,-1.0,1.0,1.0,1.0,205.0,200.0,204.0,203.0
1,-1.0,-1.0,1.0,1.0,-1.0,-1.0,1.0,1.0,1.0,1.0,199.0,200.0,204.0,201.0
2,-1.0,1.0,-1.0,-1.0,1.0,-1.0,1.0,1.0,1.0,1.0,202.0,200.0,200.0,200.67
3,-1.0,1.0,1.0,-1.0,-1.0,1.0,-1.0,1.0,1.0,1.0,201.0,199.0,198.0,199.33
4,1.0,-1.0,-1.0,-1.0,-1.0,1.0,1.0,1.0,1.0,1.0,205.0,202.0,199.0,202.0
5,1.0,-1.0,1.0,-1.0,1.0,-1.0,-1.0,1.0,1.0,1.0,205.0,204.0,203.0,204.0
6,1.0,1.0,-1.0,1.0,-1.0,-1.0,-1.0,1.0,1.0,1.0,202.0,198.0,198.0,199.33
7,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,204.0,201.0,198.0,201.0
8,-1.22,0.0,0.0,-0.0,-0.0,0.0,-0.0,1.48,0.0,0.0,204.0,202.0,199.0,201.67
9,1.22,0.0,0.0,0.0,0.0,0.0,0.0,1.48,0.0,0.0,198.0,204.0,202.0,201.33


Матриця планування експерименту для ОЦКП при k=3 із натуралізованими значеннями факторів має вигляд:

In [7]:
X = np.array([
    [-1, -1, -1],
    [-1, -1, +1],
    [-1, +1, -1],
    [-1, +1, +1],
    [+1, -1, -1],
    [+1, -1, +1],
    [+1, +1, -1],
    [+1, +1, +1],

])

xmap = [x1, x2, x3]
for i in range(X.shape[1]):
    X[:, i] = np.where(X[:, i] == -1, *xmap[i])

    
x = np.repeat([x0i], 7, axis=0)

inds = np.diag_indices(3)
inds = inds[0] + range(3), inds[1]
x[inds] -= l * dxi 
inds = inds[0] + 1, inds[1]
x[inds] += l * dxi 

X = np.row_stack([X, x])

poly_x = PolynomialFeatures(3, include_bias=False, interaction_only=True).fit_transform(X)
poly_x = np.column_stack([poly_x, poly_x[:, :3] ** 2, y, y.mean(axis=1, keepdims=True)])
MPnatur = pd.DataFrame(poly_x, columns=['x1', 'x2', 'x3', 'x1x2', 'x1x3', 'x2x3', 'x1x2x3', 'x1^2', 'x2^2', 'x3^3', 'y1', 'y2', 'y3', 'y'])
MPnatur

Unnamed: 0,x1,x2,x3,x1x2,x1x3,x2x3,x1x2x3,x1^2,x2^2,x3^3,y1,y2,y3,y
0,-2.0,0.0,-9.0,-0.0,18.0,-0.0,0.0,4.0,0.0,81.0,205.0,200.0,204.0,203.0
1,-2.0,0.0,10.0,-0.0,-20.0,0.0,-0.0,4.0,0.0,100.0,199.0,200.0,204.0,201.0
2,-2.0,3.0,-9.0,-6.0,18.0,-27.0,54.0,4.0,9.0,81.0,202.0,200.0,200.0,200.67
3,-2.0,3.0,10.0,-6.0,-20.0,30.0,-60.0,4.0,9.0,100.0,201.0,199.0,198.0,199.33
4,5.0,0.0,-9.0,0.0,-45.0,-0.0,-0.0,25.0,0.0,81.0,205.0,202.0,199.0,202.0
5,5.0,0.0,10.0,0.0,50.0,0.0,0.0,25.0,0.0,100.0,205.0,204.0,203.0,204.0
6,5.0,3.0,-9.0,15.0,-45.0,-27.0,-135.0,25.0,9.0,81.0,202.0,198.0,198.0,199.33
7,5.0,3.0,10.0,15.0,50.0,30.0,150.0,25.0,9.0,100.0,204.0,201.0,198.0,201.0
8,-2.75,1.5,0.5,-4.13,-1.38,0.75,-2.07,7.58,2.25,0.25,204.0,202.0,199.0,201.67
9,5.75,1.5,0.5,8.63,2.88,0.75,4.32,33.11,2.25,0.25,198.0,204.0,202.0,201.33


In [8]:
A = MPnatur.iloc[:, :-4].copy().values
A = np.insert(A, 0, 1, axis=1)

b = MPnatur['y'].copy().values

В цей раз ми маємо не квадратну($15x10$) матрицю, а отже розкладемо матрицю на дві *np.linalg.qr(A)*, тобто $QxR = A$

тепер наше рівняння $\|Ax-b\|_2$ прийме вигляд $\|Rx-Q^Tb\|_2$

[приклад](https://andreask.cs.illinois.edu/cs357-s15/public/demos/06-qr-applications/Solving%20Least-Squares%20Problems.html)

In [9]:
np.linalg.solve(A.T@A, A.T@b)

array([200.321,  -0.283,  -0.934,  -0.037,  -0.038,   0.03 ,   0.007,
        -0.003,   0.126,   0.134,   0.006])

In [10]:
Q, R = np.linalg.qr(A)

x = sps.linalg.solve_triangular(R, Q.T@b, lower=False) 
x

array([200.321,  -0.283,  -0.934,  -0.037,  -0.038,   0.03 ,   0.007,
        -0.003,   0.126,   0.134,   0.006])

In [11]:
regression(MPnatur.iloc[:, :-4], x, MPnatur['y'], end='\n\n')

y = 200.32*-2.0 + -0.28*0.0 + -0.93*-9.0 + -0.04*-0.0 + -0.04*18.0 + 0.03*-0.0 + 0.01*0.0 + -0.0*4.0 + 0.13*0.0 + 0.13*81.0 = 203.0

y = 200.32*-2.0 + -0.28*0.0 + -0.93*10.0 + -0.04*-0.0 + -0.04*-20.0 + 0.03*0.0 + 0.01*-0.0 + -0.0*4.0 + 0.13*0.0 + 0.13*100.0 = 201.0

y = 200.32*-2.0 + -0.28*3.0 + -0.93*-9.0 + -0.04*-6.0 + -0.04*18.0 + 0.03*-27.0 + 0.01*54.0 + -0.0*4.0 + 0.13*9.0 + 0.13*81.0 = 200.667

y = 200.32*-2.0 + -0.28*3.0 + -0.93*10.0 + -0.04*-6.0 + -0.04*-20.0 + 0.03*30.0 + 0.01*-60.0 + -0.0*4.0 + 0.13*9.0 + 0.13*100.0 = 199.333

y = 200.32*5.0 + -0.28*0.0 + -0.93*-9.0 + -0.04*0.0 + -0.04*-45.0 + 0.03*-0.0 + 0.01*-0.0 + -0.0*25.0 + 0.13*0.0 + 0.13*81.0 = 202.0

y = 200.32*5.0 + -0.28*0.0 + -0.93*10.0 + -0.04*0.0 + -0.04*50.0 + 0.03*0.0 + 0.01*0.0 + -0.0*25.0 + 0.13*0.0 + 0.13*100.0 = 204.0

y = 200.32*5.0 + -0.28*3.0 + -0.93*-9.0 + -0.04*15.0 + -0.04*-45.0 + 0.03*-27.0 + 0.01*-135.0 + -0.0*25.0 + 0.13*9.0 + 0.13*81.0 = 199.333

y = 200.32*5.0 + -0.28*3.0 + -0.93*10.0 + -0.04*15

Оскільки отримані значення з невеликим відхиленням збігаються із середніми значеннями yi, то значення коефіцієнтів рівняння

In [14]:
A @ x - b # похибки 

array([-0.266,  0.008,  0.386,  0.659, -0.497, -0.224,  0.155,  0.428,
       -0.6  ,  0.161,  0.853, -1.292,  0.23 , -0.669,  0.669])

Далі проведемо статистичні перевірки – на однорідність дисперсії за критерієм Кохрена, на нуль-гіпотезу за критерієм Стьюдента і на адекватність моделі за критерієм Фішера.

**Перевірка однорідності дисперсії за критерієм Кохрена**

In [15]:
def cochran_q(X, p=0.95): 
    """ Перевірка однорідності дисперсії за критерієм Кохрена """
    
    N, m = X.shape 

    Xvar = ((X - X.mean(axis=1, keepdims=True)) ** 2).sum(axis=1) / m # Xvar = X.var(axis=1)
    G = Xvar.max() / Xvar.sum()
    
    f1, f2 = m - 1, N 
    q = 1 - p # Рівень значимості
    
    Gf = F.sf(q / f2, f1, (f2 - 1) * f1) # isf 
    Gf = Gf / (Gf + f1 - 1)
    
    columns = ['f1', 'f2', 'q', 'G', 'Gt', 'uniform']
    return pd.DataFrame([[f1, f2, q, G, Gf, G < Gf]], columns=columns)


log = cochran_q(MPnatur[['y1', 'y2', 'y3']].values) # m = 2, N = 8 
if log['uniform'].item(): 
    print(f'G < Gt, {log["G"].item():.3f} < {log["Gt"].item():.3f} - Дисперсія однорідна.')
else: 
    print(f'G > Gt, {log["G"].item():.3f} > {log["Gt"].item():.3f} - Дисперсія неоднорідна.')
log

G < Gt, 0.213 < 0.499 - Дисперсія однорідна.


Unnamed: 0,f1,f2,q,G,Gt,uniform
0,2,15,0.05,0.21,0.5,True


**Перевірка нуль-гіпотези за критерієм Стьюдента**

In [32]:
def t_test(X, Y, p=0.95): 
    """ Значимість коефіцієнтів регресії згідно критерію Стьюдента
        :return: nd.array - індекси значимих коефіцієнтів рівняння регресії
    """
    
    N, m = Y.shape
    f1, f2 = m - 1, N 
    f3 = f1 * f2 
    q = 1 - p 
    
    S_sqr = Y.var(axis=1).mean() / (m * N)
    betas = (X.T * Y.mean(axis=1)).mean(axis=1)
    t = abs(betas) / np.sqrt(S_sqr)
    
    # first variant 
    T_st = abs(T.ppf(q / 2, f3)) # 2.042(f3 = 30) in lab 5 
    ind_in = np.argwhere(t > T_st).flatten()
    ind_out = np.argwhere(t < T_st).flatten()
    

    columns = ['f1', 'f2', 'f3', 'q', 'T', 'Tt', 'd', 'significant_inds', 'not']
    return pd.DataFrame([[f1, f2, f3, q, t.round(2).tolist(), T_st, len(ind_in), ind_in.tolist(), ind_out.tolist()]], columns=columns)               


A = MPnorm.iloc[:, :-4].values
A = np.insert(A, 0, 1, axis=1)
log = t_test(A, MPnorm[['y1', 'y2', 'y3']].values)
log

Unnamed: 0,f1,f2,f3,q,T,Tt,d,significant_inds,not
0,2,15,30,0.05,"[597.35, 0.38, 1.92, 0.39, 0.33, 1.39, 0.07, 0...",2.04,4,"[0, 8, 9, 10]","[1, 2, 3, 4, 5, 6, 7]"


In [33]:
inds = log['significant_inds'].item()
regression(A[:, inds], x[inds], A[:, inds]@x[inds])

y = 200.32*1.0 + 0.13*1.0 + 0.13*1.0 + 0.01*1.0 = 200.587
y = 200.32*1.0 + 0.13*1.0 + 0.13*1.0 + 0.01*1.0 = 200.587
y = 200.32*1.0 + 0.13*1.0 + 0.13*1.0 + 0.01*1.0 = 200.587
y = 200.32*1.0 + 0.13*1.0 + 0.13*1.0 + 0.01*1.0 = 200.587
y = 200.32*1.0 + 0.13*1.0 + 0.13*1.0 + 0.01*1.0 = 200.587
y = 200.32*1.0 + 0.13*1.0 + 0.13*1.0 + 0.01*1.0 = 200.587
y = 200.32*1.0 + 0.13*1.0 + 0.13*1.0 + 0.01*1.0 = 200.587
y = 200.32*1.0 + 0.13*1.0 + 0.13*1.0 + 0.01*1.0 = 200.587
y = 200.32*1.0 + 0.13*1.48 + 0.13*0.0 + 0.01*0.0 = 200.507
y = 200.32*1.0 + 0.13*1.48 + 0.13*0.0 + 0.01*0.0 = 200.507
y = 200.32*1.0 + 0.13*0.0 + 0.13*1.48 + 0.01*0.0 = 200.519
y = 200.32*1.0 + 0.13*0.0 + 0.13*1.48 + 0.01*0.0 = 200.519
y = 200.32*1.0 + 0.13*0.0 + 0.13*0.0 + 0.01*1.48 = 200.33
y = 200.32*1.0 + 0.13*0.0 + 0.13*0.0 + 0.01*1.48 = 200.33
y = 200.32*1.0 + 0.13*0.0 + 0.13*0.0 + 0.01*0.0 = 200.321


In [34]:
(A[:, inds]@x[inds] - MPnorm['y']).round(3).values # похибки

array([-2.413, -0.413, -0.08 ,  1.254, -1.413, -3.413,  1.254, -0.413,
       -1.16 , -0.826,  0.852,  0.852,  0.996, -0.337,  1.988])

**Перевірка адекватності моделі по критерію Фішера**

In [35]:
def F_test(y1, y2, d, p=0.95):
    """ 
    Адекватність моделі за F-критерієм Фішера, який дорівнює відношенню дисперсії
    адекватності до дисперсії відтворюваності:
    """
    N, m = y1.shape
    f1, f2 = m - 1, N 
    f3 = f1 * f2 
    f4 = N - d
    q = 1 - p 
    S_sqr_ad = (m / f4) * ((y2 - y1.mean(axis=1)) ** 2).mean()
    S_sqr = y1.var(axis=1).mean()
    F_val = S_sqr_ad / S_sqr
    
    F_t = F.ppf(p, f4, f3) # 3.1
    columns = ['f1', 'f2', 'f3', 'f4', 'q', 'F', 'Ft', 'adequate']
    return pd.DataFrame([[f1, f2, f3, f4, q, F_val, F_t, F_val < F_t]], columns=columns)
    
    
d = log['d'].item() # кількість значимих коефіцієнтів 
y = MPnorm[['y1', 'y2', 'y3']].values
yn = A[:, inds]@x[inds]

F_test(y, yn, d)
log = F_test(y, yn, d)

message = lambda x1, x2: f'Fp {x1} Ft, {log["F"].item():.3f} {x1} {log["Ft"].item():.3f}\nрівняння регресії {x2}адекватнe оригіналу при рівні значимості 0.05'
if log['adequate'].item():
    print(message('<', ''))
else:
    print(message('>', 'не'))
log 

Fp < Ft, 0.113 < 2.126
рівняння регресії адекватнe оригіналу при рівні значимості 0.05


Unnamed: 0,f1,f2,f3,f4,q,F,Ft,adequate
0,2,15,30,11,0.05,0.11,2.13,True
