In [1]:
import numpy as np # для работы с массивами
import pandas as pd # для работы с DataFrame 
from intake.source.cache import display
from sklearn import datasets # для импорта данных
import seaborn as sns # для визуализации статистических данных
import matplotlib.pyplot as plt # для построения графиков

In [2]:
A = np.array([
    [1, 3, -2, 1, 5, 13, 1],
    [3, 4, 5, -2, 4, 11, 3],
    [4, 5, 2, 2, 6, 8, -1],
]).T
print(A)

[[ 1  3  4]
 [ 3  4  5]
 [-2  5  2]
 [ 1 -2  2]
 [ 5  4  6]
 [13 11  8]
 [ 1  3 -1]]


In [3]:
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(degree=2, include_bias=True)
A_poly = poly.fit_transform(A)
display(pd.DataFrame(A_poly))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.0,1.0,3.0,4.0,1.0,3.0,4.0,9.0,12.0,16.0
1,1.0,3.0,4.0,5.0,9.0,12.0,15.0,16.0,20.0,25.0
2,1.0,-2.0,5.0,2.0,4.0,-10.0,-4.0,25.0,10.0,4.0
3,1.0,1.0,-2.0,2.0,1.0,-2.0,2.0,4.0,-4.0,4.0
4,1.0,5.0,4.0,6.0,25.0,20.0,30.0,16.0,24.0,36.0
5,1.0,13.0,11.0,8.0,169.0,143.0,104.0,121.0,88.0,64.0
6,1.0,1.0,3.0,-1.0,1.0,3.0,-1.0,9.0,-3.0,1.0


In [4]:
print(A_poly)

[[  1.   1.   3.   4.   1.   3.   4.   9.  12.  16.]
 [  1.   3.   4.   5.   9.  12.  15.  16.  20.  25.]
 [  1.  -2.   5.   2.   4. -10.  -4.  25.  10.   4.]
 [  1.   1.  -2.   2.   1.  -2.   2.   4.  -4.   4.]
 [  1.   5.   4.   6.  25.  20.  30.  16.  24.  36.]
 [  1.  13.  11.   8. 169. 143. 104. 121.  88.  64.]
 [  1.   1.   3.  -1.   1.   3.  -1.   9.  -3.   1.]]


In [5]:
def polynomial_regression(X, y, k):
    poly = PolynomialFeatures(degree=k, include_bias=True)
    X_poly = poly.fit_transform(X)
    w_hat = np.linalg.inv(X_poly.T@X_poly)@X_poly.T@y
    y_pred = X_poly @ w_hat
    return X_poly, y_pred, w_hat

In [6]:
# загружаем датасет
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'PRICE']
boston_data = pd.read_csv('data/housing.csv', header=None, delimiter=r"\s+", names=column_names)
boston_data.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


In [20]:
A = boston_data[['LSTAT', 'PTRATIO', 'RM', 'CRIM']]
y = boston_data[['PRICE']]

A_poly, y_pred, w_hat = polynomial_regression(A, y, 1)
A_poly2, y_pred2, w_hat2 = polynomial_regression(A, y, 2)
A_poly3, y_pred3, w_hat3 = polynomial_regression(A, y, 3)
A_poly4, y_pred4, w_hat4 = polynomial_regression(A, y, 4)
A_poly5, y_pred5, w_hat5 = polynomial_regression(A, y, 5)

In [21]:
display(A)

Unnamed: 0,LSTAT,PTRATIO,RM,CRIM
0,4.98,15.3,6.575,0.00632
1,9.14,17.8,6.421,0.02731
2,4.03,17.8,7.185,0.02729
3,2.94,18.7,6.998,0.03237
4,5.33,18.7,7.147,0.06905
...,...,...,...,...
501,9.67,21.0,6.593,0.06263
502,9.08,21.0,6.120,0.04527
503,5.64,21.0,6.976,0.06076
504,6.48,21.0,6.794,0.10959


In [9]:
from sklearn.metrics import mean_absolute_percentage_error

print('MAPE для полинома 1-й степени {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred)*100))
print('MAPE для полинома 2-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred2)*100))
print('MAPE для полинома 3-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred3)*100))
print('MAPE для полинома 4-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred4)*100))
print('MAPE для полинома 5-й степени  {:.2f}%'.format(mean_absolute_percentage_error(y, y_pred5)*100))

MAPE для полинома 1-й степени 18.20%
MAPE для полинома 2-й степени  13.41%
MAPE для полинома 3-й степени  12.93%
MAPE для полинома 4-й степени  10.73%
MAPE для полинома 5-й степени  718.45%


In [10]:
display(pd.DataFrame(w_hat5).describe())

Unnamed: 0,PRICE
count,126.0
mean,629.896963
std,20721.624731
min,-103197.385876
25%,-0.777839
50%,-2.3e-05
75%,1.592657
max,202444.31851


In [11]:
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly5[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly5[:, 1:].shape[1])
# Ранг корреляционной матрицы: 110
# Количество факторов: 125

Ранг корреляционной матрицы: 110
Количество факторов: 125


In [12]:
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly4[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly4[:, 1:].shape[1])
## Ранг корреляционной матрицы: 69
## Количество факторов: 69

Ранг корреляционной матрицы: 69
Количество факторов: 69


In [13]:
display(pd.DataFrame(w_hat4).describe())

Unnamed: 0,PRICE
count,70.0
mean,-50.882741
std,887.254244
min,-6924.592105
25%,-0.187934
50%,-0.000798
75%,0.3222
max,2305.186753


In [14]:
# считаем матрицу корреляций (без столбца из единиц)
C = pd.DataFrame(A_poly3[:, 1:]).corr()
# считаем ранг корреляционной матрицы
print('Ранг корреляционной матрицы:', np.linalg.matrix_rank(C))
# считаем количество факторов (не включая столбец из единиц)
print('Количество факторов:', A_poly3[:, 1:].shape[1])
## Ранг корреляционной матрицы: 69
## Количество факторов: 69

Ранг корреляционной матрицы: 34
Количество факторов: 34


In [16]:
from sklearn.linear_model import LinearRegression

def polynomial_regression_sk(X, y, k):
    poly = PolynomialFeatures(degree=k, include_bias=False)
    X_poly = poly.fit_transform(X)
    lr = LinearRegression().fit(X_poly, y)
    y_pred = lr.predict(X_poly)
    return X_poly, y_pred, lr.coef_

A = boston_data[['LSTAT', 'PTRATIO', 'RM', 'CRIM']]
y = boston_data[['PRICE']]

for k in range(1, 6):
    A_poly, y_pred, w_hat = polynomial_regression_sk(A, y, k)
    print(
        "MAPE для полинома степени {} — {:.2f}%, СКО — {:.0f}".format(
            k, mean_absolute_percentage_error(y, y_pred)*100, w_hat.std()
        )

    )
## MAPE для полинома степени 1 — 18.20%, СКО — 2
## MAPE для полинома степени 2 — 13.41%, СКО — 5
## MAPE для полинома степени 3 — 12.93%, СКО — 9
## MAPE для полинома степени 4 — 10.74%, СКО — 304
## MAPE для полинома степени 5 — 9.02%, СКО — 17055

MAPE для полинома степени 1 — 18.20%, СКО — 2
MAPE для полинома степени 2 — 13.41%, СКО — 5
MAPE для полинома степени 3 — 12.93%, СКО — 9
MAPE для полинома степени 4 — 10.74%, СКО — 304
MAPE для полинома степени 5 — 9.02%, СКО — 17055


In [29]:
A = np.array([
    [1,1,1,1],
    [1,3,-2,9],
    [1,9,4,81]
]).T
y = np.array([3,7,-5,21])
lr = LinearRegression(fit_intercept=False).fit(A, y)
print(np.round(lr.coef_, 1))

[ 0.1  2.5 -0. ]


In [34]:
A = np.array([[1,3,-2,9]]).T
poly = PolynomialFeatures(degree=2, include_bias=True)
A_poly = poly.fit_transform(A)
print(A_poly)
lr = LinearRegression(fit_intercept=False).fit(A_poly, y)
print(np.round(lr.coef_, 1))

[[ 1.  1.  1.]
 [ 1.  3.  9.]
 [ 1. -2.  4.]
 [ 1.  9. 81.]]
[ 0.1  2.5 -0. ]


In [35]:
from sklearn.model_selection import cross_validate


In [36]:
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]

# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)

# создаём модель линейной регрессии
lr = LinearRegression()

# оцениваем качество модели на кросс-валидации, метрика — MAPE
cv_results = cross_validate(lr, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))

## MAPE на тренировочных фолдах: 12.64 %
## MAPE на валидационных фолдах: 24.16 %

MAPE на тренировочных фолдах: 12.64 %
MAPE на валидационных фолдах: 24.16 %


In [37]:
print(cv_results)

{'fit_time': array([0.00300026, 0.00300145, 0.0019958 , 0.00200129, 0.00200105]), 'score_time': array([0.00199652, 0.00100088, 0.00100064, 0.00099969, 0.00100017]), 'test_score': array([-0.09343344, -0.33040328, -0.09049194, -0.26870011, -0.42477462]), 'train_score': array([-0.14347924, -0.13090978, -0.13977396, -0.10890062, -0.10875258])}


In [38]:
# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# единичная матрица
E = np.eye(3)
# коэффициент регуляризации 
alpha = 5
# получаем оценку коэффициентов регрессии по МНК с регуляризацией Тихонова
w_hat_ridge = np.linalg.inv(A.T@A+alpha*E)@A.T@y
print(w_hat_ridge)
## [0.6122449  0.29387755 0.5877551 ]

[0.6122449  0.29387755 0.5877551 ]


In [40]:
from sklearn.linear_model import Ridge

In [41]:
# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# получаем оценку коэффициентов регрессии по МНК с регуляризацией Тихонова
ridge = Ridge(alpha=5, fit_intercept=False)
ridge.fit(A, y)
print(ridge.coef_)
## [0.6122449  0.29387755 0.5877551 ]

[0.6122449  0.29387755 0.5877551 ]


In [42]:
from sklearn.preprocessing import StandardScaler

In [56]:
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]
# инициализируем стандартизатор StandardScaler
scaler = StandardScaler()
# подгоняем параметры стандартизатора (вычисляем среднее и СКО)
X = scaler.fit_transform(X)
print(X)

[[-1.0755623  -1.45900038  0.41367189 -0.41978194]
 [-0.49243937 -0.30309415  0.19427445 -0.41733926]
 [-1.2087274  -0.30309415  1.28271368 -0.41734159]
 ...
 [-0.98304761  1.17646583  0.98496002 -0.41344658]
 [-0.86530163  1.17646583  0.72567214 -0.40776407]
 [-0.66905833  1.17646583 -0.36276709 -0.41500016]]


In [57]:
# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)
# создаём модель линейной регрессии c L2-регуляризацией
ridge = Ridge(alpha=20, solver='svd')
# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(ridge, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))
## MAPE на тренировочных фолдах: 12.54 %
## MAPE на валидационных фолдах: 17.02 %

MAPE на тренировочных фолдах: 12.54 %
MAPE на валидационных фолдах: 17.02 %


In [59]:
print(ridge.fit(X,y).coef_)

[[-3.56508045 -1.06055136  2.79978494  0.24155291  1.49993104 -1.65296635
  -1.16545705 -2.77807789 -0.69738981 -1.57673662  0.70006118  0.28527836
  -1.20606756 -0.42985199 -0.54157343  0.51132158 -0.32942342  0.93200963
  -0.82143411  0.3661611  -1.40559586 -0.17954502  0.6450131   0.49624354
  -0.12333599 -0.35682041  0.5389975  -0.2550849  -0.63562636 -0.45064038
  -0.15758481 -0.27170262  0.19837356  0.04665671]]


In [62]:
X = np.array([
    [1,1,1,1,1],
    [5,9,4,3,5],
    [15,18,18,19,19],
    [7,6,7,7,7]
]).T
y = np.array([24,22,35,33,36])
ridge = Ridge(alpha=1, fit_intercept=False)
est = ridge.fit(X,y)
print(np.round(est.coef_, 2))

[-0.09 -1.71  1.91  0.73]


In [63]:
from sklearn.linear_model import Lasso


In [64]:
# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# получаем оценку коэффициентов регрессии с помощью L1-регуляризации
lasso = Lasso(alpha=0.1, fit_intercept=False)
lasso.fit(A, y)
print(lasso.coef_)
## [1.14925373 0.         0.71921642]

[1.14925373 0.         0.71921642]


In [65]:
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]

# инициализируем стандартизатор StandardScaler
scaler = StandardScaler()
# подгоняем параметры стандартизатора (вычисляем среднее и СКО)
X = scaler.fit_transform(X)

# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)

# создаём модель линейной регрессии c L1-регуляризацией
lasso = Lasso(alpha=0.1, max_iter=10000)

# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(lasso, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100))
## MAPE на тренировочных фолдах: 12.44 %
## MAPE на валидационных фолдах: 16.44 %

MAPE на тренировочных фолдах: 12.44 %
MAPE на валидационных фолдах: 16.44 %


In [66]:
print(cv_results)

{'fit_time': array([0.01003098, 0.01796603, 0.01096964, 0.00200152, 0.00303268]), 'score_time': array([0.00154042, 0.00099874, 0.00099754, 0.00100017, 0.0010004 ]), 'test_score': array([-0.09407615, -0.15318585, -0.0953557 , -0.21932833, -0.26004995]), 'train_score': array([-0.13878145, -0.12871602, -0.1349809 , -0.1122476 , -0.10750121])}


In [67]:
from sklearn.linear_model import ElasticNet

In [72]:
# матрица наблюдений (включая столбец единиц)
A = np.array([
    [1, 1, 1, 1, 1],
    [1, 0, -3, 2, 4],
    [2, 0, -6, 4, 8]
]).T
# вектор целевого признака
y = np.array([4, 3, -4, 2, 7])
# получаем оценку коэффициентов регрессии 
elasticnet1 = ElasticNet(alpha=0.1, l1_ratio=0.2, fit_intercept=False)
elasticnet1.fit(A, y)
print(elasticnet1.coef_)
## [1.13492457 0.19525842 0.6237965 ]

[1.13492457 0.19525842 0.6237965 ]


In [73]:
elasticnet2 = ElasticNet(alpha=0.1, l1_ratio=0.7, fit_intercept=False)
elasticnet2.fit(A, y)
print(elasticnet2.coef_)
## [1.14379753 0.         0.71993025]

[1.14379753 0.         0.71993025]


In [74]:
# получаем оценку коэффициентов регрессии
elasticnet3 = ElasticNet(alpha=0.1, l1_ratio=1, fit_intercept=False)
elasticnet3.fit(A, y)
print(elasticnet3.coef_)
## [1.14925373 0.         0.71921642]

[1.14925373 0.         0.71921642]


In [75]:
cv_results1 = cross_validate(elasticnet1, A, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('elasticnet1 MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results1['train_score'].mean()* 100))
print('elasticnet1 MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results1['test_score'].mean() * 100))

cv_results2 = cross_validate(elasticnet2, A, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('elasticnet2 MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results2['train_score'].mean()* 100))
print('elasticnet2 MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results2['test_score'].mean() * 100))

cv_results3 = cross_validate(elasticnet3, A, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('elasticnet3 MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results3['train_score'].mean()* 100))
print('elasticnet3 MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results3['test_score'].mean() * 100))

elasticnet1 MAPE на тренировочных фолдах: 40.54 %
elasticnet1 MAPE на валидационных фолдах: 66.04 %
elasticnet2 MAPE на тренировочных фолдах: 40.31 %
elasticnet2 MAPE на валидационных фолдах: 67.68 %
elasticnet3 MAPE на тренировочных фолдах: 40.14 %
elasticnet3 MAPE на валидационных фолдах: 68.82 %


In [76]:
# выделяем интересующие нас факторы
X = boston_data[['LSTAT', 'PTRATIO', 'RM','CRIM']]
y = boston_data[['PRICE']]
# инициализируем стандартизатор StandardScaler
scaler = StandardScaler()
# подгоняем параметры стандартизатора (вычисляем среднее и СКО)
X = scaler.fit_transform(X)
# добавляем полиномиальные признаки
poly = PolynomialFeatures(degree=3, include_bias=False)
X = poly.fit_transform(X)
# создаём модель линейной регрессии c L1- и L2-регуляризациями
lasso = ElasticNet(alpha=0.1, l1_ratio=0.5, max_iter=10000)
# оцениваем качество модели на кросс-валидации
cv_results = cross_validate(lasso, X, y, scoring='neg_mean_absolute_percentage_error', cv=5, return_train_score=True)
print('MAPE на тренировочных фолдах: {:.2f} %'.format(-cv_results['train_score'].mean()* 100))
print('MAPE на валидационных фолдах: {:.2f} %'.format(-cv_results['test_score'].mean() * 100)) 
## MAPE на тренировочных фолдах: 12.65 %
## MAPE на валидационных фолдах: 15.70 %

MAPE на тренировочных фолдах: 12.65 %
MAPE на валидационных фолдах: 15.70 %
