# Курс "Практикум по математической статистике"
# 3 курс ФПМИ МФТИ, осень 2024
## Семинар 09.11. Регрессия. Отбор признаков.

Этот ноутбук представляет собой материал для семинара "Регрессия и отбор признаков". Читая его, Вы научитесь:

- Строить регрессионные модели

- Сравнивать модели между собой (без "преференций" в сторону сложных моделей)

- Оценивать полезность признака численно и принимать решение о необходимости его удаления

- Вероятностно интерпретировать понятие регуляризации и переобучения

Вопросы по ноутбуку и первому домашнему заданию задавайте в телеграмм автору https://t.me/vitalii_kondratiuk.

Sapere aude.

In [1]:
%pip install --upgrade matplotlib numpy scipy statsmodels

Note: you may need to restart the kernel to use updated packages.


In [2]:
from __future__ import annotations
import typing
import abc
import dataclasses
import itertools

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as sps
import seaborn as sns
import statsmodels.api as sm
import scipy as sp

sns.set(style='darkgrid')
%matplotlib inline

Терминология:

- Задачей регрессии называется восстановление параметров условной плотности $P(Y | X)$, считая что $Y = w^TX + ɛ$, где последнее слагаемое --- гауссовский шум.
- В курсе математической статистики Вы привыкли иметь дело с генеративной версией этой модели: оцениваем $X$ по выборке $X_i$, где $X_i = Z + ɛ$, $Z \in L$ --- линейное подпространство
- По факту это одна и та же задача, так что все выкладки верны в обоих моделях. Мы будем работать с более привычной для практики первой моделью.
- Считается что $X = (x_1,...,x_n)$, где $x_i$ называется **признаком**. Выборку $X$ называют **матрицей объект-признак**

1. Как выглядит правдоподобие и оптимальная оценка параметров?

$Y \sim N(w^TX, \beta^{-1}I)$, где $I$ --- единичная матрица. Можно посчитать правдоподобие по $w$ и найти его минимум.

Тогда $w^* = argmin ||Y - w^TX||^2$.

Существует аналитическое решение этой задачи $w^* = (X^TX)^{-1}X^TY$. На практике его редко ищут, предпочитая решать задачу стохастическим градиентным спуском.

Изучим свойства $w^*$:
 - В каком случае матрица $(X^TX)$ необратима?
 - В каком случае значение $w^*$ существенно меняется от зашумления $Y$?
 - Как улучшить свойства матрицы объектов-признаков?
 - Часто в регрессии любят оптимизировать не сумму квадратов, а сумму модулей. Как выглядит вероятностная модель, которая приводит к такой задаче оптимизации?

Подготовим модельные данные. Предлагается предсказать сумму страховых выплат человека по каким-то анкетным параметрам. Пока просто посмотрим на задачу с точки зрения статистики, игнорируя смысл параметров, а после проведения формального отбора признаков проинтерпретируем результат.

In [4]:
!wget https://raw.githubusercontent.com/stedy/Machine-Learning-with-R-datasets/master/insurance.csv

--2024-11-26 02:40:59--  https://raw.githubusercontent.com/stedy/Machine-Learning-with-R-datasets/master/insurance.csv
R'esolution de raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.108.133, 185.199.109.133, ...
Connexion `a raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connect'e.
requ^ete HTTP transmise, en attente de la r'eponse... 200 OK
Taille : 54288 (53K) [text/plain]
Sauvegarde en : <<insurance.csv.1>>


2024-11-26 02:40:59 (1.15 MB/s) - <<insurance.csv.1>> sauvegard'e [54288/54288]



Подготовим данные

In [15]:
import pandas as pd

data = pd.read_csv("insurance.csv")
data = pd.get_dummies(data = data, columns = ["sex", "region", "smoker"])
data["constant"] = 1
Y = data["charges"].to_numpy().astype(float)
X = data.drop('charges', axis=1).to_numpy().astype(float)
X.shape, Y.shape

((1338, 12), (1338,))

In [16]:
data

Unnamed: 0,age,bmi,children,charges,sex_female,sex_male,region_northeast,region_northwest,region_southeast,region_southwest,smoker_no,smoker_yes,constant
0,19,27.900,0,16884.92400,True,False,False,False,False,True,False,True,1
1,18,33.770,1,1725.55230,False,True,False,False,True,False,True,False,1
2,28,33.000,3,4449.46200,False,True,False,False,True,False,True,False,1
3,33,22.705,0,21984.47061,False,True,False,True,False,False,True,False,1
4,32,28.880,0,3866.85520,False,True,False,True,False,False,True,False,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1333,50,30.970,3,10600.54830,False,True,False,True,False,False,True,False,1
1334,18,31.920,0,2205.98080,True,False,True,False,False,False,True,False,1
1335,18,36.850,0,1629.83350,True,False,False,False,True,False,True,False,1
1336,21,25.800,0,2007.94500,True,False,False,False,False,True,True,False,1


In [17]:
data.drop('charges', axis=1).keys()

Index(['age', 'bmi', 'children', 'sex_female', 'sex_male', 'region_northeast',
       'region_northwest', 'region_southeast', 'region_southwest', 'smoker_no',
       'smoker_yes', 'constant'],
      dtype='object')

In [29]:
w1 = sp.linalg.pinv(X)@Y
w2 = np.linalg.inv(X.T@X)@X.T@Y

In [30]:
np.sqrt(np.mean((Y - X@w1)**2)), np.sqrt(np.mean((Y - X@w2)**2))

(6041.6796511744515, 32986.32396155326)

Заметим, что перепады качества тут исключительно из-за численных ошибок обращения матриц. Как с этим бороться вы узнаете на курсе выч. математики, а мы сравнимся с регрессией из коробки

In [67]:
mod = sm.OLS(Y, X)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.751
Model:                            OLS   Adj. R-squared:                  0.749
Method:                 Least Squares   F-statistic:                     500.8
Date:                Sat, 09 Nov 2024   Prob (F-statistic):               0.00
Time:                        09:22:11   Log-Likelihood:                -13548.
No. Observations:                1338   AIC:                         2.711e+04
Df Residuals:                    1329   BIC:                         2.716e+04
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1           256.8564     11.899     21.587      0.0

In [27]:
np.sqrt(np.mean((Y - mod.predict(X.T))**2))

16088.97327007743

Как читать саммари выше?
Что такое $R^2$ мы ещё поговорим, когда дойдём до оценок качества, там же вспомним про AIC и BIC. Что такое $F$-статистика вам ещё расскажет [Данные удалены] на семинаре про проверку гипотез, а пока скажем, что это некоторая мера значимости модели. Если её вероятность (Prob (F-statistic)) меньше 0.05, то можно делать вывод, что модель хоть что-то объясняет. В противном случае такой вывод делать нельзя и все фичи бесполезны.

В таблице ниже для каждой фичи мы можем видеть её значение и её дисперсию, а также значение $t-$критерия и его значимость. Пока смотрим на это так: если $P > |t|$ это число меньше, чем 0.05, то признак важен, а если больше, то нет. Неудивительно, что модель ругается на one-hot переменные, которые ещё и линейно зависимы (так как мы намеренно не убрали лишние). Ниже нам даже об этом сообщили --- у нас есть мультиколлинеарность.

Заметим, что в задаче отбора признаков мы натыкаемся на типичную проблему: так как "простая" модель есть частный случай "сложной" модели, то метрики при добавлении признаков будут только расти (считая, что нет численных ошибок, конечно). Метрики будут расти как при добавлении информативных признаков, так и при добавлении почти шумовых. На практике с этим борятся при помощи валидационной выборки и кросс-валидации, о чём вам расскажут на курсе машинного обучения, а мы подойдём к задаче со стороны чистой статистики.

1. Попробуем оценить как много информации модель узнала о выборке. Для этого будем считать, что наблюдается закон природы $Y = w^TX$, но наблюдения зашумлены некоторым $\varepsilon`$.

Допустим, мы вообще не знаем никаких признаков и считаем $Y$ обычной нормальной величиной. Мерой её "случайности" считают её дисперсию $\sigma_t^2$. Действительно, в случае отстутсвия фичей лучшим предсказанием $Y$ будет его мат. ожидание, а точность такого предсказания это дисперсия.

Теперь нам дали какие-то фичи $X$. Мы подобрали по методу максимального правдоподобия параметры $w$ и оцениваем $Y = w^TX$. Заметим, что наше оценивание всё ещё неточное, и мера этой неточности оценивается как $D[Y|X] = \sigma^2$. Это называется **необъяснённая дисперсия**. В противовес, $D[w^TX] = \sigma_y^2$ называется **объяснённая дисперсия**. Нетрудно проверить, что общая дисперсия раскладывается в сумму $\sigma_t^2 = \sigma_y^2 + \sigma^2$.

Оценим эти величины:

$\sigma_t^2 = \frac{1}{n}\sum (y - \overline{y})^2$

$\sigma_y^2 = \frac{1}{n}\sum (\hat{y} - \overline{y})^2$, где $\hat{y} = w^TX$

$\sigma^2 = \frac{1}{n}\sum (\hat{y} - y)^2$

Коэффициентом детерминации $R^2$ называют долю объяснённой дисперсии, но считают обычно $R^2 = 1 - \frac{\sigma^2}{\sigma_t^2}$. На практике значение $R^2$ ниже 50% считается плохим, а выше 80% хорошим.

Заметим, что $R^2$ при добавлении любых фичей только растёт, так что сравнивать модели по нему некорректно, однако с этим борятся, используя несмещённую оценку дисперсии:

$\sigma_t^2 = \frac{1}{n-1}\sum (y - \overline{y})^2$

$\sigma_y^2 = \frac{1}{n-k}\sum (\hat{y} - \overline{y})^2$, где $\hat{y} = w^TX$

$R_{adj}^2 = 1 - \frac{\sigma^2}{\sigma_t^2}$

Посмотрим, как изменятся $R^2$ и adjusted $R^2$ если мы поудаляем фичи.

In [127]:
X_new = X[:, [0, 1, 2, 9, 10, 11]]
mod = sm.OLS(Y, X_new)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.750
Model:                            OLS   Adj. R-squared:                  0.749
Method:                 Least Squares   F-statistic:                     998.1
Date:                Sat, 09 Nov 2024   Prob (F-statistic):               0.00
Time:                        10:19:45   Log-Likelihood:                -13551.
No. Observations:                1338   AIC:                         2.711e+04
Df Residuals:                    1333   BIC:                         2.714e+04
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1           257.8495     11.896     21.675      0.0

In [128]:
np.sqrt(np.mean((Y - X_new@sp.linalg.pinv(X_new)@Y)**2))

6056.439217188081

In [129]:
X_new = X[:, [0, 1, 2, 9, 11]]
mod = sm.OLS(Y, X_new)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.750
Model:                            OLS   Adj. R-squared:                  0.749
Method:                 Least Squares   F-statistic:                     998.1
Date:                Sat, 09 Nov 2024   Prob (F-statistic):               0.00
Time:                        10:19:46   Log-Likelihood:                -13551.
No. Observations:                1338   AIC:                         2.711e+04
Df Residuals:                    1333   BIC:                         2.714e+04
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1           257.8495     11.896     21.675      0.0

In [130]:
np.sqrt(np.mean((Y - X_new@sp.linalg.pinv(X_new)@Y)**2))

6056.439217188082

In [131]:
X_new = X[:, [0, 1, 2, 11]]
mod = sm.OLS(Y, X_new)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.120
Model:                            OLS   Adj. R-squared:                  0.118
Method:                 Least Squares   F-statistic:                     60.69
Date:                Sat, 09 Nov 2024   Prob (F-statistic):           8.80e-37
Time:                        10:19:47   Log-Likelihood:                -14392.
No. Observations:                1338   AIC:                         2.879e+04
Df Residuals:                    1334   BIC:                         2.881e+04
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1           239.9945     22.289     10.767      0.0

In [132]:
np.sqrt(np.mean((Y - X_new@sp.linalg.pinv(X_new)@Y)**2))

11355.317901125973

Обратите внимание на то, как резко упал $R^2$ от удаления признака 9. Значит, он был важным.

Чуть улучшенными версиями коэффициента детерминации являются информационный критерий Акаике AIC и байесовский информационный критерий Шварца BIC.

$AIC = k - ln(L)$, где $k$ это число параметров, а $L$ это достигаемое моделью правдоподобие. То есть мы хотим, чтобы модель как можно точнее предсказала имеющиеся данные за как можно меньше параметров.

$BIC = kln(n) - ln(L)$, $n$ --- количество наблюдений $X, Y$. Заметим, что байесовский критерий сильнее штрафует модель за рост числа признаков.

В отличии от $R^2$ информационные критерии не имеют вероятностной интерпретации своих значений и могут использоваться только для сравнения, причём чем информационный критерий меньше, тем модель лучше.

НЕ ДЕЛАЙТЕ ВЫВОДОВ НА ОСНОВАНИИ АБСОЛЮТНЫХ ЗНАЧЕНИЙ ИНФОРМАЦИОННЫХ КРИТЕРИЕВ

Сравним признаки 1 (возраст) и 10 (курение).

In [136]:
X_new = X[:, [0, 1, 2, 3, 4, 5, 6, 7, 8, 11]]
mod = sm.OLS(Y, X_new)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.126
Model:                            OLS   Adj. R-squared:                  0.122
Method:                 Least Squares   F-statistic:                     27.50
Date:                Sat, 09 Nov 2024   Prob (F-statistic):           1.86e-35
Time:                        10:20:09   Log-Likelihood:                -14387.
No. Observations:                1338   AIC:                         2.879e+04
Df Residuals:                    1330   BIC:                         2.883e+04
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1           242.2542     22.270     10.878      0.0

In [134]:
X_new = X[:, [1, 2, 3, 4, 5, 6, 7, 8, 9, 11]]
mod = sm.OLS(Y, X_new)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.664
Model:                            OLS   Adj. R-squared:                  0.662
Method:                 Least Squares   F-statistic:                     374.8
Date:                Sat, 09 Nov 2024   Prob (F-statistic):          2.97e-309
Time:                        10:19:48   Log-Likelihood:                -13749.
No. Observations:                1338   AIC:                         2.751e+04
Df Residuals:                    1330   BIC:                         2.756e+04
Df Model:                           7                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1           411.2700     32.998     12.464      0.0

In [135]:
X_new = X[:, [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 11]]
mod = sm.OLS(Y, X_new)
res = mod.fit()
print(res.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.751
Model:                            OLS   Adj. R-squared:                  0.749
Method:                 Least Squares   F-statistic:                     500.8
Date:                Sat, 09 Nov 2024   Prob (F-statistic):               0.00
Time:                        10:19:49   Log-Likelihood:                -13548.
No. Observations:                1338   AIC:                         2.711e+04
Df Residuals:                    1329   BIC:                         2.716e+04
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
x1           256.8564     11.899     21.587      0.0

AIC модели с всеми признаками: 2.711e+04

AIC модели без признака 1: 2.751e+04

AIC модели без признака 10: 2.879e+04

Оба признака важны, но признак 10 важнее.

Как мы уже поняли, с вероятностной и информационной точки зрения признаки можно сортиовать по важности и отбирать нужные нам. Обычно признаки, у которых вероятность $t$-статистики больше 0.05 просто выбрасывают и не рассматривают, однако стоит помнить, что признаки обычно зависимы и их полезность не может рассматриваться отдельно, только при условии остальных признаков. Признак 1 может быть неважным, пока есть признак 2 и резко стать важным, если признак 2 удалить. Поэтому приходится заниматься полным перебором подмножеств признаков.

2. Если вы знаете алгебру, то понимаете, что наличие зависимых признаков ухудшает свойства задачи и добавляет численные ошибки. Однако нельзя удалять признаки так, чтобы оставшиеся были независимыми --- вполне может оказаться, что есть 3-5 полезных сильно зависимых друг от друга признаков. Один из подходов для борьбы с **мультиколлинеарностью** признаков является сжатие данных PCA, о котором вам расскажут на машинном обучении, но мы рассмотрим другой подход --- регуляризацию.

А чем так плох PCA? Основная проблема --- потеря интерпретируемости признаков. Компоненты PCA не имеют никакого прикладного смысла.

Добавляем априорное распределение к модели $Y \sim N(w^TX, \beta^{-1}I)$. Проверьте, что при оценке мат. ожидания нормального распределения сопряжённым являтся снова нормальное распределение. Так что возьмём $w \sim N(0, \lambda^{-1}I)$. Тогда можно сделать апостериорный байесовский вывод (или оценку байесом для бедных, так как мы знаем, что апостериорная плотность будет нормальной, а нормальная плотность определяется своими мат. ожиданием и дисперсией. Мат. ожиданием и будет оценка байеса для бедных, а дисперсия это какая-то вычисляемая константа, предлагаем вам вычислить самим).

Проверьте, что $w^* = (\beta X^TX + \lambda I)^{-1}X^TY$. Как изменились алгебраические свойства обращаемой матрицы?

Изучим поведение модели в зависимости от константы регуляризации.

В экономике такая модель называется Ridge regression. Иногда вместо нормального праера берут Лаплассовский, который соответствует регуляризации $\lambda|w|$ (сумма не с квадратом, а с модулем). Такая модель называется Lasso. А иногда и произведение праеров. Последняя модель называется Elastic net. Последняя модель до сих пор является SOTA решением в экономических моделях благодаря высокой интерпретируемости.

$\alpha$ это общий параметр регуляризации, а L1_wt это доля нормального праера в сумме.

In [114]:
X_new = X[:, [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]]
for i in [1e-35, 1e-20, 1e-9, 1e-6, 1e-5,1e-4, 0.0001, 0.001, 0.01, 0.1, 0, 1, 10, 100, 1000]:
    mod = sm.OLS(Y, X_new)
    res = mod.fit_regularized(alpha=i, L1_wt=0,refit=True)
    print(i,' ',np.sqrt(np.mean((Y - res.predict(X_new))**2)))

1e-35   6101.138009089193
1e-20   6041.679651174447
1e-09   6041.6796511744515
1e-06   6041.679651247595
1e-05   6041.67965848828
0.0001   6041.680382140012
0.0001   6041.680382140012
0.001   6041.752332085743
0.01   6048.548206338384
0.1   6451.72634183886
0   6104.187394630987
1   9457.417540627457
10   11165.422607624352
100   11416.562305616884
1000   12051.359310264907


Как мы видим, регуляризация повышает качество даже на тренировочной выборке за счёт улучшения свойств обращаемых матриц. А с курса машинного обучения вы знаете, что оно улучшает ещё и генерализацию (качество предсказания новых данных).

Нам в статистике больше интересна не Ridge регуляризация, которая делает модель устойчивее к шуму в данных (как мы обсудили на семинаре про байес), а Lasso, которое обладает острым пиком (в отличии от гладкого гауссовского). На практике это значит, что это распределение существенно убывает при отходе от пика. То есть модель предпочтёт $w = 0$, а не выбор какого-то маленького $w$. Можете посмотреть на задачу оптимизации байеса для бедных:

$w^* = argmin ||Y - w^TX||^2 + \lambda |w|$.

Её градиент не убывает при подходе к решению, так как содержит константный член в сумме. Это позволяет сойтись не в окрестность решения, а точно к нему.

Мы же будем использовать лассо для отбора признаков. Если лассо решил ставить признак равным нулю, то он не нужен.

Заметим, что можно использовать как лассо модель, так и обучать её только промежутночно: обучить, выбросить фичи с нулевым весом, обучить модель без регуляризации или с Ridge, так как в таком случае точность будет выше

In [115]:
X_new = X[:, [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]]
for i in [1e-35, 1e-20, 1e-9, 1e-6, 1e-5,1e-4, 0.0001, 0.001, 0.01, 0.1, 0, 1, 10, 100, 1000]:
    mod = sm.OLS(Y, X_new)
    res = mod.fit_regularized(alpha=i, L1_wt=1,refit=True)
    print(i,' ',np.sqrt(np.mean((Y - res.predict(X_new))**2)))

1e-35   6041.6796511744515
1e-20   6041.6796511744515
1e-09   6041.6796511744515
1e-06   6041.6796511744515
1e-05   6041.6796511744515
0.0001   6041.6796511744515
0.0001   6041.6796511744515
0.001   6041.6796511744515
0.01   6041.6796511744515
0.1   6041.6796511744515
0   6041.6796511744515
1   6041.6796511744515
10   6046.287338312512
100   6056.439217188081
1000   6083.206042088949


In [116]:
res = mod.fit_regularized(alpha=i, L1_wt=1,refit=True)
print(res.params)

[   259.54749155    322.61513282      0.              0.
      0.              0.              0.              0.
      0.         -11676.83042519  12146.85407012      0.        ]


Модель фильтрует фичи 3-9 и последний. Последний это добавленная нами константа, а фичи 3-9 были признаны бесполезными ещё на основании $t$-статистики, то есть противоречия нет. Однако, стоит отметить, что лассо регрессия существенно агрессивнее, чем классические подходы.

In [138]:
X_new = X[:, [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]]
for i in [1e-35, 1e-20, 1e-9, 1e-6, 1e-5,1e-4, 0.0001, 0.001, 0.01, 0.1, 0, 1, 10, 100, 1000]:
    mod = sm.OLS(Y, X_new)
    res = mod.fit_regularized(alpha=i, L1_wt=1,refit=True)
    print(i,' ',(res.params==0).sum())

1e-35   1
1e-20   1
1e-09   1
1e-06   1
1e-05   1
0.0001   1
0.0001   1
0.001   1
0.01   1
0.1   1
0   1
1   2
10   3
100   7
1000   8


А агрессивность настраиваится при помощи параметра регуляризации.

3. Байесовский подход.

Заметим, что с ростом лямбды оценка байеса для бедных сходится к нулю, а при приближении лябмда к нулю оценка сходится к MLE. Отсюда следует, что стоит брать в качестве праера не $\lambda^{-1} I$, а диагональную матрицу, где для полезных признаков мы выставим небольшую регуляризацию, а для бесполезных большую. То есть параметр регуляризации можно использовать как меру полезности признака, но пока что мы откуда-то знаем полезность и подбираем регуляризацию.

А что если попробовать наоборот? Мы с прошлого семинара уже научились подбирать модель исходя из принципа наибольшей обоснованности. Давайте параметризуем праеры векторами регуляризации $\lambda$, стоящими на диагонали матрицы ковариаций априорного распределения и подберём эти лямбды из принципа наибольшего правдоподобия. Этот метод называется **методом релевантных векторов** и описан в лекции 4 конспекта Д.П.Ветрова по байесовскому анализу.

Так как поля этого ноутбука (и семинара) слишком узки, мы предлагаем разобраться (и задать в чате вопросы) в реализации этого метода самим. Если коротко --- нужно выписать правдоподобие как функцию от $w^*$ и $\lambda$ и максимизировать по лямбда.

4. Теоретико-игровой подход (что?).

Заметим, что регрессионную модель можно рассматривать как коалиционную игру, в которой признаки образуют коалиции и зарабатывают $R^2$ коэффициент. В силу свойств $R^2$ коэффициента эта игра оказывается ещё и супераддитивной, так что можно "разделить" награду $R^2$ на все фичи по **вектору Шепли** (что это такое рассказывают на теории игр). И трактовать долю каждого признака как полезность.