# LASSO

$n$個のサンプルと$m$個の特徴量からなる特徴量の行列$\boldsymbol{X}$を用いて目的変数$\boldsymbol{y}$を近似する線形モデル

$$
\newcommand{\b}[1]{\boldsymbol{#1}}
\b{y} = \b{X} \b{\beta} + \b{e}
$$

を考える。

このモデルのパラメータ$\b{\beta}$の推定の際に、パラメータの絶対値のL1ノルムによって制約条件を設けた下で推定を行う方法が**LASSO**（least absolute shrinkage and selection operator）である

$$
\newcommand{\argmin}{\mathop{\rm arg~min}\limits}
\begin{align}
\hat{\b{\beta}}_{LASSO}
= \ &\argmin_{\b{\beta}} \frac{1}{2} ||\b{X} \b{\beta} - \b{y}||^2 \\
&\text{subject to} \ ||\beta||_1 \leq R
\end{align}
$$

これはラグランジュの未定乗数法を用いて

$$
\hat{\b{\beta}}_{LASSO}
= \argmin_{\b{\beta}} \left\{
 \frac{1}{2} ||\b{X} \b{\beta} - \b{y}||^2 + \lambda ||\beta||_1
\right \}
$$

という問題に転換することができる。

:::{dropdown} 導出

ラグランジュ関数を作る

$$
\newcommand{\b}[1]{\boldsymbol{#1}}
L(\b{\beta}, \lambda) = \frac{1}{2} ||\b{X} \b{\beta} - \b{y}||^2 + \lambda ||\beta||_1
$$

この関数を$\b{\beta}$で偏微分してゼロとなる点が最適解であることが知られている。
:::

## 正則化について

### 正則行列

**正則行列**（regular matrix）、**非特異行列**（non-singular matrix）、あるいは**可逆行列**（invertible matrix）とは、行列の通常の積に関する逆元をもつ正方行列、すなわち、逆行列をもつ正方行列のこと。

:::{card} 定義（正則）

$n$次の正方行列$A$に対して、

$$
AB = BA = I
\hspace{1em} (Iは単位行列)
$$

を満たす$n$次正方行列$B$が存在するとき、$A$は**正則**であるという。

このとき$B$を$A$の**逆行列**といい、$A^{-1}$のように表記される。
:::


### 正則化

- サンプルサイズ$n$よりも特徴量の次元数$m$のほうが多い場合
- 説明変数感の相関が非常に高い

と言った状況では、通常最小二乗法の解

$$
\hat{\b{\beta}}_{OLS} = (\b{X}^\top \b{X})^{-1} \b{X}^\top \b{y}
$$

の$(\b{X}^\top \b{X})$が正則にならず、逆行列が計算できない、あるいはうまく推定できなくなってしまう問題がある。

そこでLASSOのような手法によって正則化する方法が提案されたため、**正則化**（regularization）という言葉が使われる


## Oracle Property

## Adaptive LASSO

## 参考

- [Hastie, T., Tibshirani, R., & Wainwright, M. (2015). Statistical learning with sparsity: the lasso and generalizations. CRC press.](https://hastie.su.domains/StatLearnSparsity_files/SLS.pdf)