# OLS推定量の性質

## 重回帰モデル

$N$個のサンプルと$D$個の説明変数からなるデータセットがあるとして、被説明変数を$Y \in \mathbb{R}^N$、説明変数を$X\in \mathbb{R}^{N\times D}$、回帰係数ベクトルを$\beta \in \mathbb{R}^D$、誤差項ベクトルを$u\in\mathbb{R}^N$とすると、重回帰モデルは

$$
Y = X \beta + u
$$

と表すことができる。

### 1行単位の重回帰モデルの表記

ここで$i$番目のサンプルについての回帰式を次のように表記する

$$
Y_i = X_i^T \beta + u_i, \hspace{1em} i=1,\dots, N
$$

ここで$X_i \in \mathbb{R}^D$はデータの行列$X$を1行取り出したもので、$Y_i, u_i \in \mathbb{R}$も1つのサンプルの被説明変数と誤差項である。

この書き方をした重回帰モデルのOLS推定量は

$$
\hat{\beta} = \beta +
\left(
    \frac{1}{N} X^T X
\right)^{-1}
\frac{1}{N} X^T u
$$

となる。

単回帰でいうと

$$
\hat{\beta} = \beta + \frac{Cov(X, u)}{Var(X)}
$$

である。$X$に内生性がある、すなわち$Cov(X, u) \neq 0$であると$\hat{\beta} \neq \beta$となる


:::{admonition} OLSの仮定
1. i.i.d.：$(Y, X)$は独立同一分布に従う
2. 外生性：$E[u|X] = 0$
3. 異常値がない：$X, u$は4次までのモーメントを持つ
4. 多重共線性がない：任意の$\sum_{j=0}^k a_j^2 = 1$となる$a_0,\dots,a_k$について$E[(a_0 + a_1 X_1 + \cdots + a_k X_k)^2]>0$が成り立つ
:::

## 一致性

$$
\begin{align}
\frac{1}{N} X^T X
    &= \frac{1}{N} \sum^N_{i=1} X_i X_i^T
    \overset{p}{\longrightarrow}
    E[X_i X_i^T]
\\
\frac{1}{N} X^T u
    &= \frac{1}{N} \sum^N_{i=1} X_i u_i
    \overset{p}{\longrightarrow}
    E[X_i u_i]
    = 0
\end{align}
$$

多重共線性がないという仮定により$(E[X_i X_i^T])^{-1}$が存在する

$$
\left(
    \frac{1}{N} X^T X
\right)^{-1}
\frac{1}{N} X^T u
\overset{p}{\longrightarrow}
0
$$

よって

$$
\hat{\beta}
\overset{p}{\longrightarrow}
\beta
$$


## 漸近正規性

式を整理して

$$
\sqrt{N} \hat{\beta} - \beta
=
\left(
    \frac{1}{N} X^T X
\right)^{-1}
\frac{1}{\sqrt{N}} X^T u
$$

とすると、

$$
Var[X_i u_i] = E[u^2_i X_i X_i^T]
$$

## バイアスとバリアンス

最小二乗推定量はすべての線形不偏推定量の中で最もバリアンスが小さい（最良である）ことを示すガウス・マルコフの定理というものがある。

```{margin} バイアスとバリアンス
統計学・機械学習の分野では誤差をバイアス（bias）とバリアンス（variance）に分けて考えることが多い。

バイアスは真の値$\theta$とサンプルを変えて推定を繰り返したときの個々の推定結果の平均$E(\hat{\theta})$との差で、
バリアンスは推定の分散$V(\hat{\theta})$である。

$$
Bias = \theta - E(\hat{\theta})\\
Variance = V(\hat{\theta})
$$
```


```{note} ガウス・マルコフの定理
各$i$について、

- $E[\varepsilon_i] = 0$
- $V[\varepsilon_i]=\sigma^2 < \infty$ が共通
- $i \neq j$のとき$E[\varepsilon_i \varepsilon_j] = 0$

を満たすとき、最小二乗推定量$\hat{\beta}_{OLS}$はBLUEになる
```


#### 不偏性

任意のパラメータの線形結合$\theta=\boldsymbol{\alpha}^\top {\boldsymbol{\beta}}$を考える。例えば$f(x_0)=x_0^\top \beta$がこの形である。

この最小二乗推定値は

$$
\hat{\theta} = \boldsymbol{\alpha}^\top \hat{\boldsymbol{\beta}}
= \boldsymbol{\alpha}^\top (\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X}^\top \boldsymbol{y}
$$

で、期待値をとると

$$
\begin{align}
E[\hat{\theta}]
&= E[\boldsymbol{\alpha}^\top \hat{\boldsymbol{\beta}}]\\
&= E[\boldsymbol{\alpha}^\top (\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X}^\top \boldsymbol{y}]\\
% &= \boldsymbol{\alpha}^\top (\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X}^\top E[\boldsymbol{y}]\\
&= E[\boldsymbol{\alpha^\top (X^\top X)^{-1} X^\top (X\beta + \varepsilon) }] \\
&= \boldsymbol{\alpha^\top (X^\top X)^{-1} X^\top X \beta + \alpha^\top (X^\top X)^{-1} X^\top} E[ \varepsilon ] \\
&= \boldsymbol{\alpha^\top (X^\top X)^{-1} X^\top X \beta}\\
&= \boldsymbol{\alpha}^\top \boldsymbol{\beta}
\end{align}
$$

```{margin}
※誤差項は仮定により$E[\boldsymbol{\varepsilon}]=0$であるため
```

となり（※）、$\hat{\theta}$が不偏推定量である（$E[\hat{\theta}] = \theta$）ことがわかる。


### バリアンス

$\boldsymbol{\alpha}^\top \boldsymbol{\beta}$に対して不偏のまた別の線形推定量$\boldsymbol{c}^\top \boldsymbol{y}$があるとする。

両者の差を

$$
\begin{align}
\boldsymbol{\alpha}^\top \boldsymbol{\hat{\beta}} - \boldsymbol{c}^\top \boldsymbol{y}
&= [ \boldsymbol{\alpha}^\top (\boldsymbol{X}^\top \boldsymbol{X})^{-1} \boldsymbol{X} - \boldsymbol{c}^\top ] \boldsymbol{y}\\
&=: \boldsymbol{d}^\top \boldsymbol{y}
\end{align}
$$

とおく。このとき、不偏性$E[\boldsymbol{c}^\top \boldsymbol{y}] = \boldsymbol{\alpha}^\top \boldsymbol{\beta}$から両者の差の期待値はゼロになるべきであり、

$$
E[\boldsymbol{d}^\top \boldsymbol{y}]
= \boldsymbol{d}^\top \boldsymbol{X} \boldsymbol{\beta} = 0
$$

が任意の$\boldsymbol{\beta}$について成り立たなければならないため、

$$
\boldsymbol{d}^\top \boldsymbol{X} = \boldsymbol{0}
$$

が成り立つ。


次に、2つの確率変数$X, Y$に対し

$$
V[X+Y] = V[X] + 2 \text{Cov}[X, Y] + V[Y]
$$

が成り立つから、$\boldsymbol{c}^\top \boldsymbol{y}$の分散は

$$
\begin{align}
V[\boldsymbol{c^\top y}] &= V[\boldsymbol{ \alpha^\top \hat{\beta} - d^\top y }]\\
&= V[\boldsymbol{ \alpha^\top \hat{\beta} }]
- 2 \text{Cov} [\boldsymbol{ \alpha^\top (X^\top X)^{-1} X^\top y }, \boldsymbol{ d^\top y} ]
+ V[\boldsymbol{ d^\top y}]
\end{align}
$$

と表すことができる。


$$
\text{Cov}(A, B) = E[(A - E[A])(B - E[B])^\top]
$$

$$
\text{Cov}(a^\top y, b^\top y)
= E[(a^\top y - E[a^\top y])(b^\top y - E[b^\top y])^\top]
$$

$$
\text{Cov}(a^\top y, b^\top y)
= E[(a^\top y - E[a^\top y])(b^\top y - E[b^\top y])^\top]\\
= E[(a^\top y - \alpha^\top \beta)(b^\top y - E[b^\top y])^\top]
$$

次に、2つの確率変数

$$
\boldsymbol{a^\top y} = \sum a_i y_i,
\hspace{2em}
\boldsymbol{b^\top y} = \sum b_i y_i
$$

の共分散は、誤差項$\boldsymbol{\varepsilon}$が無相関・等分散の仮定$V[\boldsymbol{\varepsilon}] = \sigma^2 \boldsymbol{I}$を満たすとき、

$$
\text{Cov}[\boldsymbol{a^\top y, b^\top y}]
= \text{Cov}[\boldsymbol{a^\top \varepsilon, b^\top \varepsilon}]
= \sum a_i b_i \sigma^2
= (\boldsymbol{a^\top b}) \sigma^2
$$

```{margin}
TODO: 解説書く
```

となることから

$$
\text{Cov}[\boldsymbol{ \alpha^\top (X^\top X)^{-1} X^\top y, d^\top y }]
= \boldsymbol{\alpha^\top (X^\top X)^{-1} X^\top d } \cdot \sigma^2
$$

となり、$\boldsymbol{d}^\top \boldsymbol{X} = \boldsymbol{0}$よりこれは0となる。

よって

$$
V[\boldsymbol{ c^\top y }] = V[\boldsymbol{ \alpha^\top \hat{\beta} }] + V[\boldsymbol{ d^\top y }]
$$

が成り立ち、分散は非負なので

$$
V[\boldsymbol{ c^\top y }] \geq V[\boldsymbol{ \alpha^\top \hat{\beta} }]
$$

を意味する。

よって$\boldsymbol{ \alpha^\top \hat{\beta} }$は最良線形不偏推定量BLUEである。

## OLS推定の幾何学的意味

OLS推定量

$$
\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \boldsymbol{y}
$$

を$\hat{\boldsymbol{y}} = X \hat{\boldsymbol{\beta}}$に代入すると

$$
\hat{\boldsymbol{y}} = \underbrace{ X (X^\top X)^{-1} X^\top }_{P} \boldsymbol{y}
= P \boldsymbol{y}
$$

つまり、ベクトル$\boldsymbol{y}$を行列$P = X (X^\top X)^{-1} X^\top$で射影したものとみなすことができる。

この行列$P$は対称行列で、$P^2=P$となる。この2つの性質を満たす行列を射影行列という。

:::{card}
$$
\begin{aligned}
P^2 & = PP \\
& =(X(X^{\top} X)^{-1} X^{\top})(X(X^{\top} X)^{-1} X^{\top}) \\
& =X(X^{\top} X)^{-1}(X^{\top} X)(X^{\top} X)^{-1} X^{\top} \\
& =X(X^{\top} X)^{-1} X^{\top}
=P
\end{aligned}
$$
:::

射影行列は、$X$の列空間$\Im X$にベクトルを正射影するという性質がある。$\boldsymbol{y}$の$\Im X$への射影が$\hat{\boldsymbol{y}}$で、垂線の足が誤差$\boldsymbol{u}$となる。

よって、最小二乗法は$\boldsymbol{y}$から$\Im X$への射影を求める操作であると捉えることができる。

## 参考文献

- 東京大学出版会『統計学入門』
- 東京大学出版会『自然科学の統計学』
- Hastie, T., Tibshirani, R., Friedman, J. H., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction (Vol. 2, pp. 1-758). New York: springer.
- [西山慶彦, 新谷元嗣, 川口大司, & 奥井亮. (2019). 計量経済学. Yūhikaku.](https://www.yuhikaku.co.jp/books/detail/9784641053854)