# 単回帰分析

2変量データの散布図における近似直線の一つである回帰直線は，単回帰分析によって得られます．

線形代数によって回帰分析は線形部分空間への射影として定義することができますが，線形代数の学習だけで大変なボリュームになりますので，ここでの言及は避けることにします．

ここでは，単純な単回帰分析について最小二乗法によって説明します．

## 単回帰直線

ここでは2変量の組を扱います．
データを，$(x_1,y_1), (x_2,y_2), \cdots, (x_n,y_n)$ とします．
それぞれの統計量を次の記号で表します．
>  
$\mu_x$：変量 $x$ の平均値  
$\mu_y$：変量 $y$ の平均値  
${\sigma_x}^2$：変量 $x$ の標本分散  
$\sigma_{xy}$：変量 $x$ と $y$ との共分散  

このとき，単回帰直線は次式で与えられます．

> $\displaystyle Y = aX + b $

> $\displaystyle a = \frac{\sigma_{xy}}{{\sigma_x}^2} = \frac{\sum_{i=1}^{n}(x_i-\mu_x)(y_i-\mu_y)}{\sum_{i=1}^{n}{(x_i-\mu_x)}^2} $

> $\displaystyle b = \mu_y - a\mu_x $

### 証明

回帰直線の傾きとY切片を最小二乗法によって求めます．
最小二乗法とは，予測値と実測値との差の2乗の総和を最小にする直線を求める方法です．
したがって，評価関数は次の式となります．

$$ K(a,b) = \sum_{i=1}^{n}\{ax_i+b-y_i\}^2  $$

この式は，パラメータ $a$ および $b$ について2次関数になっています．
よって，それぞれの極値は各パラメータで微分した値がゼロとなるところです．

まずパラメータ $b$ による微分の式を求めます．

$$ \frac{\partial K}{\partial b} = 2\sum_{i=1}^{n}(ax_i+b-y_i) = 0 $$

この式を整理します．

$$ \begin{eqnarray}
a\sum_{i=1}^{n}x_i + \sum_{i=1}^{n}b - \sum_{i=1}^{n}y_i &=& 0 \\
an\mu_x + bn - n\mu_y &=& 0 \\
a\mu_x + b - {\mu_y} &=& 0 \\
b &=& \mu_y - a\mu_x \\
\end{eqnarray}$$

次にパラメータ $a$ による微分の式を求めます．

$$ \frac{\partial K}{\partial a} = 2\sum_{i=1}^{n}x_i(ax_i+b-y_i) = 0 $$

この式に，$b=\mu_y-a\mu_x$ を代入して整理ます．

$$ \begin{eqnarray}
a\sum_{i=1}^{n}{x_i}^2 + b\sum_{i=1}^{n}x_i - \sum_{i=1}^{n}x_iy_i &=& 0 \\
a\sum_{i=1}^{n}{x_i}^2 + (\mu_y-a\mu_x)n\mu_x - \sum_{i=1}^{n}x_iy_i &=& 0 \\
a\left\{\sum_{i=1}^{n}{x_i}^2-n{\mu_x}^2\right\} + n\mu_x\mu_y - \sum_{i=1}^{n}x_iy_i &=& 0 \\
\end{eqnarray}$$

これにより
$$ a = \frac{\sum_{i=1}^{n}x_iy_i-n\mu_x\mu_y}{\sum_{i=1}^{n}{x_i}^2-n{\mu_x}^2} $$

となります．
ここで，

$$ \begin{eqnarray}
\sum_{i=1}^{n}(x_i-\mu_x)(y_i-\mu_y)
&=& \sum_{i=1}^{n}\{ x_iy_i - x_i\mu_y - y_i\mu_x + \mu_x\mu_y \} \\
&=& \sum_{i=1}^{n}x_iy_i - \mu_y\sum_{i=1}^{n}x_i - \mu_x\sum_{i=1}^{n}y_i + \sum_{i=1}^{n}\mu_x\mu_y \\
&=& \sum_{i=1}^{n}x_iy_i - \mu_yn\mu_x - \mu_xn\mu_y + n\mu_x\mu_y \\
&=& \sum_{i=1}^{n}x_iy_i - n\mu_x\mu_y \\
\end{eqnarray} $$

さらに，この式で $x_i=y_i$ の場合は，
$$ \sum_{i=1}^{n}(x_i-\mu_x)^2 = \sum_{i=1}^{n}{x_i}^2-n{\mu_x}^2 $$
となります．

これらの式より，

$$  a = \frac{\sum_{i=1}^{n}(x_i-\mu_x)(y_i-\mu_y)}{\sum_{i=1}^{n}{(x_i-\mu_x)}^2} $$

が得られました．

以上で，単回帰の直線の方程式が求まりました．

*****