# 2変量の関係

2変量の間の線形関係を示す統計指標として共分散と相関係数があります．

- 共分散：2変量のバラツキの同調性を指数化した値です．
- 相関係数：共分散をそれぞれの変量の標準偏差で割って標準化した値です．

*****
## 共分散

2つの変量を $x = x_1,x_2,\cdots,x_n$ および $y = y_1,y_2,\cdots,y_n$ とします．
このとき，この2変量の共分散 $\sigma_{xy}$ は次式で定義されます．

> <font color='green'>$$\sigma_{xy} = \frac{1}{n} \sum_{i=1}^{n} (x_i-\mu_x)(y_i-\mu_y) $$</font>

ここで，

- $\mu_x$：変量 $x$ の平均値
- $\mu_y$：変量 $y$ の平均値

### 共分散の可換性

共分散の定義式より，変量を交換しても同じ値になります．

> <font color='green'>$$ \sigma_{xy} = \sigma_{yx} $$</font>

### 共分散と分散

共分散の式において，2つの変量が同じ場合は分散に一致します．

$$ \sigma_{xx} 
= \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu_x)(x_i-\mu_x)
= \frac{1}{n}\sum_{i=1}^{n}(x_i-\mu_x)^2
= {\sigma_x}^2 $$

すなわち，

> <font color='green'>$$ \sigma_{xx} = {\sigma_x}^2 $$</font>

### 共分散の計算公式

共分散$\sigma_{xy}$は次式で求まります

> <font color='green'>$$ \sigma_{xy} = \frac{1}{n}\sum_{i=1}^{n}x_i y_i - \mu_x\mu_y $$</font>

この式は，共分散の計算式を展開すれば求まります．

$$ \begin{eqnarray}
\sigma_{xy}
&=& \frac{1}{n}\sum_{i=1}^{n} (x_i-\mu_x)(y_i-\mu_y) \\
&=& \frac{1}{n}\sum_{i=1}^{n} \left\{ x_iy_i - x_i\mu_y - y_i\mu_x + \mu_x\mu_y \right\} \\
&=& \frac{1}{n}\sum_{i=1}^{n}x_iy_i 
   -\frac{1}{n}\sum_{i=1}^{n}x_i\mu_y 
   -\frac{1}{n}\sum_{i=1}^{n}y_i\mu_x 
   +\frac{1}{n}\sum_{i=1}^{n}\mu_x\mu_y \\
&=& \frac{1}{n}\sum_{i=1}^{n}x_iy_i - \mu_x\mu_y - \mu_y\mu_x + \mu_x\mu_y \\
&=& \frac{1}{n}\sum_{i=1}^{n}x_iy_i - \mu_x\mu_y \\
\end{eqnarray} $$

*****
## 分散共分散行列

2変量より多い多変量の共分散を考えます．
今，$m$個の変量を次のように定義します．

- $i$番目の変量を $x_i$ とします．各変量$x_i$は $n$個の値をとります．
- 変量 $x_i$ の分散を ${\sigma_i}^2$ とします．
- 変量 $x_i$ と $x_j$ との共分散を $\sigma_{ij}$ とします．

このとき分散共分散行列 $\bf\Sigma$ は，次のように定義されます．

> 
$$
{\bf \Sigma} = 
\left( \begin{array}{c}
{\sigma_1}^2& \sigma_{12} & \cdots & \sigma_{1m} \\
\sigma_{21} & {\sigma_2}^2& \ddots & \sigma_{2m} \\
\vdots      & \ddots      & \ddots & \vdots  \\
\sigma_{m1} & \sigma_{m2} & \cdots & {\sigma_m}^2 \\
\end{array} \right)
$$

分散共分散行列の逆行列 ${\bf \Sigma}^{-1}$ を精度行列と言い，機械学習では頻繁に利用されます．

*****
## 相関

2変量の間に直線的な関係性を相関と言い，その指標を<font color=blue>相関係数</font>と言います．

相関係数は $-1$ から $1$ の間の値となり，
その絶対値が $1$ に近いと相関が強いと言い， $0$ に近いと相関が弱いと言います．
また，相関係数の符号がプラスの場合は正の相関と言い，マイナスの場合は負の相関と言います．

### 相関係数

相関係数は，2変量の共分散をそれぞれの標準偏差で割った値として定義します．  
- 変量 $x$ を $x_1,x_2,\cdots,x_n$
- 変量 $y$ を $y_1,y_2,\cdots,y_n$
- $\mu_x$：変量 $x$ の平均値
- $\mu_y$：変量 $y$ の平均値
- $\sigma_x$：変量 $x$ の標準偏差
- $\sigma_y$：変量 $y$ の標準偏差
- $\sigma_{xy}$：$x$ と $y$ の共分散 

としたとき，変量 $x$ と $y$ との相関係数 $r$ は次式となります．

> 
$$
r = \frac{\sigma_{xy}}{\sigma_x\sigma_y}
= \frac{\sum_{i=1}^{n}(x_i-\mu_x)(y_i-\mu_y)}{\sqrt{\sum_{i=1}^{n}(x_i-\mu_x)^2}\sqrt{\sum_{i=1}^{n}(y_i-\mu_y)^2}}
$$

相関係数について，その評価は次のようになります．

|$-1$|  | ～ |  | $0$ |  | ～ |  | $1$ |
|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
|  |強い負の相関|  |弱い負の相関|無相関|弱い正の相関|  |強い正の相関| 　 |

相関係数の絶対値が幾つ以上だと相関があるのかという質問があります．
その基準は，扱っている現象によって異なります．
自然科学だと $0.8$ 以上の目安が多いですが，マーケティング目的だと $0.6$ でも相関があると判断されることがあります．
これは慣例的であり，数学的な規定はありません．

*****
## 相関行列

分散共分散行列の場合と同じく，$m$個の変量を次のように定義します．

- $i$番目の変量を $x_i$ とします．各変量$x_i$は $n$個の値をとります．
- 変量 $x_i$ と $x_j$ との相関 $r_{ij}$ とします．$r_{ij}=r_{ji}$ が成り立ちます．
- 変量 $x_i$ と $x_i$ 自身との相関は 1 となります．

このとき相関行列は，次のように定義されます．

> 
$$
{\bf R} = 
\left( \begin{array}{c}
1      & r_{12} & \cdots & r_{1m} \\
r_{21} & 1      & \ddots & r_{2m} \\
\vdots & \ddots & \ddots & \vdots \\
r_{m1} & r_{m2} & \cdots & 1      \\
\end{array} \right)
$$


多変量の計算は自然と行列計算になります．
多変量を克服するためには，統計以前に線形代数が重要になってきますので，回り道でも線形代数を学習することをお薦めします．

*****