## 共分散

共分散は、二つの確率変数の間の関係を定量化するために使われる指標で、二つの変数がどのように一緒に変動するかを測定します。共分散が正の値を持つ場合、二つの変数は同じ方向に変動し、負の値を持つ場合、逆の方向に変動します。共分散がゼロに近い場合、二つの変数は無関係であると解釈されます。

### 定義

二つの確率変数 $X$ と $Y$ の共分散 $\text{Cov}(X, Y)$ は、次のように定義されます：

$$
\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]
$$

ここで、
- $E[X]$ は $X$ の期待値（平均値）
- $E[Y]$ は $Y$ の期待値（平均値）
- $E[(X - E[X])(Y - E[Y])]$ は、$X$ と $Y$ の偏差の積の期待値です

### 計算方法

共分散の計算は次のステップで行います：

1. $X$ と $Y$ の平均値を計算します。
2. 各データ点について、$(X_i - E[X])$ と $(Y_i - E[Y])$ を計算します。
3. これらの積を計算し、その平均を取ります。

式で表すと次の通りです：

$$
\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})
$$

ここで、
- $n$ はデータ点の数
- $\bar{X}$ は $X$ の平均値
- $\bar{Y}$ は $Y$ の平均値

### 例

例えば、$X$ と $Y$ という二つの変数のデータセットがあるとします：

$X = [1, 2, 3, 4, 5]$
$Y = [2, 4, 6, 8, 10]$

共分散を計算してみましょう：

1. $X$ と $Y$ の平均値を計算します：

$$
\bar{X} = \frac{1+2+3+4+5}{5} = 3
$$

$$
\bar{Y} = \frac{2+4+6+8+10}{5} = 6
$$

2. 各データ点について、$(X_i - \bar{X})$ と $(Y_i - \bar{Y})$ を計算します：

$$
(X_i - \bar{X}) = [-2, -1, 0, 1, 2]
$$

$$
(Y_i - \bar{Y}) = [-4, -2, 0, 2, 4]
$$

3. これらの積を計算し、その平均を取ります：

$$
(X_i - \bar{X})(Y_i - \bar{Y}) = [8, 2, 0, 2, 8]
$$

$$
\text{Cov}(X, Y) = \frac{1}{5} (8 + 2 + 0 + 2 + 8) = 4
$$

この場合、$X$ と $Y$ の共分散は $4$ です。

### Pythonでの実装例

共分散をPythonで計算する方法を紹介します。

In [2]:
# データセット
import numpy as np
X = np.array([1, 2, 3, 4, 5])
Y = np.array([2, 4, 6, 8, 10])

# 共分散を計算
cov_matrix = np.cov(X, Y, bias=True)
cov_xy = cov_matrix[0, 1]

print(f"共分散: {cov_xy}")

共分散: 4.0


このコードは、$X$ と $Y$ の共分散を計算します。`np.cov` 関数は共分散行列を返し、その [0, 1] 要素が $X$ と $Y$ の共分散です。

### まとめ

- **共分散** は二つの変数の間の共変動を測定する指標です。
- **正の共分散** は二つの変数が同じ方向に変動することを示し、**負の共分散** は逆方向に変動することを示します。
- **計算方法** は、各変数の平均からの偏差の積の平均を取ることです。
- Python では、`numpy` ライブラリを使用して簡単に共分散を計算できます。

共分散は、変数間の関係性を理解するための重要なツールであり、特に統計分析や機械学習において広く使用されています。

## 相関係数

相関係数は、二つの変数間の線形関係の強さと方向を測定する指標です。相関係数は共分散を基にしていますが、値が-1から1の範囲に正規化されているため、変数のスケールに依存しません。

### 定義

最も一般的な相関係数はピアソンの積率相関係数（Pearson correlation coefficient）で、$X$ と $Y$ という二つの変数の相関係数 $r_{XY}$ は次のように定義されます：

$$
r_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}
$$

ここで、
- $\text{Cov}(X, Y)$ は $X$ と $Y$ の共分散
- $\sigma_X$ は $X$ の標準偏差
- $\sigma_Y$ は $Y$ の標準偏差

### 性質

- **範囲**: 相関係数の値は $-1$ から $1$ の間にあります。
  - $r_{XY} = 1$: 完全な正の線形関係
  - $r_{XY} = -1$: 完全な負の線形関係
  - $r_{XY} = 0$: 線形関係がない

- **符号**:
  - 正の相関係数: 変数が同じ方向に変動
  - 負の相関係数: 変数が逆方向に変動

### 計算方法

相関係数は次のように計算できます：

1. $X$ と $Y$ の平均を計算します。
2. 各データ点について、$(X_i - \bar{X})$ と $(Y_i - \bar{Y})$ を計算します。
3. 共分散を計算します。
4. $X$ と $Y$ の標準偏差を計算します。
5. 共分散を標準偏差の積で割ります。

### 例

$X$ と $Y$ のデータセットが以下の場合：

$X = [1, 2, 3, 4, 5]$
$Y = [2, 4, 6, 8, 10]$

1. 平均値を計算します：

$$
\bar{X} = 3, \quad \bar{Y} = 6
$$

2. 各データ点について、偏差を計算します：

$$
(X_i - \bar{X}) = [-2, -1, 0, 1, 2]
$$

$$
(Y_i - \bar{Y}) = [-4, -2, 0, 2, 4]
$$

3. 共分散を計算します：

$$
\text{Cov}(X, Y) = \frac{1}{5} (8 + 2 + 0 + 2 + 8) = 4
$$

4. 標準偏差を計算します：

$$
\sigma_X = \sqrt{\frac{1}{5} ((-2)^2 + (-1)^2 + 0^2 + 1^2 + 2^2)} = \sqrt{2} \approx 1.414
$$

$$
\sigma_Y = \sqrt{\frac{1}{5} ((-4)^2 + (-2)^2 + 0^2 + 2^2 + 4^2)} = \sqrt{8} \approx 2.828
$$

5. 相関係数を計算します：

$$
r_{XY} = \frac{4}{1.414 \times 2.828} \approx 1
$$

この場合、$X$ と $Y$ の相関係数は 1 であり、完全な正の線形関係があることを示しています。

### Pythonでの実装例

Pythonを使って相関係数を計算する方法を紹介します。


このコードは、`numpy` の `corrcoef` 関数を使用して $X$ と $Y$ の相関係数を計算します。`corrcoef` 関数は相関行列を返し、その [0, 1] 要素が $X$ と $Y$ の相関係数です。



In [3]:
import numpy as np

# データセット
X = np.array([1, 2, 3, 4, 5])
Y = np.array([2, 4, 6, 8, 10])

# 相関係数を計算
correlation_matrix = np.corrcoef(X, Y)
correlation_xy = correlation_matrix[0, 1]

print(f"相関係数: {correlation_xy}")

相関係数: 0.9999999999999999


### まとめ

- **相関係数** は、二つの変数間の線形関係の強さと方向を測定する指標です。
- **範囲**: 相関係数の値は $-1$ から $1$ の間にあります。
- **計算方法**: 共分散を二つの変数の標準偏差の積で割ります。
- Pythonでは、`numpy` ライブラリを使用して簡単に相関係数を計算できます。

相関係数は統計学やデータ分析において、変数間の関係性を理解するための重要なツールです。