# 統計初歩の初歩

## 分散の概念を徹底解説

このノートブックでは、統計学の基本概念である「分散」について詳しく解説する。初心者の方にもわかりやすいように、基礎から丁寧に説明していく。

## 1. データのばらつきを理解する

統計学では、データの特徴を理解するために様々な指標を使う。データの特徴は大きく分けて以下の2つの側面から捉えることができる：

1. **中心傾向**：データの中心的な値（平均値、中央値、最頻値など）
2. **散布度（ばらつき）**：データが中心からどれだけ散らばっているか

「分散」は、このデータのばらつきを表す最も基本的な指標の一つだ。分散を理解するためには、まず「偏差」という概念を理解する必要がある。

## 2. 偏差（へんさ）とは

**偏差**とは、各データ値と平均値との差のことだ。

数式で表すと：

偏差 = データ値 - 平均値

例えば、データ [2, 4, 6, 8, 10] の平均値は 6 だ。このとき、各データの偏差は：
- 2の偏差 = 2 - 6 = -4
- 4の偏差 = 4 - 6 = -2
- 6の偏差 = 6 - 6 = 0
- 8の偏差 = 8 - 6 = 2
- 10の偏差 = 10 - 6 = 4

偏差は、データが平均からどれだけ離れているかを示す。正の値は平均より大きいことを、負の値は平均より小さいことを意味する。

In [None]:
# Pythonで偏差を計算する例
import numpy as np
import matplotlib.pyplot as plt

# サンプルデータ
data = [2, 4, 6, 8, 10]

# 平均値を計算
mean = np.mean(data)
print(f"データ: {data}")
print(f"平均値: {mean}")

# 各データの偏差を計算
deviations = [x - mean for x in data]
print(f"偏差: {deviations}")

# 偏差の合計を確認
print(f"偏差の合計: {sum(deviations)}")

# 偏差を視覚化
plt.figure(figsize=(10, 6))
plt.axhline(y=mean, color='r', linestyle='-', label='平均値')
plt.scatter(range(len(data)), data, color='blue', label='データ')

# 偏差を矢印で表示
for i, (d, dev) in enumerate(zip(data, deviations)):
    plt.arrow(i, mean, 0, dev, head_width=0.1, head_length=0.2, fc='green', ec='green')
    plt.text(i+0.1, (mean+d)/2, f"{dev}", fontsize=12)

plt.title('データと偏差の視覚化')
plt.xlabel('データのインデックス')
plt.ylabel('値')
plt.legend()
plt.grid(True)
plt.show()

### 偏差の重要な性質

偏差には重要な性質がある：**偏差の合計は常に0になる**

これは、平均値の定義から導かれる性質だ。平均値は、データの総和をデータ数で割ったものなので、偏差の合計が0になるのは数学的に証明できる。

この性質から、偏差の平均も0になる。そのため、偏差の平均をデータのばらつきの指標として使うことはできない。

## 3. 分散（ぶんさん）とは

**分散**は、偏差の二乗の平均値だ。

数式で表すと：

分散 = Σ(データ値 - 平均値)² ÷ データ数

または、母集団と標本で区別すると：

母分散 σ² = Σ(x - μ)² ÷ N  （母集団全体の分散）
標本分散 s² = Σ(x - x̄)² ÷ n  （標本の分散）

ここで：
- x：各データ値
- μ：母平均
- x̄：標本平均
- N：母集団のサイズ
- n：標本のサイズ

なぜ偏差を二乗するのだろうか？それには2つの理由がある：

1. **正負の相殺を防ぐため**：偏差の合計は常に0になるため、そのままでは散布度の指標として使えない。二乗することで、すべての値が非負になる。
2. **外れ値の影響を強調するため**：二乗することで、平均から大きく離れたデータの影響がより強く反映される。

In [None]:
# Pythonで分散を計算する例
import numpy as np

# サンプルデータ
data = [2, 4, 6, 8, 10]

# 平均値を計算
mean = np.mean(data)
print(f"データ: {data}")
print(f"平均値: {mean}")

# 各データの偏差を計算
deviations = [x - mean for x in data]
print(f"偏差: {deviations}")

# 偏差の二乗を計算
squared_deviations = [dev**2 for dev in deviations]
print(f"偏差の二乗: {squared_deviations}")

# 分散を計算（手動で）
variance_manual = sum(squared_deviations) / len(data)
print(f"手動で計算した分散: {variance_manual}")

# NumPyを使って分散を計算
variance_numpy = np.var(data)
print(f"NumPyで計算した分散: {variance_numpy}")

# 標本分散（不偏分散）を計算
# 標本から母集団の分散を推定する場合、分母をn-1にする
sample_variance = np.var(data, ddof=1)  # ddof=1 で不偏分散を計算
print(f"標本分散（不偏分散）: {sample_variance}")