歪度（Skewness）と尖度（Kurtosis）は、統計学におけるデータの分布形状を特徴付ける指標です。以下に、それぞれの定義と意味、計算方法について説明します。

### 歪度（Skewness）

#### 定義

歪度は、データ分布の非対称性の程度を示します。具体的には、データが平均値を中心に左右対称であるか、あるいはどちらか一方に偏っているかを測定します。

- **正の歪度**（右に歪んでいる）：分布の右側（高い値側）が長く伸びている場合。
- **負の歪度**（左に歪んでいる）：分布の左側（低い値側）が長く伸びている場合。
- **歪度が0**：完全に対称な分布（例えば正規分布）。

#### 計算式

歪度は次の式で計算されます：
$$
\text{Skewness} = \frac{n}{(n-1)(n-2)} \sum_{i=1}^n \left( \frac{x_i - \bar{x}}{s} \right)^3
$$
ここで、
- $n$ はデータの数。
- $x_i$ はデータの各値。
- $\bar{x}$ はデータの平均値。
- $s$ はデータの標準偏差。

### 尖度（Kurtosis）

#### 定義

尖度は、データ分布のピークの高さと、尾の重さを示します。通常、尖度は分布がどれだけ尖っているか、あるいは平らであるかを測定します。

- **高い尖度（Leptokurtic）**：ピークが高く、尾が重い分布。
- **低い尖度（Platykurtic）**：ピークが低く、尾が軽い分布。
- **尖度が0（Mesokurtic）**：正規分布と同じ形状。

#### 計算式

尖度は次の式で計算されます（通常、正規分布の尖度が3とされるため、実際には3を引いた値が用いられます）：
$$
\text{Kurtosis} = \frac{n(n+1)}{(n-1)(n-2)(n-3)} \sum_{i=1}^n \left( \frac{x_i - \bar{x}}{s} \right)^4 - \frac{3(n-1)^2}{(n-2)(n-3)}
$$
ここで、
- $n$ はデータの数。
- $x_i$ はデータの各値。
- $\bar{x}$ はデータの平均値。
- $s$ はデータの標準偏差。

### 具体例

例えば、データセットが $[1, 2, 2, 3, 4, 6, 9]$ である場合を考えます。

#### 歪度の計算

1. 平均値 $\bar{x}$ を計算します：
$$
\bar{x} = \frac{1 + 2 + 2 + 3 + 4 + 6 + 9}{7} = 3.857
$$

2. 標準偏差 $s$ を計算します：
$$
s = \sqrt{\frac{(1-3.857)^2 + (2-3.857)^2 + (2-3.857)^2 + (3-3.857)^2 + (4-3.857)^2 + (6-3.857)^2 + (9-3.857)^2}{6}} = 2.734
$$

3. 歪度を計算します：
$$
\text{Skewness} = \frac{7}{6 \times 5} \sum_{i=1}^7 \left( \frac{x_i - 3.857}{2.734} \right)^3 \approx 0.86
$$
これは右に歪んだ分布を示します。

#### 尖度の計算

1. 尖度を計算します：
$$
\text{Kurtosis} = \frac{7 \times 8}{6 \times 5 \times 4} \sum_{i=1}^7 \left( \frac{x_i - 3.857}{2.734} \right)^4 - \frac{3 \times 6^2}{5 \times 4} \approx 2.55 - 3 = -0.45
$$
これは正規分布よりも平らな分布を示します。

### まとめ

- **歪度** はデータの非対称性を示し、正の歪度は右に、負の歪度は左に歪んでいることを示します。
- **尖度** はデータのピークの高さと尾の重さを示し、正の尖度は鋭いピーク、負の尖度は平らな分布を示します。

これらの指標を使って、データの形状や特徴を詳しく分析することができます。

# チェビシェフの不等式
### チェビシェフの不等式の定義
チェビシェフの不等式は、任意の確率分布に対して成り立つ重要な不等式で、特定の範囲内にデータが存在する確率を下限するものです。この不等式は、分布の形状や性質に依存せずに適用できます。

チェビシェフの不等式は、平均 $\mu$ と標準偏差 $\sigma$ を持つ任意の確率分布について、次のように表されます：

$$
P(|X - \mu| \ge k\sigma) \le \frac{1}{k^2}
$$

ここで、
- $X$ は確率変数
- $\mu$ は $X$ の平均
- $\sigma$ は $X$ の標準偏差
- $k$ は正の実数

これは、「データが平均から $k$ 標準偏差以上離れている確率は、最大でも $\frac{1}{k^2}$ である」ということを意味します。

この不等式は、特定の範囲内にデータが存在する確率の下限を与えるため、次の形でも表せます：

$$
P(|X - \mu| < k\sigma) \ge 1 - \frac{1}{k^2}
$$

これは、「データが平均から $k$ 標準偏差以内に収まる確率は、少なくとも $1 - \frac{1}{k^2}$ である」ということを意味します。

### 具体例

具体的な例を考えてみましょう。あるデータセットの平均 $\mu = 100$、標準偏差 $\sigma = 15$ とします。

#### $k = 2$ の場合

チェビシェフの不等式を適用すると、

$$
P(|X - 100| \ge 2 \cdot 15) \le \frac{1}{2^2} = \frac{1}{4} = 0.25
$$

これは、データが平均から $2 \sigma = 30$ 以上離れている確率が最大で $0.25$（25%）であることを意味します。

逆に、データが平均から $2 \sigma = 30$ 以内に収まる確率は、

$$
P(|X - 100| < 30) \ge 1 - \frac{1}{2^2} = 1 - 0.25 = 0.75
$$

つまり、少なくとも $75\%$ のデータが平均から $30$ 以内に収まることを保証します。

#### $k = 3$ の場合

同様に、$k = 3$ の場合、

$$
P(|X - 100| \ge 3 \cdot 15) \le \frac{1}{3^2} = \frac{1}{9} \approx 0.111
$$

これは、データが平均から $3 \sigma = 45$ 以上離れている確率が最大で約 $11.1\%$ であることを意味します。

逆に、データが平均から $3 \sigma = 45$ 以内に収まる確率は、

$$
P(|X - 100| < 45) \ge 1 - \frac{1}{3^2} = 1 - 0.111 = 0.889
$$

つまり、少なくとも $88.9\%$ のデータが平均から $45$ 以内に収まることを保証します。

### まとめ

チェビシェフの不等式は、以下のような利点があります：

- **分布の形状に依存しない**：どんな分布でも適用可能です。
- **データの範囲を把握できる**：データがどれだけ平均値から離れているかを測るのに役立ちます。

チェビシェフの不等式は、データの範囲や散らばりを評価する際に有用であり、特に分布が不明な場合や非正規分布の場合に役立ちます。