# セッション1: モデル選択と情報理論
概要:   
本セッションでは、モデルの複雑さと過学習、次元の呪い、基本的な情報理論の概念をPythonで体験します。具体的には、ポリノミナル回帰モデルでの過学習例、データの次元が増えることによる最近傍距離の変化、離散分布間のKLダイバージェンス計算などを行います。

## 目的
- 過学習と汎化誤差の違いを理解する
- 次元の呪いの影響を可視化する
- 情報理論の基礎（KLダイバージェンス）を実装で確認する

## 問題2: 次元の呪い
高次元空間における「最近傍点と最遠点の距離比」を計算し、次元が上がるとどうなるかを確認しましょう。

高次元データ空間における直感的でない現象を確認します。特に、ユニットハイパーキューブ（各次元が[0,1]区間）内で点をランダムに生成し、あるクエリ点からの最近傍距離と最遠距離の比や差を次元数に応じて調べます。次元が増加すると、最近傍点と最遠点までの距離にどのような変化が起きるでしょうか。これが「次元の呪い」と呼ばれる現象の一端です。

In [None]:
dims = [1, 2, 5, 10, 50, 100]
num_points = 1000

for d in dims:
    # [0,1]^d 内に一様に num_points 個の乱数点を生成
    data = np.random.rand(num_points, d)
    # クエリ点もランダムに1つ生成
    query = np.random.rand(1, d)
    # ユークリッド距離を計算
    distances = np.linalg.norm(data - query, axis=1)
    nearest = distances.min()
    farthest = distances.max()
    ratio = ____ / ____
    print(f"{d}次元: 最近傍距離={nearest:.4f}, 最遠距離={farthest:.4f}, 比率={ratio:.4f}")

In [4]:
# 解答
import numpy as np

# パラメータ設定
num_points = 1000    # 各次元で生成する点の数
dims = [1, 2, 5, 10, 50, 100]  # 調べるデータの次元次
np.random.seed(0)

for d in dims:
    # [0,1]^d 内に一様に num_points 個の乱数点を生成
    data = np.random.rand(num_points, d)
    # クエリ点もランダムに1つ生成
    query = np.random.rand(1, d)
    # ユークリッド距離を計算
    distances = np.linalg.norm(data - query, axis=1)
    nearest = distances.min()
    farthest = distances.max()
    ratio = nearest / farthest
    print(f"{d}次元: 最近傍距離={nearest:.4f}, 最遠距離={farthest:.4f}, 比率(nearest/farthest)={ratio:.4f}")


1次元: 最近傍距離=0.0006, 最遠距離=0.5923, 比率(nearest/farthest)=0.0011
2次元: 最近傍距離=0.0143, 最遠距離=0.9671, 比率(nearest/farthest)=0.0148
5次元: 最近傍距離=0.2083, 最遠距離=1.5257, 比率(nearest/farthest)=0.1365
10次元: 最近傍距離=0.4382, 最遠距離=1.8743, 比率(nearest/farthest)=0.2338
50次元: 最近傍距離=2.0946, 最遠距離=3.3080, 比率(nearest/farthest)=0.6332
100次元: 最近傍距離=3.4237, 最遠距離=4.7586, 比率(nearest/farthest)=0.7195


このように、次元が高くなるにつれて最近傍距離と最遠距離の差が縮まり、比率が1に近づいていることが分かります。1次元ではクエリに非常に近い点と遠い点の距離差が大きいですが、100次元にもなると最も近い点でさえクエリ点からかなり離れており、最遠点との距離との差は相対的に小さくなっています。**「高次元では全ての点がほぼ同じ距離にある」**という現象の一例です。これは高次元空間ではデータがスカスカになる（体積が指数的に増加する）ためであり、距離に基づく手法（例: k近傍法）の識別力が低下する原因となります。この結果は「次元の呪い」の典型例であり、高次元データを扱う際には次元削減や適切な距離尺度の選択が重要になります。

## 問題3: KLダイバージェンス
2つの離散確率分布間のKLダイバージェンスを計算してみましょう。

情報理論の観点から、確率分布間の距離（非対称な指標）であるKLダイバージェンスを計算し解釈します。2つの簡単な確率分布間のKLダイバージェンスをPythonで計算し、その非対称性と値の意味を確認してください。また、エントロピーやクロスエントロピーとの関係についても考察します（必要に応じて）。ここでは例として、コインの表裏の分布を扱います。

In [5]:
# 2つの離散分布PとQを定義（例: コインの表裏の確率分布）
P = np.array([0.8, 0.2])  # P: 表が80%, 裏が20%のコイン
Q = np.array([0.5, 0.5])  # Q: 表裏50%ずつの公平なコイン

# KLダイバージェンス D(P||Q) の計算
# 定義: D(P||Q) = Σ P(x) * log( P(x) / Q(x) )
KL_PQ = np.sum(P * np.log(P / Q))

# KLダイバージェンス D(Q||P) も計算
KL_QP = np.sum(Q * np.log(Q / P))

# TODO: 結果を出力して非対称性を確認しましょう
print("KL(P||Q) =", ____)
print("KL(Q||P) =", ____)

NameError: name '____' is not defined

In [6]:
# 解答

import numpy as np

# 2つの離散分布PとQを定義（例: コインの表裏の確率分布）
P = np.array([0.8, 0.2])  # P: 表が80%, 裏が20%のコイン
Q = np.array([0.5, 0.5])  # Q: 表裏50%ずつの公平なコイン

# KLダイバージェンス D(P||Q) の計算
# 定義: D(P||Q) = Σ P(x) * log( P(x) / Q(x) )
KL_PQ = np.sum(P * np.log(P / Q))

# KLダイバージェンス D(Q||P) も計算
KL_QP = np.sum(Q * np.log(Q / P))

print(f"KL(P||Q) = {KL_PQ:.4f}")
print(f"KL(Q||P) = {KL_QP:.4f}")


KL(P||Q) = 0.1927
KL(Q||P) = 0.2231


となります。重要な点は、KL(P||Q) と KL(Q||P) は一般に等しくならない（非対称性）ことです。この例でも値が異なり、
$D(P||Q) = 0.2579$ は、真の分布Pを仮定してそれをQで近似したときの情報損失を意味します。Pでは表が出る確率が高いのにQでは50%と仮定しているため、それなりの情報ロスが発生しています。
$D(Q||P) = 0.2231$ は、逆に公平なコインQを偏ったコインPでモデル化した場合の情報損失であり、こちらは若干小さい値です。
KLダイバージェンスの単位はナット（自然対数の場合）で、この値が0であれば2つの分布は同一、値が大きいほど分布間の差異が大きいことを表します。常に0以上であること（非負性）も確認できます。この指標は情報理論だけでなく、機械学習の最適化（例: $⾮\mathrm{負}\mathrm{log}$尤度はデータ分布とモデル分布のKLダイバージェンスに対応）や、モデル間距離の評価など様々な場面で現れます。なお、エントロピーH(P)とクロスエントロピーH(P, Q)を用いれば $D(P||Q) = H(P, Q) - H(P)$ と表せます。この例で計算すれば、

In [7]:
H_P = -np.sum(P * np.log(P))            # Pのエントロピー
H_PQ = -np.sum(P * np.log(Q))           # Pに対するQのクロスエントロピー
print(H_PQ - H_P)  # KLと一致するはず


0.19274475702175742


とすることでKLの値と一致することが確かめられます。これらの概念は情報理論(1.6節)で詳しく述べられています。