# 高次元空間における球面集中現象(Concentration of Measure)の可視化

### 高次元空間においてランダムに生成されたベクトルの長さの分布の可視化

授業ではサイコロの目を確率変数として高次元ベクトルを構成した。
ここでは、それをさらに一般化するために、サイコロの目の変わりに[-1, 1]の範囲の一様乱数を用いてベクトルを構成した。

下のセルを実行することにより、ランダムに生成した1万個のベクトルの長さの分布が高次元になるほど1に収束していく様子を確認することができる。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def sample_and_normalize_point_in_mdim_space(dim, num_samples):
    """dim次元空間でランダムに点をサンプリングし、原点からの平均距離で正規化"""
    points = [np.random.uniform(-1, 1, dim) for _ in range(num_samples)]
    avg_distance = np.mean([np.linalg.norm(p) for p in points])
    normalized_points = [p/avg_distance for p in points]
    return normalized_points
    
def visualize_normalized_distance_distribution_in_space(dimensions, num_samples):
    """指定した次元数の正規化された距離の分布を線で表示"""
    plt.figure(figsize=(10, 6))
    for dim in dimensions:
        normalized_distances = [np.linalg.norm(p) for p in sample_and_normalize_point_in_mdim_space(dim, num_samples)]
        hist, bins = np.histogram(normalized_distances, bins=30, density=True)
        bin_centers = (bins[:-1] + bins[1:]) / 2
        plt.plot(bin_centers, hist, label=f"Dimension = {dim}", alpha=0.7)
    
    plt.xlabel("Distance from Origin to Normalized Random Point")
    plt.ylabel("Density")
    plt.title("Distribution of normalized distances in different dimensional spaces")
    #plt.xlim(0, 2)
    plt.ylim(0,)
    plt.legend()
    plt.show()

# 低次元から高次元におけるランダムに生成したベクトル間の頂点距離の分布を比較
visualize_normalized_distance_distribution_in_space([3, 10, 50, 100, 500, 1000], 10000)

### 高次元空間での、コサイン類似度の分布を可視化する。

上と同じように一様乱数を用いて生成された1万個のベクトルを用い、ベクトル間のコサイン類似度（ベクトルの長さを１に規格化して内積をとることに等しい）の分布がどうなるかを調べてみた。

この結果からは、高次元になればなるほど、ランダムに生成されたベクトルどおしが直交する（コサイン類似度が０になる）割合が多いことを示している。
すなわち高次元空間では、ランダムに生成したベクトル群は、「互いに似ていない（互いに直交している）」ことを示している。

この点については授業で詳しくは述べていないので参考までに。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def sample_point_in_mdim_space(dim):
    """指定された次元空間でランダムに点をサンプリング"""
    return np.random.uniform(-1, 1, dim)

def cosine_similarity(v1, v2):
    """2つのベクトル間のコサイン類似度を計算"""
    dot_product = np.dot(v1, v2)
    norm_v1 = np.linalg.norm(v1)
    norm_v2 = np.linalg.norm(v2)
    return dot_product / (norm_v1 * norm_v2)

def visualize_distance_and_cosine_similarity_distribution(dimensions, num_pairs=1000):
    plt.figure(figsize=(10, 6))

    # plot for cosine similarity distribution
    for dim in dimensions:
        similarities = [cosine_similarity(sample_point_in_mdim_space(dim), sample_point_in_mdim_space(dim)) for _ in range(num_pairs)]
        hist, bins = np.histogram(similarities, bins=20, density=True)
        bin_centers = (bins[:-1] + bins[1:]) / 2
        plt.plot(bin_centers, hist, label=f"Dimension = {dim}", alpha=0.7)
    plt.xlabel("Cosine similarity between two random points")
    plt.ylabel("Density")
    plt.title("Distribution of cosine similarities in different dimensions")
    plt.legend()

    plt.show()

# 低次元から高次元におけるランダムに生成したベクトル間のコサイン類似度の分布を比較
visualize_distance_and_cosine_similarity_distribution([3, 10, 50, 100, 500, 1000], 10000)

## 中心極限定理 (参考)

授業では、球面集中現象は中心局限定理（または大数の法則）で説明可能と述べた。

中心極限定理は、独立な確率変数（サイコロの目や一様乱数など）の和が正規分布に近づくというものである。
その様子を次のセルで確認することができる。

球面集中現象も、その背景には、この中心極限定理が効いている。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def plot_normalized_clt_line(samples_list):
    """[-1, 1]の一様分布からのサンプルの平均で正規化された合計の分布を線でプロットする関数"""
    plt.figure(figsize=(10, 6))
    
    for num_samples in samples_list:
        # [-1, 1]の一様分布からサンプルを取得
        normalized_sums = [(np.sum(np.random.uniform(-1, 1, num_samples)) / num_samples) for _ in range(10000)]
        
        hist, bins = np.histogram(normalized_sums, bins=300, density=True, range=[-1, 1])
        bin_centers = (bins[:-1] + bins[1:]) / 2
        plt.plot(bin_centers, hist, label=f"{num_samples} samples")
        
    plt.title("Distribution of Normalized Sums from Uniform Random Samples in [-1, 1]")
    plt.xlabel("Normalized Sum")
    plt.ylabel("Density")
    plt.legend()
    plt.grid(True, which="both", linestyle="--", linewidth=0.5)
    plt.show()

# 乱数のサンプル数のリスト
samples_list = [1, 2, 10, 50, 100, 1000]
plot_normalized_clt_line(samples_list)
