# PaCMAPを理解するためのノートブック

In [None]:
# ライブラリのインポート
import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import interact, IntSlider
from sklearn.datasets import make_blobs
from scipy.spatial.distance import pdist, squareform
import pacmap

In [None]:
# データセットの生成
X, y = make_blobs(n_samples=400, n_features=3, centers=4, random_state=42, cluster_std=3)

# 3Dプロットのインタラクティブ表示
def plot_3d(elev=30, azim=30):
    fig = plt.figure(figsize=(10, 8))
    ax = fig.add_subplot(111, projection='3d')
    ax.scatter(X[:, 0], X[:, 1], X[:, 2], c=y, cmap='viridis')
    ax.set_title("Original Data in 3D")
    ax.set_xlabel("Feature 1")
    ax.set_ylabel("Feature 2")
    ax.set_zlabel("Feature 3")
    ax.view_init(elev=elev, azim=azim)
    plt.show()

# ウィジェットを用いたインタラクティブプロット
interact(plot_3d, elev=IntSlider(min=-180, max=180, step=10, value=30), azim=IntSlider(min=-180, max=180, step=10, value=30))

In [None]:
# データ間の距離を計算
distances = pdist(X, 'euclidean')

# 距離のヒストグラムをプロット
plt.figure(figsize=(10, 6))
plt.hist(distances, bins=50, alpha=0.75, color='blue')
plt.title("Distribution of Pairwise Distances in 3D Data")
plt.xlabel("Distance")
plt.ylabel("Frequency")
plt.grid(True)
plt.show()

In [None]:
# PaCMAPの適用
def apply_pacmap(X, n_neighbors=10):
    instance = pacmap.PaCMAP(n_components=2, n_neighbors=n_neighbors)
    X_pacmap = instance.fit_transform(X)
    return X_pacmap

# n_neighbors値を変更しながらプロット
neighbor_settings = [5, 15, 30, 50]
plt.figure(figsize=(10, 8))
for i, n_neighbors in enumerate(neighbor_settings):
    X_pacmap = apply_pacmap(X, n_neighbors)
    plt.subplot(2, 2, i+1)
    plt.scatter(X_pacmap[:, 0], X_pacmap[:, 1], c=y)
    plt.title(f"PaCMAP with n_neighbors={n_neighbors}")
plt.tight_layout()
plt.show()


In [None]:
from scipy.spatial.distance import pdist, squareform

# n_neighbors値を変更しながらプロット
neighbor_settings = [5, 15, 30, 50]
plt.figure(figsize=(10, 8))

# 元のデータの距離行列
distances_original = squareform(pdist(X))

for i, n_neighbors in enumerate(neighbor_settings):
    X_r = apply_pacmap(X, n_neighbors)
    distances = squareform(pdist(X_r))

    # プロット
    plt.subplot(2, 2, i+1)
    plt.scatter(distances_original.flatten(), distances.flatten(), alpha=0.05, s=0.1)
    plt.title(f"Distances: PaCMAP Neighbors={n_neighbors}")
    plt.xlabel("Original Distances")
    plt.ylabel("PaCMAP Distances")
    plt.grid(True)

plt.tight_layout()
plt.show()