# 

In [1]:
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import pandas as pd
# pca
from sklearn.decomposition import PCA
# tsne
from sklearn.manifold import TSNE
# umap
from umap import UMAP

In [2]:
# mnist
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', version=1, as_frame=False)

  warn(


In [3]:
num_sample = 5000
high_dim_data = mnist.data[:num_sample]
metadata = mnist.target[:num_sample]

In [5]:
# umap
umap = UMAP(n_components=2, random_state=42)
import time
start_time = time.time()
umap_result = umap.fit_transform(high_dim_data)
print(f"UMAP took {time.time() - start_time:.2f} seconds")
fig = px.scatter(umap_result, x=0, y=1, color=metadata.astype(int), title='UMAP on MNIST')
fig.show()

  warn(


UMAP took 4.68 seconds


# UMAP (Uniform Manifold Approximation and Projection)

## 主要なハイパーパラメータ

- **n_neighbors**: 最も重要なパラメータの1つ。各データポイントの周りの局所的な近傍構造を決定します。
  - 小さい値（例：5-15）: 局所的な構造を保持、より詳細なクラスター構造が見える
  - 大きい値（例：30-100）: グローバルな構造を保持、クラスター間の関係性が見えやすくなる
  - デフォルト値: 15

- **min_dist**: 埋め込み空間内のポイント間の最小距離。
  - 小さい値（例：0.0-0.1）: より密集したクラスター、局所構造の詳細が見える
  - 大きい値（例：0.5-1.0）: より分散したクラスター、グローバル構造が見えやすい
  - デフォルト値: 0.1

- **n_components**: 出力次元数（通常は2か3）
  - デフォルト値: 2

- **metric**: 高次元空間での距離計算に使用する距離関数
  - 一般的なオプション: 'euclidean', 'manhattan', 'cosine', 'correlation'
  - デフォルト値: 'euclidean'

- **random_state**: 結果の再現性のための乱数シード
  - 同じ値を設定すると同じ結果が得られる
  - デフォルト値: None（毎回異なる結果）

- **n_epochs**: 最適化ステップの回数
  - 大きい値: より精度の高い埋め込み（ただし計算コスト増加）
  - 小さい値: より高速だが精度が低下する可能性
  - デフォルト値: None（データサイズに基づいて自動決定）

## PCAとの比較
- PCAは線形で計算が速いが非線形な関係を捉えられない
- UMAPは非線形で局所的および大域的構造の両方を保持できるが、計算コストが高い
- UMAPはt-SNEよりも計算が速く、グローバル構造もより良く保持する

In [6]:
import time
# n_neighbors パラメータの実験
neighbors_values = [5, 15, 30, 50]

for n_neighbors in neighbors_values:
    umap = UMAP(n_components=2, n_neighbors=n_neighbors, random_state=42)
    start_time = time.time()
    umap_result = umap.fit_transform(high_dim_data)
    print(f"UMAP with n_neighbors={n_neighbors} took {time.time() - start_time:.2f} seconds")
    fig = px.scatter(umap_result, x=0, y=1, color=metadata.astype(int), 
                    title=f'UMAP on MNIST (n_neighbors={n_neighbors})')
    fig.show()


n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP with n_neighbors=5 took 5.24 seconds



n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP with n_neighbors=15 took 4.78 seconds



n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP with n_neighbors=30 took 6.62 seconds



n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP with n_neighbors=50 took 9.01 seconds


In [7]:
# min_dist パラメータの実験
min_dist_values = [0.0, 0.1, 0.5, 1.0]

for min_dist in min_dist_values:
    umap = UMAP(n_components=2, min_dist=min_dist, random_state=42)
    start_time = time.time()
    umap_result = umap.fit_transform(high_dim_data)
    print(f"UMAP with min_dist={min_dist} took {time.time() - start_time:.2f} seconds")
    fig = px.scatter(umap_result, x=0, y=1, color=metadata.astype(int), 
                    title=f'UMAP on MNIST (min_dist={min_dist})')
    fig.show()


n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP with min_dist=0.0 took 5.39 seconds



n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP with min_dist=0.1 took 4.92 seconds



n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP with min_dist=0.5 took 5.18 seconds



n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP with min_dist=1.0 took 4.95 seconds


In [8]:
# PCAとUMAPの比較
# PCA
pca = PCA(n_components=2)
start_time = time.time()
pca_result = pca.fit_transform(high_dim_data)
print(f"PCA took {time.time() - start_time:.2f} seconds")

# UMAP (標準パラメータ)
umap = UMAP(n_components=2, random_state=42)
start_time = time.time()
umap_result = umap.fit_transform(high_dim_data)
print(f"UMAP took {time.time() - start_time:.2f} seconds")

# 結果の可視化と比較
import plotly.subplots as sp

fig = sp.make_subplots(rows=1, cols=2, 
                      subplot_titles=('PCA (線形次元削減)', 'UMAP (非線形次元削減)'),
                      horizontal_spacing=0.1)

# PCAのプロット
fig.add_trace(
    go.Scatter(
        x=pca_result[:, 0], y=pca_result[:, 1],
        mode='markers',
        marker=dict(
            size=5,
            color=metadata.astype(int),
            colorscale='Viridis',
            showscale=True,
            colorbar=dict(
                title='Digit',
                x=0.45
            )
        ),
        showlegend=False
    ),
    row=1, col=1
)

# UMAPのプロット
fig.add_trace(
    go.Scatter(
        x=umap_result[:, 0], y=umap_result[:, 1],
        mode='markers',
        marker=dict(
            size=5,
            color=metadata.astype(int),
            colorscale='Viridis',
            showscale=True,
            colorbar=dict(
                title='Digit',
                x=1.0
            )
        ),
        showlegend=False
    ),
    row=1, col=2
)

fig.update_layout(
    height=500,
    width=1000,
    title_text="PCAとUMAPの比較 (MNISTデータセット)"
)

fig.show()

PCA took 0.09 seconds



n_jobs value 1 overridden to 1 by setting random_state. Use no seed for parallelism.



UMAP took 5.38 seconds


# 次元削減手法の比較と使い分け

## PCAとUMAPの特徴比較

| 特性 | PCA | UMAP |
| --- | --- | --- |
| アルゴリズムの種類 | 線形 | 非線形 |
| 計算速度 | 速い（O(d²n) + O(d³)） | 中程度（PCAより遅いがt-SNEより速い） |
| スケーラビリティ | 高い（大規模データにも対応可能） | 中程度（t-SNEより良い） |
| 局所構造の保存 | 弱い | 強い |
| 大域構造の保存 | 中程度 | 強い（t-SNEより優れている） |
| ハイパーパラメータ調整 | 少ない（単純） | 多い（複雑） |
| 再現性 | 決定論的（常に同じ結果） | 確率的（random_stateで制御可能） |
| メモリ使用量 | 少ない | 中程度 |

## 使い分けのガイドライン

### PCAを使うべき場面:
- 初期探索分析として手軽に全体構造を把握したい場合
- 計算リソースが限られている場合
- 線形の関係性が主要である場合
- 再現性が重要な場合
- 次元数を減らしながらもデータの分散を最大限保持したい場合
- 特徴量の重要度を把握したい場合（固有ベクトル/主成分）

### UMAPを使うべき場面:
- データに非線形な関係性が存在する場合
- クラスタリングの前処理として使用する場合
- 局所的な構造と大域的な構造の両方を保持したい場合
- 高次元データの視覚化が主目的の場合
- t-SNEより計算効率や大域構造の保存が必要な場合
- クラスター間の関係性を視覚的に把握したい場合

## 実践的なワークフロー
1. まずPCAで素早く全体像を把握
2. データに非線形構造が疑われる場合はUMAPで詳細分析
3. 目的に応じてパラメータを調整（クラスタリング vs 可視化）
4. 必要に応じて両手法の結果を比較検証

In [None]:
# UMAPの主要パラメータの組み合わせによる効果を視覚化
import plotly.subplots as sp

# パラメータの組み合わせ
n_neighbors_values = [5, 15, 50]
min_dist_values = [0.0, 0.1, 0.5]

# サブプロット作成
fig = sp.make_subplots(
    rows=len(n_neighbors_values), 
    cols=len(min_dist_values),
    subplot_titles=[f'n_neighbors={n}, min_dist={m}' for n in n_neighbors_values for m in min_dist_values],
    horizontal_spacing=0.05,
    vertical_spacing=0.1
)

# サンプル数を減らして計算を高速化（必要に応じて）
sample_size = 2000
sample_indices = np.random.choice(num_sample, sample_size, replace=False)
sample_data = high_dim_data[sample_indices]
sample_metadata = metadata[sample_indices]

# 各パラメータ組み合わせでUMAP実行
for i, n_neighbors in enumerate(n_neighbors_values):
    for j, min_dist in enumerate(min_dist_values):
        # UMAP実行
        umap = UMAP(n_components=2, n_neighbors=n_neighbors, min_dist=min_dist, random_state=42)
        result = umap.fit_transform(sample_data)
        
        # プロット追加
        fig.add_trace(
            go.Scatter(
                x=result[:, 0], y=result[:, 1],
                mode='markers',
                marker=dict(
                    size=4,
                    color=sample_metadata.astype(int),
                    colorscale='Viridis',
                    showscale=False
                ),
                showlegend=False
            ),
            row=i+1, col=j+1
        )
        
        # 軸ラベル設定
        fig.update_xaxes(title_text="UMAP1", row=i+1, col=j+1)
        fig.update_yaxes(title_text="UMAP2", row=i+1, col=j+1)

# レイアウト調整
fig.update_layout(
    height=800,
    width=1000,
    title_text="UMAPパラメータの効果比較 (MNISTデータセット)"
)

# カラーバーを1つだけ表示
fig.add_trace(
    go.Scatter(
        x=[None], y=[None],
        mode='markers',
        marker=dict(
            size=4,
            color=sample_metadata.astype(int),
            colorscale='Viridis',
            showscale=True,
            colorbar=dict(title='Digit')
        ),
        showlegend=False
    )
)

fig.show()

In [None]:
# 実践的なPCA + UMAPのワークフロー
# 1. まずPCAで次元を中間レベルまで削減（計算効率化）
# 2. 次にUMAPで非線形構造を捉えた最終的な可視化

# ステップ1: PCAで784次元→50次元に削減
pca_intermediate = PCA(n_components=50)
pca_result_intermediate = pca_intermediate.fit_transform(high_dim_data)
print(f"累積説明分散比率: {np.sum(pca_intermediate.explained_variance_ratio_):.4f}")

# ステップ2: 50次元のPCA結果にUMAPを適用
umap_final = UMAP(n_components=2, n_neighbors=15, min_dist=0.1, random_state=42)
umap_result_final = umap_final.fit_transform(pca_result_intermediate)

# ステップ3: 結果の可視化
fig = px.scatter(
    x=umap_result_final[:, 0], y=umap_result_final[:, 1],
    color=metadata.astype(int),
    labels={"color": "Digit"},
    title="PCA (784→50次元) + UMAP (50→2次元)"
)
fig.show()

# 比較: 直接UMAPを適用した場合（時間計測）
start_time = time.time()
umap_direct = UMAP(n_components=2, n_neighbors=15, min_dist=0.1, random_state=42)
umap_result_direct = umap_direct.fit_transform(high_dim_data)
direct_time = time.time() - start_time
print(f"直接UMAP (784→2次元): {direct_time:.2f} 秒")

# 結果の比較可視化
fig = sp.make_subplots(
    rows=1, cols=2,
    subplot_titles=(
        "PCA + UMAP (二段階アプローチ)",
        "直接UMAP (一段階アプローチ)"
    )
)

# PCA+UMAPの結果
fig.add_trace(
    go.Scatter(
        x=umap_result_final[:, 0], y=umap_result_final[:, 1],
        mode='markers',
        marker=dict(
            size=5,
            color=metadata.astype(int),
            colorscale='Viridis',
            showscale=True,
            colorbar=dict(
                title='Digit',
                x=0.45
            )
        ),
        showlegend=False
    ),
    row=1, col=1
)

# 直接UMAPの結果
fig.add_trace(
    go.Scatter(
        x=umap_result_direct[:, 0], y=umap_result_direct[:, 1],
        mode='markers',
        marker=dict(
            size=5,
            color=metadata.astype(int),
            colorscale='Viridis',
            showscale=True,
            colorbar=dict(
                title='Digit',
                x=1.0
            )
        ),
        showlegend=False
    ),
    row=1, col=2
)

fig.update_layout(
    height=500,
    width=1000,
    title_text="次元削減アプローチの比較"
)

fig.show()

# UMAPパラメータの最適化

次元削減の質を評価する方法はいくつかあります：

1. **視覚的評価**: クラスターの分離度、局所構造の保存度合い
2. **定量的評価**:
   - **近傍保存率** (Neighborhood Preservation): 高次元空間での近傍が低次元でも保存されている割合
   - **Trustworthiness**: 低次元空間で近いが高次元では離れていたポイントのペナルティ
   - **Continuity**: 高次元空間で近いが低次元では離れているポイントのペナルティ

以下のセルでは、様々なUMAPパラメータの組み合わせに対して、これらの指標を計算して最適なパラメータを探索します。

In [None]:
# UMAPパラメータの最適化実験
from sklearn.metrics import silhouette_score
from sklearn.neighbors import NearestNeighbors
import itertools

# サンプル数を減らして計算を高速化
sample_size = 2000
sample_indices = np.random.choice(num_sample, sample_size, replace=False)
sample_data = high_dim_data[sample_indices]
sample_labels = metadata[sample_indices].astype(int)

# 評価指標の計算関数
def calculate_metrics(data, embedding, labels):
    # クラスタリング品質（シルエットスコア）
    silhouette = silhouette_score(embedding, labels) if len(np.unique(labels)) > 1 else 0
    
    # 近傍保存率の計算（k=10）
    k = 10
    # 元データの近傍計算
    nn_orig = NearestNeighbors(n_neighbors=k+1).fit(data)
    ind_orig = nn_orig.kneighbors(data, return_distance=False)[:,1:]
    
    # 埋め込みデータの近傍計算
    nn_emb = NearestNeighbors(n_neighbors=k+1).fit(embedding)
    ind_emb = nn_emb.kneighbors(embedding, return_distance=False)[:,1:]
    
    # 近傍保存率の計算
    preservation = 0
    for i in range(len(data)):
        # 元データと埋め込みデータの各点の近傍の共通集合の大きさ
        common = np.intersect1d(ind_orig[i], ind_emb[i])
        preservation += len(common) / k
    
    preservation /= len(data)
    
    return {
        'silhouette': silhouette,
        'preservation': preservation
    }

# パラメータグリッド
param_grid = {
    'n_neighbors': [5, 15, 30, 50],
    'min_dist': [0.0, 0.1, 0.5, 1.0]
}

# 結果を格納するリスト
results = []

# グリッドサーチ
for n_neighbors, min_dist in itertools.product(param_grid['n_neighbors'], param_grid['min_dist']):
    print(f"Testing n_neighbors={n_neighbors}, min_dist={min_dist}")
    
    # UMAP実行
    umap = UMAP(n_components=2, n_neighbors=n_neighbors, min_dist=min_dist, random_state=42)
    embedding = umap.fit_transform(sample_data)
    
    # 評価指標の計算
    metrics = calculate_metrics(sample_data, embedding, sample_labels)
    
    # 結果の保存
    results.append({
        'n_neighbors': n_neighbors,
        'min_dist': min_dist,
        'silhouette': metrics['silhouette'],
        'preservation': metrics['preservation']
    })

# 結果をDataFrameに変換
results_df = pd.DataFrame(results)
print("\n最適化結果:")
display(results_df)

# 最適パラメータの表示
best_silhouette = results_df.loc[results_df['silhouette'].idxmax()]
best_preservation = results_df.loc[results_df['preservation'].idxmax()]

print(f"\nシルエットスコア最大のパラメータ: n_neighbors={best_silhouette['n_neighbors']}, min_dist={best_silhouette['min_dist']}")
print(f"近傍保存率最大のパラメータ: n_neighbors={best_preservation['n_neighbors']}, min_dist={best_preservation['min_dist']}")

# ヒートマップで結果を可視化
import plotly.figure_factory as ff

# シルエットスコアのヒートマップ
silhouette_pivot = results_df.pivot(index='n_neighbors', columns='min_dist', values='silhouette')
fig1 = ff.create_annotated_heatmap(
    z=silhouette_pivot.values,
    x=list(map(str, silhouette_pivot.columns)),
    y=list(map(str, silhouette_pivot.index)),
    annotation_text=np.around(silhouette_pivot.values, decimals=3),
    colorscale='Viridis',
    showscale=True
)
fig1.update_layout(
    title='シルエットスコア (高いほど良い)',
    xaxis_title='min_dist',
    yaxis_title='n_neighbors'
)
fig1.show()

# 近傍保存率のヒートマップ
preservation_pivot = results_df.pivot(index='n_neighbors', columns='min_dist', values='preservation')
fig2 = ff.create_annotated_heatmap(
    z=preservation_pivot.values,
    x=list(map(str, preservation_pivot.columns)),
    y=list(map(str, preservation_pivot.index)),
    annotation_text=np.around(preservation_pivot.values, decimals=3),
    colorscale='Viridis',
    showscale=True
)
fig2.update_layout(
    title='近傍保存率 (高いほど良い)',
    xaxis_title='min_dist',
    yaxis_title='n_neighbors'
)
fig2.show()

# 総括と次のステップ

## 学んだこと
- UMAPはMNISTデータセットにおいて、PCAよりも明確なクラスター構造を示す
- UMAPパラメータは結果に大きな影響を与え、目的に合わせた調整が必要:
  - **n_neighbors**: 局所構造 vs グローバル構造のバランスを調整
  - **min_dist**: クラスターの密度と分離度を制御
- PCA+UMAPの組み合わせは計算効率と非線形構造の両方を得るための良いアプローチ
- 最適なパラメータは、視覚的評価だけでなく定量的指標（シルエットスコア、近傍保存率）で評価できる

## 次のステップ
1. **より複雑なデータセットでの検証**:
   - テキストデータ（単語埋め込み）
   - 画像特徴量（CNN特徴量）
   - 単細胞RNAシーケンスデータ

2. **インタラクティブな可視化の開発**:
   - パラメータを動的に変更できるダッシュボード
   - ズーム機能による局所/大域構造の探索
   - クラスターのハイライトと分析

3. **高度な解析**:
   - 次元削減結果に基づくクラスタリング
   - 外れ値検出
   - データドリフトの検出

4. **モデル評価との統合**:
   - 分類器の誤分類例を次元削減空間で可視化
   - モデルの決定境界の視覚化