# NeuralODE+VGAE論文用分析・可視化ノートブック

このノートブックは、NeuralODE+VGAEモデルで学習した企業・技術の潜在ベクトルを
論文用の高品質な図表として可視化するための包括的な分析ツールです。

## 主な機能
- 2D/3D潜在空間可視化（UMAP, t-SNE, PCA）
- 等高線・ヒートマップによる技術領域分析
- 時系列技術軌跡分析
- 企業・技術クラスター分析
- インタラクティブ可視化
- 論文用高品質図表生成


## 1. 環境設定とライブラリインポート


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
import umap
from sklearn.manifold import TSNE
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans, DBSCAN
from sklearn.neighbors import NearestNeighbors
from scipy.stats import gaussian_kde
from scipy.interpolate import griddata
from scipy.spatial.distance import pdist, squareform
import torch
import torch.nn as nn
from torchdiffeq import odeint
import warnings
import os
import japanize_matplotlib
from neuralode_vgae_visualization import NeuralODEVGAEVisualizer, load_neuralode_vgae_data

warnings.filterwarnings('ignore')

# 論文用の高品質な図表設定
plt.rcParams['figure.dpi'] = 300
plt.rcParams['savefig.dpi'] = 300
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 14
plt.rcParams['axes.labelsize'] = 12
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['legend.fontsize'] = 10
plt.rcParams['figure.titlesize'] = 16

print("NeuralODE+VGAE論文用分析環境の準備が完了しました")


## 2. データ読み込みと前処理


In [None]:
# 既存のデータを読み込み
data_path = '../processed_data/kumagai_patentdata.csv'
df = pd.read_csv(data_path)

print(f"データ形状: {df.shape}")
print(f"列名: {list(df.columns)}")
print(f"\nデータの最初の5行:")
df.head()


In [None]:
# 潜在ベクトルの抽出（NeuralODE+VGAEモデルの出力を想定）
# 実際のモデル出力に応じて調整してください

# 例1: 既存の埋め込みベクトルを使用
pca_cols = [col for col in df.columns if col.startswith('pca_text_dim_')]
node_cols = [col for col in df.columns if col.startswith('node_dim_')]

if pca_cols and node_cols:
    # テキスト埋め込みとノード埋め込みを結合
    latent_vectors = np.hstack([df[pca_cols].values, df[node_cols].values])
    print(f"結合された潜在ベクトル形状: {latent_vectors.shape}")
else:
    print("潜在ベクトル列が見つかりません。データを確認してください。")

# メタデータの準備
metadata_cols = ['representative_corporation', 'year_month', 'patent_number', 'patent_name', 'description']
available_metadata_cols = [col for col in metadata_cols if col in df.columns]
metadata = df[available_metadata_cols] if available_metadata_cols else None

print(f"\n利用可能なメタデータ列: {available_metadata_cols}")
print(f"メタデータ形状: {metadata.shape if metadata is not None else 'None'}")


## 3. NeuralODE+VGAE可視化器の初期化


In [None]:
# 可視化器の初期化
visualizer = NeuralODEVGAEVisualizer(latent_vectors, metadata)

print("NeuralODE+VGAE可視化器が初期化されました")
print(f"潜在ベクトル形状: {visualizer.latent_vectors.shape}")
print(f"メタデータ形状: {visualizer.metadata.shape if visualizer.metadata is not None else 'None'}")


## 4. 2次元埋め込みの計算と可視化


In [None]:
# UMAPによる2次元埋め込み
embedding_2d_umap = visualizer.compute_2d_embedding(method='umap', n_neighbors=15, min_dist=0.1)

# t-SNEによる2次元埋め込み（比較用）
embedding_2d_tsne = visualizer.compute_2d_embedding(method='tsne', perplexity=30)

# PCAによる2次元埋め込み（比較用）
embedding_2d_pca = visualizer.compute_2d_embedding(method='pca')

print("2次元埋め込みの計算が完了しました")


In [None]:
# 埋め込み手法の比較
fig, axes = plt.subplots(1, 3, figsize=(18, 6))

embeddings = [embedding_2d_umap, embedding_2d_tsne, embedding_2d_pca]
methods = ['UMAP', 't-SNE', 'PCA']
colors = ['viridis', 'plasma', 'inferno']

for i, (embedding, method, color) in enumerate(zip(embeddings, methods, colors)):
    axes[i].scatter(embedding[:, 0], embedding[:, 1], c=range(len(embedding)), 
                   cmap=color, s=10, alpha=0.6)
    axes[i].set_title(f'{method} Embedding', fontsize=14, fontweight='bold')
    axes[i].set_xlabel('Dimension 1')
    axes[i].set_ylabel('Dimension 2')
    axes[i].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("埋め込み手法の比較が完了しました")


## 5. クラスタリング分析


In [None]:
# K-meansクラスタリング
clusters_kmeans = visualizer.cluster_analysis(method='kmeans', n_clusters=10)

# DBSCANクラスタリング（比較用）
clusters_dbscan = visualizer.cluster_analysis(method='dbscan', eps=0.5, min_samples=5)

print(f"K-meansクラスター数: {len(np.unique(clusters_kmeans))}")
print(f"DBSCANクラスター数: {len(np.unique(clusters_dbscan))}")
print(f"DBSCANノイズ点数: {np.sum(clusters_dbscan == -1)}")


In [None]:
# クラスタリング結果の可視化
fig, axes = plt.subplots(1, 2, figsize=(16, 8))

# K-means結果
unique_clusters = np.unique(clusters_kmeans)
colors = plt.cm.Set3(np.linspace(0, 1, len(unique_clusters)))

for i, cluster_id in enumerate(unique_clusters):
    mask = clusters_kmeans == cluster_id
    axes[0].scatter(visualizer.embedding_2d[mask, 0], visualizer.embedding_2d[mask, 1], 
                   c=[colors[i]], s=20, alpha=0.7, label=f'Cluster {cluster_id}')

axes[0].set_title('K-means Clustering', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Latent Dimension 1')
axes[0].set_ylabel('Latent Dimension 2')
axes[0].legend(bbox_to_anchor=(1.05, 1), loc='upper left')
axes[0].grid(True, alpha=0.3)

# DBSCAN結果
unique_clusters_dbscan = np.unique(clusters_dbscan)
colors_dbscan = plt.cm.Set3(np.linspace(0, 1, len(unique_clusters_dbscan)))

for i, cluster_id in enumerate(unique_clusters_dbscan):
    mask = clusters_dbscan == cluster_id
    if cluster_id == -1:  # ノイズクラスター
        axes[1].scatter(visualizer.embedding_2d[mask, 0], visualizer.embedding_2d[mask, 1], 
                       c='gray', s=20, alpha=0.5, label='Noise')
    else:
        axes[1].scatter(visualizer.embedding_2d[mask, 0], visualizer.embedding_2d[mask, 1], 
                       c=[colors_dbscan[i]], s=20, alpha=0.7, label=f'Cluster {cluster_id}')

axes[1].set_title('DBSCAN Clustering', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Latent Dimension 1')
axes[1].set_ylabel('Latent Dimension 2')
axes[1].legend(bbox_to_anchor=(1.05, 1), loc='upper left')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("クラスタリング結果の可視化が完了しました")


## 6. 等高線・ヒートマップ可視化


In [None]:
# 等高線・ヒートマップの生成
contour_fig = visualizer.create_contour_heatmap(
    resolution=100, 
    figsize=(20, 16), 
    contour_levels=25, 
    heatmap_alpha=0.7
)

plt.show()
print("等高線・ヒートマップ可視化が完了しました")


## 7. 論文用高品質図表の生成


In [None]:
# 論文用の高品質図表を一括生成
output_directory = visualizer.create_publication_quality_plots(
    output_dir='neuralode_vgae_paper_figures'
)

print(f"\n論文用図表が生成されました: {output_directory}")
print("\n生成されたファイル:")
for file in os.listdir(output_directory):
    print(f"  - {file}")


## 8. 実行完了！

これで基本的なNeuralODE+VGAE可視化分析が完了しました。

### 生成された図表
- **等高線・ヒートマップ**: 技術密度の可視化
- **クラスタリング結果**: K-meansとDBSCANの比較
- **埋め込み手法比較**: UMAP, t-SNE, PCAの比較
- **論文用高品質図表**: 自動生成された図表ファイル

### 次のステップ
1. 生成された図表を確認
2. 必要に応じてパラメータを調整
3. 論文に適した図表を選択
4. 高度な分析（技術軌跡、企業競争分析）を実行
