Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Dynamic Visualization of High-Dimensional Data #23

Open
shnakazawa opened this issue Jun 19, 2023 · 0 comments
Open

Dynamic Visualization of High-Dimensional Data #23

shnakazawa opened this issue Jun 19, 2023 · 0 comments

Comments

@shnakazawa
Copy link
Contributor

Sun, Eric D., et al. “Dynamic Visualization of High-Dimensional Data.” bioRxiv, 29 May 2022, p. 2022.05.27.493785, https://doi.org/10.1101/2022.05.27.493785.

本論文はNature Computational Scienceに受理されているが、本サマリーではbioRxiv版を参照している。

  • t-SNEやUMAPといった次元削減手法をより使いやすくする "DynamicViz" というフレームワークを構築。
  • ブートストラップサンプリングで一つのデータセットから複数の2次元プロットを作り比較することで、クラスター分類の堅牢性やクラスター間の繋がりの確実性、繋がりの順序やパターンのより厳密な議論を可能にしている。
  • ハイパーパラメータの最適化や次元削減アルゴリズムの選定などに使える "分散スコア (Variance Score)" という数値指標も提案。

提案手法は、計算時間がネックではあるが、これまでheuristicに行うことが一般的であった部分への数値指標導入や、解釈に至る道筋からの恣意性の削減など、既存の次元削減手法の弱みを上手くカバーしており、実践導入してみたいと思わせるフレームワークとなっている。

Abstract

Dimensionality reduction (DR) is commonly used to project highdimensional data into lower dimensions for visualization, which could then generate new insights and hypotheses. However, DR algorithms necessarily introduce distortions in the visualization and cannot faithfully represent all relations in the data. As such, there is a need for methods to assess the reliability of DR visualizations. Here we present DynamicViz, a framework for generating dynamic visualizations that capture the sensitivity of DR visualizations to perturbations in the data. DynamicVic can be applied to all commonly used DR methods. We show the utility of dynamic visualizations in diagnosing common interpretative pitfalls of static visualizations and extending existing single-cell analyses. We introduce the variance score to quantify the dynamic variability of observations in these visualizations. The variance score characterizes natural variability in the data and can be used to optimize DR algorithm implementations. We have made DynamicViz freely available to assist with the evaluation of DR visualizations.

(DeepL翻訳)

次元削減(DR)は、高次元のデータを低次元に投影して可視化し、新たな知見や仮説を生み出すために一般的に使用されています。しかし、DRのアルゴリズムは、必然的に可視化に歪みをもたらし、データ内のすべての関係を忠実に表現することができません。そのため、DRによる可視化の信頼性を評価する手法が必要とされている。ここでは、データの摂動に対するDR可視化の感度を把握する動的可視化を生成するフレームワークであるDynamicVizを紹介する。DynamicVicは、一般的に使用されているすべてのDR手法に適用することができます。静的可視化の解釈上の落とし穴を診断し、既存のシングルセル解析を拡張する上で、動的可視化の有用性を示す。これらの可視化において、観測値の動的な変動を定量化するために、分散スコアを導入する。分散スコアは、データの自然な変動を特徴付けるもので、DRアルゴリズムの実装を最適化するために使用することができます。DR可視化の評価を支援するために、DynamicVizを自由に利用できるようにしました。

コード

解決した課題/先行研究との比較

  • 次元削減 (Dimensionality Reduction: DR) は高次元データの分析で用いられる。
  • DR適用の目的の一つにデータ可視化がある。高次元データを2, 3次元に落とせば、人の目でデータの分布を掴めるようになる。
  • 特に代表的なものとして、以下の3つが挙げられる。
    • Principal Component Analysis (PCA)
    • t-distributed Stochastic Neighbor Embedding (t-SNE. van der Maaten and Hinton, 2008)
    • Uniform Manifold Approximation and Projection (UMAP. Mclnnes et al., 2018)
  • しかしながら、結果や解釈に「歪み」が生じやすい手法でもある。
    • 例:t-SNEとUMAPはパラメータ設定でいくらでも見た目を変えられる。
  • 結果として、本来存在しないクラスターやデータ間の関係を見出してしまったり、重要な関係を見落としてしまったりする。
  • 本論文ではデータ可視化フレームワーク "DynamicViz" を紹介。
    • 動的な可視化により、静的な(従来の)手法よりもデータを定性・定量の両側面から厳密に考察できる。
    • 新しいDR手法ではなく、既存のDR手法の拡張ツールと捉えるべき。
      • 用意されているコードは t-SNE, MDS, LLE, MLLE, Isomap, UMAP に対応している。

技術・手法のポイント

  • 処理の流れとしては以下
    • 入力データの形式としては他のDR手法と同じ。 $X$ とする。
    • ブートストラップ方式でデータを抽出し、 $X$ と同じ列数のテーブルを $B$ 個作る。
      • 重複を許さないサブサンプリングだったり、ノイズを加えるだったりと言ったオプションも提供されている。
    • $B+1$ 個のマトリックスをt-SNEやUMAPなど任意のDR手法に通し、 $B+1$ 個の2次元プロットを作る。
    • 元の $X$ から作られた2次元プロットを基準に、同一データ間の距離が最も短くなるように $B$ 個の図を回転させる。
    • $B+1$ 個の図を比較したり、スタックしたりして解釈を行う。

Image from Gyazo

  • この出力から何が得られるの?
    • 群間の関係がより正確に掴める
      • 1プロットだと、群間が分離しているのか混ざり合っているのかがわからないことがある → 提案手法でスタックした画像を作ることで、群の分布が明確にできることがある (Fig.1F)。
      • 群は分離していても、それぞれの群が連続的に繋がるものなのか分離したものかがを見ているだけではわからない(恣意的に選んでしまう可能性がある)→ 提案手法では複数のプロットを見比べたり、スタック画像を作ったりすることで、接続の有無や接続順が詳細に考察できる (Fig.1B,C,G)。
      • プロットをするとラベル付けと一致しない新しい群が見つかることがある。提案手法で作られた複数のプロットで同じように独立した群が見つかると、その群は本当に存在する(意味のある)ものだと確信度が高くなる (Fig.1D,E)。
    • "Variance Score" という数値指標を提案しており、それを用いることで最適なアルゴリズムやハイパーパラメータを機械的に決めることができる。(Fig.3)

Image from Gyazo

残された課題・議論

  • 計算量。入力データの件数、ブートストラップのサンプリング標本数、回数、それらに比例してDR計算が実行される回数も増える。加えて、Variance Scoreの計算も時間がかかるものになっている。

重要な引用

  • t-SNE
    • van der Maaten, Laurens, and Geoffrey Hinton. “Visualizing Data Using T-SNE.” Journal of Machine Learning Research: JMLR, vol. 9, no. 86, 2008, pp. 2579–605.
  • UMAP
    • McInnes, Leland, et al. “UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction.” arXiv [stat.ML], 9 Feb. 2018, http://arxiv.org/abs/1802.03426. arXiv.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant