Skip to content

meeting3 log dataset

Toshiaki Katayama edited this page Mar 25, 2017 · 1 revision

提案テーマ

バイオインフォ 入門用 標準データセット / お子様ランチは可能か?

動機

バイオインフォ入門者にとって、用語や概念の壁だけでなく「非冗長で、新しくて、意味のある」データセットを整えるのは、大きな入門障壁ではないか?

  • 更新をしない、それなりに権威あるデータセットを作れるか? (お子様PDB2006, お子様UniProt2006、etc)
  • 種類が多すぎても困る。いくつ、何をつくるか?
  • 入門用の計算課題も、一緒に提供できるか?
  • こんなの、既にどこかにあるのでは?

議論

Rは、とても良いお手本かも

  • 若干趣旨は違うが、関数などのサンプル用のデータが、付属している
  • Rみたいに、BioRubyに同梱するとよいのでは?
  • ライセンス問題
  • G-languageも? BioRubyも共通のデータセットを使うと、両方のツールの特徴がわかるし、学習しやすくなるかも。
  • ChemRubyも?

解析のベンチマークになるゴールデンスタンダートセット

  • この観点のデータも、できればよい。

Done

  • G-languageでは、既にマイコプラズマゲノムを同梱

NextActions

  • すでにある標準セットのリスト作成 - balibase/MAFTで使っているデータとか、参考になるのでは
  • open-bioからBOSCへ提案 - 川路がwiki page作成する ( done )。open-bio.jpのMLへ流すので、議論しよう。
  • BioRubyへ同梱? - 片山
  • なにが必要? - 配列(DNA/RNA/ゲノム/タンパク質)、化合物、立体構造、マイクロアレイ、ネットワーク

議論のつづき

こちらをご覧ください。

Clone this wiki locally