recommended sample data

Toshiaki Katayama edited this page Mar 25, 2017 · 1 revision

第三回オープンバイオ研究会のあるセッションで、バイオインフォ入門者にとって利用しやすいサンプルデータを、オープンバイオ研究会として推薦/提案するのはどうだろうか?という視点から、議論がありました。

セッションの内容についてはこちらを参照して頂きたいと思いますが、非常によいポイントなので、ここで議論を継続したいと思います。もちろん、第三回オープンバイオ研究会に出席できなかった方のコメント・提案・議論も大歓迎です。サンプルデータについて何かアイデアのある方は、下記の項目を埋めて提案してください。提案以外のコメントも歓迎です。このページを直接編集する、もしくはオープンバイオ研究会のメーリングリストに投げる、等でお願いします

主な目的

  • 入門者の学習用
  • open-* などのツールで、サンプルデータとして利用
  • オープンバイオ本などで利用

将来的な方向性

現時点(2006/3/11)において挙げられたものであり、絶対的な目標ではありませんが、

  • Webサイト(ひとまずは、ここ)でのデータ集約
  • BioRuby/ChemRuby, G-languageで、すぐに利用できる環境を整える (web siteからダウンロードするしくみをつくる? バンドルする?)
  • (有用であれば)BOSCで提案

などを考えています

サンプルデータ案

次の項目を埋めて、提案してください。

<データの名前>

  • 目的: <そのデータの主な目的>
  • 入力データ: <データを入手できるURL>
  • 出力例: <データの出力例>
  • リファレンス: <DB名>/<ID>/<文献名>など
  • コメント: <コメント>
  • 提案者: <名前>/<ハンドル名>

mRNAとゲノムの配列比較 (I)

  • 目的: mRNAとゲノム配列を、ペアワイズアラインメントにより比較する
  • 入力データ: XL23808 XLRHODOP
  • 出力例: ドットプロット
  • リファレンス: EMBLのエントリ XL23808 と XLRHODOP。EMBOSSのチュートリアルで利用されている。
  • コメント: ドットプロットだけでなく、needle(EMBOSS) / water(EMBOSS) / sim4 / blast / fasta / ssaha / spidy / exonerateなどの例としても利用できると思われる

ゲノム単位の解析

選択的スプライシングを考慮したPCRプライマーとsiRNAの設計

  • 目的: 複数の選択的スプライシングフォームを持つ遺伝子に対し、特定の転写産物を対象としたPCRプライマーやsiRNAを設計する。
  • 入力データ: RefSeq:NM_138712 PPARg1, RefSeq:NM_015869 PPARg2, RefSeq:NM_138711 PPARg3, RefSeq:NM_005037 PPARg4
  • 出力例: KNOBチュートリアル
  • リファレンス: KNOBチュートリアル
  • コメント: PPARgは4つの選択的スプライシングフォームを持ち、それぞれの転写産物では最初のエクソンが使い分けられている。特定の転写産物に対し、その発現量を測定するためのPCRプライマーを設計したり、RNAiで遺伝子発現をノックダウンしたりすることは、実験生物学においては日常的である。具体的には、多重アラインメントによって、目的の転写産物で特異的な配列領域を発見し、そこにプライマーやsiRNAを設計する。
  • 提案者: 二階堂

タンパク質のアミノ酸配列の解析

  • 目的: タンパク質のアミノ酸配列について相同性検索し、その類似タンパク質のアミノ酸配列について、多重配列整列等の一連の配列解析を行う
  • 入力データ: UniProt:HXA1_HUMAN, EBI(UniProt):uniprot_sprot.fasta.gz, Pfam:homeodomain HMM
  • 出力例: KNOBで行う配列解析(近日公開)
  • リファレンス: 同上
  • コメント: Hoxタンパク質をコードするHox遺伝子は遺伝子族を形成する。そこで、ヒトHoxA1を問い合わせ配列とした相同性検索により、類似タンパク質を同定、それらの多重配列整列等を経て、共通するドメイン、すなわちDNA結合に関与するhomeodomainを決定する。また、モチーフ発見により、homeodomainの周辺に位置するHoxタンパク質のDNAへの特異性を決定する配列もチーフを発見する。具体的には、BLASTP, bioperl/perl, SOAP, ClustalW, EMBOSS(emma,prettyplot), hmmbuild, hmmsearch, MEMEの配列解析を行う。
  • 提案者: 荻島

遺伝子のゲノム上へのマッピングとその上流解析

  • 目的: 遺伝子をゲノム上にマッピングし、その遺伝子の上流配列の解析を行う
  • 入力データ: GenBank:NM_057265, GenBank:NT_033777, 文献やJaspar,Transfac(有償)から得られた転写因子の結合配列
  • 出力例: KNOBで行う配列解析(近日公開)
  • リファレンス: 同上
  • コメント: Hox遺伝子は遺伝子族を形成するが、染色体上でもクラスタを形成する。そして、遺伝子の並びと発現の時間的・空間的並びが一致するコリニアリティという特徴をもつ。この特徴が進化的に保存されたのはクラスタを形成する遺伝子が、共通の転写制御を受けていることによるものと考えられている。そこで、ヒトHoxA1遺伝子を染色体上にマッピングし、その上流配列を取得し、文献やJaspar,Transfac(有償)から得られた既知の転写因子の結合配列を検索する。具体的には、Spidey, EMBOSS(fuzznuc, tfscan)の配列解析を行う。
  • 提案者: 荻島