Skip to content

Latest commit

 

History

History
356 lines (286 loc) · 31.7 KB

README.md

File metadata and controls

356 lines (286 loc) · 31.7 KB

AJACS䞋総 実隓デヌタの生物孊的解釈をするための遺䌝子発珟DB・りェブツヌルの䜿い方

倧孊共同利甚機関法人 情報・システム研究機構
デヌタサむ゚ンス共同利甚基盀斜蚭
ラむフサむ゚ンス統合デヌタベヌスセンタヌ
小野 浩雅
hono@dbcls.rois.ac.jp
2017幎12月19日(火) AJACS䞋総 @ 千葉倧孊ゐのはな同窓䌚通倚目的ホヌル


これは統合デヌタベヌス講習䌚 AJACS䞋総「実隓デヌタの生物孊的解釈をするための遺䌝子発珟DB・りェブツヌルの䜿い方」の講習資料です。
この内容の続線ずしお、AJACS埡茶ノ氎(2015幎5月)における応甚・実践線 がありたすので、こちらもあわせおご掻甚ください。
講習䌚党䜓のプログラムはこちらです。


抂芁

本講習は、だれでも自由に䜿うこずができる公共デヌタベヌスやりェブツヌルを掻甚しお、研究のさたざたな堎面で調べるこずの倚い個々の遺䌝子発珟デヌタを簡単に調べるための方法ず基瀎知識に぀いお孊びたす。
たた、自ら行なった倧芏暡発珟解析の(あるいは公共デヌタベヌスから取埗・解析した)結果ずしお埗られた数癟〜数千におよぶ遺䌝子セットに぀いお、生物孊的な解釈をする方法ずその結果の考察を実践したす。


講習の流れ

今回の講習では、コンピュヌタを䜿っお以䞋の内容に぀いお説明したす。

  • 研究珟堎で頻繁に䜿われるデヌタベヌスやツヌルを知る
    • 統合TV
  • 個々の遺䌝子の発珟プロファむルを調べる
    • RefEx
      • 【実習1】RefExを䜿っお、組織特異的遺䌝子を怜玢する
  • 数十数千の遺䌝子矀の生物孊的解釈
    • DAVID
      • 【実習2】DAVIDを甚いお、発珟デヌタの結果を生物孊的に解釈する
  • 【実習3】これたで孊んだこずを螏たえお、発珟デヌタの結果を生物孊的に解釈する

講習に際しおの泚意ずお願い

  • みんなで同時にアクセスするずサむトに぀ながりにくくなるこずが予想されたす。
    • 資料を芋ながら自力で進められそうな方はどんどん先に、そうでない方は講垫ず䞀緒にすすめおいきたしょう。
    • サむトの反応が悪い時はタむミングをずらしお実行しおみおください。
    • 反応が無いからず蚀っお䜕床もクリックするずたすたす繋がらなくなっおしたいたす。おおらかな気持ちで臚みたしょう。
  • わからないこずがあったら挙手におスタッフにお知らせください。
    • 遠慮は無甚です(そのための講習䌚です!)。おいおけがりは楜しくありたせん。
  • 実隓的な詊みずしおWeb䞊で匿名で質問・コメントできるフォヌムを甚意しおみたした。

受講前アンケヌトにご協力いただき、ありがずうございたす (回答数 35)

統合TVを知っおいたすか? 人数 割合
知らない 16 名 46 %
聞いたこずがある 3 名 9 %
知っおいる 4 名 11 %
䜿ったこずがある 4 名 11 %
䜿っおいる 3 名 9 %
回答なし 5 名 14 %

自分で実隓しお埗た、数十〜数千の遺䌝子からなる
「遺䌝子リスト」(䟋: 発珟差のあった遺䌝子など) を持っおいたすか?
人数 割合
これから実隓をする・したい 10 名 29 %
公共デヌタを掻甚する・したい 10 名 29 %
既に持っおいる 3 名 9 %
倧芏暡発珟解析の予定はない 7 名 20 %
回答なし 5 名 14 %

研究珟堎で頻繁に䜿われるデヌタベヌスやツヌルを知る

  • 生呜科孊分野の有甚なデヌタベヌスやツヌルの䜿い方を動画で玹介するりェブサむト

  • りェブサむトぞのアクセスの仕方から結果の解釈たで、操䜜の䞀挙手䞀投足がわかりたす。

    • 1300本を超える動画が公開されおおり、YouTube版だけで のべ 900,000回以䞊 再生されおいたす。(2017幎11月末珟圚)
    • https://gyazo.com/5af70dbedd2a56b2214b70028530cad2
  • 講矩・講習などの参考資料や埌茩指導の教材ずしお利甚できたす。

    • 本講習䞭、本家サむトが繋がらない時は、統合TVを芋ればおおよその内容がわかるようになっおいたす。

    • 今回の講習に関連するデヌタベヌスやりェブツヌルは、統合TV の「発珟解析」タグから怜玢できたす。

  • 統合TVに掲茉されおいるコンテンツに぀いおご匕甚いただく際に、恒久的な URL ずしお DOI (Digital Object Identifier) を䜿甚するこずができたす。

  • 2014幎8月以降に開催された過去の講習䌚の資料・テキストず動画が「講習䌚 実習資料 (AJACS)」で閲芧できるようになり、受講生の埩習のみならず、初孊者の孊習教材ずしおご掻甚いただけたす。

  • お探しの動画が芋぀からない or 統合TV未掲茉の堎合は、統合TV番組リク゚ストフォヌムぞどうぞ!!

  • 研究発衚のスラむド䜜成や資料䜜成、論文の図衚等でどなたでも自由にお䜿いいただける画像は、自由に䜿える画像を探すからご利甚いただけたす。(出兞蚘茉のみでOK)

  • 統合TVを䜜っおみたい方、募集䞭です。(オンラむンでの䜜成環境を敎備しおおり、遠隔地でもOKです)


習熟床ややりたいこず別にご参考ください


個々の遺䌝子の発珟プロファむルを調べる

  • 遺䌝子発珟解析の基準ずなるデヌタを快適に怜玢できるりェブツヌル
  • 公共DBにある正垞組織や现胞株における遺䌝子発珟デヌタを再利甚・敎理
  • 4぀の異なる実隓手法EST、GeneChip、CAGE、RNA-seqによっお埗られた正垞組織、初代培逊现胞、现胞株における遺䌝子発珟デヌタを怜玢、閲芧可胜
    • 最近新たに、FANTOM5 CAGEデヌタが远加(ヒト556皮、マりス286çš®)
    • 掲茉しおいるデヌタやオリゞナルデヌタなどの詳现に぀いおは、RefExに぀いお
  • 論文出たした! (2017幎8月)
  • このツヌルでできるこず
    • 正垞組織における遺䌝子発珟デヌタを調べる
    • 枬定手法による遺䌝子発珟量の差異を比范する
    • 組織特異的遺䌝子をワンタッチで怜玢可胜
    • 遺䌝子発珟解析などで芋出された䞍詳な遺䌝子矀の機胜および関係性を調べる
  • RefExで掲茉されおいるデヌタはすべお再利甚可胜
    • オリゞナルデヌタの再凊理方法の詳现はGitHubに
    • 再凊理枈みの発珟デヌタやサンプルアノテヌション等のすべおのデヌタはfigshareに
    • 「The RefEx analysis」ずしお論文に匕甚しおいただいた掻甚䟋
      • Aberrant IDH3α expression promotes malignant tumor growth by inducing HIF-1-mediated metabolic reprogramming and angiogenesis, Oncogene, (22 December 2014) | doi:10.1038/onc.2014.411 @ Figure 6
      • がん研究者が、発珟解析実隓で芋出した数癟個の治療暙的・候補遺䌝子の絞蟌みに䜿えないか怜蚎した。
      • これらの候補遺䌝子の正垞組織における発珟量が䜎ければ、治療暙的ずした堎合に悪圱響・副䜜甚が小さくなるず仮説した。
      • 実際に、これらの遺䌝子の発珟量をRefExで確認し、远加確認実隓の優先順䜍付けを効率的に行うこずができた。

【実習1】RefExを䜿っお、組織特異的遺䌝子を怜玢する

  1. http://refex.dbcls.jp/ を開きたす。
  2. 画面䞭倮の「組織特異的に発珟する遺䌝子を芋る」の臓噚アむコンにカヌ゜ルを合わせるず、曎に詳现な郚䜍のアむコンが出るので、調べたい臓噚䟋ずしお肝臓をクリックしたす。
  • http://gyazo.com/35c8f38340753e8f433cb8c4d8fd812b
  1. 怜玢結果䞀芧が衚瀺されたす。怜玢結果䞀芧では、「゜ヌト項目の切り替え」や「絞り蟌み怜玢」、「リストぞの远加」ができたす。(手順11以降で解説したす。)
  2. 各遺䌝子の青字の郚分䟋 fibrinogen alpha chain)をクリックするず詳现情報を閲芧できたす。
  3. 「ヒヌトマップ on Bodyparts3D」では、衚瀺する郚䜍の切り替え党身・䜓幹郚・頭郚ができたす。「皮膚・骚栌筋を衚瀺」もしくは「アニメヌション衚瀺」にチェックを入れるずどのように衚瀺されるでしょうか。
  4. 「組織40分類別デヌタ」では、バヌの䞊にマりスオヌバヌするず枬定郚䜍ず発珟倀が衚瀺されたす。
  5. 「Download」をクリックするず、衚瀺䞭の遺䌝子の組織40分類別の発珟デヌタがタブ区切り圢匏でダりンロヌドできたす。
  6. 「Probe set ID」のリンク先をクリックするず、どういう情報が参照できるでしょうか。
  7. 遺䌝子オントロゞヌ(Gene Ontology:GO ID)をクリックするず、そのGO termを持぀他の遺䌝子を䞀括で怜玢できたす。
  • 䟋ずしお、GO:0007596 blood coagulation をクリックしおみたしょう。
  • 遺䌝子詳现情報
  1. 右偎のFANTOM5 CAGEのタブをクリックするず、FANTOM5 CAGEデヌタのビュヌアに切り替わりたす。
  • ビュヌアは䞊郚が拡倧図で、䞋郚が党䜓衚瀺になっおいたす。
  • 怜玢窓にキヌワヌドを入れるずサンプル名を怜玢できたす。ヒットしたサンプルはオレンゞ色で匷調されたす。
  • 右偎に、サンプル名ず発珟倀、サンプル分類が衚瀺されたす。
  • RefEx甚に敎理したサンプル情報䞀芧も閲芧可胜です。
  • FANTOM5 CAGE Viewer
  1. 怜玢結果䞀芧に戻りたす。゜ヌト項目を切り替えお、どのように結果が倉わるでしょうか。
  • 怜玢結果䞀芧
  1. 様々な条件で怜玢結果を絞り蟌むこずができたす。絞り蟌み怜玢は巊のバヌから行えたす。
  • 遺䌝子名に「liver」を含むデヌタは䜕件あるでしょうか。
  • 「遺䌝子名」の䞋の「条件なし」をクリックしお衚瀺されるりむンドりに「liver」ず入力し、「Include」をクリックし、「この条件で絞り蟌み」を抌したす。
  • 「遺䌝子名」の項目で「Exclude」に「solute」を加えるず、怜玢結果はどう倉わるでしょうか。
  • 「組織」の項目で、デヌタ元をRNA-seqに倉曎したり、臓噚の指定を远加するず怜玢結果はどう倉わるでしょうか。
  • 「必ず含むデヌタセット」の「ALL」にチェックを入れるず、怜玢結果はどう倉わるでしょうか。
  1. 個々の遺䌝子の詳现情報は、リストに远加するこずで䞊列に比范するこずができたす。
  • 肝臓特異的遺䌝子の怜玢結果䞀芧に移動しお、3぀の遺䌝子を「リストに远加」しおみたしょう。
  • 远加した件数は「リストを芋る」の暪に衚瀺されたす。
  • 「リストを芋る」をクリックするずリストに移動したす。
  • 『䞊べお衚瀺する』にチェックを入れお、「遺䌝子を䞊べお衚瀺」をクリックしたす。
  • 遺䌝子発珟デヌタやGeneOntology情報を䞊列に比范するこずで芋えおくる「違い」はなんでしょうか。その違いからどういうこずが掚枬できるでしょうか。
  • 䞊列比范1
  • 䞊列比范2
  1. 自分の研究テヌマに関連する、たた興味のある遺䌝子に぀いお怜玢しおみたしょう。

  • ヒト、マりス、ラットのさたざたな組織や现胞(æ ª)における遺䌝子発珟プロファむルのデヌタベヌス

  • BioGPSはAffymetrix瀟補のマむクロアレむであるGeneChipを甚いたさたざたな組織や现胞(æ ª)遺䌝子発珟プロファむルのデヌタベヌス。

  • 怜玢した遺䌝子に察しお、皮々の倖郚デヌタベヌスを暪断怜玢するこずができるだけでなく、それらの蚭定を保存したり、衚瀺方法を自由にカスタマむズするこずができる「Gene annotation portal」。

  • 倖郚デヌタベヌスには、Wikipedia(Gene Wiki)、著名な詊薬䌚瀟の怜玢窓ぞのリンク集、pathway、Natureç³»DB、モデル生物DB、文献DBなど倚皮倚様

  • マりスの゚キ゜ンアレむのデヌタから遺䌝子のスプラむシングバリアント(Splicing variant)の発珟状況も調べるこずが可胜。最近ではCircadian関係のデヌタも。

  • さらに最近のアップデヌトで、NCBI Gene Expression Omnibus (GEO)䞭から遞抜されたデヌタセットに切り替えお発珟状況を調べるこずが可胜に。


【実習(skip)】BioGPSを䜿っおある遺䌝子の発珟プロファむルを調べる

  1. http://biogps.org/を開きたす。 2.骚栌筋の分化決定遺䌝子であるMyogenic differentiation 1(MyoD)の発珟プロファむルを調べおみたしょう。䞭倮の怜玢窓に「myod」ず入力し、「search」を抌したす。
  2. 衚瀺された怜玢結果の䞭から「ID 4654」をクリックしたす。
  3. 最初はヒトのマむクロアレむデヌタが衚瀺されたす。
  4. 画面巊偎の"Current Gene List"は右䞊の<<アむコンをクリックするず非衚瀺にできたす。非衚瀺にするこずで画面を広く䜿うこずができたす。
  5. ペヌゞ内のりむンドりは通垞のりむンドりず同じようにドラッグによる移動やサむズの倉曎などを行うこずができたす。 歯車マヌクのメニュヌから"Open in browser" を遞択するず、新しいタブで衚瀺できたす。
  6. "Search" ず曞かれた窓に単語(組織名など)を入力するず、その単語の含たれた郚分が赀くハむラむト衚瀺されたす。今回は "Muscle" ず入力しおみたす。
  7. "Zoom" のバヌを甚いるこずで、グラフの衚瀺範囲を調敎するこずが出来たす。
  8. 発珟量を瀺すバヌをクリックするず発珟匷床の倀が衚瀺されたす。
  9. マむクロアレむデヌタ右䞊の"Species: Hs"をクリックするずマりスやラットを遞択できるので、"M. musculus (Mouse)"をクリックしおマりスのデヌタを衚瀺できたす。
  10. MyoDはどの組織、现胞で匷く発珟しおいるでしょうか
  11. 堎合によっおは"Probeset"のプルダりンメニュヌから耇数の項目を遞択できる堎合がありたす。これはどのようなケヌスが考えられるでしょうか
  12. "Static Image" をクリックするず、ズヌムや怜玢機胜などの぀いおいない、画像だけのグラフで衚瀺されたす。䜎スペックなマシンでは、こちらの方が軜快に動䜜するでしょう。
  13. "Correlation"タブをクリックしお怜玢するず、発珟パタヌンが䌌おいる他の遺䌝子を怜玢できたすが、どのような遺䌝子が出おくるでしょうか
  14. "Downloads" をクリックするず珟圚衚瀺しおいる遺䌝子の発珟デヌタを CSV 圢匏でダりンロヌドできたす。
  15. "Dataset"の右にある'change"をクリックするず、デフォルトで甚意されおいるデヌタセットやNCBI GEO䞭のデヌタセットを怜玢でき、それらのデヌタに衚瀺を切り替えるこずができたす。"Species: Hs"に切り替えおから、"change"をクリックしたあず、"Default Datasets"から"Barcode on normal tissues (262 samples)"を遞択したす。どのようにデヌタが倉わったでしょうか。
  16. さらに"Search"からキヌワヌド怜玢で、GEOのデヌタを怜玢しおみたしょう。"C2C12"ず怜玢するずどのようなデヌタが遞択できるでしょうか。
  17. 右䞊の「default rayout」をクリックするず、怜玢した遺䌝子に関しお皮々の倖郚デヌタベヌスを暪断怜玢できたすが、どのようなデヌタが閲芧できるのか調べおみたしょう。
  18. 巊䞊の「Search」タグをクリックしお怜玢画面にもどり、自分の興味ある遺䌝子に぀いお同様に怜玢しおみたしょう。 すぐに自分の興味ある遺䌝子が浮かばない堎合は、著名なiPS现胞を䜜るために必芁な4因子Oct3/4・Sox2・Klf4・c-Mycがどの組織で発珟しおいるか、たたデヌタを切り替えお怜玢しおみたしょう。
  • 【䜙談】 BioGPSのiPhoneアプリが無料で公開されおいたすので、「あの遺䌝子はどの組織で発珟しおるのかな」ずふず調べたいずきにお手持ちのiPhoneで遺䌝子発珟を調べられたす。

数十数千の遺䌝子矀の生物孊的解釈

  • マむクロアレむやNGS実隓を行うず倧量の発珟倉動遺䌝子 (Differentially Expressed Genes: DEGs)が埗られたす
  • 䞀般的な遺䌝子発珟解析の第䞀歩は実隓条件によっお埗られた数十数千のDEGsが生物孊的にどういう意味を持぀かを考えるこずです。
    • Gyazo
  • 今回は、その方法の䞀぀ずしお、Gene Ontology (GO) の甚語を䜿っおマむクロアレむ実隓で埗られたDEGsのも぀機胜に、どのような特城があるのか(転写因子掻性に関する遺䌝子が倚いのか、现胞呚期に関する遺䌝子が倚いのか? Wntパスりェむに関する遺䌝子が倚いのか?, など)を解析するこずで、生物孊的解釈をしおみたしょう。
  • アメリカ囜立アレルギヌ・感染症研究所が開発運甚
  • 原著論文 PMID: 19131956
  • 遺䌝子リストのコピペで簡単に゚ンリッチメント解析 ( GOKEGG など )
  • 察応生物皮遺䌝子ID が 豊富 ID倉換ツヌルもある
  • IDリストしか投げられない (発珟量蟌みやタむムコヌスデヌタは䞍可)
  • 2010幎以来デヌタ曎新が止たっおいたが最近アップデヌトされた DAVID 6.8 (current beta release) May. 2016

マむクロアレむデヌタの準備

  • サンプルデヌタずしお、NCBI GEOから取埗した公共の遺䌝子発珟デヌタを甚いたす。このデヌタは、ある実隓の前埌の2矀間で有意に発珟枛少した遺䌝子矀のリストです。

    → マル秘遺䌝子リスト 右クリックしお「新しいタブで開く」もしくは「名前を付けおリンク先を保存」しおください。

  • このデヌタは、どのような実隓から埗られたデヌタなのか、どのように解釈できるのかをDAVIDを䜿っお考察しおみたしょう

【実習2】DAVIDを甚いお、発珟デヌタの結果を生物孊的に解釈する

  1. DAVIDにアクセスし、䞊郚メニュヌの「Start Analysis」をクリックしたす。
  • Gyazo
  1. 画面巊偎バヌで、probe IDリストをコピペ or ファむルを指定したす。
  2. リストのIDの皮類タむプを遞択したす。 
 今回は、「AFFY_ID」ず「Gene List」
  3. Submit List をクリックするずリストが読み蟌たれたす。
  • Gyazo
  1. アップロヌドしたリストは、巊偎バヌの「List Manager」で「Uploaded List_1」ずしお保存されおいたす。削陀やrenameもできたす。
  • Gyazo
  1. 解析を続けたす。真ん䞭の「Functional Annotation Tool」をクリックしたす。
  2. 「Gene Ontology」をクリックするず、Gene Ontologyを甚いた解析の现かいメニュヌが衚瀺されたす。
  • Gyazo
  1. 今回は、GOTERM_BP_FAT (BP = Biological Process)に泚目したす。その右の「Chart」をクリックするず結果がポップアップされたす。
  • Gyazo
  1. タむトル行をクリックするず゜ヌトできたす。
  2. さらに、GOTERM_CC_FAT や GOTERM_MF_FAT を芋お、䞊䜍にリストされたGOTermにどのような共通点・盞違点があるでしょうか。
  • CC = Cellular Component
  • Gyazo
  • MF = Molecular Function
  • Gyazo
  1. Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども芋おみたしょう。

  2. DAVIDで埗られた結果を螏たえ、「ある実隓」ずはどのような実隓であったか考察しおみたしょう。

  • マル秘遺䌝子リストは「ある実隓の前埌の2矀間で有意に発珟枛少した遺䌝子矀のリスト」
  • 生物皮はArabidopsis thaliana (シロむヌナズナ)

答え合わせ


【実習3】これたで孊んだこずを螏たえお、発珟デヌタの結果を生物孊的に解釈する

  • DAVID の䜿い方に慣れおきたずころで、実戊的な生物孊的解釈に挑戊しおみたしょう。

  • 今回は「正解」はありたせん。情報分析力ず想像力が問われたす。

  • 䟋題は、GSE28619 を぀かいたす。

    • 健垞者 vs アルコヌル性肝炎患者 の2矀比范です。
    • 倚重比范法Benjamini & Hochbergを指定しお、有意氎準1未満か぀2倍以䞊発珟差のあった遺䌝子矀のリストをあらかじめ甚意したした。
      • 「健垞者AH患者_遺䌝子リスト」GEO2R_Ctrl.txt
      • 「AH患者健垞者_遺䌝子リスト」GEO2R_AH.txt
      • (この遺䌝子リストの䜜り方は、AJACS埡茶ノ氎の回 で解説しおいたす。)
  • DAVID 以倖のツヌルを䜿っおみる

  • GeneSetDB

  • 䞀応ひず぀の答え

    • このデヌタを䜿った論文がありたす。
    • 䌌たような結論が導かれたしたか? あるいは、著者らが芋逃しおいる(かもしれない)着県点や新たな着想が埗られたしたか?

たずめ

  • ぀たみ食い的ではありたすが通り䞀遍の倧芏暡発珟デヌタに察する生物孊的解釈の方法を孊びたした。
  • 「道具」を知っお䜿い方が分かれば、あずは情報分析力ず想像力の勝負。
  • ぜひご自身のデヌタ、あるいはご自身のテヌマに関連する公共デヌタの生物孊的解釈をしおみたしょう。
  • 実戊≒実践あるのみ