情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター
坊農 秀雅 bono@dbcls.rois.ac.jp
2017年8月24日
これは統合データベース講習会AJACS河内「遺伝子発現DBを含む公共オミックスDBの使い方」の資料です。
本講習は、だれでも自由に使うことができる公共DBやウェブツールを活用して、研究のさまざまな場面で調べることの多い個々のオミックスDBを簡単に調べるための方法と基礎知識について学びます。 とくに、需要の増している公共DBから遺伝子発現データを検索し取得してくる方法について詳しく説明、実習します。 また、自ら行なった大規模発現解析の(あるいは公共DBから取得・解析した)結果として得られた数百〜数千におよぶ遺伝子セットについて、生物学的な解釈をする方法とその結果の考察を実践します。
今回の講習では、以下の内容について順番に説明します。【実習】の部分はみんなでやる実習、【応用】は早くできてしまった人用の応用課題です。
- 研究現場で頻繁に使われるDBやツールを知る: 統合TV
- 公共オミックスDBとは
- 公共オミックスDBの使い方
- EBI ArrayExpress
- 【実習1】ArrayExpressを使って、興味ある実験データセットを検索する
- NCBI Gene Expression Omnibus(GEO)
- AOE (All of gene expression)
- 【実習2】AOEを使って、興味ある実験データセットを絞り込む
- EBI ArrayExpress
- 個々の遺伝子の発現プロファイルなどを調べる
- 【実習3】RefExを使って、組織特異的遺伝子を検索する
- 【応用1】ChIP-Atlasを使って注目の遺伝子がコードされたゲノム領域にあるChIP-seqピークを検索する
- 数十~数千の遺伝子群の生物学的解釈
- 【実習4】metascapeを用いて、発現データの結果を生物学的に解釈する
- 【応用2】複数のエンリッチメント解析ツールを用いて、発現データの結果を生物学的に解釈する
- みんなで同時にアクセスするとサイトにつながりにくくなることが予想されます。
- 資料を見ながら自力で進められそうな方はどんどん先に、そうでない方は講師と一緒にすすめていきましょう。
- サイトの反応が悪い時はタイミングをずらして実行してみてください。
- 反応が無いからと言って何度もクリックするとますます繋がらなくなってしまいます。おおらかな気持ちで臨みましょう。
- わからないことがあったら挙手にてスタッフにお知らせください。
- 遠慮は無用です(そのための講習会です!)。おいてけぼりは楽しくありません。
- 生命科学分野の有用なデータベースやツールの使い方を動画で紹介するウェブサイト
- http://togotv.dbcls.jp/
- YouTube版もあります http://youtube.com/togotv/
- ウェブサイトへのアクセスから結果の見方まで、操作の一挙手一投足がわかります。
- 講義・講習などの参考資料や後輩指導の教材として利用できます。
- 本講習中、本家サイトが繋がらない時は、統合TVのYouTube版を見ればおおよその内容がわかるようになっています。
- 今回の講習に関連する内容の多くは、「発現解析」タグのついた動画にあります。
- 過去の講習会の内容はそのほとんどが統合TVに収録されており、いつでもどこでも繰り返し復習できるようになっています。
- お探しの動画が見つからない or 統合TV未掲載の場合は、統合TV番組リクエストフォームへどうぞ!
- 統合TVを作ってくれる方、募集中!!
遺伝子発現解析などのオミックス解析→DB(というか、公共アーカイブ)に登録
- 日本では論文投稿前が現在一般的
- 欧米では研究費の条件で多くの場合データを出したらわりとすぐ
- マイクロアレイの発明→網羅的遺伝子発現定量が可能に→遺伝子発現DB
- アレイのイメージデータ(CELファイルなど)
- 定量データ(Series Matrix File)
- DDBJ CIBEX (更新停止)
- NCBI Gene Expression Omnibus(GEO)
- EBI ArrayExpress
- ArrayExpressはGEOのデータを定期的に取り込み続けている→こちらの使用を推奨
- 次世代シークエンサー(NGS: Next Generation Sequencer)の発明→個々のサンプルでのtranscript sequencing (RNA-seq)が現実的に
- データはNGS配列DB(SRA: Sequence Read Archive) and/or 遺伝子発現DBへ?
- NCBI,EBIでは遺伝子発現DB(それぞれGEO,ArrayExpress)に登録すれば、配列データ(FASTQファイル)がSRAにも登録される状況
- DDBJ(日本)もその仕組みを現在構築中
- 現状、どこかの公共DBに登録されていればOK
- 詳しい手順は、次世代シークエンサーDRY解析教本「Level2② 発現解析」p97-141などを参考に
- EBIが提供・維持管理している遺伝子発現情報のデータベース
- http://www.ebi.ac.uk/arrayexpress/
- NCBI GEOのデータも取り込んでいて、こちらのほうがデータ数が多い
- インターフェースが使いやすい
-
ArrayExpressのサイトにアクセス、検索窓に'cancer'と入力
-
今回はそのまま'Search'ボタンを押して、cancerで検索してみます
-
黄色でハイライトされた'cancer'以外に、オレンジ色でcancer関係のキーワードもハイライトされているのを確認しましょう
-
デフォルトでは'Released'(データの公開日)が新しいものから古いもの順にならんでいます。'Views'(閲覧数)をクリックして並べ替えてみましょう
-
詳細を見るには'Accession'のリンクをクリックします。番号の意味はこちらを参照
-
ブラウザのバックボタンで戻ります。'Title'には研究内容のタイトル、'Type'には実験の種類、'Organism'には生物種が書かれています
-
'Processed'にアイコンがあるものは解析済みデータがあることを、'Raw'にアイコンがあるものは生データがダウンロード可能であることを示しています
-
ブラウザのバックボタンで戻ります。'Atlas'にアイコンがあるものはExpression Atlasにデータが収録されていることを示しています。
-
自分の研究テーマに近い、また興味のあるマイクロアレイデータが利用可能か検索してみましょう。
-
NCBIが提供・維持管理している遺伝子発現情報(主にマイクロアレイ)のデータベース
-
自分の興味のある発現データセットや遺伝子プロファイルを検索することができるだけでなく、それらの生データを自由にダウンロードすることが可能です。
- GEOのエントリについて(GEO ID番号の最初の3文字の意味)
- GPL: Platform ー マイクロアレイチップの種類
- GSM: Sample ー 1枚のマイクロアレイチップから得られたサンプルデータ
- GSE: Series ー 1つの実験で得られたGSMのセット
- GDS: DataSet ー NCBIのスタッフが解析可能なデータを集めて再編成したGSMのセット
- GEOのエントリについて(GEO ID番号の最初の3文字の意味)
- 遺伝子発現用のデータ目次
- 年ごと、生物種ごとにヒストグラム表示
- http://AOE.dbcls.jp/
- マイクロアレイ(Affymetrix,Agilent,それ以外) + RNA-seq(Illumina,それ以外)
- キーワード検索も
- http://AOE.dbcls.jp/ にアクセスします
- 「生物種別登録データランキング」で生物種のところ(8. Escherichia coli)をクリックすると、その生物種だけのデータ登録数に絞りこめます
- 「手法別登録データランキング」で赤系の色(4. illuminaと5. Other_NGS)だけクリックして残すと、NGSによる遺伝子発現測定のデータのみに絞りこめます
- 上部の検索窓でキーワード(例えば、
hypoxia
)を入れて検索ボタンを押すと、そのキーワードを実験タイトルに含むエントリだけに絞りこめます
【参考】AOEを使って遺伝子発現データベースの統計を見ながら検索する
- ヒト、マウス、ラットの遺伝子発現情報リファレンスデータセット
- 4つの異なる実験手法(EST、GeneChip、CAGE、RNA-seq)によって得られた正常組織、初代培養細胞、細胞株における遺伝子発現データを検索、閲覧可能
- 最近新たに、FANTOM5 CAGEデータが追加(ヒト556種、マウス286種)
- 掲載しているデータやオリジナルデータなどの詳細については、RefExについて
- RefExで掲載されているデータはすべて再利用可能
- このツールでできること
- 正常組織における遺伝子発現データを調べる
- 測定手法による遺伝子発現量の差異を比較する
- 組織特異的遺伝子をワンタッチで検索可能
- 遺伝子発現解析などで見出された不詳な遺伝子群の機能および関係性を調べる
-
http://refex.dbcls.jp/ を開きます。
-
画面中央の「組織特異的に発現する遺伝子を見る」の臓器アイコンにカーソルを合わせると、更に詳細な部位のアイコンが出るので、調べたい臓器(例として肝臓)をクリックします。
-
検索結果一覧が表示されます。検索結果一覧では、「ソート項目の切り替え」や「絞り込み検索」、「リストへの追加」ができます。(手順11以降で解説します。)
-
各遺伝子の青字の部分(例 fibrinogen alpha chain)をクリックすると詳細情報を閲覧できます。
-
「ヒートマップ on Bodyparts3D」では、表示する部位の切り替え(全身・体幹部・頭部)ができます。「皮膚・骨格筋を表示」もしくは「アニメーション表示」にチェックを入れるとどのように表示されるでしょうか。
-
「Download」をクリックすると、表示中の遺伝子の組織40分類別の発現データがタブ区切り形式でダウンロードできます。
-
遺伝子オントロジー(GO ID)をクリックすると、そのGO termを持つ他の遺伝子を一括で検索できます。
- 例として、GO:0007596 blood coagulation をクリックしてみましょう。
- 右側のFANTOM5 CAGEのタブをクリックすると、FANTOM5 CAGEデータのビューアに切り替わります。
- ビューアは上部が拡大図で、下部が全体表示になっています。
- 検索窓にキーワードを入れるとサンプル名を検索できます。ヒットしたサンプルはオレンジ色で強調されます。
- 右側に、サンプル名と発現値、サンプル分類が表示されます。
- RefEx用に整理したサンプル情報一覧も閲覧可能です。
- 検索結果一覧に戻ります。ソート項目を切り替えて、どのように結果が変わるでしょうか。
- 様々な条件で検索結果を絞り込むことができます。絞り込み検索は左のバーから行えます。
- 遺伝子名に「liver」を含むデータは何件あるでしょうか。
- 「遺伝子名」の下の「条件なし」をクリックして表示されるウインドウに「liver」と入力し、「Include」をクリックし、「この条件で絞り込み」を押します。
- 「遺伝子名」の項目で「Exclude」に「solute」を加えると、検索結果はどう変わるでしょうか。
- 「組織」の項目で、データ元をRNA-seqに変更したり、臓器の指定を追加すると検索結果はどう変わるでしょうか。
- 「必ず含むデータセット」の「ALL」にチェックを入れると、検索結果はどう変わるでしょうか。
- 個々の遺伝子の詳細情報は、リストに追加することで並列に比較することができます。
- 肝臓特異的遺伝子の検索結果一覧に移動して、3つの遺伝子を「リストに追加」してみましょう。
- 追加した件数は「リストを見る」の横に表示されます。
- 「リストを見る」をクリックするとリストに移動します。
- 『並べて表示する』にチェックを入れて、「遺伝子を並べて表示」をクリックします。
- 並列に比較することで見えてくる「違い」はなんでしょうか。
- 自分の研究テーマに関連する、また興味のある遺伝子について検索してみましょう。
ChIP Atlasは公共のChIP-seqデータを再解析することで簡単に公共データを再利用できる仕組みです。
- Peak Browser
- Target genes
の機能に関して簡単に説明します。
- マイクロアレイやRNA-seqデータの生物学的な解釈
- マイクロアレイやRNA-seq、すなわち遺伝子発現解析の一般的な目的は、実験条件によって得られた数十~数千の遺伝子群の発現が生物学的にどういう意味を持つかを考えることです。
- 今回は、その方法の一つとして、遺伝子リストにある遺伝子群に機能アノテーション(Gene Ontologyなど)を付与し、生物学的な解釈を行います。
-
サンプルデータとして、公共遺伝子発現データベースからメタ解析してえた遺伝子リストを用います。この遺伝子リスト
affy10.txt
は、ある刺激前後の2群間で発現増加した実験が10回以上あった遺伝子群のリストです。
→affy10.txt
(右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください。) -
このデータは、どのような実験から得られたデータなのか、どのように解釈できるのかをDAVIDを使って考察してみましょう!
- metascapeのウェブサイトにアクセスします。
- probe IDリストをコピペ or ファイルを指定し、
Submit
をクリックします。 - リストのIDの種類タイプが自動的に推定されます。… 今回は、
Affymetrix ID
と推定されました。 Express Analysis
をクリックするとデータ解析が実行されます。- しばらく待つと解析が終了し
Analysis Report Page
が現れます。それをクリックします。 - 解析を続けます。真ん中の「Functional Annotation Tool」をクリックします。
- Enrichment解析の結果が表示されます。
- 下部のPDFアイコンをクリックすると、Enrichment解析のヒストグラムがPDF形式でダウンロードできます。
Gene List Report Excel Sheets
やGene List Report PPT file
をクリックするとそれぞれExcelとPowerPointのファイル形式で結果が得られます。- このページの下部には、Enrichment解析の詳細な結果などが表示されていますので見てみましょう。
- かつてはDAVIDというツールでこのエンリッチメント解析は行われていました。同様の結果が得られるか、試してみましょう。
- また、特に医学・薬学分野に関連した情報を解析対象にすることができるのが特長のGeneSetDBというツールもあります。これも試してみましょう。
- 複数のツールで得られた結果を踏まえ、「ある実験」とはどのような実験であったか考察してみましょう。
affy10.txt
は「ある刺激前後の2群間で発現が1.5倍以上上昇した実験が10回以上あった遺伝子群のリスト」
- 早く終わった方は、さらに20回以上発現上昇があった遺伝子群のリスト、
affy20.txt
(右クリックして「新しいタブで開く」もしくは「名前を付けてリンク先を保存」してください)で同じデータ解析をやってみましょう。10回以上のリストと比べてどういった違いがみられるでしょうか?- このようにいろいろな閾値を試して、結果を見て考察し、最終的な閾値としております(例: Table 4. Gene Set Enrichment Analysis of up/down-regulated genes after UV irradiation.DOI: 10.1371/journal.pone.0116007.t004)