Skip to content

Latest commit

 

History

History
258 lines (217 loc) · 16.7 KB

README.md

File metadata and controls

258 lines (217 loc) · 16.7 KB

AJACS御茶ノ水 次世代シーケンサー(NGS)と関連するデータベース・ツール

情報・システム研究機構(ROIS)
ライフサイエンス統合データベースセンター(DBCLS)
仲里 猛留 nakazato@dbcls.rois.ac.jp
twitter: @chalkless

2015年5月20日 AJACS御茶ノ水@東京医科歯科大学


AJACS御茶ノ水 > 「次世代シーケンサー(NGS)と関連するデータベース・ツール」


おことわり

  • 次世代シーケンシングデータのコマンドラインによる解析は今日は演習はやりません。
    • ∵ 時間がない。マシンパワーとディスク容量が必要なため。データの転送に膨大な時間がかかるため。目的別に解析の方法が違う
    • ウェブツールを用いた解析については、この後のコマでとりあげてくれますので、そちらを。
    • ↓ 参考サイト

参考

次世代シーケンサ(とそのデータ)基礎知識

  • 言葉
    • 次世代シーケンサ
    • 次世代シーケンサー
    • 新型シーケンサ
    • New-generation Sequencing (NGS)
    • Next-generation Sequiencing (NGS)
    • 他にmassively parallel DNA sequencing とか...
    • 最近は、 High-throughput DNA sequencing (technology) をよく使う印象(略語はNGS)

何が新型/次世代なのか?

  • 90年代
    • ゲル板
    • ポリアクリルアミドゲル電気泳動 + 蛍光標識ダイデオキシヌクレオチド

NGSデータの規模

  • 【実習】どのくらいのデータ量になるか考えてみましょう
    • ゲル板:750 (base/lane) × 48/4 lanes = 9kbase
    • キャピラリ:500 (base/lane) × 96 lane = 48kbase
    • 次世代: 36 (base/seq) × 300M seq/run = 10.8Gbase = 10,800,000kbase
    • ↑これらの数字は規模感をつかむだけなので、ざっくりな数字になっています(1 runにかかる時間は比較してないですし)
    • ↑これらの数字は「塩基数」であって、シーケンサの出力である「画像データ」のデータサイズでないことに注意!
    • そして、その画像データはSRAには登録されていない
    • [参考] 各シーケンサの性能比較 -http://bit.ly/ngsspecbydritoshi (二階堂さん@理研)

NGSの利用範囲

  • ゲノム、発現解析、メタゲノム解析、ChIP-Seq(転写因子解析)、SNP解析、...
    • 目的によって必要なデータ量も違う
    • 機器に合った利用を

NGS関連データベース

SRAとは

  • NGSのデータのレポジトリサイトです
  • SRA = Sequence Read Archive
    • 昔は「Short Read Archive」だったが、shortでなくなってきたので
  • 誰(どこ)が集めているのか?
    • NCBI(米): SRA
    • EBI(欧): ENA (European Nucleotide Archive)
    • DDBJ(日): DRA (DDBJ Sequnece Read Archive)
    • 3局でデータの交換をしている
      • DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
      • 個人情報にからむものは、実際の配列データはしかるべきところにしかない。本日最後のセッション参照。

NCBI SRAやめます事件(11/2/16 現地時間)

###【実習】DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/

  • こういうときはNCBIと思いがちですが、データ転送量が多い + インターフェースきれい なのでDDBJを使いましょう
    • http://trace.ddbj.nig.ac.jp/DRASearch/ にアクセス
    • Keyword に興味のある語を入れてみましょう(例:variation)
    • Filtered by の document type で絞り込み:Study
    • Filtered by の organism で絞り込み:Homo sapiens
    • ACCESSION の SRP...... をクリック → 詳細が
    • 画面右の Navigation にあるFASTQやSRALiteからデータがダウンロード可能
  • DDBJにあるドキュメント見てみる
  • 実データ:FASTQ形式

@DRR001107.1 GEZQ5FO01EEA7F length=77 GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTGTCGCGTCTCTCAAGGCACACAGGGAGTAGNGNNN +DRR001107.1 GEZQ5FO01EEA7F length=77 C@BBBECCECDBBBAAAAA<441111<?@>?=?????44!00044322====22--..//6998222<7<3/!/!!!

  • 1行目: @ + タイトル
  • 2行目:塩基配列
  • 3行目: + (+ タイトル)
  • 4行目:シーケンスクオリティ
  • 実データ その2:SRA形式
    • FASTQ形式データはディスク容量を食うので圧縮した形式 → SRA ToolkitでFASTQ形式に変換して用いる
    • たまに変換にミスることがある。ダウンロードに失敗していないならば、ファイルが壊れてアップされていることがあるので、NCBI(か、手近にDDBJ)にクレームを入れましょう。

統計情報から検索する (DBCLS SRA: http://sra.dbcls.jp/ )

  • 統計情報の詳細: http://sra.dbcls.jp/trends.html
    • 目的別
      • 【実習】興味のある「目的」をクリックしてどんなプロジェクトがあるか見てみましょう
    • Platform別
      • 【実習】興味のある「Platform」をクリックして、(以下同)
    • 生物種別
      • 【実習】興味のある「生物種」をクリックして、(以下同)
    • 組合わせで
      • 【実習】Search SRA data 欄でいくつかの条件を組み合わせて検索してみる
  • 個々のプロジェクトの中身を見てみましょう
    • Sequencing Profileの欄から各々のRun(例:ERR030856)についてクリックして、詳細を見てみよう。→ FastQCによりQuality Checkをかけた結果です

文献から検索する

  • 質のいいデータで解析したい → ひとつの基準として論文が出ていれば質は高かろう
  • DBCLS SRA の文献リスト: http://sra.dbcls.jp/cgi-bin/publication.cgi
    • NGS関連文献とそこで言及されているNGSデータのリスト
    • 目的/Platform/生物種で絞り込み可能
    • 目的:「使える」データをさがす
    • 文献として成果が出ているSRAデータセットをさがしてデータの内容とともに俯瞰する
  • 生物種、目的に制限あり

疾患から検索する

  • 文献が出ているもののうち、疾患に関連するものを疾患名でまとめた → 論文が出ていないものについても拡張予定
    1. DBCLS SRAにアクセス
    2. 下の方の Search by diseasesから

NGSデータの解析

概要

#ref(NGSflow.png);

Quality Control (QC)

解析その1(Whole Genome, Transcriptomics)

  • その1:既知のゲノムに貼る (Reference Genome Mapping)
    • QCの結果をもとに、使わない部分(使い物にならない部分)を除去する ... FASTX-Toolkit などを用いる
    • マッピング... tophat2、bowtie、bwa などを用いる(どれを使えばいいか? → 速度と精度、目的によって使い分けます) bowtie2 -x hg19. -U SRR1294107.fastq > SRR1294107.sam ← SRR1294107 を hg19 に対してマッピングしてSAM形式で出力
      • FASTQ形式 → SAM形式
    • マッピング形式の可視化
    • SAM形式は必要に応じてバイナリ形式のBAM形式に変換して用います(逆にBAM形式を人間が読めるようにSAM形式にすることもある) samtools view -Sb SRR1294107.sam -o SRR1294107.bam (SAMからBAMへの変換)
  • 発現量の定量 ... cufflinks などを用いる
  • control に対してサンプル(KOした、疾患状態、...)の発現はどう違うか? ... cufflinks のうちcuffdiff cuffdiff ensembl_gene.gtf -o result SRR1294107.bam control.bam ←controlに対してSRR1294107での発現がどう違うか?
    • ここでensembl_gene.gtf にはトランスクリプトームの情報が含まれています(アノテーション情報)
    • 転写単位ごとの発現量情報推定 ... cummeRbund (cufflinks の結果を解析するRパッケージ)
  • 多分、ここまで行き着かないだろうので、二階堂さんがAJACSで話した内容の統合TVを参考にしてください: http://togotv.dbcls.jp/20120926.html#p01
  • その2:一からつなげる(De novo Assemble)

このあとのコマでやります。

解析その2(ChIP-Seq、転写因子解析)

  • その1で書いたマッピングするところまでは発現解析と同じです(FASTQ → SAM → BAM)
  • binding site予測 ... macs2 などを用いる samtools sort oct4.bam oct4.sort ← 下準備:BAMファイルのソート samtools index oct4.sort.bam ← 下準備:インデックス作成 macs2 -t Oct4.bowtie.sort.rmRepeat.bam -c GFP.bowtie.sort.rmRepeat.bam -f BAM -g mm -n Oct4 -B -q 0.01
  • 高次解析に進みます

解析その3(SNV/Indel解析) [#g52026e8]

  • SNV: single nucleotide variation
  • その1で書いたマッピングするところまでは基本的に発現解析と同じです(FASTQ → SAM → BAM)
  • samtools を用いる場合
    • bwaでマッピング、samtoolsでSNP callという流れは割とみながやっている手法です samtools mpileup -Bugf in_genome.fasta in_sorted.bam | ./bcftools view -bvcg - > out_raw.vcf
    • 参考:http://ameblo.jp/drosk/entry-11222753481.html
  • GATKを用いる場合
    • GATKはSNP解析、変異解析に特化したソフト
    • 流れ
      • Indel付近をリマッピング(一塩基のずれが結果に響くので丁寧にマッピングする)
      • SNV検出
      • アノテーション情報付与 ... SNPEff などを用いる
  • SAM/BAM形式 → vcf形式

得られたNGSデータの登録

SRAへのNGSデータの登録


AJACS御茶ノ水 > 「次世代シーケンサー(NGS)と関連するデータベース・ツール」