統合データベース講習会AJACSadvanced(AJACSa)三島3
JSTのバイオサイエンスデータベースセンター(NBDC)では、統合データベース講習会AJACSを全国の大学や研究所で開催しております。DBCLSの研究員もその講師を務めておりますが、中上級のadvancedな内容の講習会として今回、非モデル生物のRNA-seqデータ解析で活躍するTrinityを使った講習会を遺伝研研究会「次世代モデル生物におけるゲノム情報利用ワークショップ」と連続開催で行います。
2016年12月16日(金)
国立遺伝学研究所 宿泊棟会議室
− 非モデル生物でNGSデータ解析環境を作りたい方
- de novo transcriptome assembly のツールTrinityを使ってみたい方
- 次世代シーケンサーDRY解析教本Level1を一通りマスターした程度のUNIXのコマンドラインが使える方
- Mac所有者もしくはLinuxが使える方(講習はMacで。各自コンピュータを持ち込んでください。貸出はありません)
- NGSデータ解析の
プロ
でない方。講習する方が困りますので…
13:00~16:00 「pitagora-galaxyを使ったデータ解析環境の構築とTrinityによる Transcriptome assembly」
坊農 秀雅
(情報・システム研究機構ライフサイエンス統合データベースセンター)
インストールすること無く、お試しでウェブブラウザ上で
http://try.pitagora-galaxy.org/galaxy/
実用的?
http://www.pitagora-galaxy.org/download
参考: 統合TV「Pitagora Galaxyを使ってマウス操作だけでRNA-seq解析をする」
-【課題1】 SRAから興味深いデータを検索して、NGS tools -> FASTQC を実行してみましょう。
- 気になるFASTQデータをSRAからダウンロードしましょう
- DBCLS SRAの利用
- 左上のアップロードアイコンにデータをアップロード
-
Trinityは、よく使われている de novo transcriptome assembly のツール。
-
Citation: Nat Biotechnol. 2011 May 15;29(7):644-52. doi:10.1038/nbt.1883
-【課題2】Trinityをインストールして、SRAから興味深いRNA-seqのデータを検索して、Trinityを実行してみましょう。
-
MacOSX + homebrewだと以下のコマンドでインストール完了
brew install -v Trinity
-
講習会の時点での(homebrewでインストールできる)最新バージョンは
2.3.2
- ペアエンドの場合
Trinity --seqType fq --left hoge_1.fq.gz --right hoge_2.fq.gz --max_memory 16G --CPU 4
- シングルエンドの場合
Trinity --seqType fq --single fuga.fq.bz2 --max_memory 16G --CPU 4
指定するFASTQファイルは(gzip, bzip2)圧縮されていても大丈夫の模様。--max_memory
で使用メモリ上限、--CPU
で使用するCPU数を指定。
- 出力結果は、転写単位ごとの塩基配列のFASTA形式ファイル。実行したディレクトリの下に
trinity_out_dir
というディレクトリが作成され、その中のTrinity.fasta
というファイルがそれ。 - 参考: ぼうのブログ: Trinityで転写産物を定量する もしくはこちら(バックアップ)
align_and_estimate_abundance.pl
を使うと、転写量を見積もって定量できる。- Trinityをhomebrewでインストールすると
/usr/local/Cellar/trinity/2.3.2/util/
以下にインストールされているはず。
- Trinityをhomebrewでインストールすると
- RSEM(RNA-Seq by Expectation-Maximization), bowtie2を追加インストールする必要がある
- RSEM: http://deweylab.github.io/RSEM/ からダウンロードの上、
make
してmake install
- bowtie2:
brew install -v bowtie2
でインストール可能。TopHat2を入れてあれば入っているはず。
- RSEM: http://deweylab.github.io/RSEM/ からダウンロードの上、
- 以下のようなスクリプト(
align_and_estimate_abundance.sh
)で実行可能
/usr/local/Cellar/trinity/2.3.2/util/align_and_estimate_abundance.pl \
--thread_count 4 \
--transcripts trinity_out_dir/Trinity.fasta \
--seqType fq \
--left hoge_1.fq.gz --right hoge_2.fq.gz \
--est_method RSEM \
--aln_method bowtie2 \
--trinity_mode \
--prep_reference --output_dir rsem_outdir
-【課題3】align_and_estimate_abundance.sh
を用いて、発現定量してみましょう。
- 参考: ぼうのブログ: Trinityで転写産物を定量する もしくはこちら(バックアップ)
- 多くはメモリ不足。どうしても実行できない場合は、遺伝研スパコンなど大きなメモリ空間が使えるマシン利用を検討
- ぼうのブログ: single end readsでTrinityがコケる もしくはこちら(バックアップ)