HGCスパコン以外のコンピュータにインストールする場合に必要な手順です.
- Linux
- Drmaa(http://www.drmaa.org/)が使用できるDRMシステム
- * DRMシステムを入れて運用する程度のスペックのあるコンピュータ
※HGCスパコンではGrid Engineを使用しています
GenomonとGenomonを動かすのに必要なpythonパッケージのインストールについて記載します. 必要なパッケージは4つです→Genomon,ruffus,PyYAML,drmaa
# Genomonのダウンロードとインストール
wget https://github.com/Genomon-Project/GenomonPipeline/archive/v2.2.0.tar.gz
tar xzvf v2.2.0.tar.gz
cd GenomonPipeline-v2.2.0
python setup.py install --user
# ruffusのダウンロードとインストール
wget https://github.com/bunbun/ruffus/archive/v2.6.3.tar.gz
tar xzvf v2.6.3.tar.gz
cd ruffus-2.6.3
python setup.py install --user
# PyYAMLのダウンロード
git clone https://github.com/ravenac95/PyYAML
cd PyYAML
python setup.py install --user
# drmaa
pip install drmaa --user
インストールが必要なデータベースはパイプライン設定ファイルに記載されています.ご使用のコンピュータに各データベースをインストールしてパイプライン設定ファイルの[REFERENCE]に記載されているパスを書き換えてください.
- ref_fasta
- cfgに指定したリファレンスゲノムと,それに紐づくBWA indexファイル,FASTA indexファイルを用意する必要があります.まずはメインのリファレンスゲノムですが,Genomon2では以下の3つのFASTAファイルをマージしたものを使用しています.1) Human Genome
GRCh37-lite.fa.gz
2) Human herpesvirus 4 complete wild type genome
http://www.ncbi.nlm.nih.gov/nuccore/82503188?report=fasta
3) decoy
hs37d5cs.fa.gzリファレンスの特性について詳細は上記の各webサイトの説明よんでください.たとえば,GRCh37-liteはpseudo-autosomal regions on chrY masked with Nsしているなどの記載があります.他にBWA index, FASTA indexを生成する必要があります.
・BWA index ファイルの作成コマンド
/home/w3varann/genomon_pipeline-2.0.5/tools/bwa-0.7.8/bwa index {マージしたファイル}
・FASTA index ファイルの作成コマンド
/home/w3varann/genomon_pipeline-2.0.5/tools/samtools-1.2/samtools faidx {マージしたファイル}
- interval_list
- 並列処理をするために使用します.以下のサイトからダウンロードしてください
https://github.com/Genomon-Project/genomon_utils/blob/master/GRCh37_noScaffold_noDecoy.interval_list - star_genome
- Star indexファイルを作成する必要があります.解析対象のreadのおよその長さに合わせてオプション --sjdbOverhang の指定を変えることができますが,100で大体よいとマニュアルに書いてあって,実際に問題なく検出できているので,現在はread lengthによって変えなくても良しとしています
- gaptxt
- NCBIからダウンロードして解凍してご使用ください(originalのままを使用しています)
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/gap.txt.gz - bait_file
- exomeの場合のbam summaryのcoverageを計算するとき使います.SureSelectなど使用したbaitファイルがある場合はそちらを設定してください.無い場合はrefGene.coding.exon.bedを使用してもらえればと思います.refGene.coding.exon.bed はrefGene.txtのcoding exon領域だけをとりだして,そちらをbaitの範囲としています.作成方法は以下のwebサイトに記載しています.
https://github.com/ken0-1n/RefGeneTxtToBed
Whole genomeシーケンスの場合はbait_fileを使用しません.Whole Genomeの解析の場合はパイプライン設定ファイルの以下のハイライトのパラメタをTrueに変更してください.
[coverage]
qsub_option = -l s_vmem=1G,mem_req=1G
coverage = 2,10,20,30,40,50,100
wgs_flag = False
wgs_incl_bed_width = 1000000
wgs_i_bed_lines = 10000
wgs_i_bed_width = 100
- simple_repeat_tabix_db
- NCBIからsimpleRepeat.bedをダウンロードしてtabixのindexファイルをはります.
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/database/simpleRepeat.txt.gz
# tabixを作成する
cut -f2- simpleRepeat.txt > simpleRepeat.bed
tabix-0.2.6/bgzip simpleRepeat.bed
tabix-0.2.6/tabix simpleRepeat.bed.gz
- HGVD_tabix_db
- 京都大学からHGVDのファイルをダウンロード,VCF→TAB変換し,tabixのindexファイルをはります.
http://www.genome.med.kyoto-u.ac.jp/SnpDB/HGVD1208-V1_42-dbSNP137.tar.gz
# TAB変換のツールはこちら
git clone https://github.com/Genomon-Project/genomon_utils
# tabixを作成する
python genomon_utils/annotator_HGVD.py DBexome20131010.tab | sort -k1,1 -k2,2n -k3,3n -k4,4 -k5,5 -k6,6 > DBexome20131010.bed
tabix-0.2.6/bgzip DBexome20131010.bed
tabix-0.2.6/tabix DBexome20131010.bed.gz
インストールが必要なソフトウェアはパイプライン設定ファイルに記載されています.ご使用のコンピュータに各ソフトウェアをインストールしてパイプライン設定ファイルの[SOFTWARE]に記載されているパスを書き換えてください
DNAパイプライン設定ファイル
RNAパイプライン設定ファイル
項目 | webサイト | バージョン |
---|---|---|
samtools | http://samtools.sourceforge.net/ | samtools-1.2 |
tophat2 | http://ccb.jhu.edu/software/tophat/index.shtml | 2.0.14.Linux |
STAR | https://github.com/alexdobin/STAR | 2.4 |
STAR-Fusion | https://github.com/STAR-Fusion/STAR-Fusion | Genomon-v2.0.5では未使用 |
fusionfusion | https://github.com/Genomon-Project/fusionfusion | v0.1.0 |
ANNOVARを使用する場合の設定について
ANNOVARのダウンロードにはユーザ登録 (User License Agreement) が必要です.
http://www.openbioinformatics.org/annovar/annovar_download_form.php
ANNOVARのホームページにてユーザ登録 (User License Agreement) が完了した後に,登録したメールアドレスにANNOVARをダウンロードするためのリンクが記載されたメールが届きます.そのリンクを使用してANNOVARをダウンロードします.ダウンロード後はANNOVARのPerlスクリプトを使用してdbSNP131などの各種データをダウンロードします.
http://www.openbioinformatics.org/annovar/annovar_download_form.php
ANNOVARのホームページにてユーザ登録 (User License Agreement) が完了した後に,登録したメールアドレスにANNOVARをダウンロードするためのリンクが記載されたメールが届きます.そのリンクを使用してANNOVARをダウンロードします.ダウンロード後はANNOVARのPerlスクリプトを使用してdbSNP131などの各種データをダウンロードします.
# Genomonで必要なANNOVARのデータベースをダウンロードします.Copy and Pasteして使ってください.
DATABASE_LIST="
refGene
avsift
ljb26_all
cosmic68wgs
cosmic70
esp6500siv2_all
1000g2010nov
1000g2014oct
snp131
snp138
snp131NonFlagged
snp138NonFlagged
clinvar_20150629
"
for DATABASE in $DATABASE_LIST
do
./annotate_variation.pl -buildver hg19 -downdb -webfrom annovar $DATABASE humandb/
done
./annotate_variation.pl -buildver hg19 -downdb cytoBand humandb/
./annotate_variation.pl -buildver hg19 -downdb genomicSuperDups humandb/
ANNOVARを使用するようにパイプライン設定ファイルを編集する.以下の2か所の変更をお願いします.
[SOFTWARE]
annovar = [ANNOVARのパスをダウンロードしたANNOVAR]に変更する.
(例)annovar = /home/genomon/tools/annovar
[annotation]
active_annovar_flag = True
FalseをTrueに変更する (ANNOVARの使用する/しない)を管理しているフラグになります.デフォルトはFalseになります.
HGVDを使用する場合の設定について
HGVDのサイトのをお読みいただいた上,使用規約等に問題がなければパイプライン設定ファイルを編集する
http://www.genome.med.kyoto-u.ac.jp/SnpDB/about.html
http://www.genome.med.kyoto-u.ac.jp/SnpDB/about.html
active_HGVD_flag = True
FalseをTrueに変更する (HGVDの使用する/しない)を管理しているフラグになります.デフォルトはFalseになります.
ジョブを投入するときに使うDRAMMのライブラリを設定します.
# N1GE用のDRMAA(HGCスパコンであればこちらでOK)です.ご使用しているDRMシステムのライブラリに変更をお願いします.
export DRMAA_LIBRARY_PATH= the path to the libdrmaa.so.1.0