Skip to content
Toda edited this page Jun 14, 2021 · 28 revisions

Welcome to the aptamCORE (aptamer Clustering Organizing, Really Efficiently) wiki!

概要

SELEX 法のような、塩基配列の濃縮を目的とした複数回の実験を行う手法において、NGS により出力された配列データを処理し、可視化するアプリケーションです。

  • FASTQ ファイルの読み込み
  • クオリティによるフィルタリング、FLASH2 を用いたペアエンドのマージ
  • CD-HIT-EST を用いたクラスタリング
  • クラスター内に含まれる配列の確認
  • リード数をカウントし、棒グラフで可視化
  • ラウンド間の共通クラスターの存在を Venn 図で可視化

という機能があります。


使用法

設定の変更


メニュー左の aptamCORE をクリックし、プルダウンメニューから Settings をクリックしてください。



Views セクションではテーブルに表示されるカラムの選択や、配列数の変更を行えます。



Compare セクションでは、Compare 画面において使用される値の種類(数か割合か)および表示されるグラフの数や大きさを変更できます。



Color セクションでは、塩基の背景色を変更できます。


Copy and Go 機能

各種 Web サービスへのスムーズなアクセスを実現する機能です。対象の配列をクリップボードに保存し、特定の URL のページを開きます。


Copy and Go Button の Check ボックスを Check してください。



Copy and Go セクションに URL を設定してください。5 つまで設定できます。



ボタンをクリックすると、OS に登録されたブラウザで、設定した URL が開きますので、ページ内のテキストボックスに右クリックや CTRL+V を用いてペーストしてください。(自動で挿入はされません)


解析


開始画面で New Analysis をクリックしてください。



任意の名前を入力し、保存ボタンをクリックしてください。ここで入力した ファイル名(.db)という sqlite 用ファイル、およびファイル名(.db)-開始時刻という名前の中間ファイル出力用フォルダが作成されます。

設定できる条件

  • Quality Criteria:塩基のクオリティがこの値未満であると、Low Quality Element とみなします。
  • Max Low Quality Elements:Low Quality Element がこの値以上であると、そのリードは除外されます。プライマーの塩基も考慮されます。
  • Length of Variable:プライマーを除いたリードの長さがこの値の範囲に含まれない(未満、より大きい)場合、そのリードは除外されます。
  • Forward Primer (5' to 3'):5' 側のプライマーを指定してください。
  • Maximum Head Sequence Error:5' 側のプライマーのアラインメント(Needleman-Wunsh)のプライマー終端までのミスマッチ及びギャップ数がこの値以上であると、そのリードは除外されます。
  • Complementary of Reverse Primer (5' to 3'):3' 側のプライマーを指定してください。
  • Maximum Tail Sequence Error:3' 側のプライマーのアラインメント(Needleman-Wunsh)のプライマー終端までのミスマッチ及びギャップ数がこの値以上であると、そのリードは除外されます。
  • Similarity Criteria:クラスター化する際の配列の一致率を指定してください。(cd-hit-est の -c オプションに与える値の 100 倍) 80 未満も設定できますが、cd-hit-est がサポートしている値は 80 (75 ですが、aptamCORE の他の制限で 80 になっています)が最小値です。
  • Cluster Size Criteria:クラスター化されたリードの数がこの値未満であると、そのクラスター及びクラスターに含まれるリードは除外されます。
  • Cluster Complementary Sequences:相補的配列も同じクラスターに含みたい場合オンにしてください。



解析条件を設定してください。Save As Preset ボタンで、現在入力中のパラメータを保存できます。default という名前で保存すると、毎回開始時に読み込まれます。



青い四角をクリック、エクスプローラーからドラッグアンドドロップ、File メニューから Add Dataset で、Fastq ファイルを指定してください。.fq.gz、.fastq.gz、.fq、.fastq が読み込めます。



ペアエンドのデータを入力とする場合は青い四角の下のラジオボタンで変更してください。



順番が違っている場合はドラッグアンドドロップで変更してください。



ファイルを全部指定し終わったら、左の Analyze ボタンを押してください。



計算が始まります。



このような画面になると正常に処理が完了しています。何も表示されない場合、パラメータの設定を見直してください。回転画像の画面から変化しない場合は、タスクマネージャを確認してください。最も時間がかかる部分は CD-HIT-EST であり、類似のプロセス名がタスクマネージャのリストに見つかる場合は計算中です。そのようなプロセス名が無い場合、どこかでエラーが起きている可能性があります。その場合は状況説明等を添えて Issues に問題を投稿していただけると、解決できるかもしれません。


結果の確認

Information パネル


左の Information ボタンを押すと、処理条件と結果の要約を確認することができます。項目が示す内容は以下の通りです。
  • Processed Sequences:入力になった FASTQ に含まれていたリードの数
  • Accepted Sequences:リード用フィルタを通過したリードの数
  • Rejected Sequences:リード用フィルタを通過できなかったリードの数
  • Accepted Clusters:クラスター用フィルタを通過したクラスターの数
  • Accepted Cluster Sequences:クラスター用フィルタを通過したクラスターに含まれるリードの数
  • Rejected Clusters:クラスター用フィルタを通過できなかったクラスターの数
  • Rejected Clusters' Sequences:クラスター用フィルタを通過できなかったクラスターに含まれる配列の数

Paired End のデータを使用した場合にのみ表示されるデータ
  • Merged Fastq:中間ファイル出力用フォルダ以下にできる、マージ後の FASTQ
  • Fastq File1:マージに使用された FORWARD リードの FASTQ
  • Fastq File2:マージに使用された REVERSE リードの FASTQ
  • Merged Reads:マージされたリードの数
  • Not Merged Reads (Forward):マージされなかった FORWARD リードの数
  • Not Merged Reads (Reverse):マージされなかった REVERSE リードの数


Families パネル


左の Families ボタンを押すと、クラスターを代表する配列を確認することができます。左上の Member ラジオボタンをオンにすると、クラスター内の他の配列が確認できます。
Export ボタンから、表示している内容を CSV もしくは FASTA ファイルで出力できます。ファイル保存ダイアログのプルダウンメニューから選択してください。 1.6.0 までは FASTA ファイルは、表示されている配列のコピーを、クラスターに含まれているリード数分出力します。1.7.0 以降は、クラスターに含まれる全メンバーの配列を出力します。アラインメントはされていないので、Clustal Omega 等でアラインしてください。



左上の Compare ラジオボタンをオンにすると、ラウンドごとのクラスターの大きさを確認することができます。Compare パネルの情報も参照して下さい。


Sequences パネル


左の Sequences ボタンを押すと、各ラウンド(FASTQ ファイル)に含まれる配列を確認できます。ラウンドごとの配列数を確認することもできます。Compare パネルの情報も参照して下さい。


Compare パネル


左の Compare ボタンを押すと、ラウンドごとのクラスターの大きさを一覧することができます。ラジオボタンで、棒グラフに使用する値の変更ができます。
  • Filters:塩基の割合等で結果をフィルタリングする際に使用します。

  • Scoring Function:

    • Ratio in the selected dataset:左側のパネルで選択したデータセット(ラウンド)内での割合が大きい順に並べます。
    • Minimum Diff:直前のラウンドとの差を計算し、最も小さい差が大きい順に並べます。
    • Final Diff:最初のラウンドと最後のラウンドの差を計算し、大きい順に並べます。
    • Minimum Scale:直前のラウンドとの比を計算し、最も小さい比が大きい順に並べます。
    • Final Scale:最初のラウンドと最後のラウンドの比を計算し、大きい順に並べます。
  • Target Type:

    • Cluster Representative:クラスターの代表配列を走査し、そのクラスターに含まれる全配列数(リード数)を使用します。
    • Cluster Members:クラスターを構成する全配列を走査し、ある配列が含まれるクラスター内に含まれる全配列数を使用します。
    • Sequences:ある配列の数そのものを使用します。


Venn パネル


左の Venn ボタンを押すと、各データセット(FASTQ ファイル)において、同じクラスターもしくは配列が存在するか、存在しないかを示す Venn 図を表示します。具体的にどのようなクラスター/配列が含まれるかは Export して確認します。
  • 注意
    • Create Fastq ボタンは、そこにリストされているデータセットだけでなく、全データセットについて Fastq ファイルを出力します。例えば、A, B, C というデータセットにクラスター 1~4 が A(1,2,3,4), B(1,2), C(1,3) と存在する場合、A, B に共通するクラスターをとると、A(1,2), B(1,2), C(1) として出力されます。
    • Create Fastq ボタンにより出力される Fastq のクオリティは、元の Fastq ファイルのクオリティでなく ”P” が与えられます。


備考

  • 外部アプリケーションに使用されたオプションは中間ファイル出力用フォルダ内の system.log 内に出力されています。
  • ファイルパスが長すぎるせいでエラーとなるケースがあります。”A JavaScript error occurred in the main process”...”Error: Command failed” のようなエラーが出た場合、長いファイル名、フォルダ名を短いものに変えて実行してみてください。