塩基配列を高速に検索するウェブサービス
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
static
template
.htaccess
Align2seq.pm
Approx.pm
DBlist.pm
DBmenu.pm
GGGlogo_en.png
GGGlogo_ja.png
GGRNAlogo_small.png
README.md
api.txt
chata_en.png
chata_ja.png
help.html.en
help.html.ja
index.cgi.en
index.cgi.ja
index.pl
togotv2_ja.png
togotv_en.png
togotv_ja.png

README.md

GGGenome《ゲゲゲノム》

GGGenome is an ultrafast search engine for nucleotide sequences.
Freely available to all users.

ゲノム等の塩基配列を高速に検索するウェブサービスです。
数塩基のミスマッチ、挿入、欠失を許容した配列検索が可能です。
検索結果はHTMLのほか、タブ区切りテキスト、CSV、BED、GFF、JSONの各形式でも取得できます。

なお、本レポジトリはGGGenomeのウェブインターフェース部分です。
ユーザからのリクエストを受け付け、検索を実行するサーチャにクエリを
発行し、得られたデータを処理してユーザに検索結果を返します。

サンプル画像

スクリーンショット

スクリーンショット

検索結果へのリンク (REST API仕様)

下記のように検索クエリとURIとが対応しています。

URI: http[s]://GGGenome.dbcls.jp/db/k/strand/sequence[.format][.download]
  • db : 塩基配列データベース
    hg19 - ヒトゲノム GRCh37/hg19 (Feb, 2009) (省略時のデフォルト)
    mm10 - マウスゲノム GRCm38/mm10 (Dec, 2011)
    dm3 - ショウジョウバエゲノム BDGP R5/dm3 (Apr, 2006)
    ce10 - 線虫ゲノム WS220/ce10 (Oct, 2010)
    TAIR10 - シロイヌナズナゲノム TAIR10 (Nov, 2010)
    pombe - 分裂酵母ゲノム ASM294v2 (Nov, 2007)
    refseq - RefSeq complete RNA (最新版)
    その他 - 検索可能なデータベース一覧
  • k : 許容するミスマッチ/ギャップの数
    省略時のデフォルト: 0
  • strand : 特定の方向のみ検索
    + または plus - プラス方向のみ検索
    - または minus - マイナス方向のみ検索
    省略時は両方向を検索
  • sequence : 塩基配列 (省略不可)
  • format : 検索結果のフォーマット
    html - HTML (省略時のデフォルト)
    txt - タブ区切りテキスト
    csv - CSV (comma-separated values) 形式
    bed - BED (browser extensible data) 形式
    gff - GFF (general feature format) 形式
    json - JSON
  • download : 検索結果をファイルとしてダウンロード (txt, csv, bed, gff, jsonのみ)

例1: http://GGGenome.dbcls.jp/ce10/1/TTCATTGACAACATT

  • 線虫ゲノム ce10 に対して
  • 1 ミスマッチ/ギャップまで許容して
  • TTCATTGACAACATT を検索し
  • html (省略時のデフォルト) で結果を返す

例2: http://GGGenome.dbcls.jp/refseq/+/TTCATTGACAACATT.txt

  • RefSeq complete RNA (refseq) の最新版に対して
  • ミスマッチ/ギャップを許容せず (省略時のデフォルト)
  • 検索方向をプラス方向に限定し
  • TTCATTGACAACATT を検索し
  • タブ区切りテキスト (txt) で結果を返す

サーチャ

検索クエリの実行はサーチャで行なっています。サーチャでは、接尾辞配列および
逆接尾辞リンクによるインデックスをSSDに保持することによって、ミスマッチ、
挿入、欠失を含む塩基配列の検索を、見落としなく、きわめて高速に実行します。
サーチャプログラムはプリファードインフラストラクチャー (PFI) が開発しており、
@meso_cacase が評価およびデバッグに協力しています。

関連プロジェクト

License

Copyright © 2012-2018 Yuki Naito (@meso_cacase) at
Database Center for Life Science (DBCLS), Japan.
This software is distributed under modified BSD license.