Skip to content

Format_chinese_specification v20151001

chenyu600 edited this page Aug 7, 2019 · 24 revisions

候选列表格式说明

位置及变异信息

  • 实例
CHR POS ID REF ALT VarType Allele
1 987189 rs540580770 C T snv T
  • 列说明
说明
CHR 染色体
POS 染色体坐标
ID 发生变异的位置在dbsnp或COSMIC中对应记录的ID,没有则标注为点.
REF 参考基因组序列,POS对应序列最左边的碱基坐标
ALT 变异,单个样本或多个样本在POS位置检测出的不同于REF的序列,有多个时用逗号分隔
VarType 变异类型,分为SNV和InDel,此处的VarType与下一个域 Allele 对应
Allele 等位基因,后续的等位基因频率,功能影响等注释都是描述该等位基因
  • 推荐筛选操纵

    1. 利用Excel自带筛选功能,筛选特定的变异类型的记录
    2. 利用Excel自带筛选功能,筛选特定的染色体的记录
    3. 利用Excel自带筛选功能,筛选特定的坐标的记录
    4. 利用Excel自带筛选功能,筛选特定的ID的记录

位置和变异信息

备注

  • 标注ID的时候只考虑了位置,如果数据库中在该坐标有变异,则标注数据库中记录的ID,变异类型不一定相同;对于InDel只要InDel区域与数据库中的变异记录位置有overlap,则标注出;
  • 候选列表中的基因型沿用VCF格式的规范,使用0/0表示纯合的REF,0/1表示杂合变异,1/1表示纯合变异,其中的0,1,2等编码规则为:REF,ALT从左到右依次编码为0,1,2,...(1代表ALT中第一个allele,2代表ALT中第二个allele,……),看到对应的编码即能对应上实际的基因型;
  • 候选文件中的行数不等于变异位点数,因为每一行记录一种allele, 即“CHR:POS:REF:ALLELE”是唯一的,对应ALT有多个时,将分成多行记录

群体频率数据库

  • 实例
# of databases (AF>0.005) KG ESP PVFD IN-HOUSE-1 IN-HOUSE-2 IN-HOUSE-3 CG HapMap Wellderly ExAC
0 0.0006 0.0002 0.0005 0.0005 -1 -1 -1 -1 -1 0.00074549
  • 列说明
信息列 说明
# of databases (AF>0.005) 数据库数,根据后续10个群体频率库中有多少个数据库记录的等位基因频率大于设定的阈值(默认为0.005)进行标注,可用于进行快速的筛选操作,后续10列分别给出每个群体数据库中记录的等位基因频率,对应群体中没有携带该等位基因时标注为'-1'
KG 公共数据库, ~2500 WES/WGS,包括多个群体,参考这里
ESP 公共数据库, ~6500 WES,群体包括非裔美洲人欧裔美洲人
PVFD BGI内部数据库, ~1000 WES/WGS,亚洲群体,包括银屑病700个正常对照样本,千人计划中的BGI亚洲样本(实际使用323个)
IN-HOUSE-1 BGI内部数据库, ~1000 WES,群体为二型糖尿病对照
IN-HOUSE-2 BGI内部数据库, ~1000 WES,群体为二型糖尿病患者
IN-HOUSE-3 BGI内部数据库, ~200 WGS, 样本为自闭症trio家系
CG 公共数据库, 51 WGS,样本来自CG官网public data: 69 Genomes Data (家系只随机取了其中的一个样本)
HapMap 公共数据库, 270 WGS,多群体
Wellderly 公共数据库, 454 WGS,样本为健康老人(年龄大于85岁,没有慢性病史),美国人,参考这里
ExAC 公共数据库, ~60,000 WES,多群体
  • 推荐筛选操纵

    1. 快速筛选:过滤掉# of databases (AF>0.005)大于N的记录,则剩下的变异在后续10个数据库中 有N个数据库对应的AF>0.005,建议N可以是0,1,2,3;
    2. 精确筛选:针对不同的数据库选择阈值进行筛选,留下符合条件的记录,推荐阈值0.005,可根据疾病及数据库的特点进行调整;

群体频率数据库

备注

  • InDel的群体频率注释给出数据库中覆盖到该位置的InDel中群体频率最小的一个,因此用户在解读InDel时需要在GnomAD,ExAC等数据库中确定所研究的InDel对应的频率信息,避免将高频InDel当做罕见变异;

BGI内部芯片信息

  • 实例
SureSelect_Human_All_Exon_V1 SureSelect_Human_All_Exon_V2 SureSelect_Human_All_Exon_50Mb SureSelect_Human_All_Exon_V4 SureSelect_Human_All_Exon_V4+UTRs SeqCapEZ_Exome_v2.0 SeqCapEZ_Exome_v3.0
19 702 274 21 6 643 48
  • 列说明
信息列 芯片厂商 芯片大小 BGI内部样本数
SureSelect_Human_All_Exon_V1 Agilent 38.00Mbp 71
SureSelect_Human_All_Exon_V2 Agilent 44.00Mbp 1103
SureSelect_Human_All_Exon_50Mb Agilent 50.00Mbp 390
SureSelect_Human_All_Exon_V4 Agilent 51.00Mbp 27
SureSelect_Human_All_Exon_V4+UTRs Agilent 71.00Mbp 7
SeqCapEZ_Exome_v2.0 NimbleGen 44.1Mbp 1026
SeqCapEZ_Exome_v3.0 NimbleGen 64Mbp 82
  • 推荐筛选操纵

    1. 针对不同的芯片选择阈值进行筛选,留下符合条件的记录,推荐阈值20,即留下小于等于20的记录

BGI内部芯片信息

备注

  • 当过滤掉群体高频的位点后,BGI内部芯片信息主要用于去除系统假阳性变异,如果某变异在群体中罕见,却在内部芯片样本中比很高,则倾向于认为该变异是系统假阳性,建议过滤掉
  • BGI内部芯片信息仅供非盈利合作项目使用

有害性预测

  • 实例
# of tools (predicted harmful or conserved) SIFT PolyPhen2_HDIV PolyPhen2_HVAR LRT MutationTaster MutationAssessor FATHMM GERP_plus PhyloP SiPhy Gerp PhastCons GWAWA
6 0.03 0.979 0.92 0.000074 0 4.06 2.16 3.74 0.783 11.0086 3.74 0.997 0.42
  • 说明
信息列 说明
# of tools (predicted harmful or conserved) The number of hazard prediction tools that have predicted the variant as a deleterious mutation
SIFT Deleterious(<0.05)
PolyPhen2_HDIV Probably damaging (>=0.957), possibly damaging (0.453<=pp2_hdiv<=0.956); benign (<=0.452)
PolyPhen2_HVAR Probably damaging (>=0.909),possibly damaging (0.447<=pp2_hdiv<=0.909); benign (<=0.446)
LRT -
MutationTaster -
MutationAssessor Deleterious(>1.938)
FATHMM Deleterious(<-1.5)
GERP++ Deleterious(>3)
PhyloP Deleterious(>2.5)
SiPhy -
Gerp
PhastCons Deleterious(>0.6)
GWAWA -
  • 推荐筛选操纵
    1. 快速筛选:过滤掉# of tools (predicted harmful or conserved)小于N的记录,则剩下的变异在后续13个预测工具中 至少有N个工具预测有害,建议N可以是0,为避免假阴性,不推荐进行筛选,可作为标注信息供查看;
    2. 精确筛选:根据每种工具的阈值进行筛选,为避免假阴性,不推荐进行筛选,可作为标注信息供查看;

有害性预测

基因水平相关注释

  • 实例
OMIM GeneTag GO_BP GO_MF GO_CC KEGG_Pathway Proteins_Expression_profiles_of_Normal_Tissue
Neutrophilia, hereditary, 162830 (3) novel GO:0006952,defense response|GO:0007155,cell adhesion|GO:0007165,signal transduction GO:0004872,receptor activity|GO:0004896,cytokine receptor activity GO:0005576,extracellular region|GO:0005886,plasma membrane|GO:0005887,integral to plasma membrane hsa04060,Cytokine-cytokine receptor interaction|hsa04630,Jak-STAT signaling pathway|hsa04640,Hematopoietic cell lineage|hsa05200,Pathways in cancer "ENSG00000119535" "skin 2" "epidermal cells" "Not detected" "APE" "Supportive"
  • 列说明
信息列 说明
OMIM Information from OMIM for the mutated gene
Genetag Whether the mutated gene has ever been reported for the studied disease before. If the mutation is in a causative gene for the studying disease, it will present "known" for that variant in this column; otherwise, "novel" will be presented. This utility depends on the information (HGNC symbol of known causative genes) provided to the pipeline
GO BP Gene ontology annotation in terms of biological process
GO MF Gene ontology annotation in terms of molecular function
GO CC Gene ontology annotation in terms of cellular component
KEGG
The Human Protein Atlas
  • 推荐筛选操纵

    1. 如果关注该疾病的已知致病基因,通过筛选Genetag,选择Known获得,注意该疾病已知致病基因是通过前期调研阶段获得
    2. 如果关注OMIM上有信息的基因,通过筛选OMIM列有信息的记录
    3. 如果关注特定组织上蛋白表达的基因,通过筛选The Human Protein Atlas列有信息的记录
    4. 如果关注基因在GO或KEGG的信息,通过查看GO、KEGG对应列的信息

基因水平相关注释

转录本相关注释

由于可变剪切,一个基因通常会有多个转录本(平均10个),变异落在不同转录本上产生的功能影响会有所不同,因此注释时转录本的选择将影响分析的结果。为了尽量避免假阴性,同时兼顾转录本选择的可靠性,候选列表中给出了两种转录本的信息;第一种是功能最有害的转录本,第二种是权威转录本

  • 实例
CLIN_SIG IMPACT Consequence HGNC(SYMBOL) Feature BIOTYPE HGVSc HGVSp EXON INTRON DOMAINS SWISSPROT TREMBL UNIPARC SIFT PolyPhen
. MED:11 missense_variant EPHA2 ENST00000358432 protein_coding ENST00000358432.5:c.71C>T ENSP00000351209.5:p.Ala24Val '1/17' '.' Low_complexity_(Seg):Seg&Cleavage_site_(Signalp):Sigp&PIRSF_domain:PIRSF000666 EPHA2_HUMAN Q96HF4_HUMAN&Q8IZL0_HUMAN UPI00000731AB tolerated(0.56) possibly_damaging(0.75)
  • 列说明
注释 说明
CLIN_SIG clinical significance of variant from dbSNP; It should be one of the following value [unknown, untested, non-pathogenic, probable-non-pathogenic, probable, pathogenic, pathogenic, drug-response, histocompatibility, other];
IMPACT impact of variant, ranging from 1 to 25, with "1" meaning the most serious impact to the function
Consequence Consequence: consequence type of the corresponding variation, detailed information please refer to VEP consequences
HGNC(SYMBOL) gene symbol from HGNC
Feature Ensembl stable ID of feature
BIOTYPE Biotype of transcript or regulatory feature
HGVSc the HGVS coding sequence name
HGVSp the HGVS protein sequence name
Exon the exon number involved in the mutation (out of total number)
Intron the intron number involved in the mutation (out of total number)
DOMAINS the source and identifer of any overlapping protein domains
SWISSPROT UniProtKB/Swiss-Prot identifier of protein product
TREMBL UniProtKB/TrEMBL identifier of protein product
UNIPARC UniParc identifier of protein product
SIFT prediction and/or score from hazard prediction tools of SIFT
PolyPhen prediction and/or score from hazard prediction tools of PolyPhen
  • 推荐筛选操纵

    1. 基于最有害转录本进行筛选
    2. IMPACT根据功能影响的有害性程度从1到34进行了编码,非常直观的,推荐根据IMPACT列进行筛选,优先考虑功能影响较严重的变异
    3. 注释给出转录本对应的SIFT、PolyPhen的预测,建议参考但不建议过滤
    4. 权威转录本也可作以上筛选,为了避免假阴性,不建议做过滤,得到较少候选后可比较各转录本信息进行详细解答
    5. 其他信息如HGVS、Exon、Intron、DOMAINS等更详细的描述了变异或提供了在蛋白层面进一步解读的ID,可供参考

转录本相关注释

质控相关信息

Filter
ACC,TR,PASS
ACC,TR,VQSRTrancheSNP99.00to99.90
  • 域说明
信息域 说明 取值范围
是否在目标区 whether the varaint is inside ("TR") or outside ("FLANK") the target region of the capture chip used for this project TR, FLANK
是否一致 We apply two variants calling strategies in our pipeline. The first is the common practice of using GATK HaplotypeCaller, and the second one is to call variants on cohorts of samples using the HaplotypeCaller in GVCF mode. There are discrepancies between the results from these two calling strategies. Since being unable to tell which is correct by now, we use the first filed in this column to indicate whether the two results are concordant. "ACC" means results from the two calling strategies are concordant, while "DIFF" means the opposite ACC, DIFF
是否通过GATK过滤条件 whether the corresponding variant has passed the GATK Variant Quality Score Recalibration(VQSR). Only the tag "PASS" means the variant is reliable according to the recalibration processure. However, there are false positive and false negative. PASS, LowQual, VQSRTrancheSNP99.00to99.90, VQSRTrancheINDEL99.00to99.90, VQSRTrancheSNP99.90to100.00, VQSRTrancheINDEL99.90to100.00
  • 推荐筛选操纵

    1. 对于Exome测序通常会获得芯片所设计探针覆盖的区域以及探针周边部分扩展区的数据,探针覆盖的区域通常就是我们说的目标区,这部分的测序深度通常较好,扩展区的数据也建议尽量利用,但深度或质量通常没有目标区好
    2. 对于同样的区域,不同的变异检测方法或工具可能得到不同的分型结果,流程处理过程中已经对这部分结果进行了调整,但不一定都能调整正确,分析时如果遇到不一致的记录需要注意,可通过sanger测序进行确认
    3. 流程使用GATK进行VQSR分析时,基于模型对每个位点进行了矫正,通过模型矫正的位点质量值较高,可优先考虑

质控相关注释

家系分离信息

  • 实例
AD AR XL
AD:YY:2:3:0 AR:YN:0:3:0 XL:YN:0:0:0
  • 域说明
信息域 说明 取值范围
遗传模式 AD/AR/XL/Compound Heterozygous
是否有明确分型 Y/N
是否共分离 Y/N
case分离的数据 大于等于0, 小于等于case样本数
control分离的数目 大于等于0, 小于等于control样本数
unknown表型的数目 大于等于0, 小于等于未知表型样本数
  • 推荐筛选操纵

    考虑单基因疾病的致病变异倾向于直接影响基因的表达,在一个家系内通常假设疾病完全外显,基因型和表型在家系中呈现共分离,即家系成员中的患者都携带致病基因型,正常人都不携带致病基因型。如下图所示家系为近亲家系,AR遗传模式,2个case,3个control,则优先选择对应遗传模式下共分离的记录:AR:YY:2:3:0AR:NY:2:2:0,其中AR:NY:2:2:0中的N表示在该位点存在样本没有明确分型(可能是深度不够),但有分型的样本都共分离,为了避免假阴性建议留下作为候选

家系分离信息

样本信息

  • 实例
Detail_INFO_Format detail-case-1 detail-case-2 detail-control-3 detail-control-4 detail-control-5 case-1 case-2 control-3 control-4 control-5
BGI_GD:DNM:SL_GT:ROH:FL_GT:AD:GQ 'd(M-P)|d(P-M):DNM-FP:0/1:ROH-lt5M:0/1:2,6:45' 'd(M-P)|d(P-M):DNM-FP:0/1:ROH-lt5M:0/1:7,3:86' 'gd-unknown:DNM-unknown:0/0:ROH-lt5M:0/0:11,0:21' 'gd-unknown:DNM-unknown:0/0:ROH-lt5M:0/0:6,0:.' 'g(B-N):DNM-unknown:0/0:ROH-Unkown:0/0:7,0:21' '0/1' '0/1' '0/0' '0/0' '0/0'
  • 域说明
信息域 说明 取值范围
Detail_INFO_Format This column specifies the tag types and order (colon-separated). This is followed by one column per sample, with the colon-separated tag in this field corresponding to the types specicfied in this column. Seven keywords are prsented BGI_GD:DNM:SL_GT:ROH:FL_GT:AD:GQ
BGI_GD 基于子代及其双亲在该位点的基因型判断等位基因的来源,是通过遗传获得,还是通过de novo突变获得 g(B-N), d(M-P)|d(P-M), g(B-N), d(M-P), d(P-M), d(N-B)fp, d(M-P)|d(N-B)fp, g(B-N)|d(P-M), g(B-N)|d(P-M), g(B-N)|d(M-P), d(P-M)|d(N-B)fp, g(B-N)|d(M-P), gd-unknown, g(B-N), g(B-N)
DNM 基于随机森林算法对在trio家系中分型符合de novo的SNV进行分类判断,可有效区分假阳性的De novo SNV,暂时只能处理常染色体和X染色体上的SNV,不针对InDel,没法判断的变异用点表示 DNM-TP, DNM-FP, .
SL_GT GATK样本水平分型结果
ROH 纯合区段分析结果,gt5M表示纯合区段大于5M,lt5M表示纯合区段小于5M大于等于1M,ROH-unknown表示纯合区段小于1M;如果考虑近亲婚配,纯合致病变异通常落在ROH-gt5M的区域,即大于5M的纯合区段内 ROH-unknown, ROH-lt5M, ROH-gt5M
FL_GT GATK家系(群体)水平分型结果
AD 等位基因深度,各等位基因深度以逗号分隔,顺序与ref,alt的顺序对应
GQ 基因型质量值,来自家系水平分型 0~99
  • 推荐筛选操纵

    ROH:对于进行婚配的家系,可以进行纯合子定位分析,候选列表中样本详细信息部分的ROH标签可以筛选出纯合子区段。如下图所示,先筛选出对应遗传模式下共分离的记录,再更加纯合区段信息筛选出大于等于5M的纯合区段(越大的区域越可能是近亲婚配来自同一祖先的区段)

样本信息-ROH

  • 推荐筛选操纵

    DNM:对于考虑De novo突变的trios,可使用样本详细信息部分的BGI_GDDNM标签进行筛选。如下图所示,先筛选出对应遗传模式下共分离的记录,再根据随机森林模型预测的结果找出真阳性的 De novo SNV。

样本信息-DNM

BGI_GD

  • 格式:
    a(b-c)或gd-unknown
  • 说明:
    该标签根据子代及其双亲在该位点的基因型进行判断获得,用以描述子代等位基因的来源情况;
    a,描述该位点等位基因的来源,通过遗传获得,还是通过de novo突变获得,值可以是[g,d],分别表示germline和de novo;
    (b-c),括号内‘-’分开的左右两个字符分别描述遗传和de novo的等位基因来源情况,值可以是[M,P,B,N],分别表示matermal(母本的), paternal(父本的), both(亲本的), none(非亲本的);
    gd_unknown,表示未能判断该位点等位基因的来源,通常没有双亲信息时会出现这种情况;
  • 实例:
    g(B-N),表示该个体在该位点两个等位基因都来自遗传,没有发生de novo突变,所以该位点的基因型来自种系遗传;
    d(M-P),表示该个体在该位点两个等位基因中来自父本的等位基因发生了de novo,所以判断该位点存在de novo的情况;
    d(N-B)fp,表示该位点是假阳性,因为数据显示样本的两个等位基因没有来自父母的,这种情况正常遗传过程基本不可能发生,故认为是假阳性,标注了一个fp;
  • 应用: 1. 如果只考虑遗传获得的基因型,分析时可以过滤掉d(b-c)的记录
    2. 如果只考虑de novo的情况,可以过滤掉g(b-c)的记录,当关注de novo SNV时,可结合DNM标签,关注通过随机 森林算法预测的高质量de novo SNV,当关注de novo InDel时,可结合varType筛选InDel变异,再对剩下的基因进行解读