scFilterLinux

（1）串联重复序列的屏蔽: 调用TRF（Tandem Repeats Finder）软件[41],在默认参数下对3B染色体序列进行注释与屏蔽,取反提取出未被注释屏蔽区域的序列,然后对序列长度进行筛选(大于等于2000bp)｡由于符合筛选条件的序列数量较多,所以还需要对数据进行分块处理,以便于后续服务器的进度记录与并行运算｡（2）单拷贝序列的提取: 在每一个数据块中的序列都要进行序列比对｡对于在小麦3B序列上恰好只能比对到自身的序列则可认为是3B单拷贝序列(identity>70%,cover>70%),但大部分情况是在3B范围内会有多次匹配｡这种情况需要剪切掉序列上比对上多次的区域,然后将剪切后的片段汇总后再次用以上方法分析｡在不断迭代的计算过程中,最终得到片段中只能比对上自身的片段并记录所有单拷贝序列的比对信息(起始位点､终止位点､正负链等)｡（3）数据的合并与验证: 根据各个数据块的执行情况,来实时显示执行进度,同时除去小于2000bp的单拷贝碎片｡将筛选后的单拷贝片段再次与3B染色体进行比对,详细记录比对的结果｡通过对单拷贝序列的提取中得到的比对结果与再次比对信息的检查与比对,即完成了单拷贝序列的验证过程｡

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
scfilterLinux		scfilterLinux
.gitattributes		.gitattributes
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

scFilterLinux

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

scFilterLinux

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages