# Filter -- 过滤器

@Author： Jian Huang

@E-mail: jian.huang@xtalpi.com

@ REF


</br>
https://new.rosettacommons.org/docs/latest/scripting_documentation/RosettaScripts/Filters/Filters-RosettaScripts

https://new.rosettacommons.org/docs/latest/scripting_documentation/RosettaScripts/Filters/filter_pages/SimpleMetricFilter


## 1. Introduction

</br>

首先我们回顾一下，在前面的章节中，我们认识了SimpleMetrics。其本质是Rosetta新一代的数据分析和报告工具。在Protocol定义的某一个或某一些的Movers之前或之后，采用SimpleMetrics去计算当前pose的用户感兴趣的性质。

在一个用户定义的Protocol中，如果我们需要就这些“计算分析的性质”进行构象的过滤筛选，留下那些满足设定条件的构象进行进一步优化，这种操作就需要使用Rosetta中的**Filter**模块了。基于这一目的，我们学过的simpleMetrics中所有的的计算量都可以被用来作为Filter，对应于simpleMetrics的Filter在rosetta中单独命名为**“SimpleMetricFilter”**。

由于rosetta内置搜索算法的随机性，初始阶段可能经常会采样到并不是较好的构象。换言之，由初始movers引入的随机性将会产生一些不太优构象，而后续将很难产生可靠的模拟结果。为了加速模拟的过程和提高可靠性，有时候设置Filter滤掉一些采样，将初始阶段产生的不好的构象丢弃掉。这就是Rosetta中设置Filter的初衷。Filter可以通过对蛋白结构的一些可以被计算的性质的限制，从初始就丢弃掉明显不合理的采样结果。

例如我们知道在ubiqutin的构象优化过程中，希望可以在进行repack和minimization的同时，保留原构象中保留的K11和E34的盐桥。如果在repack的时候该盐桥丢失，在minimization的过程中就不太可能重新连接起来，此时使用Filter非常合理和合适。而且，如果指定了Filter，在一些大体系的模拟的时候能够大大减少运行时间且减少不必要的计算；其次，一般模拟的最后一步都是再众多的构象中挑选合理的结果，设定Filter相当于提前过滤了一遍，减少不必要的输出。

大多数filters都会进行某些结构上的设定的度量（角度、距离等）作为阈值条件，以决定Filters应该通过哪些构象、滤掉哪些构象。在设定盐桥的例子里面，我们可以设定两个残基之间的距离，保证既要能够保留下所有能够形成盐桥的构象，又要滤掉哪些不能形成盐桥的构象。

***

*思考*

与其生成大量构象进行筛选，为何不从constraint出发直接添加限制，让能量函数有偏向性到用户所需要的构象？

当然其实我们在之前的章节中介绍过constraint，所以如果我们在一开始就对构象中某些测量性质有要求，直接使用constraint、restraint会比Filter在搜索之后进行过滤的操作更为方便（相当于constraint在上游进行限制，而Filter是在暴力搜索构象后逐步筛选过滤）。这样看来，似乎Filter会比较低效。但往往设定采样的constraints和能量函数的有偏性质不那么好拿捏控制，所以至今Filter仍然是重要的保留模块。

***



## 2.Filters in Pyrosetta

每一种Filter都可以以如下Rosetta Scripts(关于RS将在第九章进行详细介绍)的形式进行定义：

```
<FILTERS>
	<SomeFilterName name="&string" confidence="(1 &Real)" other_option=""/>
</FILTERS>
```

值得注意的是，Filter的定义中的confidence的选项，一般而言所有的Filter的confidence默认值均为“1”，这表示该Filter作为一个任务终止与否的逻辑门，符合条件继续任务，不符合条件终止任务。若设定confidence的值为“0”，此时的Filter的作用类似于SimpleMetrics，仅仅根据规则计算特定的测量值或性质，而不会终止任务。若设定confidence的值介于0~1之间，例如0.5，那么在构象搜索的1-confidence（1-0.5=0.5），即一半的时间里总是为“True”，继续进行任务。

In [1]:
from pyrosetta.rosetta.protocols.rosetta_scripts import *
from pyrosetta import *
init()

PyRosetta-4 2020 [Rosetta PyRosetta4.Release.python36.ubuntu 2020.28+release.8ecab77aa50ac1301efe53641e07e09ac91fee3b 2020-07-07T16:41:06] retrieved from: http://www.pyrosetta.org
(C) Copyright Rosetta Commons Member Institutions. Created in JHU by Sergey Lyskov and PyRosetta Team.
[0mcore.init: [0mChecking for fconfig files in pwd and ./rosetta/flags
[0mcore.init: [0mRosetta version: PyRosetta4.Release.python36.ubuntu r260 2020.28+release.8ecab77aa50 8ecab77aa50ac1301efe53641e07e09ac91fee3b http://www.pyrosetta.org 2020-07-07T16:41:06
[0mcore.init: [0mcommand: PyRosetta -ex1 -ex2aro -database /home/huangjian/miniconda3/envs/biodesign/lib/python3.6/site-packages/pyrosetta-2020.28+release.8ecab77aa50-py3.6-linux-x86_64.egg/pyrosetta/database
[0mbasic.random.init_random_generator: [0m'RNG device' seed mode, using '/dev/urandom', seed=-334482167 seed_offset=0 real_seed=-334482167
[0mbasic.random.init_random_generator: [0mRandomGenerator:init: Normal mode, seed=-334482167 RG_type

In [2]:
# 这里给出一个最基本的Filter定义
# 使用原子间的距离作为筛选条件

filter_example = \
"""
<ROSETTASCRIPTS>
        <SCOREFXNS>
        </SCOREFXNS>
        <RESIDUE_SELECTORS>
        </RESIDUE_SELECTORS>
        <TASKOPERATIONS>
        </TASKOPERATIONS>
        <FILTERS>
                <AtomicDistance name="salt_bridge" residue1="11A" atomtype1="Nlys" residue2="34A" atomtype2="OOC" distance="3.0" />
        </FILTERS>
        <MOVERS>
        </MOVERS>
        <APPLY_TO_POSE>
        </APPLY_TO_POSE>
        <PROTOCOLS>
                <Add filter="salt_bridge" />
        </PROTOCOLS>
        <OUTPUT/>
</ROSETTASCRIPTS>
"""

In [3]:
xml = XmlObjects.create_from_string(filter_example)

[0mprotocols.rosetta_scripts.RosettaScriptsParser: [0mGenerating XML Schema for rosetta_scripts...
[0mprotocols.rosetta_scripts.RosettaScriptsParser: [0m...done
[0mprotocols.rosetta_scripts.RosettaScriptsParser: [0mInitializing schema validator...
[0mprotocols.rosetta_scripts.RosettaScriptsParser: [0m...done
[0mprotocols.rosetta_scripts.RosettaScriptsParser: [0mValidating input script...
[0mprotocols.rosetta_scripts.RosettaScriptsParser: [0m...done
[0mprotocols.rosetta_scripts.RosettaScriptsParser: [0mParsed script:
<ROSETTASCRIPTS>
	<SCOREFXNS/>
	<RESIDUE_SELECTORS/>
	<TASKOPERATIONS/>
	<FILTERS>
		<AtomicDistance atomtype1="Nlys" atomtype2="OOC" distance="3.0" name="salt_bridge" residue1="11A" residue2="34A"/>
	</FILTERS>
	<MOVERS/>
	<APPLY_TO_POSE/>
	<PROTOCOLS>
		<Add filter="salt_bridge"/>
	</PROTOCOLS>
	<OUTPUT/>
</ROSETTASCRIPTS>
[0mcore.scoring.ScoreFunctionFactory: [0mSCOREFUNCTION: [32mref2015[0m
[0mcore.scoring.etable: [0mStarting energy table calculation

In [4]:
salt_bridge_filter = xml.get_filter("salt_bridge")

In [5]:
original_pose = pose_from_pdb("./data/1ubq_clean.pdb")

pose = original_pose.clone()

print(pose)

[0mcore.import_pose.import_pose: [0mFile './data/1ubq_clean.pdb' automatically determined to be of type PDB
PDB file name: ./data/1ubq_clean.pdb
Total residues: 76
Sequence: MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG
Fold tree:
FOLD_TREE  EDGE 1 76 -1 


In [6]:
# 使用当前filter对pose进行计算，即计算两个原子之间的距离
print(salt_bridge_filter.compute(pose))

3.3466357734297865


In [7]:
# 使用filter判断当前pose是否通过，通过为True，任务继续进行，否则为False，任务终止
salt_bridge_filter.apply(pose)

False

In [9]:
# 我们尝试使用pack和minimization的操作，看看是否能通过该filter？
from rosetta.protocols import minimization_packing as pack_min
from rosetta.core.pack.task import TaskFactory, operation

scorefxn = create_score_function( "ref2015" )
tf = TaskFactory()
packer = pack_min.PackRotamersMover()
packer.score_function(scorefxn)
# InitializeFromCommandline会调用初始init（）中的选项
tf.push_back(operation.InitializeFromCommandline())
# RestrictToRepacking可以限制不允许进行design
tf.push_back(operation.RestrictToRepacking())
packer.task_factory(tf)

minimizer = pack_min.MinMover()
packer.apply(pose)
minimizer.apply(pose)

[0mcore.pack.task: [0mPacker task: initialize from command line()
[0mbasic.io.database: [0mDatabase file opened: scoring/score_functions/elec_cp_reps.dat
[0mcore.scoring.elec.util: [0mRead 40 countpair representative atoms
[0mcore.pack.dunbrack.RotamerLibrary: [0mshapovalov_lib_fixes_enable option is true.
[0mcore.pack.dunbrack.RotamerLibrary: [0mshapovalov_lib::shap_dun10_smooth_level of 1( aka lowest_smooth ) got activated.
[0mcore.pack.dunbrack.RotamerLibrary: [0mBinary rotamer library selected: /home/huangjian/miniconda3/envs/biodesign/lib/python3.6/site-packages/pyrosetta-2020.28+release.8ecab77aa50-py3.6-linux-x86_64.egg/pyrosetta/database/rotamer/shapovalov/StpDwn_0-0-0/Dunbrack10.lib.bin
[0mcore.pack.dunbrack.RotamerLibrary: [0mUsing Dunbrack library binary file '/home/huangjian/miniconda3/envs/biodesign/lib/python3.6/site-packages/pyrosetta-2020.28+release.8ecab77aa50-py3.6-linux-x86_64.egg/pyrosetta/database/rotamer/shapovalov/StpDwn_0-0-0/Dunbrack10.lib.bin'.


In [10]:
# 可以看到rosetta优化后的构象符合filter的条件
salt_bridge_filter.apply(pose)

True

In [12]:
# 打印具体的计算数值
salt_bridge_filter.score(pose)

2.364011411146144