# 使用 LinearRNA 进行 RNA 二级结构预测

LinearRNA 包括一系列的线性时间 RNA 二级结构分析算法: **LinearFold** 和 **LinearPartition**。

# 第一部分：LinearFold

**LinearFold** 是第一个以线性时间预测 RNA 二级结构的算法，可将 RNA 二级结构预测的时间大大降低。LinearFold 的论文已经在计算生物学顶级会议 ISMB 及生物信息学权威杂志 Bioinformatics 上发表。论文链接：[LinearFold: linear-time approximate RNA folding by 5'-to-3' dynamic programming and beam search](http://academic.oup.com/bioinformatics/article/35/14/i295/5529205)

## RNA 二级结构预测

### 机器学习模型 

In [7]:
import pahelix.toolkit.linear_rna as linear_rna
input_sequence = "AACUCCGCCAGGCCUGGAAGGGAGCAACGGUAGUGACACUCUCUGUGUGCGUAGGUUGCCUAGCUACCAUUU"
linear_rna.linear_fold_c(input_sequence)

('..((((.(((....)))...))))....((((((............................))))))....',
 0.4548597317188978)

In [8]:
# with constraints
constraint = "??(???(??????)?(????????)???(??????(???????)?)???????????)??.???????????"
linear_rna.linear_fold_c(input_sequence, use_constraints = True, constraint = constraint)

('..(.(((......)((........))(((......(.......).))).....))..)..............',
 -27.328358240425587)

### 参数说明

* rna_sequence: string，需要预测结构的 RNA 序列。
* beam_size: int（缺省值 100），控制 beam pruning size 的参数，设置为 0 关闭 beam pruning。该参数越大，则预测速度越慢，而与精确搜索相比近似效果越好。
* use_constraints: bool（缺省值 False），在预测二级结构时增加约束条件。当为 True 时，constraint 参数需要提供约束序列;
* constraint: string（缺省值空字符串），二级结构预测约束条件。当提供约束序列时，use_constraints 参数需要设置为 True。该约束须与输入的 RNA 序列长度相同，每个点位可以指定“? . ( )”四种符号中的一种，其中“?”表示该点位无限制，“.”表示该点位必须是 unpaired，“(”与“)”表示该点位必须是 paired。注意“(”与“)”必须数量相等，即相互匹配。具体操作请参考运行实例。
- no_sharp_turn: bool（缺省值 True），不允许在预测的 hairpin 结构中出现 sharp turn。

### 热力学模型
参数和机器学习模型一致。

In [9]:
linear_rna.linear_fold_v(input_sequence)

('..((((.(((....)))...))))....((((((.((((.....))))...((((...))))))))))....',
 -18.4)

In [10]:
# with constriants
linear_rna.linear_fold_v(input_sequence, use_constraints = True, constraint = constraint)

('..(.(((......)((........))(((......(.......).))).....))..)..............',
 13.4)

# 第二部分：LinearPartition

**LinearPartition** 是世界上最快的 RNA 配分方程和碱基对概率预测算法。该算法功能更加强大，可以模拟 RNA 序列在平衡态时成千上万种不同结构的分布，并预测碱基对概率矩阵。LinearPartition 算法同样被 ISMB 顶会接收并在 Bioinformatics 杂志上发表。论文链接：[LinearPartition: linear-time approximation of RNA folding partition function and base-pairing probabilities](https://academic.oup.com/bioinformatics/article/36/Supplement_1/i258/5870487)

## 配分方程和碱基对概率预测算法

### 机器学习模型

In [11]:
input_sequence = "AACUCCGCCAGGCCUGGAAGGGAGCAACGGUAGUGACACUCUCUGUGUGCGUAGGUUGCCUAGCUACCAUUU"
linear_rna.linear_partition_c(input_sequence)

(7.182411193847656,
 [(1, 15, 0.0004622228443622589),
  (1, 31, 0.00015781447291374207),
  (1, 34, 0.0002961978316307068),
  (1, 40, 1.765415072441101e-05),
  (1, 48, 5.81108033657074e-05),
  (1, 52, 9.354203939437866e-05),
  (1, 56, 0.00031825900077819824),
  (1, 57, 0.0059296488761901855),
  (1, 61, 0.00020839273929595947),
  (1, 65, 0.00048786774277687073),
  (1, 70, 0.0007950402796268463),
  (1, 71, 0.002164561301469803),
  (1, 72, 0.0016718171536922455),
  (2, 15, 0.0015095695853233337),
  (2, 31, 0.0009824782609939575),
  (2, 34, 0.013957291841506958),
  (2, 46, 0.00043483078479766846),
  (2, 48, 0.0005135945975780487),
  (2, 52, 0.00095348060131073),
  (2, 56, 0.00834539532661438),
  (2, 57, 0.00020313262939453125),
  (2, 61, 0.0002741888165473938),
  (2, 65, 0.00031565502285957336),
  (2, 70, 0.0024125613272190094),
  (2, 71, 0.0017434321343898773),
  (2, 72, 0.00041290372610092163),
  (3, 7, 0.0008168257772922516),
  (3, 11, 0.008151888847351074),
  (3, 12, 0.00562986731529235

### 参数说明
* rna_sequence: string，需要计算配分函数和碱基对概率的RNA序列。
* beam_size: int（缺省值 100），控制 beam pruning size 的参数，默认值为 100。该参数越大，则预测速度越慢，而与精确搜索相比近似效果越好。
* bp_cutoff: double（缺省值 0.9），只输出概率大于等于 bp_cutoff 的碱基对及其概率，0 <= bp_cutoff <= 1。
* no_sharp_turn: bool（缺省值 True），不允许在预测的 hairpin 结构中出现 sharp turn。

### 热力学模型
参数和机器学习模型一致。

In [12]:
linear_rna.linear_partition_v(input_sequence, bp_cutoff = 0.5)

(-19.403078079223633,
 [(3, 24, 0.8039621710777283),
  (4, 23, 0.8239085078239441),
  (5, 22, 0.8219183087348938),
  (6, 21, 0.8141640424728394),
  (8, 17, 0.8630755543708801),
  (9, 16, 0.8678420186042786),
  (10, 15, 0.7041950225830078),
  (29, 68, 0.8213568925857544),
  (30, 67, 0.8230675458908081),
  (31, 66, 0.8223718404769897),
  (32, 65, 0.8192430138587952),
  (33, 64, 0.7854012250900269),
  (34, 63, 0.690216600894928),
  (36, 48, 0.8604442477226257),
  (37, 47, 0.91445392370224),
  (38, 46, 0.9144330024719238),
  (39, 45, 0.9141958951950073),
  (52, 62, 0.564305305480957),
  (53, 61, 0.6316171884536743),
  (54, 60, 0.6385029554367065),
  (55, 59, 0.6180907487869263)])