Skip to content

Latest commit

 

History

History
256 lines (142 loc) · 10.1 KB

构建系统进化树:从原理到操作.md

File metadata and controls

256 lines (142 loc) · 10.1 KB

目录

构建系统进化树:从原理到操作

构建系统进化树:从原理到操作

系统发育分析的一般步骤 目录

原理 目录

多序列比对 目录

建树方法 目录

两种分子数据 目录

  • 距离数据(distance data):常用距离矩阵描述,表示两个数据集之间所有的两两差异

计算距离矩阵的例子:

  • 特征数据(character data):表示分子所具有的特征

基于距离的建树方法 目录

由距离法得到的进化树称为距离树

UPGMA 目录

UPGMA (unweighted pair-group method using an arithmetic average):非加权成组配对法,又称为平均连接法

特点:假设每个OTU的进化速率相同,即每个OTU到树根的距离都相同

UPGMA算法的执行过程:

不断循环,直到只剩下一个类为止

Fitch-Margoliash 算法 目录

FM法允许OTU之间存在不同的进化速率

FM算法的执行过程:

其本质是求解三元一次方程组

Q:为什么将剩余序列看成一个简单符合序列可以算出A和B间的距离?

基于特征的建树方法 目录

有最大简约法和最大似然法得到的进化树分别称为

  • 最大简约树
  • 最大似然树

问题:

  • 给定n个物种
  • m个用于描述物种的特征
  • 每个物种所对应的特征值

目标:构建一棵系统发育树,使得某个目标函数最大

最大简约法 目录

最大简约法只考虑信息位点,即只从信息位点进行进化树的构建

信息位点 (Informative site) :至少存在2个不同的 碱基且每个不同碱基至少出现两次的位点

示例:

  • position 5,7,9 为信息位点
  • 基于position 5的三个MP树:Tree1的长度为1,Tree2的长度为2,Tree3的长度为3
  • 再计算基于position 7,9的MP树的长度,得到MP树的总长:Tree1总长4,Tree2总长5,Tree3总长6
  • Tree1最为简约

选择不同建树方法的原则 目录

进化树评估 目录

问题:

  • 整棵树和它的组成部分(分支)的置信度是多少?
  • 这样得到正确的树的可能性比随机选出一棵是正确 的树的可能性大多少?

Bootstrap 目录

  • 从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列
  • 重复上面的过程,得到多组新的序列
  • 对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性

操作 目录

MEGA7-GUI 目录

官方提供的示例文件位于C:\Users\UserName\Documents\MEGA7\Examples\文件夹下

Prepare sequences data 目录

从NCBI等途径获取序列的fasta文件,然后将它们放到一个文件里

Aligning Sequences 目录

1. 新建一个序列比对任务

2. 导入待比对的序列文件

选择hsp20.fas文件

3. 多序列比对(MEGA提供两种多序列比对工具:ClustalW 和 MUSCLE)

先选中所有序列

用ClustalW(或 MUSCLE)进行多序列比对

使用ClustalW的默认参数,点击OK执行序列比对

比对结束后,保存比对结果

Estimating Evolutionary Distances 目录

1. 进化树距离的估计依据已经比对好的多序列,所以需要先导入多序列比对结果:在MEGA主程序中选择File|Open a file

2. 计算两两序列间的遗传距离,得到距离矩阵

在随后弹出的Analysis Preferences 窗口中设置参数,重点关注以下两个参数:

  • Substitutions Type:选择替换的类型,若原序列类型为核酸(Nucleotide),而选择替换类型为氨基酸(Amino Acid),则程序会先将核酸序列翻译成氨基酸序列然后按照氨基酸序列计算遗传距离
  • Model/Method:选择不同的遗传距离计算模型

设置好参数后,点击compute执行距离矩阵的计算

Building Trees 目录

1. 导入多序列比对结果

2. 选择合适的建树方法,构建系统进化树

可选的建树方法如下:

若想按照距离的方法构建进化树则可以选择:

  • Neighbor-Joining (NJ)
  • UPGMA

若想按照特征的方法构建进化树则可以选择:

  • Maximum Likelihood
  • Maximum Parsimony

选择其中一种,这里以选择Neighbor-Joining (NJ) 为例,接着在弹出的Analysis Preferences 窗口中设置参数

由于Neighbor-Joining (NJ) 算法是依据距离的建树方法,需要有计算距离矩阵这一步,所以参数的设置类似于 Estimating Evolutionary Distances,设置好参数后,点击compute执行距离树的构建

运算结束后会弹出进化树的展示窗口

可以点击菜单栏的Image选项,将进化树导出成图片文件

Testing Tree Reliability 目录

MEGA提供了两种进行进化树评估的方法:Bootstrap 和 Interior-branch

要进行进化树评估,只需要在构建进化树时的Analysis Preferences 窗口中设置Test of Phylogeny选项即可,其他操作与 Building Trees 相同

若设置了这个选项则在随后弹出的进化树的展示窗口中,会额外展示另外一棵树:Bootstrap consensus tree

参考资料:

(1) 百度文库:分子系统发育分析

(2) MEGA7 GUI 版本官方手册