# Protenix

## 1. 模型简介
该项目由字节跳动的 AML AI4Science 团队基于PyTorch的AlphaFold3开发，目标是改进复杂生物分子结构的预测实现可训练复现。该模型的推出打破了Alphafold3在应用中的局限性，Protenix作为一个完全开源项目，研究人员可以生成新预测并针对特定应用进行微调。该模型在不同分子类型的结构预测中表现出色，与 AlphaFold3、AlphaFold-Multimer 2.3 和 RoseTTAFold2NA 相比具有竞争力。

**模型结构**
主要参考AlphaFold3网络结构：

![alphafold3-architecture.png](../../../doc/alphafold3-architecture.png)

以下列出了Protenix在实现中与AlphaFold3的主要差异:
**解析器Parser**: 在选择替代位置时，研究人员使用第一个占据位置，而非最大占据位置。因为使用最大占据位置可能导致一些相邻残基采用不同构象，阻碍共价键的形成，导致链断裂。
**多序列比对 (MSA)**：研究人员使用MMSEQS2和ColabFold MSA管道进行MSA搜索，并从Uniref100数据库中提取用于配对的MSA（物种通过分类ID进行识别）。对于核酸链，不使用MSA。
**模板Templates**：研究人员不使用模板。
**特征化**:
   参考特征（Reference features）: 研究人员使用CCD的2024-06-08版本，并通过pdbeccdutils v0.8.5生成RDKit构象。当RDKit构象生成失败时，使用CCD理想坐标，避免使用代表性坐标以防止潜在的数据泄漏。
   键特征（Bond features）。键特征只包含配体内部的键、配体与聚合物之间的键，以及非标准残基内部的键。
**裁剪**：对裁剪方法的实现考虑了以下方面：
   在连续裁剪方法中，研究人员剔除了金属和离子，但在空间裁剪中保留它们。
   研究人员确保配体和非标准氨基酸保持完整，不被裁剪成不完整的片段。
   在空间裁剪中，将排列限制在裁剪区域内的链上，以确保预测集中在空间上接近的结构。
   在连续裁剪中，裁剪的链可能较远，但等价的链可能更接近彼此，因此允许等价的排列并根据模型预测调整裁剪区域。
下表中提供了引入修正的描述和解释，算法编号对应AF3补充材料中的算法编号：

![protenix-Corrections.png](../../../doc/protenix-Corrections.png)

## 2. 环境检查及依赖补全

### 2.1 环境检查


推荐环境：torch=2.3.0 py311
推荐环境：dtk=24.04.2 

In [None]:
# 检查torch版本
import torch
import os
version = torch.__version__
num = float(version[:3])
# assert num == 1.10

# 检查硬件环境
device = "cpu"
if os.system('rocm-smi 2>/dev/null || hy-smi 2>/dev/null')==0:
    device = "dtk"

elif os.system('nvidia-smi 2>/dev/null')==0: 
    device = "cuda"

print("torch version:", version)
print("device =", device)

### 2.2 依赖安装


## 3. 素材准备
### 3.1 数据集准备

## 4 训练
### 4.1 单卡训练

In [None]:
# 执行训练
!sh train_demo.sh

### 4.2 单卡微调

In [None]:
# 执行微调
!sh finetune_demo.sh

In [None]:
### 4.3 单卡推理

In [None]:
# 执行推理
!sh inference_demo.sh

## 5. 相关文献和引用
https://github.com/bytedance/Protenix
https://github.com/bytedance/Protenix/blob/main/Protenix_Technical_Report.pdf