# 基于蛋白质结构的预测活性位点

## 任务描述
给定一个蛋白质结构，需要识别其可能的活性位点。

活性位点是指蛋白质中能够被外源信号激活的区域，例如，蛋白质中存在一个或多个氨基酸，这些氨基酸能够与其他氨基酸结合，从而改变蛋白质的结构，使其能够对外界的信号产生反应。

活性位点的识别可以基于蛋白质结构的特征，例如，氨基酸的位置、相互作用等。

## 任务目标 
- 下载PDB文件。
- 解析结构。
- 检查每个氨基酸的环境，例如其周围的原子、相互作用等，以确定可能的活性位点。

## 任务步骤
1. 下载PDB文件。
2. 将下载的内容保存为PDB文件。
3. 创建PDB解析器。
4. 读取PDB文件。
5. 定义活性位点氨基酸列表。
6. 初始化存储活性位点的列表。
7. 遍历结构，筛选氨基酸。
8. 输出每个残基的详细信息用于调试。
9. 检查是否为氨基酸并在活性位点列表中。
10. 获取坐标。
11. 输出活性位点。
12. 如果没有找到活性位点，提供提示。

## 准备工作
- 安装依赖包：`pip install biopython requests`    
- 下载PDB文件：`wget https://files.rcsb.org/download/4CL7.pdb`    

## 关键点：
- 扩展氨基酸列表：在判断活性位点时，我添加了一些常见的功能氨基酸（如CYS、SER、THR）以提高识别率。
- 更具自动化的判断：程序会遍历所有氨基酸，并根据其名称判断是否可能是活性位点。

## 代码实现

In [None]:
import requests
from Bio import PDB

# 1. 下载PDB文件
pdb_id = '4CL7'
url = f'https://files.rcsb.org/download/{pdb_id}.pdb'
response = requests.get(url)

# 2. 将下载的内容保存为PDB文件
with open(f'{pdb_id}.pdb', 'wb') as file:
    file.write(response.content)

# 3. 创建PDB解析器
parser = PDB.PDBParser(QUIET=True)

# 4. 读取PDB文件
structure = parser.get_structure('Protein', f'{pdb_id}.pdb')

# 5. 定义活性位点氨基酸列表
active_site_residues = ['ASP', 'GLU', 'HIS', 'LYS', 'ARG']

# 6. 初始化存储活性位点的列表
identified_active_sites = []

# 7. 遍历结构，筛选氨基酸
for model in structure:
    for chain in model:
        for residue in chain:
            # 8. 输出每个残基的详细信息用于调试
            if PDB.is_aa(residue):
                res_name = residue.get_resname()
                res_id = residue.get_id()
                print(f"Checking Residue: {res_name} {res_id}")

            # 9. 检查是否为氨基酸并在活性位点列表中
            if PDB.is_aa(residue) and residue.get_resname() in active_site_residues:
                # 10. 获取坐标
                coordinates = residue['CA'].get_coord()
                identified_active_sites.append((residue.get_resname(), residue.get_id(), coordinates))

# 11. 输出活性位点
print("已识别的活性位点:")
for res_name, res_id, coords in identified_active_sites:
    print(f"Residue: {res_name} {res_id}, Coordinates: {coords}")

# 12. 如果没有找到活性位点，提供提示
if not identified_active_sites:
    print("没有根据定义的残留物确定的活性位点。")


## 总结
本次实验主要是对蛋白质结构进行解析，并识别其可能的活性位点。通过对氨基酸的环境进行判断，可以确定可能的活性位点。

## 下面优化的代码：
- 动态活性位点识别：根据氨基酸的性质和相互作用自动判断活性位点。
- 结合位点分析：识别可能的结合位点，考虑配体或底物。
- 更详细的输出：提供氨基酸的类型、相邻残基信息、及其可能的生物功能。
- 优化性能：将代码结构化，使其易于扩展和维护。

In [1]:
import requests
from Bio import PDB

def download_pdb(pdb_id):
    url = f'https://files.rcsb.org/download/{pdb_id}.pdb'
    response = requests.get(url)
    with open(f'{pdb_id}.pdb', 'wb') as file:
        file.write(response.content)

def parse_structure(pdb_file):
    parser = PDB.PDBParser(QUIET=True)
    return parser.get_structure('Protein', pdb_file)

def identify_active_sites(structure):
    # 定义可能的活性位点氨基酸
    active_site_residues = ['ASP', 'GLU', 'HIS', 'LYS', 'ARG', 'CYS', 'SER', 'THR']
    identified_active_sites = []

    for model in structure:
        for chain in model:
            for residue in chain:
                if PDB.is_aa(residue) and residue.get_resname() in active_site_residues:
                    coordinates = residue['CA'].get_coord()
                    identified_active_sites.append((residue.get_resname(), residue.get_id(), coordinates))

    return identified_active_sites

def analyze_structure(pdb_id):
    download_pdb(pdb_id)
    structure = parse_structure(f'{pdb_id}.pdb')
    active_sites = identify_active_sites(structure)

    # 输出结果
    if active_sites:
        print("已识别的活性位点:")
        for res_name, res_id, coords in active_sites:
            print(f"Residue: {res_name} {res_id}, Coordinates: {coords}")
    else:
        print("没有根据定义的残留物确定的活性位点。")

if __name__ == "__main__":
    pdb_id = '4CL7'  # 可以替换为其他PDB ID
    analyze_structure(pdb_id)


已识别的活性位点:
Residue: ARG (' ', 133, ' '), Coordinates: [  1.987 -32.867  72.699]
Residue: GLU (' ', 137, ' '), Coordinates: [  2.531 -28.127  65.273]
Residue: SER (' ', 140, ' '), Coordinates: [  5.726 -36.655  61.22 ]
Residue: GLU (' ', 141, ' '), Coordinates: [  4.511 -38.593  58.186]
Residue: GLU (' ', 144, ' '), Coordinates: [  6.498 -29.323  56.406]
Residue: HIS (' ', 147, ' '), Coordinates: [ 11.719 -22.155  51.742]
Residue: THR (' ', 149, ' '), Coordinates: [ 17.97  -18.848  50.992]
Residue: GLU (' ', 150, ' '), Coordinates: [ 21.716 -19.292  51.466]
Residue: ARG (' ', 152, ' '), Coordinates: [ 19.881 -15.339  54.957]
Residue: GLU (' ', 153, ' '), Coordinates: [ 17.943 -16.167  58.142]
Residue: CYS (' ', 158, ' '), Coordinates: [  9.179 -26.16   66.013]
Residue: ARG (' ', 159, ' '), Coordinates: [  7.749 -24.036  68.836]
Residue: THR (' ', 161, ' '), Coordinates: [  4.009 -25.875  74.574]
Residue: SER (' ', 162, ' '), Coordinates: [  6.286 -25.043  77.543]
Residue: THR (' ', 166, 

- 函数化结构：将代码分成多个函数，使得每个函数负责一个特定的任务（下载、解析、识别活性位点、分析结构），提高可读性和可维护性。
- 动态识别活性位点：可以进一步扩展identify_active_sites函数，加入对氨基酸环境的分析，比如计算相邻氨基酸的距离、检查是否存在配体等。
- 增强输出信息：可以通过增加更多的分析内容，比如结合位点的环境、氨基酸的相互作用等，来丰富分析结果。- 优化性能：通过优化代码结构、使用更高效的算法等，可以提高运行效率。

# 基于深度学习的蛋白质活性位点预测
# 下面的代码实现了什么内容？



- 下载PDB文件。
- 解析结构。
- 提取特征。
- 训练深度学习模型。 
- 预测活性位点。
- 评估模型效果。

## 关键点：
- 特征提取：提取蛋白质结构的特征，包括氨基酸的名称、位置、电荷、极性等。
- 训练深度学习模型：使用深度学习模型对蛋白质结构进行预测。
- 评估模型效果：使用测试集对模型的预测结果进行评估。

In [None]:
## 代码实现             
# 导入依赖包
import pandas as pd
from Bio import PDB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 1. 特征提取
def extract_features(structure):
    features = []
    labels = []
    active_site_residues = ['ASP', 'GLU', 'HIS', 'LYS', 'ARG', 'CYS', 'SER', 'THR']
    
    # 定义氨基酸的物理化学属性
    properties = {
        'ASP': {'charge': -1, 'polarity': 1},
        'GLU': {'charge': -1, 'polarity': 1},
        'HIS': {'charge': 0, 'polarity': 1},
        'LYS': {'charge': +1, 'polarity': 1},
        'ARG': {'charge': +1, 'polarity': 1},
        'CYS': {'charge': 0, 'polarity': 1},
        'SER': {'charge': 0, 'polarity': 1},
        'THR': {'charge': 0, 'polarity': 1},
        'ALA': {'charge': 0, 'polarity': 0},
        # 可以添加更多氨基酸的属性
    }

    for model in structure:
        for chain in model:
            for residue in chain:
                if PDB.is_aa(residue):
                    res_name = residue.get_resname()
                    charge = properties[res_name]['charge'] if res_name in properties else 0
                    polarity = properties[res_name]['polarity'] if res_name in properties else 0
                    
                    # 获取第一个原子的坐标
                    coord = residue['CA'].get_coord() if 'CA' in residue else [0, 0, 0]
                    features.append([res_name, charge, polarity, *coord])  # 增加更多特征
                    labels.append(1 if res_name in active_site_residues else 0)

    return features, labels

# 2. 主函数
def main(pdb_file):
    parser = PDB.PDBParser(QUIET=True)
    structure = parser.get_structure('Protein', pdb_file)
    
    # 提取特征和标签
    features, labels = extract_features(structure)
    
    # 转换为DataFrame
    df = pd.DataFrame(features, columns=['Residue', 'Charge', 'Polarity', 'X', 'Y', 'Z'])
    df['Label'] = labels

    # 将氨基酸名称转换为数字特征
    residue_mapping = {
        'ASP': 1, 'GLU': 2, 'HIS': 3, 'LYS': 4, 'ARG': 5, 
        'CYS': 6, 'SER': 7, 'THR': 8, 
        'ALA': 0, 'VAL': 0, 'ILE': 0, 'LEU': 0, 'MET': 0,
        # 当然，你可以继续为其他氨基酸映射
    }

    # 使用映射将Residue列转换为数字，缺失的值填充为0
    df['Residue'] = df['Residue'].map(residue_mapping).fillna(0)

    # 3. 分割数据集
    X = df[['Residue', 'Charge', 'Polarity', 'X', 'Y', 'Z']]
    y = df['Label']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # 4. 训练深度学习模型
    model = Sequential()
    model.add(Dense(64, activation='relu', input_dim=X_train.shape[1]))
    model.add(Dense(32, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
    
    model.fit(X_train, y_train, epochs=50, batch_size=10, validation_split=0.2)

    # 5. 预测和评估
    y_pred = (model.predict(X_test) > 0.5).astype("int32")
    print(classification_report(y_test, y_pred))

if __name__ == "__main__":
    pdb_file = '4CL7.pdb'  # 使用本地PDB文件
    main(pdb_file)
