In [3]:
import pandas as pd
from rdkit import Chem
from rdkit.Chem import Descriptors

# 读取CSV文件
input_file = r"D:\回归数据\chemblpi3k.csv"  # 输入文件路径
output_file = "D:\回归数据\chemblpi3k分子描述符.csv"  # 输出文件路径
df = pd.read_csv(input_file, encoding='gbk')

# 定义一个函数来计算每个分子的描述符
def calculate_descriptors(smiles):
    mol = Chem.MolFromSmiles(smiles)
    if mol is not None:
        descriptors = {}
        for desc_name, desc_func in Descriptors.descList:
            try:
                descriptors[desc_name] = desc_func(mol)
            except:
                descriptors[desc_name] = None
        return descriptors
    else:
        return None

# 将SMILES转换为描述符
descriptors_list = []
for smiles in df['smiles']:
    descriptors = calculate_descriptors(smiles)
    if descriptors:
        descriptors_list.append(descriptors)
    else:
        descriptors_list.append({desc[0]: None for desc in Descriptors.descList})

# 将描述符转换为DataFrame
descriptors_df = pd.DataFrame(descriptors_list)

# 将原始的 pIC50 列和描述符合并
# 保留原始的 'pIC50' 列
descriptors_df['pIC50'] = df['pIC50']

# 将结果保存为CSV文件
descriptors_df.to_csv(output_file, index=False)

print(f"分子描述符已保存到 {output_file}")


分子描述符已保存到 D:\回归数据\chemblpi3k分子描述符.csv
