In [1]:
from rdkit import Chem
from rdkit.Chem import Descriptors
import pandas as pd

# 전체 descriptor 목록
descriptor_list = Descriptors.descList  # (name, function) 튜플 리스트
print(f"총 {len(descriptor_list)}개의 descriptor가 존재합니다.")

총 217개의 descriptor가 존재합니다.


In [2]:
# 데이터 불러오기
train = pd.read_csv("data/train.csv")

In [3]:
# 하나의 SMILES에 대해 descriptor 딕셔너리 반환
def smiles_to_features(smi):
    try: 
        mol = Chem.MolFromSmiles(smi)
        features = {}
        for name, func in descriptor_list:
            try:
                features[name] = func(mol)
            except:
                features[name] = None  # 계산 실패 시 None
        return features
    except: 
        print(f"SMILES 파싱 실패: {smi}")
        return {name: 0 for name, _ in descriptor_list}

In [4]:
# 예시 SMILES 리스트
y_train = train.iloc[:,-1]
X_train = train['Canonical_Smiles'].apply(smiles_to_features).apply(pd.Series)

In [5]:
X_train.to_csv("data/X_train_allDescriptors.csv", index=False)
y_train.to_csv("data/y_train.csv", index=False)

In [6]:
test = pd.read_csv("data/test.csv")
X_test = test['Canonical_Smiles'].apply(smiles_to_features).apply(pd.Series)
X_test.to_csv("data/X_test_allDescriptors.csv", index=False)