In [1]:
from IPython.display import HTML

from tqdm import trange

import pandas as pd
import numpy as np

from rdkit import Chem, DataStructs
from rdkit.Chem import Draw, Descriptors, AllChem
import rdkit.Chem.AllChem as AllChem

from CGRtools import SDFRead
from CGRtools.utils import grid_depict, to_rdkit_molecule

from sklearn.preprocessing import FunctionTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.metrics import r2_score, mean_squared_error, balanced_accuracy_score
from sklearn.model_selection import KFold, cross_val_predict, GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier

# Расширение датасета
Поскольку датасет является фокусированной библиотекой ингибиторов аденозиновых рецепторов, я волею рандом присоединила к нему ещё два датасета, чтобы были представители и других классов.

In [2]:
covid = pd.read_csv('COVID_set.csv')
covid_SMILES = covid['SMILES'].tolist()
print(len(covid_SMILES))



477
41127


# Импорт фокусированной библиотеки

In [3]:
data_sdf = SDFRead('Adenosine_20323.sdf').read()

In [4]:
SMILES = [str(x.meta['Smile']) for x in data_sdf]

In [5]:
len(SMILES)

20323

# Объединение датасета

In [6]:
class_labels_TRUE = [1] * len(SMILES)

In [7]:
class_labels_FALSE = [0] * (len(covid_SMILES) + len(toxic_SMILES) + len(hiv_SMILES))

In [8]:
data_true = dict(zip(SMILES, class_labels_TRUE))

In [9]:
list_false = covid_SMILES + toxic_SMILES + hiv_SMILES

In [10]:
data_false = dict(zip(list_false, class_labels_FALSE))

In [11]:
print(type(data_true))

<class 'dict'>


In [12]:
res = {**data_true, **data_false}

In [13]:
data = pd.DataFrame(res.items(), columns=['SMILES', 'label'])

In [14]:
data.head()

Unnamed: 0,SMILES,label
0,c1(c(c([nH]c1C)C)C(=O)OCC)S(NCC1CCN(Cc2c(OC)cc...,1
1,c12c(C(N(Cc3ccccc3)C(C)C)=O)c(oc1\N=C/N(C2=O)C)C,1
2,c12c(c(n(n1)c1ccccc1)C)\C(=N/N(C2=O)CCCC(Nc1c(...,1
3,c12c(c(n(n1)c1ccccc1)C)\C(=N/N(C2=O)CCCC(Nc1cc...,1
4,CCOC(CNC(C1SC2=C(C=1)C(Oc1c2cccc1)=O)=O)=O,1


In [15]:
data.to_csv('SMILES_labels.csv', sep='\t', index=False)

In [16]:
print(data['label'].value_counts())

0    49042
1    20323
Name: label, dtype: int64


# Создание дескрипторов

In [17]:
# создаем словарь из дескриторов структуры
ConstDescriptors = {"HeavyAtomCount": Descriptors.HeavyAtomCount,
                    "NHOHCount": Descriptors.NHOHCount,
                    "NOCount": Descriptors.NOCount,
                    "NumHAcceptors": Descriptors.NumHAcceptors,
                    "NumHDonors": Descriptors.NumHDonors,
                    "NumHeteroatoms": Descriptors.NumHeteroatoms,
                    "NumRotatableBonds": Descriptors.NumRotatableBonds,
                    "NumValenceElectrons": Descriptors.NumValenceElectrons,
                    "NumAromaticRings": Descriptors.NumAromaticRings,
                    "NumAliphaticHeterocycles": Descriptors.NumAliphaticHeterocycles,
                    "RingCount": Descriptors.RingCount}

# создаем словарь из физико-химических дескрипторов                            
PhisChemDescriptors = {"MW": Descriptors.MolWt,
                       "LogP": Descriptors.MolLogP,
                       "MR": Descriptors.MolMR,
                       "TPSA": Descriptors.TPSA}

# объединяем все дескрипторы в один словарь
descriptors = {}
descriptors.update(ConstDescriptors)
descriptors.update(PhisChemDescriptors)
print(f"Количество дескрипторов в словаре: {len(descriptors)}")


# функция для генерации дескрипторов из молекул
def mol_dsc_calc(mols): 
    return DataFrame({k: f(m) for k, f in descriptors.items()} 
             for m in mols)

# оформляем sklearn трансформер для использования в конвеерном моделировании (sklearn Pipeline)
descriptors_transformer = FunctionTransformer(mol_dsc_calc, validate=False)

Количество дескрипторов в словаре: 15


In [18]:
def calc_morgan(mols):
    """ генерация молекулярных отпечатков по методу Моргана с радиусом 2
    """
    for_df = []
    for m in mols:
        arr = zeros((1,), dtype='float32')
        DataStructs.ConvertToNumpyArray(AllChem.GetMorganFingerprintAsBitVect(m, 2, 2048), arr)
        for_df.append(arr)
    return DataFrame(for_df)

In [19]:
# вынесем отдельно метки классов
y = data['label'].tolist()

Сейчас придётся сделать превращение SMILES из csv в sdf, поскольку очень нужна штука SDMolSupplier, а она работает только с sdf файлами. Для конвертации я использовала этот ресурс, в который просто положила csv файл, где остался только столбец SMILES: http://www.cheminfo.org/Chemistry/Cheminformatics/FormatConverter/index.html

In [None]:
molecules = [mol for mol in Chem.SDMolSupplier("DOCK_FOR_DESCR.sdf") if mol is not None]
print(f'Количество молекул = {len(molecules)}')

In [None]:
X = descriptors_transformer.transform(molecules)

In [None]:
print(X)

In [None]:
morgan_transformer = FunctionTransformer(calc_morgan, validate=False)
dddf= pd.DataFrame(X)
molecules_csv = train

In [None]:
moleculesSMILES = list(molecules_csv['SMILES'])
M = morgan_transformer.transform(molecules)

In [None]:
scaler = StandardScaler()
scaler.fit(X.values)
X_norm_SS = DataFrame(scaler.transform(X.values), index=X.index, columns=X.columns)
X_norm_SS

In [None]:
normal_descriptors_transformer = Pipeline([('gen', descriptors_transformer), ('norm', scaler)])

X_norm_SS = normal_descriptors_transformer.fit_transform(molecules)
X_norm_SS

In [None]:
kf = KFold(n_splits=5, random_state=1, shuffle=True)