In [7]:
from rdkit.Chem import Descriptors
from rdkit import Chem
from rdkit.Chem import QED
from rdkit.Chem import rdMolDescriptors
from rdkit.Chem import rdqueries
from rdkit.Chem import AllChem
from rdkit.Chem.rdMolDescriptors import CalcPMI1, CalcPMI2, CalcPMI3
from rdkit.Chem.rdMolDescriptors import CalcInertialShapeFactor
from rdkit.Chem.rdMolDescriptors import CalcPBF
from rdkit.Chem.rdMolDescriptors import CalcRadiusOfGyration


import pandas as pd
import numpy as np

In [5]:
# Read data
train = pd.read_csv('../data/train.csv')
test = pd.read_csv('../data/test.csv')

In [6]:
train.head()

Unnamed: 0,Molecule ChEMBL ID,Standard Type,Standard Relation,Standard Value,Standard Units,pChEMBL Value,Assay ChEMBL ID,Target ChEMBL ID,Target Name,Target Organism,Target Type,Document ChEMBL ID,IC50_nM,pIC50,Smiles
0,CHEMBL4443947,IC50,'=',0.022,nM,10.66,CHEMBL4361896,CHEMBL3778,Interleukin-1 receptor-associated kinase 4,Homo sapiens,SINGLE PROTEIN,CHEMBL4359855,0.022,10.66,CN[C@@H](C)C(=O)N[C@H](C(=O)N1C[C@@H](NC(=O)CC...
1,CHEMBL4556091,IC50,'=',0.026,nM,10.59,CHEMBL4345131,CHEMBL3778,Interleukin-1 receptor-associated kinase 4,Homo sapiens,SINGLE PROTEIN,CHEMBL4342485,0.026,10.59,CC(C)(O)[C@H](F)CN1Cc2cc(NC(=O)c3cnn4cccnc34)c...
2,CHEMBL4566431,IC50,'=',0.078,nM,10.11,CHEMBL4345131,CHEMBL3778,Interleukin-1 receptor-associated kinase 4,Homo sapiens,SINGLE PROTEIN,CHEMBL4342485,0.078,10.11,CC(C)(O)[C@H](F)CN1Cc2cc(NC(=O)c3cnn4cccnc34)c...
3,CHEMBL4545898,IC50,'=',0.081,nM,10.09,CHEMBL4345131,CHEMBL3778,Interleukin-1 receptor-associated kinase 4,Homo sapiens,SINGLE PROTEIN,CHEMBL4342485,0.081,10.09,CC(C)(O)[C@H](F)CN1Cc2cc(NC(=O)c3cnn4cccnc34)c...
4,CHEMBL4448950,IC50,'=',0.099,nM,10.0,CHEMBL4361896,CHEMBL3778,Interleukin-1 receptor-associated kinase 4,Homo sapiens,SINGLE PROTEIN,CHEMBL4359855,0.099,10.0,COc1cc2c(OC[C@@H]3CCC(=O)N3)ncc(C#CCCCCCCCCCCC...


In [56]:
for i in range(len(train)):
    print(train.iloc[i].values[0])
    break

CHEMBL4443947


In [9]:
data_train = pd.concat([train['Molecule ChEMBL ID'], train['Smiles'], train['IC50_nM']], axis=1)

In [51]:
train['IC50_nM'].values

array([2.2e-02, 2.6e-02, 7.8e-02, ..., 3.0e+04, 4.2e+04, 5.5e+04])

In [10]:
data_train.head()

Unnamed: 0,Molecule ChEMBL ID,Smiles,IC50_nM
0,CHEMBL4443947,CN[C@@H](C)C(=O)N[C@H](C(=O)N1C[C@@H](NC(=O)CC...,0.022
1,CHEMBL4556091,CC(C)(O)[C@H](F)CN1Cc2cc(NC(=O)c3cnn4cccnc34)c...,0.026
2,CHEMBL4566431,CC(C)(O)[C@H](F)CN1Cc2cc(NC(=O)c3cnn4cccnc34)c...,0.078
3,CHEMBL4545898,CC(C)(O)[C@H](F)CN1Cc2cc(NC(=O)c3cnn4cccnc34)c...,0.081
4,CHEMBL4448950,COc1cc2c(OC[C@@H]3CCC(=O)N3)ncc(C#CCCCCCCCCCCC...,0.099


In [12]:
sample_smile = train['Smiles'][0]
mol = Chem.MolFromSmiles(sample_smile)

if mol:
    print("susscess")
else:
    print("Faile")

susscess


In [48]:
# tổng khối lượng của tất cả các nguyên tử trong phân tử.
mol_weight = Descriptors.MolWt(mol)
print("Mol weight: ", mol_weight)

# Tính toán hệ số phân bố dầu-nước của phân tử, đại diện cho tính ưa dầu hoặc ưa nước
logp = Descriptors.MolLogP(mol)
print("Log P: ", logp)

# số liên kết đơn không thuộc vòng trong phân tử, biểu thị cho tính linh hoạt của phân tử.
num_rotatable_bonds = Descriptors.NumRotatableBonds(mol)
print("Num rotatable bonds: ", num_rotatable_bonds)

#  diện tích bề mặt phân tử có phân cực, liên quan đến khả năng tương tác với môi trường nước
tpsa = Descriptors.TPSA(mol)
print("Tpsa: ", tpsa)

# số lượng nhóm chức trong phân tử có khả năng cho hoặc nhận liên kết hydro
num_h_donors = Descriptors.NumHDonors(mol)
num_h_acceptors = Descriptors.NumHAcceptors(mol)
print("Num h donors: ", num_h_donors)
print("Num h acceptor: ", num_h_acceptors)

# Đo lường độ phân cực của các liên kết trong phân tử
mol_refractivity = Descriptors.MolMR(mol)
print("Mol refractivity: ", mol_refractivity)

# số vòng trong phân tử
num_rings = Descriptors.RingCount(mol)
print("Num rings: ", num_rings)

# Tính tỷ lệ các nguyên tử carbon trong phân tử có cấu trúc lai Csp3
fraction_csp3 = Descriptors.FractionCSP3(mol)
print("Fraction csp3: ", fraction_csp3)

# Tính số lượng vòng thơm trong phân tử.
num_aromatic_rings = Descriptors.NumAromaticRings(mol)
print("Num aromatic rings: ", num_aromatic_rings)

# Đánh giá khả năng của một phân tử có thể trở thành một loại thuốc dựa trên các đặc trưng hóa học.
qed_value = QED.qed(mol)
print("Qed value: ", qed_value)

# Đánh giá độ phức tạp của phân tử, tức là mức độ khó khăn khi tổng hợp phân tử trong phòng thí nghiệm.
# sa_score = rdMolDescriptors.CalcSyntheticAccessibilityScore(mol)
# print("Sa score: ", sa_score)

# Đo lường độ kết nối của phân tử dựa trên cấu trúc đồ thị của nó.
balaban_j = Descriptors.BalabanJ(mol)
print("Balaban j: ", balaban_j)

# Các chỉ số chi khác nhau (Chi0, Chi1, Chi2,...) đo lường các khía cạnh khác nhau của sự kết nối trong phân tử.
chi0 = Descriptors.Chi0(mol)
print("Chi0: ", chi0)

# Kiểm tra xem phân tử có chứa các nhóm chức hoặc cấu trúc con cụ thể có liên quan đến độc tính hoặc tính chất sinh học đặc biệt hay không.
phenol = Chem.MolFromSmarts(sample_smile)
matches = mol.HasSubstructMatch(phenol)
print("Matches: ", matches)


# 3d vitualize
AllChem.EmbedMolecule(mol)
AllChem.UFFOptimizeMolecule(mol)

# Tính toán các mômen quán tính chính
pmi1 = CalcPMI1(mol)  # PMI theo trục 1
pmi2 = CalcPMI2(mol)  # PMI theo trục 2
pmi3 = CalcPMI3(mol)  # PMI theo trục 3
print(f"pmi1: {pmi1}\npmi2: {pmi2}\npmi3: {pmi3}")

# Tính toán chỉ số hình dạng
inertial_shape_factor = CalcInertialShapeFactor(mol)
print("inertial shape factor", inertial_shape_factor)

# Tính toán tỷ lệ mômen quán tính
pmi_ratio = CalcPBF(mol)  # Principal moments balance factor (PBF)
print("Pmi ratio: ", pmi_ratio)

# Tính bán kính quán tính
radius_of_gyration = CalcRadiusOfGyration(mol)
print("Radius of gyration: ", radius_of_gyration)

Mol weight:  995.1879999999995
Log P:  2.7436000000000096
Num rotatable bonds:  23
Tpsa:  250.86999999999998
Num h donors:  6
Num h acceptor:  13
Mol refractivity:  266.76439999999945
Num rings:  7
Fraction csp3:  0.5660377358490566
Num aromatic rings:  3
Qed value:  0.05918691882036578
Balaban j:  0.858127174029979
Chi0:  50.98597716963361
Matches:  True


[23:37:39] Molecule does not have explicit Hs. Consider calling AddHs()


pmi1: 9395.348557615667
pmi2: 76386.56127188886
pmi3: 79024.32745915686
inertial shape factor 0.00010288291355329395
Pmi ratio:  2.0535770646139446
Radius of gyration:  9.440354516560873


[23:37:39] Molecule does not have explicit Hs. Consider calling AddHs()


In [None]:
[matches, inertial_shape_factor, fraction_csp3, qed_value, balaban_j]

In [None]:
[mol_weight, logp, tpsa, mol_refractivity, chi0, pmi1, pmi2, pmi3, pmi_ratio, radius_of_gyration, num_aromatic_rings, num_h_donors, num_h_acceptors, num_rings, num_rotatable_bonds]

In [10]:
def pic50_to_ic50(pic50):
    return 10 ** (-pic50) * 1e9

In [12]:
array = np.array([10.657577319177793, 10.657577319177793, 10.657577319177793])

pic50_to_ic50(array)

array([0.022, 0.022, 0.022])