In [52]:
import rdkit
import os
from rdkit import Chem
from rdkit import RDConfig
import pandas as pd
from rdkit.Chem import ChemicalFeatures
import numpy as np
fdefName = os.path.join(RDConfig.RDDataDir,'BaseFeatures.fdef')
factory = ChemicalFeatures.BuildFeatureFactory(fdefName)

In [53]:
f = pd.read_csv('train.csv')

In [64]:
unique_feat = {}
with open('atom_unique_feature.txt', 'r') as f:
    for line in f:
        atm_feat = line.strip().split('\t')
        unique_feat[atm_feat[0]] = int(atm_feat[1])
print(unique_feat)

{'SingleAtomDonor': 0, 'SingleAtomAcceptor': 1, 'Nitro2': 2, 'PosN': 3, 'ChainTwoWayAttach': 4, 'AcidicGroup': 5, 'BasicGroup': 6, 'ZnBinder5': 7, 'ThreeWayAttach': 8, 'ZnBinder1': 9, 'iPropyl': 10, 'Guanidine': 11, 'ZnBinder6': 12, 'ZnBinder4': 13, 'RH6_6': 14, 'RH5_5': 15, 'tButyl': 16, 'Arom6': 17, 'Arom5': 18, 'Imidazole': 19, 'RH3_3': 20, 'RH4_4': 21, 'Arom7': 22}


In [55]:
feature_vectors = []
for i in f.index:
    m = Chem.MolFromSmiles(f.iloc[i, 1])
    m = Chem.AddHs(m)
    num_atom = m.GetNumAtoms()
    feats = factory.GetFeaturesForMol(m)
    m_vec = np.zeros([num_atom, len(unique_feat)])

    for feat in feats:
        #print(unique_feat[feat.GetType()])
        #print(feat.GetAtomIds()[0])
        if feat.GetType() in unique_feat:
            for atomid in feat.GetAtomIds():
                m_vec[atomid, unique_feat[feat.GetType()]] = 1
    feature_vectors.append(m_vec)

In [39]:
feature_vectors

[array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.],
        [1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0.]]),

In [56]:
feature_vectors[3]

array([[0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0.,

In [57]:
unique_feat

{'SingleAtomDonor': 0,
 'SingleAtomAcceptor': 1,
 'Nitro2': 2,
 'PosN': 3,
 'ChainTwoWayAttach': 4,
 'AcidicGroup': 5,
 'BasicGroup': 6,
 'ZnBinder5': 7,
 'ThreeWayAttach': 8,
 'ZnBinder1': 9,
 'iPropyl': 10,
 'Guanidine': 11,
 'ZnBinder6': 12,
 'ZnBinder4': 13,
 'RH6_6': 14,
 'RH5_5': 15,
 'tButyl': 16,
 'Arom6': 17,
 'Arom5': 18,
 'Imidazole': 19,
 'RH3_3': 20,
 'RH4_4': 21,
 'Arom7': 22}

In [62]:
with open('atom_unique_feature.txt', 'w') as f:
    for feature, idx in unique_feat.items():
        f.write(feature)
        f.write('\t')
        f.write(str(idx))
        f.write('\n')
