In [1]:
import sys

import rdkit # required for cheminformatics functionality (small molecules)
from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem import DataStructs

import numpy as np
np.set_printoptions(threshold=sys.maxsize)

Create two lists from the data file, one with the molecules and the other with the classes of the molecules.  The classes are integers [0..10] representing the 11 classes.  Keep in mind that this is a multi-class problem, i.e. each  molecule (metabolite) may have more than one class.

In [2]:
# load the molecules
with open("../data/kegg_classes.txt") as f:
    mols_str, classes = zip(*[ line.strip().split() for line in f])

In [5]:
# encode each molecule using deep smiles
import deepsmiles
print("DeepSMILES version: %s" % deepsmiles.__version__)

converter = deepsmiles.Converter(rings=True, branches=True)

# a list of deep smiles per molecule
deep_smiles_enc = [ converter.encode(m) for m in mols_str ]

DeepSMILES version: 1.0.1


In [7]:
deep_smiles_enc

['CC=O)C=O)O',
 'CC=O)SCCNC=O)CCNC=O)CO)CC)C)COP=O)O)OP=O)O)OCCOCncnccN)ncnc69)))))))))CO)C5OP=O)O)O',
 'OCCOCO)CO)CO)C6O',
 'CC=O)O',
 'O=CO)CC=O)C=O)O',
 'CcnccC[n+]cscCCOP=O)O)OP=O)O)O)))))))c5C)))))))cN)n6',
 'C=COP=O)O)O)))C=O)O',
 'CC=O',
 'O=PO)O)OCOCCO))CO)CO)C6O',
 'O=CCO))COP=O)O)O',
 'O=CCO)COP=O)O)O',
 'CCO)C=O)O',
 'O=CO)CO)COP=O)O)O',
 'OCCOCO)CO)CO)C6O',
 'O=COP=O)O)O)))CO)COP=O)O)O',
 'OCCOCO)CO)CO)C6O',
 'CCO',
 'O=CO)CCO))OP=O)O)O',
 'O=PO)O)OCCOCO)CO)CO)C6O',
 'O=CO)CCOP=O)O)O))))OP=O)O)O',
 'O=PO)O)OCCOCO)CO)CO)C6O',
 'OCcccccc6OCOCCO))CO)CO)C6O',
 'CcnccC[n+]cCC)O))scCCOP=O)O)OP=O)O)O)))))))c5C)))))))cN)n6',
 'O=PO)O)OCCOCO)CO))CO)C5O',
 'O=PO)O)OCCOCO)COP=O)O)O))))CO)C5O',
 'OCCOCOccccO)cc6)))))))CO)CO)C6O',
 'O=PO)O)OCCOCOccccO)cc6)))))))CO)CO)C6O',
 'O=PO)O)OCCOCOcccccc6CO)))))))))CO)CO)C6O',
 '[*]NC=O)CCCCCCCSS5',
 '[*]NC=O)CCCCCS)CCS',
 '[*]NC=O)CCCCCS)CCSCC)=O',
 'CC=O)C=O)O',
 'CC=O)SCCNC=O)CCNC=O)CO)CC)C)COP=O)O)OP=O)O)OCCOCncnccN)ncnc69)))))))))CO)C5OP=O)O