In [1]:
import numpy as np


"""
Function that performs SMILES tokenization and transformation to one-hot 
encoding using all possible tokens including starting, ending and padding 
characters.
Parameters
----------
smiles: List with SMILES strings
Returns
-------
This function returns an one-hot encoding array.
"""

atoms = [
         'H','B', 'C', 'N', 'O', 'P', 'S', 'F', 'Cl', 'Br', 'I'
        ]

special = [
        '(', ')', '[', ']', '=', '#', '@', '*', '%', '0', '1', '2',
        '3', '4', '5', '6', '7', '8', '9', '.', '/', '\\', '+', '-',
         'c', 'n', 'o', 's','p'
        ]

padding = ['G', 'A', 'E'] #Go, Padding ,End
table = sorted(atoms, key=len, reverse=True) + special + padding
table_len = len(table)

In [2]:
def tokenize(smiles):
    N = len(smiles)
    i = 0
    j= 0
    token = []
    while (i < N):
        for j in range(table_len):
            symbol = table[j]
            if symbol == smiles[i:i + len(symbol)]:
                token.append(symbol)
                i += len(symbol)
                break
    return token

def one_hot_encode(trans_char): #create one hot encode table
    transl_one_hot = {} #create dictionary
    for i, char in enumerate(table): #create one hot encode vector for each character
        lista = np.zeros(table_len) #create zero list for each char
        lista[i] = 1 #set 1 on the correct position
        transl_one_hot[char] = lista #save list in dictionary

    result = np.array([transl_one_hot[s] for s in trans_char]) #find the vector corresponding to the character
    result = result.reshape(1, result.shape[0], result.shape[1])
    #print("\nTransl_one_hot:\n",transl_one_hot,"\n")
    return result, transl_one_hot

In [3]:
smiles = ['CC1(C(N2C(S1)C(C2=O)NC(=O)CC3=CC=CC=C3)C(=O)O)C', 
          'CCC1C(C(C(N(CC(CC(C(C(C(C(C(=O)O1)C)OC2CC(C(C(O2)C)O)(C)OC)C)OC3C(C(CC(O3)C)N(C)C)O)(C)O)C)C)C)O)(C)O']

In [4]:
tokenize(smiles[0])

['C',
 'C',
 '1',
 '(',
 'C',
 '(',
 'N',
 '2',
 'C',
 '(',
 'S',
 '1',
 ')',
 'C',
 '(',
 'C',
 '2',
 '=',
 'O',
 ')',
 'N',
 'C',
 '(',
 '=',
 'O',
 ')',
 'C',
 'C',
 '3',
 '=',
 'C',
 'C',
 '=',
 'C',
 'C',
 '=',
 'C',
 '3',
 ')',
 'C',
 '(',
 '=',
 'O',
 ')',
 'O',
 ')',
 'C']

In [5]:
one_hot_encode(tokenize(smiles[0]))

(array([[[0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         ...,
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.],
         [0., 0., 0., ..., 0., 0., 0.]]]),
 {'Cl': array([1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0.]),
  'Br': array([0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0.]),
  'H': array([0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0.]),
  'B': array([0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 