In [30]:
from pysmiles import read_smiles
import networkx as nx
from collections import Counter

In [60]:
all_molecules = []
labels = []
with open('train.csv') as f:
    f.readline()
    for line in f:
        if line != '':
            l = line.strip().split(',')
            assert len(l) == 3
            smiles = l[1]
            labels.append(l[2])
            mol = read_smiles(smiles, explicit_hydrogen=True, reinterpret_aromatic=True)
            all_molecules.append(mol)

In [53]:
[i[1] for i in all_molecules[0].nodes(data='element')]

['O', 'N', 'O', 'C', 'Br', 'C', 'O', 'C', 'O', 'H', 'H', 'H', 'H', 'H', 'H']

In [42]:
type(all_molecules[0].nodes(data='element'))

networkx.classes.reportviews.NodeDataView

In [54]:
c = Counter()
for molecule in all_molecules:
    for node in molecule.nodes(data='element'):
        c[node[1]] += 1

In [55]:
c

Counter({'O': 8834,
         'N': 3221,
         'C': 35741,
         'Br': 55,
         'H': 45995,
         'S': 493,
         'I': 60,
         'Na': 106,
         'Cl': 689,
         'F': 239,
         'P': 59,
         'Zn': 2,
         'Si': 3,
         'Pb': 1,
         'K': 9,
         'Fe': 2,
         'Pt': 3,
         'As': 7,
         'Se': 1,
         'Ca': 6,
         'Gd': 2,
         'Li': 4,
         'Hg': 2,
         'Sb': 2,
         'Co': 1,
         'Bi': 1})

In [57]:
ele2idx = {}
for element in c.keys():
    ele2idx[element] = len(ele2idx)
ele2idx

{'O': 0,
 'N': 1,
 'C': 2,
 'Br': 3,
 'H': 4,
 'S': 5,
 'I': 6,
 'Na': 7,
 'Cl': 8,
 'F': 9,
 'P': 10,
 'Zn': 11,
 'Si': 12,
 'Pb': 13,
 'K': 14,
 'Fe': 15,
 'Pt': 16,
 'As': 17,
 'Se': 18,
 'Ca': 19,
 'Gd': 20,
 'Li': 21,
 'Hg': 22,
 'Sb': 23,
 'Co': 24,
 'Bi': 25}

In [65]:
all_mol_idx = []
mtx = []
for mol in all_molecules:
    all_mol_idx.append([ele2idx[i[1]] for i in mol.nodes(data='element')])
    mtx.append(nx.to_numpy_matrix(mol, weight='order'))


In [64]:
mtx[10]

matrix([[0., 3., 0., ..., 0., 0., 0.],
        [3., 0., 1., ..., 0., 0., 0.],
        [0., 1., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]])

In [73]:
train_data = zip(all_mol_idx, mtx, labels)

In [74]:
a = map(list, train_data)
print([i for i in a])

[[[0, 1, 0, 2, 3, 2, 0, 2, 0, 4, 4, 4, 4, 4, 4], matrix([[0., 2., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [2., 0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 1., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 1., 0., 0., 1., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 1., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 

In [79]:
with open('ele2idx.txt', 'w') as f:
    for element, idx in ele2idx.items():
        f.write(element)
        f.write('\t')
        f.write(str(idx))
        f.write('\n')
        
        