In [1]:
import pandas as pd
import numpy as np
from rdkit import Chem
import torch
from torch_geometric.data import Data

In [2]:
def transform_matrix(train_df):
    def _get_feature_vec(atom):
        return np.array([
            atom.GetAtomicNum(), 
            atom.GetTotalDegree(), 
            atom.GetFormalCharge(), 
            int(atom.GetIsAromatic()), 
            atom.GetTotalNumHs()
        ], dtype=float)
    def _molecule_features(molecule):
        try:
            feature_mtx = torch.tensor(
                [_get_feature_vec(atom) for atom in molecule.GetAtoms()], 
                dtype = torch.float
            )
            return feature_mtx
        except Exception as e:
            print(f'Error occurs: {e}')
            return None
       
    
    molecules = train_df['SMILES'].apply(lambda smile : Chem.MolFromSmiles(smile))
    train_df['input'] = molecules.apply(_molecule_features)
    return train_df


In [3]:
train_df = pd.read_csv('./train.csv')
train_df = transform_matrix(train_df)

  feature_mtx = torch.tensor(


In [None]:
#train_df.to_csv('./train_with_feature_mtx.csv')
train_df

In [6]:
train_df['input'][0]

tensor([[0., 1., 0., 0., 0.],
        [6., 4., 0., 0., 2.],
        [6., 4., 0., 0., 1.],
        [0., 1., 0., 0., 0.],
        [6., 3., 0., 1., 0.],
        [6., 3., 0., 1., 1.],
        [6., 3., 0., 1., 1.],
        [6., 3., 0., 1., 1.],
        [6., 3., 0., 1., 1.],
        [6., 3., 0., 1., 0.],
        [6., 3., 0., 0., 0.],
        [8., 1., 0., 0., 0.],
        [8., 2., 0., 0., 0.],
        [6., 4., 0., 0., 2.],
        [6., 4., 0., 0., 2.],
        [6., 4., 0., 0., 2.],
        [6., 4., 0., 0., 2.],
        [6., 4., 0., 0., 2.],
        [6., 4., 0., 0., 3.]])

In [7]:
torch.save(train_df['input'].tolist(), "input_tensors.pt")

In [8]:
inputs = torch.load("input_tensors.pt")
inputs

  inputs = torch.load("input_tensors.pt")


[tensor([[0., 1., 0., 0., 0.],
         [6., 4., 0., 0., 2.],
         [6., 4., 0., 0., 1.],
         [0., 1., 0., 0., 0.],
         [6., 3., 0., 1., 0.],
         [6., 3., 0., 1., 1.],
         [6., 3., 0., 1., 1.],
         [6., 3., 0., 1., 1.],
         [6., 3., 0., 1., 1.],
         [6., 3., 0., 1., 0.],
         [6., 3., 0., 0., 0.],
         [8., 1., 0., 0., 0.],
         [8., 2., 0., 0., 0.],
         [6., 4., 0., 0., 2.],
         [6., 4., 0., 0., 2.],
         [6., 4., 0., 0., 2.],
         [6., 4., 0., 0., 2.],
         [6., 4., 0., 0., 2.],
         [6., 4., 0., 0., 3.]]),
 tensor([[0., 1., 0., 0., 0.],
         [7., 3., 0., 0., 1.],
         [6., 3., 0., 1., 0.],
         [6., 3., 0., 1., 1.],
         [6., 3., 0., 1., 1.],
         [6., 3., 0., 1., 0.],
         [6., 4., 0., 0., 1.],
         [6., 4., 0., 0., 2.],
         [6., 4., 0., 0., 2.],
         [6., 4., 0., 0., 3.],
         [6., 3., 0., 1., 0.],
         [6., 3., 0., 1., 1.],
         [6., 3., 0., 1., 1.],
      