# DeepAcceptor：Deep learning-based design and screening of non-fullerene acceptor materials for organic solar cells

It is a time-consuming and costly process to develop affordable and high-performance organic photovoltaic materials. Developing reliable computational methods to predict the power conversion efficiency (PCE) is crucial to triage unpromising molecules in large-scale databases and accelerate the material discovery process. In this study, a deep learning-based framework (DeepAcceptor) has been built to design and discover high-efficient small molecule acceptor materials. Specifically, an experimental dataset was constructed by collecting data from publications. Then, a BERT-based model was customized to predict PCEs by taking fully advantages of the atom, bond, connection information in molecular structures of acceptors, and this customized architecture is termed as abcBERT. The computation molecules and experimental molecules were used to pre-train and fine-tune the model, respectively.The molecular graph was used as the input and the computation molecules and experimental molecules were used to pretrain and finetune the model, respectively. DeepAcceptor is a promising method to predict the PCE and speed up the discovery of high-performance acceptor materials.

## Here, we have shown how to use the model to predict the PCE based on NFAs.

### 1. Download the pretrained and finetuned model 

In [19]:
pip install wget

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting wget
  Downloading wget-3.2.zip (10 kB)
Building wheels for collected packages: wget
  Building wheel for wget (setup.py): started
  Building wheel for wget (setup.py): finished with status 'done'
  Created wheel for wget: filename=wget-3.2-py3-none-any.whl size=9657 sha256=bbe0bf5cb9300b74075403b78b87a86314ebb304aff57056f38fc4dcb6bd6fca
  Stored in directory: C:\Users\BM109X32G-10GPU-02\AppData\Local\Temp\pip-ephem-wheel-cache-v97hsxon\wheels\bd\a8\c3\3cf2c14a1837a4e04bd98631724e81f33f462d86a1d895fae0
Successfully built wget
Installing collected packages: wget
Successfully installed wget-3.2
Note: you may need to restart the kernel to use updated packages.


#### download the prediction model

In [20]:
import wget
url = r"https://github.com/JinYSun/DeepAcceptor/releases/download/v1.0.0/data.h5"

In [21]:
wget.download(url,"regression_weights/data.h5")

  0% [                                                                        ]            0B / 16M  0% [                                                                        ]            8K / 16M  0% [                                                                        ]           16K / 16M  0% [                                                                        ]           24K / 16M  0% [                                                                        ]           32K / 16M  0% [                                                                        ]           40K / 16M  0% [                                                                        ]           48K / 16M  0% [                                                                        ]           56K / 16M  0% [                                                                        ]           64K / 16M  0% [                                                                        ]           72K / 16M

  3% [##                                                                      ]          672K / 16M  3% [##                                                                      ]          680K / 16M  4% [##                                                                      ]          688K / 16M  4% [##                                                                      ]          696K / 16M  4% [##                                                                      ]          704K / 16M  4% [##                                                                      ]          712K / 16M  4% [###                                                                     ]          720K / 16M  4% [###                                                                     ]          728K / 16M  4% [###                                                                     ]          736K / 16M  4% [###                                                                     ]          744K / 16M

  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M  8% [######                                                                  ]            1M / 16M

 22% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M 23% [################                                                        ]            3M / 16M

 30% [#####################                                                   ]            5M / 16M 30% [#####################                                                   ]            5M / 16M 30% [#####################                                                   ]            5M / 16M 30% [#####################                                                   ]            5M / 16M 30% [#####################                                                   ]            5M / 16M 30% [######################                                                  ]            5M / 16M 30% [######################                                                  ]            5M / 16M 30% [######################                                                  ]            5M / 16M 30% [######################                                                  ]            5M / 16M 30% [######################                                                  ]            5M / 16M

 40% [############################                                            ]            6M / 16M 40% [############################                                            ]            6M / 16M 40% [#############################                                           ]            6M / 16M 40% [#############################                                           ]            6M / 16M 40% [#############################                                           ]            6M / 16M 40% [#############################                                           ]            6M / 16M 40% [#############################                                           ]            6M / 16M 40% [#############################                                           ]            6M / 16M 40% [#############################                                           ]            6M / 16M 40% [#############################                                           ]            6M / 16M

 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M 46% [#################################                                       ]            7M / 16M

 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M 52% [#####################################                                   ]            8M / 16M

 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M 57% [#########################################                               ]            9M / 16M

 61% [############################################                            ]           10M / 16M 61% [############################################                            ]           10M / 16M 61% [############################################                            ]           10M / 16M 61% [############################################                            ]           10M / 16M 61% [############################################                            ]           10M / 16M 61% [############################################                            ]           10M / 16M 61% [############################################                            ]           10M / 16M 61% [############################################                            ]           10M / 16M 62% [############################################                            ]           10M / 16M 62% [############################################                            ]           10M / 16M

 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M 69% [##################################################                      ]           11M / 16M

 74% [#####################################################                   ]           12M / 16M 74% [#####################################################                   ]           12M / 16M 74% [#####################################################                   ]           12M / 16M 74% [#####################################################                   ]           12M / 16M 74% [#####################################################                   ]           12M / 16M 74% [#####################################################                   ]           12M / 16M 74% [#####################################################                   ]           12M / 16M 74% [#####################################################                   ]           12M / 16M 74% [#####################################################                   ]           12M / 16M 75% [######################################################                  ]           12M / 16M

100% [########################################################################]           16M / 16M

'regression_weights/data.h5'

### download the pretrained model

In [22]:
url1 = r"https://github.com/JinYSun/DeepAcceptor/releases/download/v1.0.0/bert_weightsMedium_80.h5"
url2 = r"https://github.com/JinYSun/DeepAcceptor/releases/download/v1.0.0/bert_weights_encoderMedium_80.h5"
wget.download(url1,"medium_weights/bert_weightsMedium_80.h5")
wget.download(url2,"medium_weights/bert_weights_encoderMedium_80.h5")

  0% [                                                                        ]            0B / 16M  0% [                                                                        ]            8K / 16M  0% [                                                                        ]           16K / 16M  0% [                                                                        ]           24K / 16M  0% [                                                                        ]           32K / 16M  0% [                                                                        ]           40K / 16M  0% [                                                                        ]           48K / 16M  0% [                                                                        ]           56K / 16M  0% [                                                                        ]           64K / 16M  0% [                                                                        ]           72K / 16M

100% [########################################################################]           16M / 16M

'medium_weights/bert_weights_encoderMedium_80.h5'

## Note: Retraining the model is highly recommended to ensure the accuracy of the model!

### 2. Dataset preparation

The atom, bond, connection information were calculated by using rdkit.The training,test and validation dataset are preprocess by runing the utils.py

The preprocess of test dataset is shown as follows.

In [1]:
import utils

import os
from collections import OrderedDict

import numpy as np
from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem import rdchem

from compound_constants import DAY_LIGHT_FG_SMARTS_LIST


from utils import mol_to_geognn_graph_data_MMFF3d

In [2]:
    import pandas as pd 
    from tqdm import tqdm
    f = pd.read_csv (r"data/reg/test.csv")
    re = []
    pce = f['PCE']
    for ind, smile in enumerate (tqdm ( f['SMILES'])):
        
        atom,adj = mol_to_geognn_graph_data_MMFF3d(smile)
        print(ind)
        np.save('data/reg/test/adj'+str(ind)+'.npy',np.array(adj))
        re.append([atom,'data/reg/test/adj'+str(ind)+'.npy',pce[ind] ])
    r = pd.DataFrame(re)
    r.to_csv('data/reg/test/test.csv')
    print('Done!')
    

  0%|▍                                                                                 | 1/206 [00:08<28:03,  8.21s/it]

0


  1%|▊                                                                                 | 2/206 [00:09<14:08,  4.16s/it]

1


  1%|█▏                                                                                | 3/206 [00:13<13:25,  3.97s/it]

2


  2%|█▌                                                                                | 4/206 [00:27<27:01,  8.03s/it]

3


  2%|█▉                                                                                | 5/206 [00:36<28:21,  8.46s/it]

4


  3%|██▍                                                                               | 6/206 [00:40<22:20,  6.70s/it]

5


  3%|██▋                                                                             | 7/206 [01:52<1:33:07, 28.08s/it]

6


  4%|███                                                                             | 8/206 [02:01<1:13:05, 22.15s/it]

7


  4%|███▌                                                                              | 9/206 [02:05<54:24, 16.57s/it]

8


  5%|███▉                                                                             | 10/206 [02:09<41:19, 12.65s/it]

9


  5%|████▎                                                                            | 11/206 [02:21<39:44, 12.23s/it]

10


  6%|████▋                                                                            | 12/206 [02:30<37:13, 11.51s/it]

11


[09:01:54] UFFTYPER: Unrecognized atom type: Se2+2 (102)
  6%|█████                                                                            | 13/206 [02:34<29:41,  9.23s/it]

12


  7%|█████▌                                                                           | 14/206 [02:37<23:25,  7.32s/it]

13
14


  8%|██████▎                                                                          | 16/206 [02:44<17:28,  5.52s/it]

15


  8%|██████▋                                                                          | 17/206 [02:50<17:24,  5.52s/it]

16


  9%|███████                                                                          | 18/206 [02:55<17:08,  5.47s/it]

17


  9%|███████▍                                                                         | 19/206 [02:59<15:26,  4.95s/it]

18


 10%|███████▊                                                                         | 20/206 [03:00<11:38,  3.75s/it]

19


 10%|████████▎                                                                        | 21/206 [03:05<13:01,  4.22s/it]

20


 11%|████████▋                                                                        | 22/206 [03:13<16:21,  5.33s/it]

21


 11%|█████████                                                                        | 23/206 [03:18<15:37,  5.13s/it]

22


 12%|█████████▍                                                                       | 24/206 [03:24<16:29,  5.43s/it]

23


 12%|█████████▊                                                                       | 25/206 [03:31<17:55,  5.94s/it]

24


 13%|██████████▏                                                                      | 26/206 [03:40<20:06,  6.70s/it]

25


 13%|██████████▌                                                                      | 27/206 [03:43<17:30,  5.87s/it]

26


 14%|███████████                                                                      | 28/206 [03:48<15:53,  5.36s/it]

27


 14%|███████████▍                                                                     | 29/206 [04:05<26:51,  9.10s/it]

28


 15%|███████████▊                                                                     | 30/206 [04:16<27:34,  9.40s/it]

29


 15%|████████████▏                                                                    | 31/206 [04:38<38:34, 13.23s/it]

30


 16%|████████████▌                                                                    | 32/206 [04:42<30:52, 10.65s/it]

31


 16%|████████████▉                                                                    | 33/206 [04:46<24:47,  8.60s/it]

32


 17%|█████████████▎                                                                   | 34/206 [04:56<25:27,  8.88s/it]

33


 17%|█████████████▊                                                                   | 35/206 [05:00<21:33,  7.56s/it]

34


 17%|██████████████▏                                                                  | 36/206 [05:06<20:15,  7.15s/it]

35


 18%|██████████████▌                                                                  | 37/206 [05:14<20:19,  7.21s/it]

36


 18%|██████████████▉                                                                  | 38/206 [05:17<17:11,  6.14s/it]

37


 19%|███████████████▎                                                                 | 39/206 [05:26<18:59,  6.82s/it]

38


 19%|███████████████▋                                                                 | 40/206 [05:31<17:42,  6.40s/it]

39


 20%|████████████████                                                                 | 41/206 [05:34<14:13,  5.17s/it]

40


 20%|████████████████▌                                                                | 42/206 [05:39<14:30,  5.31s/it]

41


 21%|████████████████▉                                                                | 43/206 [05:46<15:47,  5.81s/it]

42


 21%|█████████████████▎                                                               | 44/206 [05:50<14:19,  5.30s/it]

43
44


 22%|██████████████████                                                               | 46/206 [06:01<13:46,  5.16s/it]

45


 23%|██████████████████                                                             | 47/206 [07:39<1:28:03, 33.23s/it]

46


 23%|██████████████████▍                                                            | 48/206 [07:47<1:07:05, 25.48s/it]

47


 24%|███████████████████▎                                                             | 49/206 [07:51<49:55, 19.08s/it]

48


 24%|███████████████████▋                                                             | 50/206 [07:58<40:42, 15.66s/it]

49


 25%|████████████████████                                                             | 51/206 [08:05<33:06, 12.82s/it]

50


 25%|████████████████████▍                                                            | 52/206 [08:12<28:47, 11.21s/it]

51


 26%|████████████████████▊                                                            | 53/206 [08:16<22:54,  8.98s/it]

52


 26%|█████████████████████▏                                                           | 54/206 [08:22<20:13,  7.98s/it]

53


 27%|█████████████████████▋                                                           | 55/206 [08:36<24:42,  9.82s/it]

54


 27%|██████████████████████                                                           | 56/206 [08:40<20:45,  8.30s/it]

55


 28%|██████████████████████▍                                                          | 57/206 [08:42<15:19,  6.17s/it]

56


 28%|██████████████████████▊                                                          | 58/206 [08:48<15:05,  6.11s/it]

57


 29%|███████████████████████▏                                                         | 59/206 [08:52<13:38,  5.56s/it]

58


 29%|███████████████████████▌                                                         | 60/206 [09:04<18:28,  7.59s/it]

59


 30%|███████████████████████▉                                                         | 61/206 [09:11<17:37,  7.29s/it]

60


 30%|████████████████████████▍                                                        | 62/206 [09:15<15:28,  6.45s/it]

61


 31%|████████████████████████▊                                                        | 63/206 [09:24<17:07,  7.19s/it]

62


 31%|█████████████████████████▏                                                       | 64/206 [09:37<20:45,  8.77s/it]

63


 32%|█████████████████████████▌                                                       | 65/206 [09:42<18:01,  7.67s/it]

64


 32%|█████████████████████████▉                                                       | 66/206 [09:51<18:56,  8.11s/it]

65


 33%|██████████████████████████▎                                                      | 67/206 [09:59<18:35,  8.03s/it]

66


 33%|██████████████████████████▋                                                      | 68/206 [10:03<15:48,  6.87s/it]

67


 33%|███████████████████████████▏                                                     | 69/206 [10:10<15:39,  6.86s/it]

68


 34%|███████████████████████████▌                                                     | 70/206 [10:13<13:23,  5.91s/it]

69


 34%|███████████████████████████▉                                                     | 71/206 [10:22<15:18,  6.80s/it]

70


 35%|████████████████████████████▎                                                    | 72/206 [10:27<13:48,  6.18s/it]

71


 35%|████████████████████████████▋                                                    | 73/206 [10:28<10:20,  4.67s/it]

72


 36%|█████████████████████████████                                                    | 74/206 [10:33<10:14,  4.65s/it]

73


 36%|█████████████████████████████▍                                                   | 75/206 [10:36<09:25,  4.32s/it]

74


 37%|█████████████████████████████▉                                                   | 76/206 [10:51<15:49,  7.31s/it]

75


 37%|██████████████████████████████▎                                                  | 77/206 [10:53<12:32,  5.83s/it]

76


 38%|██████████████████████████████▋                                                  | 78/206 [10:55<09:57,  4.66s/it]

77


 38%|███████████████████████████████                                                  | 79/206 [11:01<10:26,  4.93s/it]

78


 39%|███████████████████████████████▍                                                 | 80/206 [11:35<28:47, 13.71s/it]

79


 39%|███████████████████████████████▊                                                 | 81/206 [11:39<22:46, 10.93s/it]

80


 40%|████████████████████████████████▏                                                | 82/206 [12:01<29:06, 14.09s/it]

81


 40%|████████████████████████████████▋                                                | 83/206 [12:04<22:12, 10.83s/it]

82


 41%|█████████████████████████████████                                                | 84/206 [12:05<16:07,  7.93s/it]

83


 41%|█████████████████████████████████▍                                               | 85/206 [12:11<15:01,  7.45s/it]

84


 42%|█████████████████████████████████▊                                               | 86/206 [12:21<16:16,  8.14s/it]

85


 42%|██████████████████████████████████▏                                              | 87/206 [12:25<13:47,  6.95s/it]

86


 43%|██████████████████████████████████▌                                              | 88/206 [12:49<23:34, 11.99s/it]

87


 43%|██████████████████████████████████▉                                              | 89/206 [12:52<18:21,  9.42s/it]

88


 44%|███████████████████████████████████▍                                             | 90/206 [12:55<14:02,  7.27s/it]

89


 44%|███████████████████████████████████▊                                             | 91/206 [12:57<11:14,  5.87s/it]

90


 45%|████████████████████████████████████▏                                            | 92/206 [13:02<10:14,  5.39s/it]

91


 45%|████████████████████████████████████▌                                            | 93/206 [13:06<09:48,  5.21s/it]

92


 46%|████████████████████████████████████▉                                            | 94/206 [13:17<12:57,  6.94s/it]

93


 46%|█████████████████████████████████████▎                                           | 95/206 [13:22<11:28,  6.20s/it]

94


 47%|█████████████████████████████████████▋                                           | 96/206 [13:27<11:03,  6.03s/it]

95


 47%|██████████████████████████████████████▏                                          | 97/206 [13:33<10:38,  5.86s/it]

96


 48%|██████████████████████████████████████▌                                          | 98/206 [13:47<14:54,  8.28s/it]

97


 48%|██████████████████████████████████████▉                                          | 99/206 [13:51<12:46,  7.17s/it]

98


 49%|██████████████████████████████████████▊                                         | 100/206 [14:02<14:27,  8.19s/it]

99


 49%|███████████████████████████████████████▏                                        | 101/206 [14:14<16:21,  9.35s/it]

100


 50%|███████████████████████████████████████▌                                        | 102/206 [14:18<13:33,  7.82s/it]

101


 50%|████████████████████████████████████████                                        | 103/206 [14:22<11:10,  6.51s/it]

102


 50%|████████████████████████████████████████▍                                       | 104/206 [14:26<09:50,  5.79s/it]

103


 51%|████████████████████████████████████████▊                                       | 105/206 [14:31<09:41,  5.75s/it]

104


 51%|█████████████████████████████████████                                   | 106/206 [8:14:38<240:09:43, 8645.84s/it]

105


 52%|█████████████████████████████████████▍                                  | 107/206 [8:14:54<166:33:57, 6056.95s/it]

106


 52%|█████████████████████████████████████▋                                  | 108/206 [8:14:59<115:27:29, 4241.32s/it]

107


 53%|██████████████████████████████████████▋                                  | 109/206 [8:15:21<80:10:46, 2975.74s/it]

108


 53%|██████████████████████████████████████▉                                  | 110/206 [8:15:32<55:37:58, 2086.23s/it]

109


 54%|███████████████████████████████████████▎                                 | 111/206 [8:15:47<38:39:14, 1464.78s/it]

110


 54%|███████████████████████████████████████▋                                 | 112/206 [8:16:03<26:54:12, 1030.35s/it]

111


 55%|████████████████████████████████████████▌                                 | 113/206 [8:16:16<18:44:00, 725.16s/it]

112


 55%|████████████████████████████████████████▉                                 | 114/206 [8:16:30<13:04:30, 511.63s/it]

113


 56%|█████████████████████████████████████████▊                                 | 115/206 [8:16:33<9:04:37, 359.09s/it]

114


 56%|██████████████████████████████████████████▏                                | 116/206 [8:16:35<6:18:01, 252.01s/it]

115


 57%|██████████████████████████████████████████▌                                | 117/206 [8:16:41<4:24:18, 178.19s/it]

116


 57%|██████████████████████████████████████████▉                                | 118/206 [8:16:51<3:07:28, 127.83s/it]

117


 58%|███████████████████████████████████████████▉                                | 119/206 [8:16:56<2:11:40, 90.81s/it]

118


[17:16:20] UFFTYPER: Unrecognized atom type: Se2+2 (25)
[17:16:20] UFFTYPER: Unrecognized atom type: Se2+2 (72)
 58%|████████████████████████████████████████████▎                               | 120/206 [8:17:00<1:32:45, 64.72s/it]

119


 59%|████████████████████████████████████████████▋                               | 121/206 [8:17:05<1:06:14, 46.76s/it]

120


 59%|██████████████████████████████████████████████▏                               | 122/206 [8:17:12<48:44, 34.82s/it]

121


 60%|██████████████████████████████████████████████▌                               | 123/206 [8:17:18<36:32, 26.42s/it]

122


 60%|██████████████████████████████████████████████▉                               | 124/206 [8:17:23<27:12, 19.91s/it]

123


 61%|███████████████████████████████████████████████▎                              | 125/206 [8:17:27<20:21, 15.08s/it]

124


 61%|███████████████████████████████████████████████▋                              | 126/206 [8:17:38<18:28, 13.86s/it]

125


 62%|████████████████████████████████████████████████                              | 127/206 [8:17:42<14:12, 10.79s/it]

126


 62%|████████████████████████████████████████████████▍                             | 128/206 [8:17:46<11:25,  8.79s/it]

127


 63%|████████████████████████████████████████████████▊                             | 129/206 [8:17:55<11:19,  8.82s/it]

128


 63%|█████████████████████████████████████████████████▏                            | 130/206 [8:18:00<09:46,  7.72s/it]

129


 64%|█████████████████████████████████████████████████▌                            | 131/206 [8:18:11<11:06,  8.89s/it]

130


 64%|█████████████████████████████████████████████████▉                            | 132/206 [8:18:24<12:26, 10.08s/it]

131


 65%|██████████████████████████████████████████████████▎                           | 133/206 [8:18:27<09:38,  7.92s/it]

132


 65%|██████████████████████████████████████████████████▋                           | 134/206 [8:18:35<09:39,  8.04s/it]

133


 66%|███████████████████████████████████████████████████                           | 135/206 [8:18:47<10:38,  8.99s/it]

134


 66%|███████████████████████████████████████████████████▍                          | 136/206 [8:18:55<10:14,  8.78s/it]

135


 67%|███████████████████████████████████████████████████▊                          | 137/206 [8:18:58<08:18,  7.23s/it]

136


 67%|████████████████████████████████████████████████████▎                         | 138/206 [8:19:04<07:35,  6.70s/it]

137


 67%|████████████████████████████████████████████████████▋                         | 139/206 [8:19:12<07:58,  7.15s/it]

138


 68%|█████████████████████████████████████████████████████                         | 140/206 [8:19:16<06:37,  6.02s/it]

139


 68%|█████████████████████████████████████████████████████▍                        | 141/206 [8:19:23<06:54,  6.38s/it]

140


 69%|█████████████████████████████████████████████████████▊                        | 142/206 [8:19:32<07:38,  7.16s/it]

141


 69%|██████████████████████████████████████████████████████▏                       | 143/206 [8:19:37<06:46,  6.45s/it]

142


 70%|██████████████████████████████████████████████████████▌                       | 144/206 [8:19:41<06:10,  5.98s/it]

143


 70%|██████████████████████████████████████████████████████▉                       | 145/206 [8:19:46<05:33,  5.47s/it]

144


 71%|███████████████████████████████████████████████████████▎                      | 146/206 [8:19:51<05:19,  5.33s/it]

145


 71%|███████████████████████████████████████████████████████▋                      | 147/206 [8:19:58<05:53,  5.99s/it]

146


 72%|████████████████████████████████████████████████████████                      | 148/206 [8:20:08<06:58,  7.22s/it]

147


 72%|████████████████████████████████████████████████████████▍                     | 149/206 [8:20:15<06:45,  7.12s/it]

148


[17:19:39] UFFTYPER: Unrecognized atom type: Se2+2 (53)
[17:19:39] UFFTYPER: Unrecognized atom type: Se2+2 (85)
 73%|████████████████████████████████████████████████████████▊                     | 150/206 [8:20:19<05:48,  6.23s/it]

149


 73%|█████████████████████████████████████████████████████████▏                    | 151/206 [8:20:24<05:12,  5.68s/it]

150


 74%|█████████████████████████████████████████████████████████▌                    | 152/206 [8:20:28<04:43,  5.25s/it]

151


 74%|█████████████████████████████████████████████████████████▉                    | 153/206 [8:20:37<05:45,  6.52s/it]

152


 75%|██████████████████████████████████████████████████████████▎                   | 154/206 [8:20:46<06:08,  7.08s/it]

153


 75%|██████████████████████████████████████████████████████████▋                   | 155/206 [8:21:00<07:46,  9.15s/it]

154


 76%|███████████████████████████████████████████████████████████                   | 156/206 [8:21:08<07:15,  8.71s/it]

155


 76%|███████████████████████████████████████████████████████████▍                  | 157/206 [8:21:14<06:26,  7.89s/it]

156


 77%|███████████████████████████████████████████████████████████▊                  | 158/206 [8:22:52<28:06, 35.14s/it]

157


 77%|████████████████████████████████████████████████████████████▏                 | 159/206 [8:22:57<20:17, 25.90s/it]

158


 78%|████████████████████████████████████████████████████████████▌                 | 160/206 [8:23:02<15:03, 19.64s/it]

159


 78%|████████████████████████████████████████████████████████████▉                 | 161/206 [8:23:07<11:24, 15.22s/it]

160


 79%|█████████████████████████████████████████████████████████████▎                | 162/206 [8:23:19<10:33, 14.40s/it]

161


 79%|█████████████████████████████████████████████████████████████▋                | 163/206 [8:23:26<08:47, 12.27s/it]

162


 80%|██████████████████████████████████████████████████████████████                | 164/206 [8:23:36<07:58, 11.40s/it]

163


 80%|██████████████████████████████████████████████████████████████▍               | 165/206 [8:23:44<07:14, 10.59s/it]

164


 81%|██████████████████████████████████████████████████████████████▊               | 166/206 [8:23:50<05:59,  8.98s/it]

165


 81%|███████████████████████████████████████████████████████████████▏              | 167/206 [8:24:19<09:49, 15.12s/it]

166


 82%|███████████████████████████████████████████████████████████████▌              | 168/206 [8:24:23<07:24, 11.69s/it]

167


 82%|███████████████████████████████████████████████████████████████▉              | 169/206 [8:24:33<06:59, 11.33s/it]

168


 83%|████████████████████████████████████████████████████████████████▎             | 170/206 [8:24:38<05:33,  9.27s/it]

169


 83%|████████████████████████████████████████████████████████████████▋             | 171/206 [8:25:36<13:56, 23.91s/it]

170


 83%|█████████████████████████████████████████████████████████████████▏            | 172/206 [8:25:37<09:39, 17.04s/it]

171


 84%|█████████████████████████████████████████████████████████████████▌            | 173/206 [8:25:53<09:17, 16.89s/it]

172


 84%|█████████████████████████████████████████████████████████████████▉            | 174/206 [8:26:17<10:05, 18.94s/it]

173


 85%|██████████████████████████████████████████████████████████████████▎           | 175/206 [8:26:24<07:58, 15.42s/it]

174


 85%|██████████████████████████████████████████████████████████████████▋           | 176/206 [8:26:28<05:59, 11.99s/it]

175


 86%|███████████████████████████████████████████████████████████████████           | 177/206 [8:26:40<05:45, 11.92s/it]

176


 86%|███████████████████████████████████████████████████████████████████▍          | 178/206 [8:27:11<08:12, 17.59s/it]

177


 87%|███████████████████████████████████████████████████████████████████▊          | 179/206 [8:27:18<06:34, 14.63s/it]

178


 87%|████████████████████████████████████████████████████████████████████▏         | 180/206 [8:27:20<04:41, 10.82s/it]

179


 88%|████████████████████████████████████████████████████████████████████▌         | 181/206 [8:27:24<03:37,  8.69s/it]

180


 88%|████████████████████████████████████████████████████████████████████▉         | 182/206 [8:27:29<02:58,  7.45s/it]

181
182


 89%|█████████████████████████████████████████████████████████████████████▋        | 184/206 [8:27:36<02:06,  5.76s/it]

183


 90%|██████████████████████████████████████████████████████████████████████        | 185/206 [8:27:44<02:13,  6.38s/it]

184


 90%|██████████████████████████████████████████████████████████████████████▍       | 186/206 [8:27:52<02:16,  6.84s/it]

185


 91%|██████████████████████████████████████████████████████████████████████▊       | 187/206 [8:27:57<01:59,  6.32s/it]

186


 91%|███████████████████████████████████████████████████████████████████████▏      | 188/206 [8:28:04<01:59,  6.65s/it]

187


 92%|███████████████████████████████████████████████████████████████████████▌      | 189/206 [8:28:13<02:04,  7.32s/it]

188


 92%|███████████████████████████████████████████████████████████████████████▉      | 190/206 [8:28:27<02:29,  9.33s/it]

189


 93%|████████████████████████████████████████████████████████████████████████▎     | 191/206 [8:28:31<01:56,  7.77s/it]

190


 93%|████████████████████████████████████████████████████████████████████████▋     | 192/206 [8:28:36<01:34,  6.76s/it]

191


 94%|█████████████████████████████████████████████████████████████████████████     | 193/206 [8:28:40<01:16,  5.87s/it]

192


 94%|█████████████████████████████████████████████████████████████████████████▍    | 194/206 [8:28:43<01:02,  5.20s/it]

193


 95%|█████████████████████████████████████████████████████████████████████████▊    | 195/206 [8:28:50<01:01,  5.61s/it]

194


 95%|██████████████████████████████████████████████████████████████████████████▏   | 196/206 [8:28:54<00:52,  5.26s/it]

195


 96%|██████████████████████████████████████████████████████████████████████████▌   | 197/206 [8:28:58<00:42,  4.71s/it]

196


 96%|██████████████████████████████████████████████████████████████████████████▉   | 198/206 [8:29:03<00:38,  4.78s/it]

197


 97%|███████████████████████████████████████████████████████████████████████████▎  | 199/206 [8:29:08<00:34,  4.93s/it]

198


 97%|███████████████████████████████████████████████████████████████████████████▋  | 200/206 [8:29:12<00:28,  4.70s/it]

199


 98%|████████████████████████████████████████████████████████████████████████████  | 201/206 [8:29:19<00:26,  5.26s/it]

200


 98%|████████████████████████████████████████████████████████████████████████████▍ | 202/206 [8:29:22<00:18,  4.60s/it]

201


 99%|████████████████████████████████████████████████████████████████████████████▊ | 203/206 [8:29:27<00:14,  4.69s/it]

202


 99%|█████████████████████████████████████████████████████████████████████████████▏| 204/206 [8:29:36<00:12,  6.10s/it]

203


100%|█████████████████████████████████████████████████████████████████████████████▌| 205/206 [8:29:46<00:07,  7.36s/it]

204


100%|█████████████████████████████████████████████████████████████████████████████| 206/206 [8:29:53<00:00, 148.51s/it]

205
Done!





### It is recommended to retrain and calculate on the supercomputing!

### 3. Predict

In [3]:
import predict
from predict import *


In [4]:
np.set_printoptions(threshold=sys.maxsize)
prediction_val= main()
print(prediction_val)

data
finish!  Results can be find in abcBERT/results.csv
[[ 6.32487   ]
 [ 5.78203   ]
 [ 9.830467  ]
 [12.525901  ]
 [ 7.6848307 ]
 [ 9.966345  ]
 [ 7.4933352 ]
 [ 9.838319  ]
 [10.137985  ]
 [ 6.458591  ]
 [11.027317  ]
 [ 9.139197  ]
 [10.781679  ]
 [ 5.3456764 ]
 [ 0.9508295 ]
 [ 3.0816107 ]
 [14.772552  ]
 [16.105417  ]
 [10.978567  ]
 [12.361264  ]
 [13.962849  ]
 [ 9.034893  ]
 [16.059265  ]
 [12.31415   ]
 [ 8.812487  ]
 [ 8.208516  ]
 [ 9.085342  ]
 [ 6.809249  ]
 [ 8.577834  ]
 [ 8.696746  ]
 [ 5.345743  ]
 [ 8.35626   ]
 [10.106018  ]
 [13.07176   ]
 [15.83292   ]
 [10.298649  ]
 [ 2.6678524 ]
 [ 8.74655   ]
 [ 8.880405  ]
 [ 7.25626   ]
 [ 1.4840568 ]
 [11.660007  ]
 [11.361352  ]
 [ 8.775978  ]
 [ 6.6474233 ]
 [11.529257  ]
 [ 7.156933  ]
 [ 8.635442  ]
 [ 9.638616  ]
 [11.512436  ]
 [ 9.79162   ]
 [ 8.898342  ]
 [ 3.4168417 ]
 [16.132832  ]
 [10.257622  ]
 [ 8.858661  ]
 [ 5.9179754 ]
 [10.626143  ]
 [14.723402  ]
 [ 9.498344  ]
 [ 8.2845    ]
 [ 6.6272154 ]
 [10.867565  

In [7]:
import predictbysmiles

from predictbysmiles import *

In [9]:
prediction_val = main ('CCCCCCCCC1=CC=C(C2(C3=CC=C(CCCCCCCC)C=C3)C3=CC4=C(C=C3C3=C2C2=C(C=C(C5=CC=C(/C=C6/C(=O)C7=C(C=CC=C7)C6=C(C#N)C#N)C6=NSN=C56)S2)S3)C(C2=CC=C(CCCCCCCC)C=C2)(C2=CC=C(CCCCCCCC)C=C2)C2=C4SC3=C2SC(C2=CC=C(/C=C4\C(=O)C5=C(C=CC=C5)C4=C(C#N)C#N)C4=NSN=C24)=C3)C=C1')

[6.32487]


## Acknowledgement

Jinyu Sun 

E-mail: jinyusun@csu.edu.cn