bert-loves-chemistry

bert-loves-chemistry: a repository of HuggingFace models applied on chemical SMILES data for drug design, chemical modelling, etc.

Right now the notebooks are all for the RoBERTa model (a variant of BERT) trained on the task of masked-language modelling (MLM). Training was done over 5 epochs until loss converged to around 0.39. The model weights for training are available using HuggingFace. I hope this is of use to developers, students and researchers exploring the use of transformers and the attention mechanism for chemistry!

You can load the tokenizer + model for MLM prediction tasks using the following code:

from transformers import AutoModelWithLMHead, AutoTokenizer, pipeline

model = AutoModelWithLMHead.from_pretrained("seyonec/ChemBERTa-zinc-base-v1")
tokenizer = AutoTokenizer.from_pretrained("seyonec/ChemBERTa-zinc-base-v1")

fill_mask = pipeline('fill-mask', model=model, tokenizer=tokenizer)

Todo:

Finish writing notebook to train model
Finish notebook to preload and run predictions on a single molecule —> test if HuggingFace works
Train RoBERTa model until convergence
Upload weights onto HuggingFace
Create tutorial using evaluation + fine-tuning notebook.
Create documentation + writing, visualizations for notebook.
Setup PR into DeepChem

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
22_Transfer_Learning_With_HuggingFace_tox21.ipynb		22_Transfer_Learning_With_HuggingFace_tox21.ipynb
DeepChemDev.ipynb		DeepChemDev.ipynb
HuggingFace_DeepChem_final_tutorial.ipynb		HuggingFace_DeepChem_final_tutorial.ipynb
HuggingFace_RoBERTa_pretrained.ipynb		HuggingFace_RoBERTa_pretrained.ipynb
HuggingFace_ZINC_ROBERTA.ipynb		HuggingFace_ZINC_ROBERTA.ipynb
README.md		README.md
huggingface_roberta_upload.ipynb		huggingface_roberta_upload.ipynb
tox21_balanced.csv		tox21_balanced.csv
tox21_balanced_revised.csv		tox21_balanced_revised.csv
tox21_balanced_revised_no_id.csv		tox21_balanced_revised_no_id.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

22_Transfer_Learning_With_HuggingFace_tox21.ipynb

22_Transfer_Learning_With_HuggingFace_tox21.ipynb

DeepChemDev.ipynb

DeepChemDev.ipynb

HuggingFace_DeepChem_final_tutorial.ipynb

HuggingFace_DeepChem_final_tutorial.ipynb

HuggingFace_RoBERTa_pretrained.ipynb

HuggingFace_RoBERTa_pretrained.ipynb

HuggingFace_ZINC_ROBERTA.ipynb

HuggingFace_ZINC_ROBERTA.ipynb

README.md

README.md

huggingface_roberta_upload.ipynb

huggingface_roberta_upload.ipynb

tox21_balanced.csv

tox21_balanced.csv

tox21_balanced_revised.csv

tox21_balanced_revised.csv

tox21_balanced_revised_no_id.csv

tox21_balanced_revised_no_id.csv

Repository files navigation

bert-loves-chemistry

About

Releases

Packages

Languages

ecvgit/bert-loves-chemistry

Folders and files

Latest commit

History

Repository files navigation

bert-loves-chemistry

About

Resources

Stars

Watchers

Forks

Languages