## Title

[Diffusion-based Molecule Generation with Informative Prior Bridges](https://doi.org/10.48550/arXiv.2209.00865)

## Authors and Year

Lemeng Wu, Chengyue Gong, Xingchao Liu, Mao Ye, Qiang Liu (2022)

## Abstract

AI-based molecule generation provides a promising approach to a large area of biomedical sciences and engineering, such as antibody design, hydrolase engineering, or vaccine development. Because the molecules are governed by physical laws, a key challenge is to incorporate prior information into the training procedure to generate high-quality and realistic molecules. We propose a simple and novel approach to steer the training of diffusion-based generative models with physical and statistics prior information. This is achieved by constructing physically informed diffusion bridges, stochastic processes that guarantee to yield a given observation at the fixed terminal time. We develop a Lyapunov function based method to construct and determine bridges, and propose a number of proposals of informative prior bridges for both high-quality molecule generation and uniformity-promoted 3D point cloud generation. With comprehensive experiments, we show that our method provides a powerful approach to the 3D generation task, yielding molecule structures with better quality and stability scores and more uniformly distributed point clouds of high qualities.

## Motivation

제목에 어그로가 끌려 선택해버리고 말았습니다. 가장 핫한 generative model인 diffusion model과 molecule generation의 만남이라… 너무 어려워서 거의 뇌피셜 발표가 될것 같네요 미리 죄송합니다.

<p align="center">
   <img src="Images/Diffusion-based_Molecule_Generation/sorry.png" alt="drawing" width="400"/>


## Introduction

### 기본 컨셉

- Diffusion noise로 데이터 corruption → denoising 과정을 학습 → noise로부터 의미 있는 data를 만들어내도록 학습
- Model architecture에 inductive bias를 주는 것이 성능 향상에 도움이 될 수 있다.
    - Ex. SE(3) equivariance; reflect physical constraints

### Our works

- Prior guided learning of diffusion models
    - 모델 학습 과정에 problem-dependent prior and physical information 반영.
    - **Diffusion bridges**; general **Lyapunov approach**
- Physics-informed molecule generation
    - Number of **energy functions**
- ~~Uniformity-promoting point generation~~

본 논문에서는 2가지 task를 수행하였으나, 전 molecule generation에 집중하였습니다.

## Related works

### Diffusion Bridge Process

- [Schrodinger bridges](https://doi.org/10.48550/arXiv.2303.16852) : 찾아보기로는 **임의의 두 분포 간의 transport map**을 근사하여 구하는 방법론인 것 같습니다…? **두 분포 사이의 ‘bridge’**를 놓음으로서 transport map을 만들어준다는 표현이 눈에 띄었습니다.
    
    <p align="center">
       <img src="Images/Diffusion-based_Molecule_Generation/schrodinger.png" alt="drawing" width="800"/>
    
- 본 논문에서는 [non-denoising forward-time diffusions](https://openreview.net/forum?id=oVfIKuhqfC) 의 방법론을 채택하였습니다. Score-based model이긴 한데, 논문에서 주장하기로는 diffusion bridges의 mixture로 target data distribution을 근사하였으며 2021년 [Song 논문](https://doi.org/10.48550/arXiv.2011.13456)의 time-reversal technique 없이도 더 좋은 성능을 냈다고 하네요…? 흠터레스팅 합니다.
    
    <p align="center">
       <img src="Images/Diffusion-based_Molecule_Generation/rejected.png" alt="drawing" width="300"/>
    

### 3D Molecule Generation

- Conditional conformal generation : 2D SMILES → 3D molecule conformations
- Unconditional conformal generation : 바로 atom position과 type 생성.
- 어떤 방법을 선택하든 중요한 것은 architecture와 loss design.
- 본 논문에서는 neural network architecture가 아니라 diffusion process에 prior information을 도입했다 합니다. 논문 제목에 있는 **informative prior bridge**가 요걸 말한게 아닐까 싶네요**.**

## Method

<p align="center">
   <img src="Images/Diffusion-based_Molecule_Generation/dontknow.png" alt="drawing" width="400"/>

## Molecule and 3D Generation with Informative Prior Bridges

<p align="center">
   <img src="Images/Diffusion-based_Molecule_Generation/molecule_generation.png" alt="drawing" width="600"/>

- Data point x = collection of atoms of different type in 3D Euclidean space.
    - 하나의 분자에 대해 원자가 m개 있다 할 때, x는 m개의 각 원자의 3차원 좌표(atom coordinate)와 그 원자의 type에 대한 정보를 갖고 있음.

### Prior Bridges for Molecule Generation

- Two potential energies
- AMBER Inspired Physical Energy; Force(6)
    - AMBER : a family of force fields for molecule simulations → molecular dynamics나 free energy calculation에 사용됨. Bond energy, angular energy, torsional energy, van der Waals energy, Coulomb energy 등 포함.
    - 본 논문에서는 총 4가지 energy calculation 사용.
        
        <p align="center">
           <img src="Images/Diffusion-based_Molecule_Generation/energy_1.png" alt="drawing" width="800"/>
        
- Statistical Energy; Force(7)
    - 정확하게 물리법칙을 적용하기 어려울 때 사용.
        
        <p align="center">
           <img src="Images/Diffusion-based_Molecule_Generation/energy_2.png" alt="drawing" width="800"/>
        

## Experiment

### Force Guided Molecule Generation

<p align="center">
   <img src="Images/Diffusion-based_Molecule_Generation/results.png" alt="drawing" width="600"/>

- Dataset
    - [QM9](https://doi.org/10.1038/sdata.2014.22)
    - [GEOM-DRUG](https://doi.org/10.1038/s41597-022-01288-4)
- Metrics
    - Atom stability : 올바른 valency를 갖는 atom들의 비율
    - Molecular stability : 모든 원자가 stable한 분자들의 비율
    - Novelty : Training set에 없는 생성물들의 비율 (MOSES)
    - Fraction of valid and unique molecules : SMILES string의 validity & uniqueness (MOSES)
- Results
    - 기존 모델들 대비 generation의 quality도 좋고 novelty도 높았다.
    - 기존 모델들 대비 time step이 짧았다.

## 총평

- 아직은 활용할 수 있을 정도의 수준은 아닌 것 같습니다. 논문의 conclusion에서도 torsional angle related energy는 고려하지 않았다 나와있는데, 상당히 중요한 feature가 빠진 것이라…
- Computation time이 길다는 것 역시 병목이 될 것 같습니다. 기존 batch size는 64였고, 속도 향상을 위해 batch size를 512나 1024로 키우면 성능 저하가 관찰되었다 합니다. 디퓨전 모델의 고질적인 문제가 아닌가…
- 최근 molecular dynamics를 고려한 분자 design이 심심찮게 보이는 것 같습니다. 트렌디한 task에 트렌디한 model이 만났으니 조만간 괜찮은 결과가 나오지 않을지… Follow up이 필요해 보입니다.