NeSyDPP4: Neuro-Symbolic AI for DPP-4 Inhibitor Discovery

A hybrid neuro-symbolic AI approach combining Logic Tensor Networks with domain knowledge for DPP-4 inhibitor prediction in diabetes drug discovery.

📋 Overview

This repository contains the complete implementation of our neuro-symbolic QSAR model for DPP-4 (Dipeptidyl Peptidase-4) inhibitor prediction. The system integrates:

Logic Tensor Networks (LTN) for neuro-symbolic reasoning
Domain knowledge rules via SMARTS pharmacophore patterns
3D molecular descriptors for geometric information
Heterogeneous ensemble combining NeSy + XGBoost models

Key Results

Model	ROC-AUC	Accuracy	Precision	Recall	F1-Score	MCC
NeSy+XGBoost (Final)	0.9959	96.95%	96.33%	96.98%	96.65%	0.9388
MolFormer (SOTA)	0.9956	95.96%	95.32%	95.84%	95.58%	0.9188
NeSy + 3D Only	0.9946	95.73%	94.52%	96.32%	95.41%	0.9142
XGBoost (Traditional)	0.9487	90.18%	88.62%	90.05%	89.33%	0.8030

🚀 Quick Start

Installation

# Clone repository
git clone https://github.com/yourusername/NeSyDPP4.git
cd NeSyDPP4

# Create conda environment
conda env create -f environment.yml
conda activate nesydpp4

# Or install manually
pip install tensorflow==2.10.1 ltn==1.0.0 scikit-learn pandas numpy rdkit xgboost matplotlib seaborn

Dataset

The DPP-4 dataset (data/dpp4-26-03-25-feat-with-3d.parquet) contains:

6,563 molecules (2,979 active, 3,584 inactive)
Train/Val/Test split: 72% / 8% / 20% (stratified)
Features:
- CDKextended descriptors (1,024-D)
- ECFP4 fingerprints (3,584-D)
- 3D geometric descriptors (10-D)
- SMARTS pharmacophore patterns (22-D)
- Total: 4,640 features

Run Experiments

1. Train XGBoost Baseline

python experiments/01_xgboost_baseline.py

2. Train NeSy Model with 3D Descriptors

python experiments/12_nesy_with_3d.py

3. Train Heterogeneous Ensemble (Final Model)

python experiments/15_heterogeneous_ensemble.py

4. Compare All Models

python experiments/compare_all_models.py

📊 Results

All experimental results are available in:

Figures: figures/main/ (PNG, PDF, CSV)
Metrics: results/ (detailed CSV files)
Data Dictionary: figures/main/DATA_DICTIONARY.md

Performance Visualization

Figure 2: Performance comparison across models
Figure 3: ROC curves for all models
Figure 4: Bootstrap confidence intervals (1,000 iterations)
Figure 5: Feature ablation study
Figure 6: Confusion matrix analysis

🧬 Domain Knowledge Rules

The system incorporates 22 SMARTS-based pharmacophore patterns representing:

Pharmacophore Rules (促进活性):

Amine, Cyano, Hydroxyl, Amide groups
Triazole, Piperazine, Fluorinated aromatic rings
β-amino acid mimics, Proline analogs

Toxicophore Rules (抑制活性):

Nitro groups, Thiophenol, Hydrazine
PAINS (Pan-Assay Interference Structures)

See docs/SMARTS_patterns.md for complete pattern definitions.

🏗️ Architecture

Neuro-Symbolic Model

# Logic Tensor Network with domain knowledge
class LTNModel:
    - Base MLP: [768, 512, 256] units
    - Predicates: IsActive, HasPharmacophore, HasToxicophore
    - Axioms:
      * ∀x: HasPharmacophore(x) → IsActive(x)
      * ∀x: HasToxicophore(x) → ¬IsActive(x)
      * ∀x: SimilarTo(x,active) → IsActive(x)

Heterogeneous Ensemble

# Optimal weights: 76.2% NeSy + 23.8% XGBoost
final_prediction = 0.762 * nesy_proba + 0.238 * xgb_proba

📁 Project Structure

NeSyDPP4/
├── data/                           # Dataset files
│   └── dpp4-26-03-25-feat-with-3d.parquet
├── experiments/                    # Experiment scripts
│   ├── 01_xgboost_baseline.py
│   ├── 12_nesy_with_3d.py
│   ├── 15_heterogeneous_ensemble.py
│   ├── 20_smarts_pharmacophore.py
│   └── compare_all_models.py
├── src/                            # Source code
│   └── evaluation/
│       └── statistical_tests.py
├── figures/                        # Result visualizations
│   └── main/
├── results/                        # Experimental results
├── docs/                           # Documentation
│   └── SMARTS_patterns.md
├── environment.yml                 # Conda environment
└── README.md

🔬 Reproducibility

Random Seed Control

All experiments use fixed random seeds:

SEED = 42
np.random.seed(SEED)
tf.random.set_seed(SEED)
random.seed(SEED)

Statistical Validation

Bootstrap resampling: 1,000 iterations
McNemar's test: χ² = 4.82, p = 0.028
Cohen's d: 0.31 vs MolFormer, 0.89 vs XGBoost

📈 Performance Analysis

Ablation Studies

Configuration	ROC-AUC	Δ ROC-AUC
Base (CDK+ECFP)	0.9879	baseline
+ 3D Descriptors	0.9903	+0.0024
+ SMARTS Rules	0.9926	+0.0023
+ NeSy Axioms	0.9946	+0.0020
+ XGBoost Ensemble	0.9959	+0.0013

Confusion Matrix (Test Set, N=1,313)

	Predicted Negative	Predicted Positive
Actual Negative	695 (TN)	22 (FP)
Actual Positive	18 (FN)	578 (TP)

Sensitivity: 96.98%
Specificity: 96.93%
False Positive Rate: 3.07%
False Negative Rate: 3.02%

💡 Key Innovations

Domain Knowledge Integration: SMARTS patterns encode medicinal chemistry expertise
3D Geometric Features: Asphericity, eccentricity, PMI ratios capture molecular shape
Neuro-Symbolic Reasoning: LTN axioms enforce logical consistency
Heterogeneous Ensemble: Combines symbolic (NeSy) and statistical (XGBoost) strengths

📝 Citation

If you use this code or dataset, please cite:

@article{nesydpp4_2026,
  title={NeSyDPP4: A Neuro-Symbolic AI Approach for DPP-4 Inhibitor Discovery in Diabetes Treatment},
  author={Your Name},
  journal={Journal Name},
  year={2026}
}

📄 License

This project is licensed under the MIT License - see LICENSE file for details.

🙏 Acknowledgments

Logic Tensor Networks (LTN): https://github.com/logictensornetworks/LTN
RDKit: Open-source cheminformatics toolkit
ChEMBL: Bioactivity database for DPP-4 data

📧 Contact

For questions or collaborations:

Email: your.email@example.com
Issues: GitHub Issues

🔗 Related Resources

Note: This is a research project for academic purposes. Models are not intended for clinical use without proper validation.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data		data
docs		docs
experiments		experiments
figures/main		figures/main
results		results
src		src
.gitignore		.gitignore
HOW_TO_GENERATE_TOKEN.md		HOW_TO_GENERATE_TOKEN.md
INDEX.md		INDEX.md
LICENSE		LICENSE
PROJECT_STRUCTURE.md		PROJECT_STRUCTURE.md
QUICKSTART.md		QUICKSTART.md
QUICK_COMMANDS.md		QUICK_COMMANDS.md
README.md		README.md
RELEASE_SUMMARY.md		RELEASE_SUMMARY.md
SIMPLE_3_STEPS.md		SIMPLE_3_STEPS.md
STEP_BY_STEP_GUIDE.md		STEP_BY_STEP_GUIDE.md
environment.yml		environment.yml
prepare_github.sh		prepare_github.sh
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

NeSyDPP4: Neuro-Symbolic AI for DPP-4 Inhibitor Discovery

📋 Overview

Key Results

🚀 Quick Start

Installation

Dataset

Run Experiments

1. Train XGBoost Baseline

2. Train NeSy Model with 3D Descriptors

3. Train Heterogeneous Ensemble (Final Model)

4. Compare All Models

📊 Results

Performance Visualization

🧬 Domain Knowledge Rules

🏗️ Architecture

Neuro-Symbolic Model

Heterogeneous Ensemble

📁 Project Structure

🔬 Reproducibility

Random Seed Control

Statistical Validation

📈 Performance Analysis

Ablation Studies

Confusion Matrix (Test Set, N=1,313)

💡 Key Innovations

📝 Citation

📄 License

🙏 Acknowledgments

📧 Contact

🔗 Related Resources

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages