GitHub - snoop2head/EHRSQL: Competition Code for "Reliable Text-to-SQL on Electronic Health Records"

Description

We prioritize the privacy of patient information by exclusively using white-box models like flan-t5, avoiding potential data leakage associated with black-box models via APIs. To handle the computational constraints posed by lengthy SQL queries, we employed a T5 encoder-decoder architecture, allowing separate attention mechanisms for different parts of the input. We also exploit data efficiently by implementing an end-to-end architecture with a linear projection layer, enabling us to retain and utilize every part of the dataset, including traditionally discarded unanswerable questions. To optimize validation, we adopted a stratified KFold approach, ensuring no data split remains unused. Our monitoring strategy involves rigorous metric tracking during training, providing insights into model performance and areas needing adjustment. This approach helped us identify significant discrepancies in performance metrics and pinpoint areas for post-processing enhancement. Overall, our project demonstrates effective strategies for managing data privacy, optimizing dataset usage, and refining model performance through continuous evaluation.

Install

source /home/ubuntu/miniconda3/bin/activate base
conda create -n ehr python=3.11
conda activate ehr
pip install -r requirements.txt

Train

source /home/ubuntu/miniconda3/bin/activate base
conda activate ehr
python train.py config/flan-t5-base.yaml

Or

bash run.sh

Predict

python predict.py config/flan-t5-base.yaml

References

Pytorch Lightning Template by affjljoo3581/Inverse-DALL-E-for-Optical-Character-Recognition
Reliable Text-to-SQL on Electronic Health Records - Clinical NLP Workshop @ NAACL 2024

Name		Name	Last commit message	Last commit date
Latest commit History 49 Commits
RESULTS		RESULTS
config		config
data/mimic_iv		data/mimic_iv
preprocess		preprocess
scoring_program		scoring_program
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
dataset.py		dataset.py
ensemble.ipynb		ensemble.ipynb
kfold_run.sh		kfold_run.sh
lightning.py		lightning.py
predict.py		predict.py
requirements.txt		requirements.txt
split.py		split.py
train.py		train.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Description

Install

Train

Predict

References

About

Releases

Packages

Languages

License

snoop2head/EHRSQL

Folders and files

Latest commit

History

Repository files navigation

Description

Install

Train

Predict

References

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages