Synthetic Medical Data Generation - Capgemini

This repo is for our Capgemini-sponsored practicum project, containing the codebase for generating synthetic medical and pharmacy claims data.

Report: https://docs.google.com/document/d/1Q1gPblzH8KUkVfYRrjhE1NDhKXckwzmv_UeXkuF2ECA/edit?usp=sharing

Slides: https://drive.google.com/file/d/1DVrvQJAh5VSqXUa65Zi_u_NtCrd1v6Wd/view?usp=sharing

Data Preprocessing

See codes in the Data_Processing folder.

Loading the data

Use load_data.ipynb to load data from parquet zip to csv files. This notebook should run for both medical claims data and pharmacy claims data.

Merging medical and pharmacy claims data

Use merge_med_pharm_data.ipynb to merge the medical claims data with pharmacy claims data. Because of memory restrictions, we are only taking one pharmacy claim per medical claim per Member Life ID, which could be easily changed in the SQL provided in this notebook.

Modeling

See codes in Modeling folder.

TabGen_Medical_Data.ipynb -> Code for generating synthetic medical claims data (transforming multiple rows into a unified context to handle time dependance) using GPT-2 finetuned model.

TabGen_Merged_Pharmacy_Medical_data.ipynb -> Code for generating synthetic medical and pharmacy claims data (transforming multiple rows into a unified context to handle time dependence) using GPT-2 finetuned model.

Evaluation

See codes in Evaluation folder.

Evaluation_Script.ipynb can be used to evaluate the data generated by any model and examine how well it represents the original dataset. It performs evaluation for both numerical and categorical variables and also perform PCA, t-SNE, and plots distribution plots

evaluation_script_transformed_data.ipynb -> Performs sanity checks, validation and evaluation on the output of Transformed dataframe designed to handle time dependance.

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
Data_Processing		Data_Processing
Evaluation		Evaluation
Modelling		Modelling
GReaT_colab_medical_data.ipynb		GReaT_colab_medical_data.ipynb
Great_Notebook.ipynb		Great_Notebook.ipynb
Medical_Eval.ipynb		Medical_Eval.ipynb
README.md		README.md
SDV_Notebook.ipynb		SDV_Notebook.ipynb
pharmacy_eda.ipynb		pharmacy_eda.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Synthetic Medical Data Generation - Capgemini

Data Preprocessing

Loading the data

Merging medical and pharmacy claims data

Modeling

Evaluation

About

Releases

Packages

Contributors 3

Languages

dipendra96/practicum_project

Folders and files

Latest commit

History

Repository files navigation

Synthetic Medical Data Generation - Capgemini

Data Preprocessing

Loading the data

Merging medical and pharmacy claims data

Modeling

Evaluation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages