project.yaml

version: '3.0'

expectations:
  population_size: 5000

actions:

  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 
  ## Data extraction 
  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 

  generate_study_population:
    run: cohortextractor:latest generate_cohort --study-definition study_definition --output-format=csv.gz
    outputs:
      highly_sensitive:
        cohort: output/input.csv.gz

  generate_study_population_flowchart:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_flowchart --output-format=csv.gz
    outputs:
      highly_sensitive:
        cohort: output/input_flowchart.csv.gz

  generate_study_population_pax_trt:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_pax_trt --output-format=csv.gz
    outputs:
      highly_sensitive:
        cohort: output/input_pax_trt.csv.gz

  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 
  ## Data cleaning and description
  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 

  data_process:
    run: r:latest analysis/data_process.R
    needs: [generate_study_population]
    outputs:
      highly_sensitive:
        data1: output/data/data_processed.rds
        data2: output/data/data_processed_grace6.rds
        data3: output/data/data_processed_grace7.rds
        data4: output/data/data_processed_grace8.rds
        data1_excl: output/data/data_processed_excl_contraindicated.rds
        data2_excl: output/data/data_processed_excl_contraindicated_grace6.rds
        data3_excl: output/data/data_processed_excl_contraindicated_grace7.rds
        data4_excl: output/data/data_processed_excl_contraindicated_grace8.rds
        rds1: output/data_properties/n_excluded.rds
        rds2: output/data_properties/n_excluded_contraindicated.rds

  data_process_flowchart:
    run: r:latest analysis/data_process_flowchart.R
    needs: [generate_study_population_flowchart]
    outputs:
      highly_sensitive:
        data: output/data/data_flowchart_processed.rds
  
  data_properties:
    run: r:latest analysis/data_properties/data_properties.R output/data/data_processed.rds output/data_properties
    needs: [data_process]
    outputs:
      moderately_sensitive:
        txt1: output/data_properties/data_processed_skim.txt
        txt2: output/data_properties/data_processed_coltypes.txt
        txt3: output/data_properties/data_processed_tabulate.txt

  create_flowchart:
    run: r:latest analysis/flowchart.R
    needs: [data_process_flowchart, data_process]
    outputs:
      moderately_sensitive:
        csv1: output/flowchart/flowchart.csv
        csv2: output/flowchart/flowchart_redacted.csv

  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 
  ## Descriptive analyses
  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # #

  describe_distr_trt_init:
    run: r:latest analysis/descriptives/describe_distr_trt_init.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/descriptives/distr_pax_init.csv
        csv2: output/descriptives/distr_pax_init_red.csv

  describe_outcomes_in_trt_window:
    run: r:latest analysis/descriptives/describe_outcomes_in_trt_window.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/descriptives/outcomes_in_trt_window.csv
        csv2: output/descriptives/outcomes_in_trt_window_red.csv
        csv3: output/descriptives/outcomes_day0.csv
  
  describe_prop_trt:
    run: r:latest analysis/descriptives/describe_prop_trt.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/descriptives/prop_trt.csv
        csv2: output/descriptives/prop_trt_red.csv

  describe_trt_contra:
    run: r:latest analysis/descriptives/describe_trt_contra.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/descriptives/trt_contra.csv
        csv2: output/descriptives/trt_contra_red.csv
        csvs1: output/descriptives/n_codes_*.csv

  describe_trt_preds_all_ci_pax:
    run: r:latest analysis/descriptives/describe_trt_preds.R all_ci Paxlovid
    needs: [data_process]
    outputs:
      highly_sensitive:
        model1: output/descriptives/psModel_Paxlovid_all_ci.rds     
      moderately_sensitive:
        csv1: output/descriptives/psDens_untrimmed_Paxlovid_all_ci.csv
        csv2: output/descriptives/psDens_trimmed_Paxlovid_all_ci.csv
        csv3: output/descriptives/psCoefs_Paxlovid_all_ci.csv
        csv4: output/descriptives/trimming_descriptives_Paxlovid_all_ci.csv

  describe_trt_preds_all_ci_sot:
    run: r:latest analysis/descriptives/describe_trt_preds.R all_ci Sotrovimab
    needs: [data_process]
    outputs:
      highly_sensitive:
        data1: output/descriptives/psModel_Sotrovimab_all_ci.rds     
      moderately_sensitive:
        csv1: output/descriptives/psDens_untrimmed_Sotrovimab_all_ci.csv
        csv2: output/descriptives/psDens_trimmed_Sotrovimab_all_ci.csv
        csv3: output/descriptives/psCoefs_Sotrovimab_all_ci.csv
        csv4: output/descriptives/trimming_descriptives_Sotrovimab_all_ci.csv    
        
  describe_trt_preds_all_ci_mol:
    run: r:latest analysis/descriptives/describe_trt_preds.R all_ci Molnupiravir
    needs: [data_process]
    outputs:
      highly_sensitive:
        data1: output/descriptives/psModel_Molnupiravir_all_ci.rds     
      moderately_sensitive:
        csv1: output/descriptives/psDens_untrimmed_Molnupiravir_all_ci.csv
        csv2: output/descriptives/psDens_trimmed_Molnupiravir_all_ci.csv
        csv3: output/descriptives/psCoefs_Molnupiravir_all_ci.csv
        csv4: output/descriptives/trimming_descriptives_Molnupiravir_all_ci.csv

  visualise_trt_preds_dens:
    run: r:latest analysis/descriptives/visualise_trt_preds_dens.R
    needs: [describe_trt_preds_all_ci_pax, describe_trt_preds_all_ci_sot, describe_trt_preds_all_ci_mol]
    outputs:   
      moderately_sensitive:
        png1: output/descriptives/psOverlap_untrimmed_*_all_ci.png
        png2: output/descriptives/psOverlap_trimmed_*_all_ci.png
 
  create_table1:
    run: r:latest analysis/descriptives/table1.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/tables/table1.csv
        csv2: output/tables/table1_red.csv
        csv3: output/tables/table1_red_unf.csv
        csv4: output/tables/table1_full.csv
        csv5: output/tables/table1_full_red.csv
        csv6: output/tables/table1_full_red_unf.csv
        csv7: output/tables/table1_trt_untrt.csv
        csv8: output/tables/table1_trt_untrt_red.csv
        csv9: output/tables/table1_trt_untrt_red_unf.csv
  
  create_table1_stratified_by_3months:
    run: r:latest analysis/descriptives/table1_subsets.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/tables/stratified_3months/table1.csv
        csv2: output/tables/stratified_3months/table1_red.csv
        csv3: output/tables/stratified_3months/table1_red_unf.csv
        csv4: output/tables/stratified_3months/table1_full.csv
        csv5: output/tables/stratified_3months/table1_full_red.csv
        csv6: output/tables/stratified_3months/table1_full_red_unf.csv
        csv7: output/tables/stratified_3months/table1_trt_untrt.csv
        csv8: output/tables/stratified_3months/table1_trt_untrt_red.csv
        csv9: output/tables/stratified_3months/table1_trt_untrt_red_unf.csv

  describe_trt_groups:
    run: r:latest analysis/descriptives/describe_trt_groups.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/descriptives/trt_groups.csv
        csv2: output/descriptives/trt_groups_red.csv

  describe_fup_outcomes:
    run: r:latest analysis/descriptives/describe_fup_outcomes.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/descriptives/overview_fup_outcomes.csv
        csv2: output/descriptives/overview_fup_outcomes_red.csv
  
  describe_postest_pop:
    run: r:latest analysis/descriptives/describe_postest_pop.R
    needs: [data_process]
    outputs:
      moderately_sensitive:
        csv1: output/descriptives/postest_pop.csv
        csv2: output/descriptives/postest_pop_red.csv
    
  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 
  ## Sequential trials - DATA PREP
  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # #
  data_select_and_simplify:
    run: r:latest analysis/seq_trials/select_and_simplify_data.R
    needs: [data_process]
    outputs:
      highly_sensitive:
        data1: output/data/data_processed_excl_contraindicated.feather

  data_prepare_seq_trials_month:
    run: r:latest analysis/seq_trials/prepare_data.R --period=month
    needs: [data_select_and_simplify]
    outputs:
      highly_sensitive:
        data1: output/data/data_seq_trials_monthly.feather

  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 
  ## Sequential trials - DESCRIPTIVES
  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # #

  describe_size_trials_month:
    run: r:latest analysis/seq_trials/descriptives/describe_size_trials.R --period=month
    needs: [data_prepare_seq_trials_month]
    outputs:
      moderately_sensitive:
        csv1: output/seq_trials/descriptives/data_flow_seq_trials_monthly.csv
        csv2: output/seq_trials/descriptives/data_flow_seq_trials_monthly_red.csv
  
  create_flow_diagram:
    run: r:latest analysis/seq_trials/descriptives/create_flow_diagram.R
    needs: [data_select_and_simplify, data_prepare_seq_trials_month]
    outputs:
      moderately_sensitive:
        csv1: output/seq_trials/descriptives/flow_diagram/flow_diagram_monthly.csv
        csv2: output/seq_trials/descriptives/flow_diagram/flow_diagram_monthly_red.csv
  
  estimate_crude_survival:
    run: r:latest analysis/seq_trials/descriptives/estimate_crude_survival.R
    needs: [data_select_and_simplify, data_prepare_seq_trials_month]
    outputs:
      moderately_sensitive:
        csv1: output/seq_trials/descriptives/survival/surv_main.csv
        csv2: output/seq_trials/descriptives/survival/surv_by_period.csv
        csv3: output/seq_trials/descriptives/survival/surv_by_trial.csv

  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 
  ## Sequential trials - ITT
  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # #
  plot_km:
    run: r:latest analysis/seq_trials/km.R 
      --plot TRUE
    needs: [data_prepare_seq_trials_month]
    outputs:
      moderately_sensitive:
        csv1: output/seq_trials/descriptives/survival/km_estimates.csv
        csv2: output/seq_trials/descriptives/survival/km_estimates_red.csv
        csv3: output/seq_trials/descriptives/survival/km_estimates_red2.csv
        plot1: output/seq_trials/descriptives/survival/km_estimates.png
        plot2: output/seq_trials/descriptives/survival/km_estimates_red.png

  plot_km_by_period:
    run: r:latest analysis/seq_trials/km.R 
      --plot TRUE
      --subgroups period
    needs: [data_prepare_seq_trials_month]
    outputs:
      moderately_sensitive:
        csv1: output/seq_trials/descriptives/survival/km_estimates_period.csv
        csv2: output/seq_trials/descriptives/survival/km_estimates_period_red.csv
        csv3: output/seq_trials/descriptives/survival/km_estimates_period_red2.csv
        plot1: output/seq_trials/descriptives/survival/km_estimates_period.png
        plot2: output/seq_trials/descriptives/survival/km_estimates_period_red.png

  run_itt_analysis_simple:
    run: r:latest analysis/seq_trials/itt_analysis.R --model=simple
    needs: [data_prepare_seq_trials_month]
    outputs:
      highly_sensitive:
        rds1: output/seq_trials/itt/itt_fit_simple.rds
        rds2: output/seq_trials/itt/itt_vcov_simple.rds
      moderately_sensitive:
        csv1: output/seq_trials/itt/itt_fit_simple.csv
        csv2: output/seq_trials/itt/itt_glance_simple.csv
        txt: output/seq_trials/itt/log/itt_log_simple.txt

  run_itt_analysis_interaction_period:
    run: r:latest analysis/seq_trials/itt_analysis.R --model=interaction_period
    needs: [data_prepare_seq_trials_month]
    outputs:
      highly_sensitive:
        rds1: output/seq_trials/itt/itt_fit_interaction_period.rds
        rds2: output/seq_trials/itt/itt_vcov_interaction_period.rds
      moderately_sensitive:
        csv1: output/seq_trials/itt/itt_fit_interaction_period.csv
        csv2: output/seq_trials/itt/itt_glance_interaction_period.csv
        txt: output/seq_trials/itt/log/itt_log_interaction_period.txt

  run_itt_analysis_interaction_trial:
    run: r:latest analysis/seq_trials/itt_analysis.R --model=interaction_trial
    needs: [data_prepare_seq_trials_month]
    outputs:
      highly_sensitive:
        rds1: output/seq_trials/itt/itt_fit_interaction_trial.rds
        rds2: output/seq_trials/itt/itt_vcov_interaction_trial.rds
      moderately_sensitive:
        csv1: output/seq_trials/itt/itt_fit_interaction_trial.csv
        csv2: output/seq_trials/itt/itt_glance_interaction_trial.csv
        txt: output/seq_trials/itt/log/itt_log_interaction_trial.txt

  run_itt_analysis_interaction_all:
    run: r:latest analysis/seq_trials/itt_analysis.R --model=interaction_all
    needs: [data_prepare_seq_trials_month]
    outputs:
      highly_sensitive:
        rds1: output/seq_trials/itt/itt_fit_interaction_all.rds
        rds2: output/seq_trials/itt/itt_vcov_interaction_all.rds
      moderately_sensitive:
        csv1: output/seq_trials/itt/itt_fit_interaction_all.csv
        csv2: output/seq_trials/itt/itt_glance_interaction_all.csv
        txt: output/seq_trials/itt/log/itt_log_interaction_all.txt

  run_itt_analysis_crude:
    run: r:latest analysis/seq_trials/itt_analysis.R --model=crude
    needs: [data_prepare_seq_trials_month]
    outputs:
      highly_sensitive:
        rds1: output/seq_trials/itt/itt_fit_crude.rds
        rds2: output/seq_trials/itt/itt_vcov_crude.rds
      moderately_sensitive:
        csv1: output/seq_trials/itt/itt_fit_crude.csv
        csv2: output/seq_trials/itt/itt_glance_crude.csv
        txt: output/seq_trials/itt/log/itt_log_crude.txt

  run_itt_analysis_crude_period:
    run: r:latest analysis/seq_trials/itt_analysis.R --model=crude_period
    needs: [data_prepare_seq_trials_month]
    outputs:
      highly_sensitive:
        rds1: output/seq_trials/itt/itt_fit_crude_period.rds
        rds2: output/seq_trials/itt/itt_vcov_crude_period.rds
      moderately_sensitive:
        csv1: output/seq_trials/itt/itt_fit_crude_period.csv
        csv2: output/seq_trials/itt/itt_glance_crude_period.csv
        txt: output/seq_trials/itt/log/itt_log_crude_period.txt

  run_itt_analysis_crude_trial:
    run: r:latest analysis/seq_trials/itt_analysis.R --model=crude_trial
    needs: [data_prepare_seq_trials_month]
    outputs:
      highly_sensitive:
        rds1: output/seq_trials/itt/itt_fit_crude_trial.rds
        rds2: output/seq_trials/itt/itt_vcov_crude_trial.rds
      moderately_sensitive:
        csv1: output/seq_trials/itt/itt_fit_crude_trial.csv
        csv2: output/seq_trials/itt/itt_glance_crude_trial.csv
        txt: output/seq_trials/itt/log/itt_log_crude_trial.txt

  create_surv_curves_itt_simple:
    run: r:latest analysis/seq_trials/itt_curves.R --model=simple
    needs: [data_prepare_seq_trials_month, run_itt_analysis_simple]
    outputs:
      moderately_sensitive:
        csv1: output/seq_trials/itt/curves/itt_survcurves_simple.csv
        csv2: output/seq_trials/itt/curves/itt_diffcurve_simple.csv

  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # # 
  ## Sequential trials - PP
  ## # # # # # # # # # # # # # # # # # # # 
  ## # # # # # # # # # # # # # # # # # # #

  run_pp_analysis_simple:
    run: r:latest analysis/seq_trials/pp_analysis.R --model=simple
    needs: [data_prepare_seq_trials_month]
    outputs:
      highly_sensitive:
        rds1: output/seq_trials/pp/pp_fit_simple.rds
        rds2: output/seq_trials/pp/pp_vcov_simple.rds
      moderately_sensitive:
        csv1: output/seq_trials/pp/pp_fit_simple.csv
        csv2: output/seq_trials/pp/pp_glance_simple.csv
        txt: output/seq_trials/pp/log/pp_log_simple.txt