project.yaml

version: '3.0'

expectations:
  population_size: 1000

actions:

  generate_study_population_w1:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_w1
    outputs:
      highly_sensitive:
        cohort: output/input_w1.csv


  generate_study_population_w2:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_w2
    outputs:
      highly_sensitive:
        cohort: output/input_w2.csv

  
  generate_study_population_w3:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_w3
    outputs:
      highly_sensitive:
        cohort: output/input_w3.csv
  

  generate_study_population_w4:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_w4
    outputs:
      highly_sensitive:
        cohort: output/input_w4.csv


  generate_study_population_full:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_full
    outputs:
      highly_sensitive:
        cohort: output/input_full.csv


  analyse_w1_long:
    run: r:latest analysis/analysis_wave1_long.R
    needs: [generate_study_population_w1]
    outputs:
      moderately_sensitive:
        table1a_long: output/table1a_w1_long.csv
        table1b_long: output/table1b_w1_long.csv
        long_incidence: output/long_incidence_w1.csv
        long_incidence_strata: output/long_incidence_strata_w1.csv
        long_incidence_indian: output/long_incidence_indian_w1.csv
        unadjusted_long: output/unadjusted_long_w1.csv


  analyse_w1_severe:
    run: r:latest analysis/analysis_wave1_severe.R
    needs: [generate_study_population_w1]
    outputs:
      moderately_sensitive:
        table1a: output/table1a_w1.csv
        table1b: output/table1b_w1.csv
        severe_incidence: output/severe_incidence_w1.csv
        severe_incidence_strata: output/severe_incidence_strata_w1.csv
        severe_incidence_indian: output/severe_incidence_indian_w1.csv
        unadjusted_long: output/unadjusted_severe_w1.csv
  
  data_check_w1:
    run: r:latest analysis/analysis_wave1_checks.R
    needs: [generate_study_population_w1]
    outputs:
      moderately_sensitive:
        sample_size_table: output/sample_size_table_w1.csv
        missing_nums: output/missing_nums_w1.csv
        long_dates: output/long_covid_dates_w1.csv
        covid_admit_dates: output/covid_admit_dates_w1.csv
        dereg_dates: output/dereg_dates_w1.csv
        died_dates: output/died_dates_w1.csv
        long_dates_15: output/long_covid_dates_15_w1.csv
        long_filter_check: output/long_filter_check_w1.csv
        long_covid_surv_time: output/long_covid_surv_time_w1.csv
        long_covid_surv_flag: output/long_covid_surv_flag_w1.csv
        severe_covid_surv_time: output/severe_covid_surv_time_w1.csv
        severe_covid_surv_flag: output/severe_covid_surv_flag_w1.csv
        continuous_checks: output/continuous_checks_w1.csv
        dates_dmy: output/dates_dmy_w1.csv
        dates_my: output/dates_my_w1.csv
        binary_checks: output/binary_checks_w1.csv
        eth_tab: output/ethnicity5_w1.csv
        eth16_tab: output/ethnicity16_w1.csv
        ethcross_tab: output/ethnicity_cross_w1.csv
        sex_tab: output/sex_w1.csv
        smoke_tab: output/smoke_w1.csv
        imd_tab: output/imd_w1.csv
        stp_tab: output/stp_w1.csv
        region_tab: output/region_w1.csv
        diabetes_tab: output/diabetes_w1.csv
        carehome_tab: output/carehome_w1.csv


  analyse_w2_long:
    run: r:latest analysis/analysis_wave2_long.R
    needs: [generate_study_population_w2]
    outputs:
      moderately_sensitive:
        table1a_long: output/table1a_w2_long.csv
        table1b_long: output/table1b_w2_long.csv
        long_incidence: output/long_incidence_w2.csv
        long_incidence_strata: output/long_incidence_strata_w2.csv
        long_incidence_indian: output/long_incidence_indian_w2.csv
        unadjusted_long: output/unadjusted_long_w2.csv


  analyse_w2_severe:
    run: r:latest analysis/analysis_wave2_severe.R
    needs: [generate_study_population_w2]
    outputs:
      moderately_sensitive:
        table1a: output/table1a_w2.csv
        table1b: output/table1b_w2.csv
        severe_incidence: output/severe_incidence_w2.csv
        severe_incidence_strata: output/severe_incidence_strata_w2.csv
        severe_incidence_indian: output/severe_incidence_indian_w2.csv
        unadjusted_long: output/unadjusted_severe_w2.csv
  
  data_check_w2:
    run: r:latest analysis/analysis_wave2_checks.R
    needs: [generate_study_population_w2]
    outputs:
      moderately_sensitive:
        sample_size_table: output/sample_size_table_w2.csv
        missing_nums: output/missing_nums_w2.csv
        long_dates: output/long_covid_dates_w2.csv
        covid_admit_dates: output/covid_admit_dates_w2.csv
        dereg_dates: output/dereg_dates_w2.csv
        died_dates: output/died_dates_w2.csv
        long_dates_15: output/long_covid_dates_15_w2.csv
        long_filter_check: output/long_filter_check_w2.csv
        long_covid_surv_time: output/long_covid_surv_time_w2.csv
        long_covid_surv_flag: output/long_covid_surv_flag_w2.csv
        severe_covid_surv_time: output/severe_covid_surv_time_w2.csv
        severe_covid_surv_flag: output/severe_covid_surv_flag_w2.csv
        continuous_checks: output/continuous_checks_w2.csv
        dates_dmy: output/dates_dmy_w2.csv
        dates_my: output/dates_my_w2.csv
        binary_checks: output/binary_checks_w2.csv
        eth_tab: output/ethnicity5_w2.csv
        eth16_tab: output/ethnicity16_w2.csv
        ethcross_tab: output/ethnicity_cross_w2.csv
        sex_tab: output/sex_w2.csv
        smoke_tab: output/smoke_w2.csv
        imd_tab: output/imd_w2.csv
        stp_tab: output/stp_w2.csv
        region_tab: output/region_w2.csv
        diabetes_tab: output/diabetes_w2.csv
        carehome_tab: output/carehome_w2.csv


  analyse_w3_long:
    run: r:latest analysis/analysis_wave3_long.R
    needs: [generate_study_population_w3]
    outputs:
      moderately_sensitive:
        table1a_long: output/table1a_w3_long.csv
        table1b_long: output/table1b_w3_long.csv
        long_incidence: output/long_incidence_w3.csv
        long_incidence_strata: output/long_incidence_strata_w3.csv
        long_incidence_indian: output/long_incidence_indian_w3.csv
        unadjusted_long: output/unadjusted_long_w3.csv


  analyse_w3_severe:
    run: r:latest analysis/analysis_wave3_severe.R
    needs: [generate_study_population_w3]
    outputs:
      moderately_sensitive:
        table1a: output/table1a_w3.csv
        table1b: output/table1b_w3.csv
        severe_incidence: output/severe_incidence_w3.csv
        severe_incidence_strata: output/severe_incidence_strata_w3.csv
        severe_incidence_indian: output/severe_incidence_indian_w3.csv
        unadjusted_long: output/unadjusted_severe_w3.csv
  
  data_check_w3:
    run: r:latest analysis/analysis_wave3_checks.R
    needs: [generate_study_population_w3]
    outputs:
      moderately_sensitive:
        sample_size_table: output/sample_size_table_w3.csv
        missing_nums: output/missing_nums_w3.csv
        long_dates: output/long_covid_dates_w3.csv
        covid_admit_dates: output/covid_admit_dates_w3.csv
        dereg_dates: output/dereg_dates_w3.csv
        died_dates: output/died_dates_w3.csv
        long_dates_15: output/long_covid_dates_15_w3.csv
        long_filter_check: output/long_filter_check_w3.csv
        long_covid_surv_time: output/long_covid_surv_time_w3.csv
        long_covid_surv_flag: output/long_covid_surv_flag_w3.csv
        severe_covid_surv_time: output/severe_covid_surv_time_w3.csv
        severe_covid_surv_flag: output/severe_covid_surv_flag_w3.csv
        continuous_checks: output/continuous_checks_w3.csv
        dates_dmy: output/dates_dmy_w3.csv
        dates_my: output/dates_my_w3.csv
        binary_checks: output/binary_checks_w3.csv
        eth_tab: output/ethnicity5_w3.csv
        eth16_tab: output/ethnicity16_w3.csv
        ethcross_tab: output/ethnicity_cross_w3.csv
        sex_tab: output/sex_w3.csv
        smoke_tab: output/smoke_w3.csv
        imd_tab: output/imd_w3.csv
        stp_tab: output/stp_w3.csv
        region_tab: output/region_w3.csv
        diabetes_tab: output/diabetes_w3.csv
        carehome_tab: output/carehome_w3.csv


  analyse_w4_long:
    run: r:latest analysis/analysis_wave4_long.R
    needs: [generate_study_population_w4]
    outputs:
      moderately_sensitive:
        table1a_long: output/table1a_w4_long.csv
        table1b_long: output/table1b_w4_long.csv
        long_incidence: output/long_incidence_w4.csv
        long_incidence_strata: output/long_incidence_strata_w4.csv
        long_incidence_indian: output/long_incidence_indian_w4.csv
        unadjusted_long: output/unadjusted_long_w4.csv


  analyse_w4_severe:
    run: r:latest analysis/analysis_wave4_severe.R
    needs: [generate_study_population_w4]
    outputs:
      moderately_sensitive:
        table1a: output/table1a_w4.csv
        table1b: output/table1b_w4.csv
        severe_incidence: output/severe_incidence_w4.csv
        severe_incidence_strata: output/severe_incidence_strata_w4.csv
        severe_incidence_indian: output/severe_incidence_indian_w4.csv
        unadjusted_long: output/unadjusted_severe_w4.csv
  
  data_check_w4:
    run: r:latest analysis/analysis_wave4_checks.R
    needs: [generate_study_population_w4]
    outputs:
      moderately_sensitive:
        sample_size_table: output/sample_size_table_w4.csv
        missing_nums: output/missing_nums_w4.csv
        long_dates: output/long_covid_dates_w4.csv
        covid_admit_dates: output/covid_admit_dates_w4.csv
        dereg_dates: output/dereg_dates_w4.csv
        died_dates: output/died_dates_w4.csv
        long_dates_15: output/long_covid_dates_15_w4.csv
        long_filter_check: output/long_filter_check_w4.csv
        long_covid_surv_time: output/long_covid_surv_time_w4.csv
        long_covid_surv_flag: output/long_covid_surv_flag_w4.csv
        severe_covid_surv_time: output/severe_covid_surv_time_w4.csv
        severe_covid_surv_flag: output/severe_covid_surv_flag_w4.csv
        continuous_checks: output/continuous_checks_w4.csv
        dates_dmy: output/dates_dmy_w4.csv
        dates_my: output/dates_my_w4.csv
        binary_checks: output/binary_checks_w4.csv
        eth_tab: output/ethnicity5_w4.csv
        eth16_tab: output/ethnicity16_w4.csv
        ethcross_tab: output/ethnicity_cross_w4.csv
        sex_tab: output/sex_w4.csv
        smoke_tab: output/smoke_w4.csv
        imd_tab: output/imd_w4.csv
        stp_tab: output/stp_w4.csv
        region_tab: output/region_w4.csv
        diabetes_tab: output/diabetes_w4.csv
        carehome_tab: output/carehome_w4.csv


  analyse_full_long:
    run: r:latest analysis/analysis_full_long.R
    needs: [generate_study_population_full]
    outputs:
      moderately_sensitive:
        table1a_long: output/table1a_full_long.csv
        table1b_long: output/table1b_full_long.csv
        long_incidence: output/long_incidence_full.csv
        long_incidence_strata: output/long_incidence_strata_full.csv
        long_incidence_indian: output/long_incidence_indian_full.csv
        unadjusted_long: output/unadjusted_long_full.csv


  analyse_full_severe:
    run: r:latest analysis/analysis_full_severe.R
    needs: [generate_study_population_full]
    outputs:
      moderately_sensitive:
        table1a: output/table1a_full.csv
        table1b: output/table1b_full.csv
        severe_incidence: output/severe_incidence_full.csv
        severe_incidence_strata: output/severe_incidence_strata_full.csv
        severe_incidence_indian: output/severe_incidence_indian_full.csv
        unadjusted_long: output/unadjusted_severe_full.csv
  
  data_check_full:
    run: r:latest analysis/analysis_full_checks.R
    needs: [generate_study_population_full]
    outputs:
      moderately_sensitive:
        sample_size_table: output/sample_size_table_full.csv
        missing_nums: output/missing_nums_full.csv
        long_dates: output/long_covid_dates_full.csv
        covid_admit_dates: output/covid_admit_dates_full.csv
        dereg_dates: output/dereg_dates_full.csv
        died_dates: output/died_dates_full.csv
        long_dates_15: output/long_covid_dates_15_full.csv
        long_filter_check: output/long_filter_check_full.csv
        long_covid_surv_time: output/long_covid_surv_time_full.csv
        long_covid_surv_flag: output/long_covid_surv_flag_full.csv
        severe_covid_surv_time: output/severe_covid_surv_time_full.csv
        severe_covid_surv_flag: output/severe_covid_surv_flag_full.csv
        continuous_checks: output/continuous_checks_full.csv
        dates_dmy: output/dates_dmy_full.csv
        dates_my: output/dates_my_full.csv
        binary_checks: output/binary_checks_full.csv
        eth_tab: output/ethnicity5_full.csv
        eth16_tab: output/ethnicity16_full.csv
        ethcross_tab: output/ethnicity_cross_full.csv
        sex_tab: output/sex_full.csv
        smoke_tab: output/smoke_full.csv
        imd_tab: output/imd_full.csv
        stp_tab: output/stp_full.csv
        region_tab: output/region_full.csv
        diabetes_tab: output/diabetes_full.csv
        carehome_tab: output/carehome_full.csv


  standardise_rates_full:
    run: r:latest analysis/poisson_standardization.R
    needs: [analyse_full_severe, analyse_full_long]
    outputs:
      moderately_sensitive:
        model_test_results: output/model_test_results.csv
        world_pop_standard: output/world_pop_standard.csv
        standard_rates: output/overall_standard_rates.csv
        world_pop_standard_Nb: output/world_pop_standard_nb.csv
        model_test_results_more: output/model_test_results_more.csv
        world_pop_more_standard: output/world_pop_more_standard.csv
        standard_rates_more: output/overall_standard_rates_more.csv
        world_pop_more_standard_Nb: output/world_pop_more_standard_nb.csv