project.yaml

version: '3.0'

expectations:
  population_size: 10000

actions:

  generate_study_population_covid_2020:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_covid_2020
      --output-dir=output/cohorts
      --output-format=csv.gz
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_covid_2020.csv.gz

  generate_study_population_covid_2021:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_covid_2021
      --output-dir=output/cohorts
      --output-format=csv.gz
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_covid_2021.csv.gz

  generate_study_population_general_match_vars_2019:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_general_match_vars
      --output-dir=output/cohorts
      --output-format=csv.gz
      --index-date-range="2019-02-01"
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_general_match_vars_2019-02-01.csv.gz

  generate_study_population_general_match_vars_2020:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_general_match_vars
      --output-dir=output/cohorts
      --output-format=csv.gz
      --index-date-range="2020-02-01"
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_general_match_vars_2020-02-01.csv.gz

  generate_study_population_general_match_vars_2021:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_general_match_vars
      --output-dir=output/cohorts
      --output-format=csv.gz
      --index-date-range="2021-02-01"
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_general_match_vars_2021-02-01.csv.gz

  generate_study_population_pneumonia_2019:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_pneumonia_2019
      --output-dir=output/cohorts
      --output-format=csv.gz
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_pneumonia_2019.csv.gz

  matching_2019:
    run: python:latest python analysis/match_running.py "2019" --output-dir=output/cohorts
    needs: [generate_study_population_covid_2020, generate_study_population_general_match_vars_2019]
    outputs:
      moderately_sensitive:
        matching_report: output/cohorts/matching_report_general_2019.txt
      highly_sensitive:
        matched_cohort: output/cohorts/matched_matches_general_2019.csv

  matching_2020:
    run: python:latest python analysis/match_running.py "2020" --output-dir=output/cohorts
    needs: [generate_study_population_covid_2020, generate_study_population_general_match_vars_2020]
    outputs:
      moderately_sensitive:
        matching_report: output/cohorts/matching_report_general_2020.txt
      highly_sensitive:
        matched_cohort: output/cohorts/matched_matches_general_2020.csv

  matching_2021:
    run: python:latest python analysis/match_running.py "2021" --output-dir=output/cohorts
    needs: [generate_study_population_covid_2021, generate_study_population_general_match_vars_2021]
    outputs:
      moderately_sensitive:
        matching_report: output/cohorts/matching_report_general_2021.txt
      highly_sensitive:
        matched_cohort: output/cohorts/matched_matches_general_2021.csv

  generate_study_population_matched_2019:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_matched_2019
      --output-dir=output/cohorts
      --output-format=csv.gz
    needs: [matching_2019]
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_matched_2019.csv.gz

  generate_study_population_matched_2020:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_matched_2020
      --output-dir=output/cohorts
      --output-format=csv.gz
    needs: [matching_2020]
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_matched_2020.csv.gz

  generate_study_population_matched_2021:
    run: cohortextractor:latest generate_cohort
      --study-definition study_definition_matched_2021
      --output-dir=output/cohorts
      --output-format=csv.gz
    needs: [matching_2021]
    outputs:
      highly_sensitive:
        cohort: output/cohorts/input_matched_2021.csv.gz

  reconcile_sick_note_spells_covid_2020:
    run: python:latest python analysis/reconcile_sick_note_spells.py "_covid_2020"
    needs: [generate_study_population_covid_2020]
    outputs:
      highly_sensitive:
        cohort_with_duration: output/cohorts/input_covid_2020_with_duration.csv

  reconcile_sick_note_spells_covid_2021:
    run: python:latest python analysis/reconcile_sick_note_spells.py "_covid_2021"
    needs: [generate_study_population_covid_2021]
    outputs:
      highly_sensitive:
        cohort_with_duration: output/cohorts/input_covid_2021_with_duration.csv

  reconcile_sick_note_spells_general_2019:
    run: python:latest python analysis/reconcile_sick_note_spells.py "_matched_2019"
    needs: [generate_study_population_matched_2019]
    outputs:
      highly_sensitive:
        cohort_with_duration: output/cohorts/input_matched_2019_with_duration.csv

  reconcile_sick_note_spells_general_2020:
    run: python:latest python analysis/reconcile_sick_note_spells.py "_matched_2020"
    needs: [generate_study_population_matched_2020]
    outputs:
      highly_sensitive:
        cohort_with_duration: output/cohorts/input_matched_2020_with_duration.csv

  reconcile_sick_note_spells_general_2021:
    run: python:latest python analysis/reconcile_sick_note_spells.py "_matched_2021"
    needs: [generate_study_population_matched_2021]
    outputs:
      highly_sensitive:
        cohort_with_duration: output/cohorts/input_matched_2021_with_duration.csv

  reconcile_sick_note_spells_pneumonia_2019:
    run: python:latest python analysis/reconcile_sick_note_spells.py "_pneumonia_2019"
    needs: [generate_study_population_pneumonia_2019]
    outputs:
      highly_sensitive:
        cohort_with_duration: output/cohorts/input_pneumonia_2019_with_duration.csv

  covid_2020_rates_cohort:
    run: stata-mp:latest analysis/rates/000_cr_define_covariates_simple_rates.do "covid_2020" --output-dir=output/cohorts
    needs: [reconcile_sick_note_spells_covid_2020]
    outputs:
      highly_sensitive:
        analysis_dataset: output/cohorts/cohort_rates_*.dta
  
  covid_2021_rates_cohort:
    run: stata-mp:latest analysis/rates/000_cr_define_covariates_simple_rates.do "covid_2021" --output-dir=output/cohorts
    needs: [reconcile_sick_note_spells_covid_2021]
    outputs:
      highly_sensitive:
        analysis_dataset: output/cohorts/cohort_rates*.dta

  general_2019_rates_cohort:
    run: stata-mp:latest analysis/rates/000_cr_define_covariates_simple_rates.do "matched_2019" --output-dir=output/cohorts
    needs: [reconcile_sick_note_spells_general_2019]
    outputs:
      highly_sensitive:
        analysis_dataset: output/cohorts/cohort_rates_matched_2019.dta

  general_2020_rates_cohort:
    run: stata-mp:latest analysis/rates/000_cr_define_covariates_simple_rates.do "matched_2020" --output-dir=output/cohorts
    needs: [reconcile_sick_note_spells_general_2020]
    outputs:
      highly_sensitive:
        analysis_dataset: output/cohorts/cohort_rates_matched_2020.dta

  general_2021_rates_cohort:
    run: stata-mp:latest analysis/rates/000_cr_define_covariates_simple_rates.do "matched_2021" --output-dir=output/cohorts
    needs: [reconcile_sick_note_spells_general_2021]
    outputs:
      highly_sensitive:
        analysis_dataset: output/cohorts/cohort_rates_matched_2021.dta

  pneumonia_2019_rates_cohort:
    run: stata-mp:latest analysis/rates/000_cr_define_covariates_simple_rates.do "pneumonia_2019" --output-dir=output/cohorts
    needs: [reconcile_sick_note_spells_pneumonia_2019]
    outputs:
      highly_sensitive:
        analysis_dataset: output/cohorts/cohort_rates_pneumonia_2019.dta

  covid_2020_rates:
    run: stata-mp:latest analysis/rates/100_cr_simple_rates.do "covid_2020" --output-dir=output/tabfig
    needs: [covid_2020_rates_cohort]
    outputs:
      moderately_sensitive:
        rates: output/tabfig/rates_summary_covid_2020.csv

  covid_2021_rates:
    run: stata-mp:latest analysis/rates/100_cr_simple_rates.do "covid_2021" --output-dir=output/tabfig
    needs: [covid_2021_rates_cohort]
    outputs:
      moderately_sensitive:
        rates: output/tabfig/rates_summary_covid_2021.csv

  general_2019_rates:
    run: stata-mp:latest analysis/rates/100_cr_simple_rates.do "matched_2019" --output-dir=output/tabfig
    needs: [general_2019_rates_cohort]
    outputs:
      moderately_sensitive:
        rates: output/tabfig/rates_summary_matched_2019.csv

  general_2020_rates:
    run: stata-mp:latest analysis/rates/100_cr_simple_rates.do "matched_2020" --output-dir=output/tabfig
    needs: [general_2020_rates_cohort]
    outputs:
      moderately_sensitive:
        rates: output/tabfig/rates_summary_matched_2020.csv

  general_2021_rates:
    run: stata-mp:latest analysis/rates/100_cr_simple_rates.do "matched_2021" --output-dir=output/tabfig
    needs: [general_2021_rates_cohort]
    outputs:
      moderately_sensitive:
        rates: output/tabfig/rates_summary_matched_2021.csv
        
  pneumonia_2019_rates:
    run: stata-mp:latest analysis/rates/100_cr_simple_rates_hosp.do "pneumonia_2019" --output-dir=output/tabfig
    needs: [pneumonia_2019_rates_cohort]
    outputs:
      moderately_sensitive:
        rates: output/tabfig/rates_summary_hosp_pneumonia_2019.csv

  covid_hosp_2020_rates:
    run: stata-mp:latest analysis/rates/100_cr_simple_rates_hosp.do "covid_2020" --output-dir=output/tabfig
    needs: [covid_2020_rates_cohort]
    outputs:
      moderately_sensitive:
        rates: output/tabfig/rates_summary_hosp_covid_2020.csv

  covid_hosp_2021_rates:
    run: stata-mp:latest analysis/rates/100_cr_simple_rates_hosp.do "covid_2021" --output-dir=output/tabfig
    needs: [covid_2021_rates_cohort]
    outputs:
      moderately_sensitive:
        rates: output/tabfig/rates_summary_hosp_covid_2021.csv

  append_cohorts:
    run: stata-mp:latest analysis/cox_models/200_cr_data_management_matching.do --output-dir=output/cohorts
    needs: [covid_2021_rates_cohort, covid_2020_rates_cohort, pneumonia_2019_rates_cohort, general_2021_rates_cohort, general_2020_rates_cohort, general_2019_rates_cohort]
    outputs:
      moderately_sensitive:
        log: output/cohorts/append_cohorts.txt
      highly_sensitive: 
        dataset: output/cohorts/combined_covid_2020_pneumonia.dta
        dataset2: output/cohorts/combined_covid_2021_pneumonia.dta
        dataset3: output/cohorts/combined_covid_2020_general_2019.dta
        dataset4: output/cohorts/combined_covid_2021_general_2019.dta
        dataset5: output/cohorts/combined_covid_general_2020.dta
        dataset6: output/cohorts/combined_covid_general_2021.dta

  cox_models:
    run: stata-mp:latest analysis/cox_models/201_cox_models.do
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models.txt
        dataset: output/tabfig/cox_model_summary.csv

  # Cox model overall stratified by age
  cox_models_age:
    run: stata-mp:latest analysis/cox_models/203_cox_models_stratified.do "age_group" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_summary_age_group.txt
        dataset: output/tabfig/cox_model_summary_age_group*.csv

  # Cox model overall stratified by ethnicity
  cox_models_ethnicity:
    run: stata-mp:latest analysis/cox_models/203_cox_models_stratified.do "ethnicity" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_summary_ethnicity.txt
        dataset: output/tabfig/cox_model_summary_ethnicity.csv

   # Cox model overall stratified by IMD
  cox_models_imd:
    run: stata-mp:latest analysis/cox_models/203_cox_models_stratified.do "imd" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_summary_imd.txt
        dataset: output/tabfig/cox_model_summary_imd.csv

  # Cox model overall stratified by region
  cox_models_region:
    run: stata-mp:latest analysis/cox_models/203_cox_models_stratified.do "region_9" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_summary_region_9.txt
        dataset: output/tabfig/cox_model_summary_region_9.csv

  # Cox model overall stratified by sex
  cox_models_sex:
    run: stata-mp:latest analysis/cox_models/203_cox_models_stratified.do "male" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_summary_male.txt
        dataset: output/tabfig/cox_model_summary_male.csv

  # Cox modes split by follow-up time
  cox_models_split_2020_pneumo:
    run: stata-mp:latest analysis/cox_models/202_cox_models_split.do "2020_pneumonia"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_pneumonia.txt
        dataset: output/tabfig/cox_model_split_summary_2020_pneumonia.csv

  cox_models_split_2021_pneumo:
    run: stata-mp:latest analysis/cox_models/202_cox_models_split.do "2021_pneumonia"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_pneumonia.txt
        dataset: output/tabfig/cox_model_split_summary_2021_pneumonia.csv
  
  cox_models_split_2020_gen_2019:
    run: stata-mp:latest analysis/cox_models/202_cox_models_split.do "2020_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_general_2019.txt
        dataset: output/tabfig/cox_model_split_summary_2020_general_2019.csv
        
  cox_models_split_2021_gen_2019:
    run: stata-mp:latest analysis/cox_models/202_cox_models_split.do "2021_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_general_2019.txt
        dataset: output/tabfig/cox_model_split_summary_2021_general_2019.csv

  cox_models_split_gen_2020:
    run: stata-mp:latest analysis/cox_models/202_cox_models_split.do "general_2020"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2020.txt
        dataset: output/tabfig/cox_model_split_summary_general_2020.csv
        
  cox_models_split_gen_2021:
    run: stata-mp:latest analysis/cox_models/202_cox_models_split.do "general_2021"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2021.txt
        dataset: output/tabfig/cox_model_split_summary_general_2021.csv

  #  Cox modes split by follow-up time - stratified by age
  cox_models_split_2020_pneumo_age:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_age.do "2020_pneumonia" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_pneumonia_age_group.txt
        dataset: output/tabfig/cox_model_split_summary_2020_pneumonia_age_group.csv

  cox_models_split_2021_pneumo_age:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_age.do "2021_pneumonia"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_pneumonia_age_group.txt
        dataset: output/tabfig/cox_model_split_summary_2021_pneumonia_age_group.csv
  
  cox_models_split_2020_gen_2019_age:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_age.do "2020_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_general_2019_age_group.txt
        dataset: output/tabfig/cox_model_split_summary_2020_general_2019_age_group.csv
        
  cox_models_split_2021_gen_2019_age:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_age.do "2021_general_2019" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_general_2019_age_group.txt
        dataset: output/tabfig/cox_model_split_summary_2021_general_2019_age_group.csv

  cox_models_split_gen_2020_age:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_age.do "general_2020"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2020_age_group.txt
        dataset: output/tabfig/cox_model_split_summary_general_2020_age_group.csv
        
  cox_models_split_gen_2021_age:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_age.do "general_2021" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2021_age_group.txt
        dataset: output/tabfig/cox_model_split_summary_general_2021_age_group.csv

  #  Cox models split by follow-up time - stratified by ethnicity
  cox_models_split_2020_pneumo_ethnicity:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_ethnicity.do "2020_pneumonia" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_pneumonia_ethnicity.txt
        dataset: output/tabfig/cox_model_split_summary_2020_pneumonia_ethnicity.csv

  cox_models_split_2021_pneumo_ethnicity:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_ethnicity.do "2021_pneumonia" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_pneumonia_ethnicity.txt
        dataset: output/tabfig/cox_model_split_summary_2021_pneumonia_ethnicity.csv
  
  cox_models_split_2020_gen_2019_ethnicity:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_ethnicity.do "2020_general_2019" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_general_2019_ethnicity.txt
        dataset: output/tabfig/cox_model_split_summary_2020_general_2019_ethnicity.csv
        
  cox_models_split_2021_gen_2019_ethnicity:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_ethnicity.do "2021_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_general_2019_ethnicity.txt
        dataset: output/tabfig/cox_model_split_summary_2021_general_2019_ethnicity.csv

  cox_models_split_gen_2020_ethnicity:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_ethnicity.do "general_2020" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2020_ethnicity.txt
        dataset: output/tabfig/cox_model_split_summary_general_2020_ethnicity.csv
        
  cox_models_split_gen_2021_ethnicity:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_ethnicity.do "general_2021" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2021_ethnicity.txt
        dataset: output/tabfig/cox_model_split_summary_general_2021_ethnicity.csv

  #  Cox models split by follow-up time - stratified by IMD
  cox_models_split_2020_pneumo_imd:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_imd.do "2020_pneumonia" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_pneumonia_imd.txt
        dataset: output/tabfig/cox_model_split_summary_2020_pneumonia_imd.csv

  cox_models_split_2021_pneumo_imd:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_imd.do "2021_pneumonia" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_pneumonia_imd.txt
        dataset: output/tabfig/cox_model_split_summary_2021_pneumonia_imd.csv
  
  cox_models_split_2020_gen_2019_imd:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_imd.do "2020_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_general_2019_imd.txt
        dataset: output/tabfig/cox_model_split_summary_2020_general_2019_imd.csv
        
  cox_models_split_2021_gen_2019_imd:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_imd.do "2021_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_general_2019_imd.txt
        dataset: output/tabfig/cox_model_split_summary_2021_general_2019_imd.csv

  cox_models_split_gen_2020_imd:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_imd.do "general_2020" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2020_imd.txt
        dataset: output/tabfig/cox_model_split_summary_general_2020_imd.csv
        
  cox_models_split_gen_2021_imd:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_imd.do "general_2021" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2021_imd.txt
        dataset: output/tabfig/cox_model_split_summary_general_2021_imd.csv

  # Cox models split by follow-up time - stratified by region
  cox_models_split_2020_pneumo_region:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_region.do "2020_pneumonia"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_pneumonia_region.txt
        dataset: output/tabfig/cox_model_split_summary_2020_pneumonia_region.csv

  cox_models_split_2021_pneumo_region:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_region.do "2021_pneumonia" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_pneumonia_region.txt
        dataset: output/tabfig/cox_model_split_summary_2021_pneumonia_region.csv
  
  cox_models_split_2020_gen_2019_region:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_region.do "2020_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_general_2019_region.txt
        dataset: output/tabfig/cox_model_split_summary_2020_general_2019_region.csv
        
  cox_models_split_2021_gen_2019_region:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_region.do "2021_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_general_2019_region.txt
        dataset: output/tabfig/cox_model_split_summary_2021_general_2019_region.csv

  cox_models_split_gen_2020_region:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_region.do "general_2020"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2020_region.txt
        dataset: output/tabfig/cox_model_split_summary_general_2020_region.csv
        
  cox_models_split_gen_2021_region:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_region.do "general_2021" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2021_region.txt
        dataset: output/tabfig/cox_model_split_summary_general_2021_region.csv
  
  #  Cox models split by follow-up time - stratified by sex
  cox_models_split_2020_pneumo_sex:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_sex.do "2020_pneumonia" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_pneumonia_sex.txt
        dataset: output/tabfig/cox_model_split_summary_2020_pneumonia_sex.csv

  cox_models_split_2021_pneumo_sex:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_sex.do "2021_pneumonia" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_pneumonia_sex.txt
        dataset: output/tabfig/cox_model_split_summary_2021_pneumonia_sex.csv
  
  cox_models_split_2020_gen_2019_sex:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_sex.do "2020_general_2019" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2020_general_2019_sex.txt
        dataset: output/tabfig/cox_model_split_summary_2020_general_2019_sex.csv
        
  cox_models_split_2021_gen_2019_sex:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_sex.do "2021_general_2019"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_2021_general_2019_sex.txt
        dataset: output/tabfig/cox_model_split_summary_2021_general_2019_sex.csv

  cox_models_split_gen_2020_sex:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_sex.do "general_2020"
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2020_sex.txt
        dataset: output/tabfig/cox_model_split_summary_general_2020_sex.csv
        
  cox_models_split_gen_2021_sex:
    run: stata-mp:latest analysis/cox_models/204_cox_models_split_stratified_sex.do "general_2021" 
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        log: output/cohorts/cox_models_split_general_2021_sex.txt
        dataset: output/tabfig/cox_model_split_summary_general_2021_sex.csv

  # describe_duration_diagnoses:
  #   run: jupyter:latest jupyter nbconvert /workspace/notebooks/describe_duration_diagnoses.ipynb --execute --to html --template basic --output-dir=/workspace/output --ExecutePreprocessor.timeout=86400 --no-input
  #   needs: [covid_2021_rates_cohort, covid_2020_rates_cohort, general_2019_rates_cohort, general_2020_rates_cohort, general_2021_rates_cohort, pneumonia_2019_rates_cohort]
  #   outputs:
  #     moderately_sensitive:
  #       notebook: output/describe_duration_diagnoses.html
  #       table: output/tabfig/med_mean_overall.csv
  #       table2: output/tabfig/med_mean_age_group.csv
  #       table3: output/tabfig/med_mean_sex.csv
  #       table4: output/tabfig/med_mean_ethnicity.csv
  #       table5: output/tabfig/med_mean_imd.csv
  #       table6: output/tabfig/med_mean_region.csv
  #       subplots: output/tabfig/diag_*.png 

  table1:
    run: r:latest analysis/descriptive/1_table1_demo_clinical.R
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        table: output/tabfig/table1_*.csv

  visualise_diagnoses:
    run: r:latest analysis/descriptive/2_visualise_diagnoses.R
    needs: [append_cohorts]
    outputs:
      moderately_sensitive:
        table: output/tabfig/diag_by_cohort.csv
        plot: output/tabfig/diag_all.png        

  check_died:
    run: r:latest analysis/descriptive/3_check_died.R
    needs: [covid_2020_rates_cohort, covid_2021_rates_cohort, general_2019_rates_cohort,
            general_2020_rates_cohort, general_2021_rates_cohort, pneumonia_2019_rates_cohort,
            reconcile_sick_note_spells_general_2020, reconcile_sick_note_spells_general_2019,
            reconcile_sick_note_spells_general_2021]
    outputs:
      moderately_sensitive:
        table1: output/tabfig/check_died_*.csv        
#        table3: output/tabfig/check_ons*.csv
        table4: output/tabfig/check_index*.csv
        table5: output/tabfig/check_deregister*.csv