project.yaml

version: '3.0'

expectations:
  population_size: 1000

actions:
  
  generate_ethnicity:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_ethnicity --output-format=feather
    outputs:
      highly_sensitive:
        cohort: output/input_ethnicity.feather

  generate_study_population:
    run: cohortextractor:latest generate_cohort --study-definition study_definition
    outputs:
      highly_sensitive:
        cohort: output/input.csv

  generate_rates_1:    
    run: cohortextractor:latest generate_cohort --study-definition study_definition_rates --index-date-range "2015-01-01 to 2018-12-01 by month" --skip-existing --output-dir=output --output-format=feather
    outputs:      
      highly_sensitive:
        cohort: output/measures/inpu*.feather
  
  generate_rates_2:    
    run: cohortextractor:latest generate_cohort --study-definition study_definition_rates --index-date-range "2019-01-01 to 2022-12-01 by month" --skip-existing --output-dir=output --output-format=feather
    outputs:      
      highly_sensitive:
        cohort: output/measures/inp*.feather

  join_ethnicity:
    run: python:latest python analysis/join_ethnicity.py
    needs:
      [
        generate_rates_1,
        generate_rates_2,
        generate_ethnicity,
      ]
    outputs:
      highly_sensitive:
        cohort: output/measures/in*.feather
  
  generate_measures:
    run: cohortextractor:latest generate_measures --study-definition study_definition_rates --skip-existing --output-dir=output/measures
    needs: 
      [
        generate_rates_1,
        generate_rates_2,
        join_ethnicity,
      ]
    outputs:
      moderately_sensitive:
        measure_csv1: output/measures/measure_prevalence*_rate.csv
        measure_csv2: output/measures/measure_prevalencebyRegion*_rate.csv
        measure_csv3: output/measures/measure_prevalencebyIMD*_rate.csv
        measure_csv4: output/measures/measure_prevalencebyEthnicity*_rate.csv
        measure_csv5: output/measures/measure_prevalencebyAge*_rate.csv
        measure_csv6: output/measures/measure_incidence*_rate.csv
        measure_csv7: output/measures/measure_incidencebyRegion*_rate.csv
        measure_csv8: output/measures/measure_incidencebyIMD*_rate.csv
        measure_csv9: output/measures/measure_incidencebyEthnicity*_rate.csv
        measure_csv10: output/measures/measure_incidencebyAge*_rate.csv
        measure_csv11: output/measures/measure_mortality*_rate.csv

  describe_trends:
    run: r:latest analysis/Descriptive_trends.R
    needs: 
      [
        generate_measures,
        generate_study_population
      ]
    outputs:
      moderately_sensitive:
        Fig1: output/incidence.png
        Fig2: output/prevalence.png
        Fig3: output/died_prostate.png
        Fig4: output/incidence_by_age_group.png
        Fig5: output/incidence_by_ethnicity.png
        Fig6: output/incidence_by_imd_cat.png
        Fig7: output/incidence_by_region.png
        Fig8: output/prevalenc_by_age_group.png
        Fig9: output/prevalenc_by_ethnicity.png
        Fig10: output/prevalenc_by_imd_cat.png
        Fig11: output/prevalenc_by_region.png
        csv1: output/Rates_rounded_prevalence.csv
        csv2: output/Rates_rounded_prevalence_by_region.csv
        csv3: output/Rates_rounded_prevalence_by_imd_cat.csv
        csv4: output/Rates_rounded_prevalence_by_ethnicity.csv
        csv5: output/Rates_rounded_prevalence_by_age_group.csv
        csv6: output/Rates_rounded_incidence.csv
        csv7: output/Rates_rounded_incidence_by_region.csv
        csv8: output/Rates_rounded_incidence_by_imd_cat.csv
        csv9: output/Rates_rounded_incidence_by_ethnicity.csv
        csv10: output/Rates_rounded_incidence_by_age_group.csv
        csv11: output/Rates_rounded_died_prostate.csv
        csv12: output/Table1.csv