project.yaml

version: '3.0'

expectations:
  population_size: 1000

actions:

  generate_study_population_1:
    run: cohortextractor:latest generate_cohort --study-definition study_definition --index-date-range "2019-09-01 to 2020-05-01 by month" --output-format feather
    outputs:
      highly_sensitive:
        cohort: output/input_*.feather
  
  generate_study_population_2:
    run: cohortextractor:latest generate_cohort --study-definition study_definition --index-date-range "2020-06-01 to 2020-12-01 by month" --output-format feather
    outputs:
      highly_sensitive:
        cohort: output/input*.feather

  generate_study_population_3:
    run: cohortextractor:latest generate_cohort --study-definition study_definition --index-date-range "2021-01-01 to 2021-07-01 by month" --output-format feather
    outputs:
      highly_sensitive:
        cohort: output/inpu*.feather
  

  check_EGFR:
    run: python:latest python analysis/check_EGFR.py
    needs: [join_ethnicity_region]
    outputs:
      moderately_sensitive:
        counts: output/egfr_tabulation.csv

  generate_study_population_ethnicity:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_ethnicity --output-format feather
    outputs:
      highly_sensitive:
        cohort: output/input_ethnicity.feather
      
  join_ethnicity_region:
    run: python:latest python analysis/join_ethnicity_region.py
    needs: [generate_study_population_1, generate_study_population_2, generate_study_population_3, generate_study_population_ethnicity]
    outputs:
      highly_sensitive:
        cohort: output/inp*.feather
  
  generate_study_population_lithium:
    run: cohortextractor:latest generate_cohort --study-definition study_definition_lithium --index-date-range "2019-09-01 to 2021-07-01 by month" --output-format feather
    outputs:
      highly_sensitive:
        cohort: output/input_lithium_*.feather

  calculate_numerators:
    run: python:latest python analysis/calculate_numerators.py
    needs: [join_ethnicity_region]
    outputs:
      highly_sensitive:
        cohort: output/indicator_e_f_*.feather

  calculate_composite_indicators:
    run: python:latest python analysis/composite_indicators.py
    needs: [calculate_numerators, join_ethnicity_region]
    outputs:
      moderately_sensitive:
        counts: output/*_composite_measure.csv

  generate_measures:
    run: cohortextractor:latest generate_measures --study-definition study_definition --output-dir=output
    needs: [join_ethnicity_region]
    outputs:
        moderately_sensitive:
          measure_csv: output/measure_*_rate.csv

  
  check_asthma:
    run: python:latest python analysis/check_asthma.py
    needs: [generate_measures]
    outputs:
      moderately_sensitive:
        csv: output/asthma_sum.csv
  
  generate_measures_demographics:
    run: python:latest python analysis/calculate_measures.py
    needs: [calculate_numerators, join_ethnicity_region, generate_study_population_lithium]
    outputs:
      moderately_sensitive:
        counts: output/indicator_measure_*.csv
        measure_csv: output/measure*_rate.csv
  
  generate_plots:
    run: python:latest python analysis/plot_measures.py
    needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
    outputs:
      moderately_sensitive:
        counts: output/plot_*.jpeg

  cusum:
    run: python:latest python analysis/cusum.py
    needs: [generate_measures, generate_measures_demographics]
    outputs:
      moderately_sensitive:
        cusum: output/cusum_results.json
  
  plot_cusum:
    run: python:latest python analysis/plot_cusum.py
    needs: [cusum, generate_measures, generate_measures_demographics]
    outputs:
      moderately_sensitive:
        cusum: output/cusum_indicator_*.jpeg
        alert: output/alerts_indicator_*.jpeg
  
  generate_notebook:
    run: jupyter:latest jupyter nbconvert /workspace/analysis/report.ipynb --execute --to html --template basic --output-dir=/workspace/output --ExecutePreprocessor.timeout=86400 --no-input
    needs: [generate_plots]
    outputs:
      moderately_sensitive:
        notebook: output/report.html

  indicator_saturation_a:
    run: r:latest analysis/indicator_saturation_analysis.R -I a -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_a_rate.csv 
    needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
    outputs:
      highly_sensitive:
        plots: output/indicator_saturation/indicator_saturation_*_a/figures/*.png
        rdat: output/indicator_saturation/indicator_saturation_*_a/*.RData
        csv: output/indicator_saturation/indicator_saturation_*_a/*_output_*.csv
  
  # indicator_saturation_b:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I b -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_b_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_b/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_b/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_b/*_output_*.csv

  # indicator_saturation_c:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I c -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_c_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_c/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_c/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_c/*_output_*.csv

  # indicator_saturation_d:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I d -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_d_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_d/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_d/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_d/*_output_*.csv

  # indicator_saturation_e:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I e -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_e_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_e/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_e/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_e/*_output_*.csv

  # indicator_saturation_f:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I f -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_f_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_f/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_f/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_f/*_output_*.csv
        
  # indicator_saturation_g:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I g -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_g_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_g/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_g/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_g/*_output_*.csv

  # indicator_saturation_i:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I i -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_i_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_i/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_i/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_i/*_output_*.csv

  # indicator_saturation_k:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I k -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_k_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_k/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_k/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_k/*_output_*.csv

  # indicator_saturation_ac:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I ac -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_ac_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_ac/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_ac/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_ac/*_output_*.csv

  # indicator_saturation_me_no_fbc:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I me_no_fbc -T date -C practice -B indicator_me_denominator -f -v -i output -o output/indicator_saturation measure_indicator_me_no_fbc_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_me_no_fbc/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_me_no_fbc/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_me_no_fbc/*_output_*.csv
        
  # indicator_saturation_me_no_lft:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I me_no_lft -T date -C practice -B indicator_me_denominator -f -v -i output -o output/indicator_saturation measure_indicator_me_no_lft_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_me_no_lft/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_me_no_lft/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_me_no_lft/*_output_*.csv

  # indicator_saturation_li:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I li -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_li_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_li/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_li/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_li/*_output_*.csv

  # indicator_saturation_am:
  #   run: r:latest analysis/indicator_saturation_analysis.R -I am -T date -C practice -f -v -i output -o output/indicator_saturation measure_indicator_am_rate.csv 
  #   needs: [generate_measures, generate_measures_demographics, calculate_composite_indicators]
  #   outputs:
  #     highly_sensitive:
  #       plots: output/indicator_saturation/indicator_saturation_*_am/figures/*.png
  #       rdat: output/indicator_saturation/indicator_saturation_*_am/*.RData
  #       csv: output/indicator_saturation/indicator_saturation_*_am/*_output_*.csv

  # combine_indicator_saturation_data:
  #   run: r:latest analysis/combine_indicator_saturation_output.R output/indicator_saturation output/indicator_saturation/combined
  #   needs: [indicator_saturation_a, indicator_saturation_b, indicator_saturation_c, indicator_saturation_d, indicator_saturation_e, indicator_saturation_f, indicator_saturation_g, indicator_saturation_i, indicator_saturation_k, indicator_saturation_ac, indicator_saturation_me_no_fbc, indicator_saturation_me_no_lft, indicator_saturation_li, indicator_saturation_am]
  #   outputs:
  #     highly_sensitive:
  #       compiled_indicator_saturation: output/indicator_saturation/combined/*
  
  run_tests:
    run: python:latest python -m pytest --junit-xml=output/pytest.xml --verbose
    outputs:
      moderately_sensitive:
        log: output/pytest.xml