Merge pull request #54 from opensafely/October_final

add region & ethn
opensafely · Oct 14, 2023 · a8fb354 · a8fb354
2 parents 824c1d1 + 937170b
commit a8fb354
Show file tree

Hide file tree

Showing 4 changed files with 71 additions and 22 deletions.
diff --git a/analysis/Descriptive_trends.R b/analysis/Descriptive_trends.R
@@ -1,7 +1,7 @@
 ### INFO
 # project: Project #: Prostate cancer prevalence
 # author: Agz Leman
-# March 2023
+# October 2023
 # Plots monthly rates 
 ###
 
@@ -67,7 +67,7 @@ p <- ggplot(data = Rates_rounded,aes(date, value2)) +
 p <- p + geom_vline(xintercept=as.Date(start, format="%Y-%m-%d"), size=0.3, colour="red")
 p <- p +  geom_text(aes(x=as.Date(start, format="%Y-%m-%d")+5, y=min(value2)+(sd(value2)*2)), 
                     color = "red",label="Start of\nrestrictions", angle = 90, size = 3)
-p <- p + labs(caption="OpenSafely-TPP March 2022")
+p <- p + labs(caption="OpenSafely-TPP October 2023")
 p <- p + theme(plot.caption = element_text(size=8))
 p <- p + theme(plot.title = element_text(size = 10))
 
@@ -78,9 +78,9 @@ ggsave(
 }
 
 for (i in c("measure_incidencebyAge_rate.csv","measure_incidencebyEthnicity_rate.csv",
-            "measure_incidencebyIMD_rate.csv",
+            "measure_incidencebyIMD_rate.csv","measure_incidencebyRegion_rate.csv",
             "measure_prevalencebyAge_rate.csv","measure_prevalencebyEthnicity_rate.csv",
-            "measure_prevalencebyIMD_rate.csv")){
+            "measure_prevalencebyIMD_rate.csv","measure_prevalencebyRegion_rate.csv")){
 
   Rates <- read_csv(here::here("output", "measures", i))
   Rates_rounded <- as.data.frame(Rates)
@@ -113,7 +113,7 @@ p <- ggplot(data = Rates_rounded,aes(date, value2, color = Rates_rounded[,1], lt
 p <- p + geom_vline(xintercept=as.Date(start, format="%Y-%m-%d"), size=0.3, colour="red")
 p <- p +  geom_text(aes(x=as.Date(start, format="%Y-%m-%d")+5, y=min(value2)+(sd(value2)*2)), 
                     color = "red",label="Start of\nrestrictions", angle = 90, size = 3)
-p <- p + labs(caption="OpenSafely-TPP March 2022")
+p <- p + labs(caption="OpenSafely-TPP October 2023")
 p <- p + theme(plot.caption = element_text(size=8))
 p <- p + theme(plot.title = element_text(size = 10))
 

diff --git a/analysis/study_definition_ethnicity.py b/analysis/study_definition_ethnicity.py
@@ -3,7 +3,7 @@
 from codelists import *
 
 start_date = "2015-01-01"
-end_date = "2022-10-01"#"today" is not working here? 
+end_date = "2023-08-01"#"today" is not working here? 
 
 study = StudyDefinition(
     default_expectations={

diff --git a/analysis/study_definition_rates.py b/analysis/study_definition_rates.py
@@ -57,13 +57,20 @@
         }
     ),
 ### age at diagnosis
-    age_pa_ca=patients.age_as_of(
+    ageP_pr_ca=patients.age_as_of(
         "prevalence_date",
         return_expectations={
             "rate": "exponential_increase",
             "int": {"distribution": "population_ages"},
         },
     ),
+    # ageI_pr_ca=patients.age_as_of(
+    #     "diagnosis_date",
+    #     return_expectations={
+    #         "rate": "exponential_increase",
+    #         "int": {"distribution": "population_ages"},
+    #     },
+    # ),
 ### incidence, NEW diagnosed that month
     # incid=patients.with_these_clinical_events(
     #     prostate_cancer_codes,
@@ -96,8 +103,11 @@
         """,
         diagnosis=patients.with_these_clinical_events(
             prostate_cancer_codes,
-            returning="binary_flag",
             find_first_match_in_period=True,
+            include_date_of_match=True,
+            include_month=True,
+            include_day=True,
+            returning="binary_flag",
             between=[
                 "first_day_of_month(index_date)",
                 "last_day_of_month(index_date)",
@@ -172,6 +182,25 @@
             },
         },
     ),
+    region=patients.registered_practice_as_of(
+        "index_date",
+        returning="nuts1_region_name",
+        return_expectations={
+            "rate": "universal",
+            "category": {
+                "ratios": {
+                    "North East": 0.1,
+                    "North West": 0.1,
+                    "Yorkshire and the Humber": 0.2,
+                    "East Midlands": 0.1,
+                    "West Midlands": 0.1,
+                    "East of England": 0.1,
+                    "London": 0.1,
+                    "South East": 0.2,
+                },
+            },
+        },
+    ),
 )
 
 measures = [
@@ -203,6 +232,13 @@
         group_by="age_group",
         small_number_suppression=True,
     ),
+    Measure(
+        id="prevalencebyRegion_rate",
+        numerator="prevalence",
+        denominator="population",
+        group_by="region",
+        small_number_suppression=True,
+    ),
     Measure(
         id="incidence_rate",
         numerator="incidence",
@@ -231,6 +267,13 @@
         group_by="age_group",
         small_number_suppression=True,
     ),
+    Measure(
+        id="incidencebyRegion_rate",
+        numerator="incidence",
+        denominator="population",
+        group_by="region",
+        small_number_suppression=True,
+    ),
     Measure(
         id="mortality_rate",
         numerator="died_prostate",

diff --git a/project.yaml b/project.yaml
@@ -28,13 +28,13 @@ actions:
         cohort: output/input.csv
 
   generate_rates_1:    
-    run: cohortextractor:latest generate_cohort --study-definition study_definition_rates --index-date-range "2015-01-01 to 2018-12-01 by month" --skip-existing --output-dir=output --output-format=feather
+    run: cohortextractor:latest generate_cohort --study-definition study_definition_rates --index-date-range "2015-01-01 to 2019-06-01 by month" --skip-existing --output-dir=output --output-format=feather
     outputs:      
       highly_sensitive:
         cohort: output/measures/inpu*.feather
 
   generate_rates_2:    
-    run: cohortextractor:latest generate_cohort --study-definition study_definition_rates --index-date-range "2019-01-01 to 2023-01-01 by month" --skip-existing --output-dir=output --output-format=feather
+    run: cohortextractor:latest generate_cohort --study-definition study_definition_rates --index-date-range "2019-07-01 to 2023-09-01 by month" --skip-existing --output-dir=output --output-format=feather
     outputs:      
       highly_sensitive:
         cohort: output/measures/inp*.feather
@@ -62,13 +62,15 @@ actions:
     outputs:
       moderately_sensitive:
         measure_csv1: output/measures/measure_prevalence*_rate.csv
-        measure_csv3: output/measures/measure_prevalencebyIMD*_rate.csv
-        measure_csv4: output/measures/measure_prevalencebyEthnicity*_rate.csv
-        measure_csv5: output/measures/measure_prevalencebyAge*_rate.csv
+        measure_csv2: output/measures/measure_prevalencebyIMD*_rate.csv
+        measure_csv3: output/measures/measure_prevalencebyEthnicity*_rate.csv
+        measure_csv4: output/measures/measure_prevalencebyAge*_rate.csv
+        measure_csv5: output/measures/measure_prevalencebyRegion*_rate.csv
         measure_csv6: output/measures/measure_incidence*_rate.csv
-        measure_csv8: output/measures/measure_incidencebyIMD*_rate.csv
-        measure_csv9: output/measures/measure_incidencebyEthnicity*_rate.csv
-        measure_csv10: output/measures/measure_incidencebyAge*_rate.csv
+        measure_csv7: output/measures/measure_incidencebyIMD*_rate.csv
+        measure_csv8: output/measures/measure_incidencebyEthnicity*_rate.csv
+        measure_csv9: output/measures/measure_incidencebyAge*_rate.csv
+        measure_csv10: output/measures/measure_incidencebyRegion*_rate.csv
         measure_csv11: output/measures/measure_mortality*_rate.csv
 
   describe_trends:
@@ -86,16 +88,20 @@ actions:
         Fig4: output/incidence_by_age_group.png
         Fig5: output/incidence_by_ethnicity.png
         Fig6: output/incidence_by_imd_cat.png
+        Fig7: output/incidence_by_region.png
         Fig8: output/prevalenc_by_age_group.png
         Fig9: output/prevalenc_by_ethnicity.png
         Fig10: output/prevalenc_by_imd_cat.png
+        Fig11: output/prevalenc_by_region.png
         csv1: output/Rates_rounded_prevalence.csv
-        csv3: output/Rates_rounded_prevalence_by_imd_cat.csv
-        csv4: output/Rates_rounded_prevalence_by_ethnicity.csv
-        csv5: output/Rates_rounded_prevalence_by_age_group.csv
+        csv2: output/Rates_rounded_prevalence_by_imd_cat.csv
+        csv3: output/Rates_rounded_prevalence_by_ethnicity.csv
+        csv4: output/Rates_rounded_prevalence_by_age_group.csv
+        csv5: output/Rates_rounded_prevalence_by_region.csv
         csv6: output/Rates_rounded_incidence.csv
-        csv8: output/Rates_rounded_incidence_by_imd_cat.csv
-        csv9: output/Rates_rounded_incidence_by_ethnicity.csv
-        csv10: output/Rates_rounded_incidence_by_age_group.csv
+        csv7: output/Rates_rounded_incidence_by_imd_cat.csv
+        csv8: output/Rates_rounded_incidence_by_ethnicity.csv
+        csv9: output/Rates_rounded_incidence_by_age_group.csv
+        csv10: output/Rates_rounded_incidence_by_region.csv
         csv11: output/Rates_rounded_died_prostate.csv
         csv12: output/Table1.csv