ucscXena · ayan-b · Sep 4, 2019 · Sep 4, 2019 · Sep 4, 2019 · Sep 4, 2019
diff --git a/xena_gdc_etl/constants.py b/xena_gdc_etl/constants.py
@@ -177,26 +177,67 @@
     },
     "GDC-PANCAN": {
         "fields": [
+            "demographic.age_at_index",
+            "demographic.created_datetime",
+            "demographic.days_to_birth",
+            "demographic.days_to_death",
+            "demographic.demographic_id",
+            "demographic.ethnicity",
+            "demographic.gender",
+            "demographic.race",
+            "demographic.state",
+            "demographic.submitter_id",
+            "demographic.updated_datetime",
+            "demographic.vital_status",
+            "demographic.year_of_birth",
+            "demographic.year_of_death",
+            "diagnoses.age_at_diagnosis",
+            "diagnoses.classification_of_tumor",
+            "diagnoses.created_datetime",
+            "diagnoses.days_to_diagnosis",
+            "diagnoses.days_to_last_follow_up",
+            "diagnoses.diagnosis_id",
+            "diagnoses.icd_10_code",
+            "diagnoses.last_known_disease_status",
+            "diagnoses.morphology",
+            "diagnoses.primary_diagnosis",
+            "diagnoses.prior_malignancy",
+            "diagnoses.prior_treatment",
+            "diagnoses.progression_or_recurrence",
+            "diagnoses.site_of_resection_or_biopsy",
+            "diagnoses.state",
+            "diagnoses.submitter_id",
+            "diagnoses.synchronous_malignancy",
+            "diagnoses.tissue_or_organ_of_origin",
+            "diagnoses.tumor_grade",
+            "diagnoses.tumor_stage",
+            "diagnoses.updated_datetime",
+            "diagnoses.year_of_diagnosis",
+            "exposures.alcohol_history",
+            "exposures.bmi",
+            "exposures.cigarettes_per_day",
+            "exposures.created_datetime",
+            "exposures.exposure_id",
+            "exposures.height",
+            "exposures.pack_years_smoked",
+            "exposures.state",
+            "exposures.submitter_id",
+            "exposures.updated_datetime",
+            "exposures.weight",
+            "exposures.years_smoked",
+            "id",
             "project.name",
             "project.project_id",
             "samples.is_ffpe",
             "samples.sample_id",
             "samples.sample_type",
             "samples.sample_type_id",
+            "samples.submitter_id",
             "samples.tissue_type",
-            "samples.tumor_code",
-            "samples.tumor_code_id",
-            "samples.tumor_descriptor",
             "tissue_source_site.name",
-            "samples.submitter_id",
-        ],
-        "expand": [
-            "demographic",
-            "diagnoses",
-            "exposures",
-            "family_histories",
         ],
-    }
+        "expand": [],
+    },
 }
 LIST_FIELDS = {
     "FISH_test_component",

diff --git a/xena_gdc_etl/xena_dataset.py b/xena_gdc_etl/xena_dataset.py
@@ -1857,6 +1857,33 @@ def __get_samples_clinical(self, projects, fields, expand):
         merged_df.drop(list(to_drops), axis=1, inplace=True)
         return merged_df
 
+    def __build_query_dict(self, projects):
+        """Builds the query dict that will be fed into ``gdc.search()``.
+
+        Args:
+            projects (list or str): one (str) or a list of GDC "project_id"(s).
+
+        Returns:
+            dict: A dictionary with projects, fields and expand as keys.
+        """
+
+        if not isinstance(projects, list):
+            projects = [projects]
+        fields = set()
+        modified_projects = []
+        for project in projects:
+            fields |= set(CASES_FIELDS_EXPANDS[project]["fields"])
+        modified_projects.extend(projects)
+        if "GDC-PANCAN" in projects:
+            modified_projects.extend(list(GDC_XENA_COHORT.keys()))
+            modified_projects.remove("GDC-PANCAN")
+        query_dict = {
+            "projects": modified_projects,
+            "fields": list(fields),
+            "expand": [],
+        }
+        return query_dict
+
     def __init__(
         self,
         projects,
@@ -1885,24 +1912,18 @@ def __init__(
         )
 
     def transform(self):
-        if self.projects == ["CPTAC-3"]:
-            xena_matrix = self.__get_samples_clinical(
-                projects=["CPTAC-3"],
-                fields=CASES_FIELDS_EXPANDS["CPTAC-3"]["fields"],
-                expand=CASES_FIELDS_EXPANDS["CPTAC-3"]["expand"],
-            )
-            xena_matrix = xena_matrix.set_index("samples.submitter_id")
-        elif self.projects == ["GDC-PANCAN"]:
-            xena_matrix = self.__get_samples_clinical(
-                projects=list(GDC_XENA_COHORT.keys()),
-                fields=CASES_FIELDS_EXPANDS["GDC-PANCAN"]["fields"],
-                expand=CASES_FIELDS_EXPANDS["GDC-PANCAN"]["expand"],
-            )
-            xena_matrix = (
-                xena_matrix
-                .dropna(axis=1, how="all")
-                .set_index("samples.submitter_id")
-            )
+        query_dict = self.__build_query_dict(self.projects)
+        xena_matrix = self.__get_samples_clinical(
+            projects=query_dict["projects"],
+            fields=query_dict["fields"],
+            expand=query_dict["expand"],
+        )
+        xena_matrix = (
+            xena_matrix
+            .dropna(axis=1, how="all")
+            .set_index("samples.submitter_id")
+        )
+        if "GDC-PANCAN" in self.projects:
             print('Dropping TCGA-**-****-**Z samples ...')
             xena_matrix = xena_matrix[~xena_matrix.index.str.endswith('Z')]
         print('\rSaving matrix to {} ...'.format(self.matrix), end='')