In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import scipy.stats
import tarfile as tar
import requests
import json
import re
import glob #for file import

In [2]:
# In order to get the full information, let's display always the entire df
pd.set_option('display.max_rows', None, 'display.max_columns', None)

# Part I: Data acquisition, formatting and clean-up

## Available data of the TCGA

The TCGA represents the most important medical database on cancer worldwide. It includes extensive clinical and sequencing data about patients suffering from cancers. All cancer entities have been included.

We will be working with patients suffering from primary non-small cell lung cancer. Furthermore, we will focus only on patients suffering from __lung adenocarcinoma__ or __lung squamous cell carcinoma__ which represent the most prevalent histological entities.

TCGA data can be accessed via the _GDC (Genomic Data Commons) Data portal_. This portal includes mainly sequencing information but also clinical information and for some cases scanned histological images. _Python_ can be used to retrieve easily data from the GDC API in order to use it for downstream analyses.

In [3]:
if not os.path.exists('TCGA'):
    os.makedirs('TCGA')

path = '/Users/philipp/Documents/GitHub/CAS-2020-21/Module_1-2/TCGA'
directory = os.listdir(path)

if len(directory) == 0:
    for f in glob.glob('./*.tar.gz'):
        tar = tar.open(f)
        tar.extractall(path = './TCGA')
        tar.close()

In [4]:
path = '/Users/philipp/Documents/GitHub/CAS-2020-21/Module_1-2/TCGA'
TCGA = [os.path.join(dir, f) for dir,_,fn in os.walk(path) for f in fn if f.endswith('tsv')]
df_famhist, df_clin, df_expos = [pd.read_csv(f, sep = '\t') for f in TCGA]

In [5]:
print(df_famhist.shape)
df_famhist.head(100)

(0, 9)


Unnamed: 0,case_id,case_submitter_id,project_id,relationship_age_at_diagnosis,relationship_gender,relationship_primary_diagnosis,relationship_type,relative_with_cancer_history,relatives_with_cancer_history_count


In [6]:
print(df_clin.shape)
df_clin.head(100)

(2052, 154)


Unnamed: 0,case_id,case_submitter_id,project_id,age_at_index,age_is_obfuscated,cause_of_death,cause_of_death_source,country_of_residence_at_enrollment,days_to_birth,days_to_death,ethnicity,gender,occupation_duration_years,premature_at_birth,race,vital_status,weeks_gestation_at_birth,year_of_birth,year_of_death,age_at_diagnosis,ajcc_clinical_m,ajcc_clinical_n,ajcc_clinical_stage,ajcc_clinical_t,ajcc_pathologic_m,ajcc_pathologic_n,ajcc_pathologic_stage,ajcc_pathologic_t,ajcc_staging_system_edition,anaplasia_present,anaplasia_present_type,ann_arbor_b_symptoms,ann_arbor_clinical_stage,ann_arbor_extranodal_involvement,ann_arbor_pathologic_stage,best_overall_response,breslow_thickness,burkitt_lymphoma_clinical_variant,child_pugh_classification,circumferential_resection_margin,classification_of_tumor,cog_liver_stage,cog_neuroblastoma_risk_group,cog_renal_stage,cog_rhabdomyosarcoma_risk_group,days_to_best_overall_response,days_to_diagnosis,days_to_last_follow_up,days_to_last_known_disease_status,days_to_recurrence,eln_risk_classification,enneking_msts_grade,enneking_msts_metastasis,enneking_msts_stage,enneking_msts_tumor_site,esophageal_columnar_dysplasia_degree,esophageal_columnar_metaplasia_present,figo_stage,figo_staging_edition_year,first_symptom_prior_to_diagnosis,gastric_esophageal_junction_involvement,gleason_grade_group,gleason_grade_tertiary,gleason_patterns_percent,goblet_cells_columnar_mucosa_present,greatest_tumor_dimension,gross_tumor_weight,icd_10_code,igcccg_stage,inpc_grade,inpc_histologic_group,inrg_stage,inss_stage,international_prognostic_index,irs_group,irs_stage,ishak_fibrosis_score,iss_stage,largest_extrapelvic_peritoneal_focus,last_known_disease_status,laterality,lymph_node_involved_site,lymph_nodes_positive,lymph_nodes_tested,lymphatic_invasion_present,margin_distance,margins_involved_site,masaoka_stage,medulloblastoma_molecular_classification,metastasis_at_diagnosis,metastasis_at_diagnosis_site,method_of_diagnosis,micropapillary_features,mitosis_karyorrhexis_index,mitotic_count,morphology,non_nodal_regional_disease,non_nodal_tumor_deposits,ovarian_specimen_status,ovarian_surface_involvement,papillary_renal_cell_type,percent_tumor_invasion,perineural_invasion_present,peripancreatic_lymph_nodes_positive,peripancreatic_lymph_nodes_tested,peritoneal_fluid_cytological_status,pregnant_at_diagnosis,primary_diagnosis,primary_gleason_grade,prior_malignancy,prior_treatment,progression_or_recurrence,residual_disease,satellite_nodule_present,secondary_gleason_grade,site_of_resection_or_biopsy,sites_of_involvement,supratentorial_localization,synchronous_malignancy,tissue_or_organ_of_origin,transglottic_extension,tumor_confined_to_organ_of_origin,tumor_depth,tumor_focality,tumor_grade,tumor_largest_dimension_diameter,tumor_regression_grade,tumor_stage,vascular_invasion_present,vascular_invasion_type,weiss_assessment_score,who_cns_grade,who_nte_grade,wilms_tumor_histologic_subtype,year_of_diagnosis,chemo_concurrent_to_radiation,days_to_treatment_end,days_to_treatment_start,initial_disease_status,number_of_cycles,reason_treatment_ended,regimen_or_line_of_therapy,therapeutic_agents,treatment_anatomic_site,treatment_arm,treatment_dose,treatment_dose_units,treatment_effect,treatment_effect_indicator,treatment_frequency,treatment_intent_type,treatment_or_therapy,treatment_outcome,treatment_type
0,14a4a93a-e24d-46f2-bee3-18bd792ef95a,TCGA-39-5019,TCGA-LUSC,70,'--,'--,'--,'--,-25756,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1934,'--,25756,'--,'--,'--,'--,M0,N0,Stage IB,T2a,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,3387,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,2004,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
1,14a4a93a-e24d-46f2-bee3-18bd792ef95a,TCGA-39-5019,TCGA-LUSC,70,'--,'--,'--,'--,-25756,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1934,'--,25756,'--,'--,'--,'--,M0,N0,Stage IB,T2a,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,3387,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,2004,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Radiation Therapy, NOS"
2,037c57d1-b4a5-45dc-bda4-0550461d321b,TCGA-22-1016,TCGA-LUSC,65,'--,'--,'--,'--,-24078,822,not hispanic or latino,male,'--,'--,white,Dead,'--,1936,2003,24078,'--,'--,'--,'--,M0,N0,Stage IB,T2,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,822,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.9,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lung, NOS",'--,'--,No,"Lung, NOS",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,2001,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
3,037c57d1-b4a5-45dc-bda4-0550461d321b,TCGA-22-1016,TCGA-LUSC,65,'--,'--,'--,'--,-24078,822,not hispanic or latino,male,'--,'--,white,Dead,'--,1936,2003,24078,'--,'--,'--,'--,M0,N0,Stage IB,T2,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,822,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.9,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lung, NOS",'--,'--,No,"Lung, NOS",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,2001,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Radiation Therapy, NOS"
4,a2d7c06b-efa9-4b7e-9ea6-b47c9ad6ef38,TCGA-63-A5MR,TCGA-LUSC,70,'--,'--,'--,'--,-25879,'--,not reported,female,'--,'--,not reported,Alive,'--,'--,'--,25879,'--,'--,'--,'--,M0,N0,Stage IB,T2,6th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,2716,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
5,a2d7c06b-efa9-4b7e-9ea6-b47c9ad6ef38,TCGA-63-A5MR,TCGA-LUSC,70,'--,'--,'--,'--,-25879,'--,not reported,female,'--,'--,not reported,Alive,'--,'--,'--,25879,'--,'--,'--,'--,M0,N0,Stage IB,T2,6th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,2716,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Radiation Therapy, NOS"
6,99daa971-31d0-4c37-9c12-b0dc42ddd19b,TCGA-J1-A4AH,TCGA-LUSC,70,'--,'--,'--,'--,-25893,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1942,'--,25893,'--,'--,'--,'--,MX,N0,Stage IIA,T2b,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,581,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lower lobe, lung",'--,'--,Yes,"Lower lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,yes,'--,"Pharmaceutical Therapy, NOS"
7,99daa971-31d0-4c37-9c12-b0dc42ddd19b,TCGA-J1-A4AH,TCGA-LUSC,70,'--,'--,'--,'--,-25893,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1942,'--,25893,'--,'--,'--,'--,MX,N0,Stage IIA,T2b,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,581,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lower lobe, lung",'--,'--,Yes,"Lower lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Radiation Therapy, NOS"
8,f400b427-954a-4f8a-a885-222e3e4c28ab,TCGA-33-AASJ,TCGA-LUSC,60,'--,'--,'--,'--,-22179,3600,not hispanic or latino,male,'--,'--,black or african american,Dead,'--,1939,2008,22179,'--,'--,'--,'--,MX,N0,Stage IB,T2,5th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,1999,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
9,f400b427-954a-4f8a-a885-222e3e4c28ab,TCGA-33-AASJ,TCGA-LUSC,60,'--,'--,'--,'--,-22179,3600,not hispanic or latino,male,'--,'--,black or african american,Dead,'--,1939,2008,22179,'--,'--,'--,'--,MX,N0,Stage IB,T2,5th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,1999,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Radiation Therapy, NOS"


In [7]:
df_clin = df_clin.drop_duplicates(subset = ['case_id'])
print(df_clin.shape)
df_clin.head(100)

(1026, 154)


Unnamed: 0,case_id,case_submitter_id,project_id,age_at_index,age_is_obfuscated,cause_of_death,cause_of_death_source,country_of_residence_at_enrollment,days_to_birth,days_to_death,ethnicity,gender,occupation_duration_years,premature_at_birth,race,vital_status,weeks_gestation_at_birth,year_of_birth,year_of_death,age_at_diagnosis,ajcc_clinical_m,ajcc_clinical_n,ajcc_clinical_stage,ajcc_clinical_t,ajcc_pathologic_m,ajcc_pathologic_n,ajcc_pathologic_stage,ajcc_pathologic_t,ajcc_staging_system_edition,anaplasia_present,anaplasia_present_type,ann_arbor_b_symptoms,ann_arbor_clinical_stage,ann_arbor_extranodal_involvement,ann_arbor_pathologic_stage,best_overall_response,breslow_thickness,burkitt_lymphoma_clinical_variant,child_pugh_classification,circumferential_resection_margin,classification_of_tumor,cog_liver_stage,cog_neuroblastoma_risk_group,cog_renal_stage,cog_rhabdomyosarcoma_risk_group,days_to_best_overall_response,days_to_diagnosis,days_to_last_follow_up,days_to_last_known_disease_status,days_to_recurrence,eln_risk_classification,enneking_msts_grade,enneking_msts_metastasis,enneking_msts_stage,enneking_msts_tumor_site,esophageal_columnar_dysplasia_degree,esophageal_columnar_metaplasia_present,figo_stage,figo_staging_edition_year,first_symptom_prior_to_diagnosis,gastric_esophageal_junction_involvement,gleason_grade_group,gleason_grade_tertiary,gleason_patterns_percent,goblet_cells_columnar_mucosa_present,greatest_tumor_dimension,gross_tumor_weight,icd_10_code,igcccg_stage,inpc_grade,inpc_histologic_group,inrg_stage,inss_stage,international_prognostic_index,irs_group,irs_stage,ishak_fibrosis_score,iss_stage,largest_extrapelvic_peritoneal_focus,last_known_disease_status,laterality,lymph_node_involved_site,lymph_nodes_positive,lymph_nodes_tested,lymphatic_invasion_present,margin_distance,margins_involved_site,masaoka_stage,medulloblastoma_molecular_classification,metastasis_at_diagnosis,metastasis_at_diagnosis_site,method_of_diagnosis,micropapillary_features,mitosis_karyorrhexis_index,mitotic_count,morphology,non_nodal_regional_disease,non_nodal_tumor_deposits,ovarian_specimen_status,ovarian_surface_involvement,papillary_renal_cell_type,percent_tumor_invasion,perineural_invasion_present,peripancreatic_lymph_nodes_positive,peripancreatic_lymph_nodes_tested,peritoneal_fluid_cytological_status,pregnant_at_diagnosis,primary_diagnosis,primary_gleason_grade,prior_malignancy,prior_treatment,progression_or_recurrence,residual_disease,satellite_nodule_present,secondary_gleason_grade,site_of_resection_or_biopsy,sites_of_involvement,supratentorial_localization,synchronous_malignancy,tissue_or_organ_of_origin,transglottic_extension,tumor_confined_to_organ_of_origin,tumor_depth,tumor_focality,tumor_grade,tumor_largest_dimension_diameter,tumor_regression_grade,tumor_stage,vascular_invasion_present,vascular_invasion_type,weiss_assessment_score,who_cns_grade,who_nte_grade,wilms_tumor_histologic_subtype,year_of_diagnosis,chemo_concurrent_to_radiation,days_to_treatment_end,days_to_treatment_start,initial_disease_status,number_of_cycles,reason_treatment_ended,regimen_or_line_of_therapy,therapeutic_agents,treatment_anatomic_site,treatment_arm,treatment_dose,treatment_dose_units,treatment_effect,treatment_effect_indicator,treatment_frequency,treatment_intent_type,treatment_or_therapy,treatment_outcome,treatment_type
0,14a4a93a-e24d-46f2-bee3-18bd792ef95a,TCGA-39-5019,TCGA-LUSC,70,'--,'--,'--,'--,-25756,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1934,'--,25756,'--,'--,'--,'--,M0,N0,Stage IB,T2a,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,3387,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,2004,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
2,037c57d1-b4a5-45dc-bda4-0550461d321b,TCGA-22-1016,TCGA-LUSC,65,'--,'--,'--,'--,-24078,822,not hispanic or latino,male,'--,'--,white,Dead,'--,1936,2003,24078,'--,'--,'--,'--,M0,N0,Stage IB,T2,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,822,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.9,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lung, NOS",'--,'--,No,"Lung, NOS",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,2001,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
4,a2d7c06b-efa9-4b7e-9ea6-b47c9ad6ef38,TCGA-63-A5MR,TCGA-LUSC,70,'--,'--,'--,'--,-25879,'--,not reported,female,'--,'--,not reported,Alive,'--,'--,'--,25879,'--,'--,'--,'--,M0,N0,Stage IB,T2,6th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,2716,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
6,99daa971-31d0-4c37-9c12-b0dc42ddd19b,TCGA-J1-A4AH,TCGA-LUSC,70,'--,'--,'--,'--,-25893,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1942,'--,25893,'--,'--,'--,'--,MX,N0,Stage IIA,T2b,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,581,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lower lobe, lung",'--,'--,Yes,"Lower lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,yes,'--,"Pharmaceutical Therapy, NOS"
8,f400b427-954a-4f8a-a885-222e3e4c28ab,TCGA-33-AASJ,TCGA-LUSC,60,'--,'--,'--,'--,-22179,3600,not hispanic or latino,male,'--,'--,black or african american,Dead,'--,1939,2008,22179,'--,'--,'--,'--,MX,N0,Stage IB,T2,5th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,1999,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
10,2a0b4559-5ece-4b79-9c89-2ebe7cf82905,TCGA-56-A5DR,TCGA-LUSC,81,'--,'--,'--,'--,-29828,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1931,'--,29828,'--,'--,'--,'--,MX,N0,Stage IA,T1a,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,4,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,yes,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
12,7224cb42-6799-405f-819d-d45b1cef075e,TCGA-22-A5C4,TCGA-LUSC,70,'--,'--,'--,'--,-25629,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1942,'--,25629,'--,'--,'--,'--,M0,N0,Stage IIA,T2b,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,671,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,yes,No,not reported,'--,'--,'--,"Lower lobe, lung",'--,'--,No,"Lower lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
14,f7287eb4-c77d-4c67-a768-87fcccd668f5,TCGA-70-6722,TCGA-LUSC,47,'--,'--,'--,'--,-17328,'--,not hispanic or latino,male,'--,'--,asian,Alive,'--,1963,'--,17328,'--,'--,'--,'--,M0,N1,Stage IIIA,T3,6th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,367,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iiia,'--,'--,'--,'--,'--,'--,2010,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
16,636d0804-8a63-4bd0-86b4-dc1dc71da8b7,TCGA-77-8146,TCGA-LUSC,72,'--,'--,'--,'--,-26533,'--,not reported,male,'--,'--,not reported,Alive,'--,1933,'--,26533,'--,'--,'--,'--,M0,N0,Stage IA,T1,6th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,3189,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ia,'--,'--,'--,'--,'--,'--,2005,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS"
18,aeb67cc2-1573-4782-a6f8-baef7c2c5c47,TCGA-94-8491,TCGA-LUSC,73,'--,'--,'--,'--,-26698,'--,not reported,male,'--,'--,white,Alive,'--,1939,'--,26698,'--,'--,'--,'--,M0,N1,Stage IIA,T2a,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,810,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lower lobe, lung",'--,'--,No,"Lower lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Radiation Therapy, NOS"


In [8]:
print(df_expos.shape)
df_expos.head(100)

(1026, 33)


Unnamed: 0,case_id,case_submitter_id,project_id,age_at_onset,alcohol_days_per_week,alcohol_drinks_per_day,alcohol_history,alcohol_intensity,alcohol_type,asbestos_exposure,bmi,cigarettes_per_day,coal_dust_exposure,environmental_tobacco_smoke_exposure,exposure_duration,exposure_type,height,marijuana_use_per_week,pack_years_smoked,radon_exposure,respirable_crystalline_silica_exposure,secondhand_smoke_as_child,smokeless_tobacco_quit_age,smoking_frequency,time_between_waking_and_first_smoke,tobacco_smoking_onset_year,tobacco_smoking_quit_year,tobacco_smoking_status,tobacco_use_per_day,type_of_smoke_exposure,type_of_tobacco_used,weight,years_smoked
0,14a4a93a-e24d-46f2-bee3-18bd792ef95a,TCGA-39-5019,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,1.643835616438356,'--,'--,'--,'--,'--,'--,30.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
1,037c57d1-b4a5-45dc-bda4-0550461d321b,TCGA-22-1016,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,2.191780821917808,'--,'--,'--,'--,'--,'--,40.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,30.0
2,a2d7c06b-efa9-4b7e-9ea6-b47c9ad6ef38,TCGA-63-A5MR,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,6.575342465753424,'--,'--,'--,'--,'--,'--,120.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,40.0
3,99daa971-31d0-4c37-9c12-b0dc42ddd19b,TCGA-J1-A4AH,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,5.47945205479452,'--,'--,'--,'--,'--,'--,100.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
4,f400b427-954a-4f8a-a885-222e3e4c28ab,TCGA-33-AASJ,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8.0
5,2a0b4559-5ece-4b79-9c89-2ebe7cf82905,TCGA-56-A5DR,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
6,7224cb42-6799-405f-819d-d45b1cef075e,TCGA-22-A5C4,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,4.383561643835616,'--,'--,'--,'--,'--,'--,80.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,52.0
7,f7287eb4-c77d-4c67-a768-87fcccd668f5,TCGA-70-6722,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
8,636d0804-8a63-4bd0-86b4-dc1dc71da8b7,TCGA-77-8146,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,4.109589041095891,'--,'--,'--,'--,'--,'--,75.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
9,aeb67cc2-1573-4782-a6f8-baef7c2c5c47,TCGA-94-8491,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,3.0684931506849313,'--,'--,'--,'--,'--,'--,56.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,28.0


In [9]:
df_TCGA = pd.merge(df_clin, df_expos, how = 'left', on = 'case_id')
print(df_TCGA.shape)
df_TCGA.head(100)

(1026, 186)


Unnamed: 0,case_id,case_submitter_id_x,project_id_x,age_at_index,age_is_obfuscated,cause_of_death,cause_of_death_source,country_of_residence_at_enrollment,days_to_birth,days_to_death,ethnicity,gender,occupation_duration_years,premature_at_birth,race,vital_status,weeks_gestation_at_birth,year_of_birth,year_of_death,age_at_diagnosis,ajcc_clinical_m,ajcc_clinical_n,ajcc_clinical_stage,ajcc_clinical_t,ajcc_pathologic_m,ajcc_pathologic_n,ajcc_pathologic_stage,ajcc_pathologic_t,ajcc_staging_system_edition,anaplasia_present,anaplasia_present_type,ann_arbor_b_symptoms,ann_arbor_clinical_stage,ann_arbor_extranodal_involvement,ann_arbor_pathologic_stage,best_overall_response,breslow_thickness,burkitt_lymphoma_clinical_variant,child_pugh_classification,circumferential_resection_margin,classification_of_tumor,cog_liver_stage,cog_neuroblastoma_risk_group,cog_renal_stage,cog_rhabdomyosarcoma_risk_group,days_to_best_overall_response,days_to_diagnosis,days_to_last_follow_up,days_to_last_known_disease_status,days_to_recurrence,eln_risk_classification,enneking_msts_grade,enneking_msts_metastasis,enneking_msts_stage,enneking_msts_tumor_site,esophageal_columnar_dysplasia_degree,esophageal_columnar_metaplasia_present,figo_stage,figo_staging_edition_year,first_symptom_prior_to_diagnosis,gastric_esophageal_junction_involvement,gleason_grade_group,gleason_grade_tertiary,gleason_patterns_percent,goblet_cells_columnar_mucosa_present,greatest_tumor_dimension,gross_tumor_weight,icd_10_code,igcccg_stage,inpc_grade,inpc_histologic_group,inrg_stage,inss_stage,international_prognostic_index,irs_group,irs_stage,ishak_fibrosis_score,iss_stage,largest_extrapelvic_peritoneal_focus,last_known_disease_status,laterality,lymph_node_involved_site,lymph_nodes_positive,lymph_nodes_tested,lymphatic_invasion_present,margin_distance,margins_involved_site,masaoka_stage,medulloblastoma_molecular_classification,metastasis_at_diagnosis,metastasis_at_diagnosis_site,method_of_diagnosis,micropapillary_features,mitosis_karyorrhexis_index,mitotic_count,morphology,non_nodal_regional_disease,non_nodal_tumor_deposits,ovarian_specimen_status,ovarian_surface_involvement,papillary_renal_cell_type,percent_tumor_invasion,perineural_invasion_present,peripancreatic_lymph_nodes_positive,peripancreatic_lymph_nodes_tested,peritoneal_fluid_cytological_status,pregnant_at_diagnosis,primary_diagnosis,primary_gleason_grade,prior_malignancy,prior_treatment,progression_or_recurrence,residual_disease,satellite_nodule_present,secondary_gleason_grade,site_of_resection_or_biopsy,sites_of_involvement,supratentorial_localization,synchronous_malignancy,tissue_or_organ_of_origin,transglottic_extension,tumor_confined_to_organ_of_origin,tumor_depth,tumor_focality,tumor_grade,tumor_largest_dimension_diameter,tumor_regression_grade,tumor_stage,vascular_invasion_present,vascular_invasion_type,weiss_assessment_score,who_cns_grade,who_nte_grade,wilms_tumor_histologic_subtype,year_of_diagnosis,chemo_concurrent_to_radiation,days_to_treatment_end,days_to_treatment_start,initial_disease_status,number_of_cycles,reason_treatment_ended,regimen_or_line_of_therapy,therapeutic_agents,treatment_anatomic_site,treatment_arm,treatment_dose,treatment_dose_units,treatment_effect,treatment_effect_indicator,treatment_frequency,treatment_intent_type,treatment_or_therapy,treatment_outcome,treatment_type,case_submitter_id_y,project_id_y,age_at_onset,alcohol_days_per_week,alcohol_drinks_per_day,alcohol_history,alcohol_intensity,alcohol_type,asbestos_exposure,bmi,cigarettes_per_day,coal_dust_exposure,environmental_tobacco_smoke_exposure,exposure_duration,exposure_type,height,marijuana_use_per_week,pack_years_smoked,radon_exposure,respirable_crystalline_silica_exposure,secondhand_smoke_as_child,smokeless_tobacco_quit_age,smoking_frequency,time_between_waking_and_first_smoke,tobacco_smoking_onset_year,tobacco_smoking_quit_year,tobacco_smoking_status,tobacco_use_per_day,type_of_smoke_exposure,type_of_tobacco_used,weight,years_smoked
0,14a4a93a-e24d-46f2-bee3-18bd792ef95a,TCGA-39-5019,TCGA-LUSC,70,'--,'--,'--,'--,-25756,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1934,'--,25756,'--,'--,'--,'--,M0,N0,Stage IB,T2a,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,3387,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,2004,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS",TCGA-39-5019,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,1.643835616438356,'--,'--,'--,'--,'--,'--,30.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
1,037c57d1-b4a5-45dc-bda4-0550461d321b,TCGA-22-1016,TCGA-LUSC,65,'--,'--,'--,'--,-24078,822,not hispanic or latino,male,'--,'--,white,Dead,'--,1936,2003,24078,'--,'--,'--,'--,M0,N0,Stage IB,T2,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,822,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.9,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lung, NOS",'--,'--,No,"Lung, NOS",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,2001,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS",TCGA-22-1016,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,2.191780821917808,'--,'--,'--,'--,'--,'--,40.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,30.0
2,a2d7c06b-efa9-4b7e-9ea6-b47c9ad6ef38,TCGA-63-A5MR,TCGA-LUSC,70,'--,'--,'--,'--,-25879,'--,not reported,female,'--,'--,not reported,Alive,'--,'--,'--,25879,'--,'--,'--,'--,M0,N0,Stage IB,T2,6th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,2716,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS",TCGA-63-A5MR,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,6.575342465753424,'--,'--,'--,'--,'--,'--,120.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,40.0
3,99daa971-31d0-4c37-9c12-b0dc42ddd19b,TCGA-J1-A4AH,TCGA-LUSC,70,'--,'--,'--,'--,-25893,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1942,'--,25893,'--,'--,'--,'--,MX,N0,Stage IIA,T2b,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,581,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lower lobe, lung",'--,'--,Yes,"Lower lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,yes,'--,"Pharmaceutical Therapy, NOS",TCGA-J1-A4AH,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,5.47945205479452,'--,'--,'--,'--,'--,'--,100.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
4,f400b427-954a-4f8a-a885-222e3e4c28ab,TCGA-33-AASJ,TCGA-LUSC,60,'--,'--,'--,'--,-22179,3600,not hispanic or latino,male,'--,'--,black or african american,Dead,'--,1939,2008,22179,'--,'--,'--,'--,MX,N0,Stage IB,T2,5th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ib,'--,'--,'--,'--,'--,'--,1999,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS",TCGA-33-AASJ,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8.0
5,2a0b4559-5ece-4b79-9c89-2ebe7cf82905,TCGA-56-A5DR,TCGA-LUSC,81,'--,'--,'--,'--,-29828,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1931,'--,29828,'--,'--,'--,'--,MX,N0,Stage IA,T1a,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,4,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,yes,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS",TCGA-56-A5DR,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
6,7224cb42-6799-405f-819d-d45b1cef075e,TCGA-22-A5C4,TCGA-LUSC,70,'--,'--,'--,'--,-25629,'--,not hispanic or latino,male,'--,'--,white,Alive,'--,1942,'--,25629,'--,'--,'--,'--,M0,N0,Stage IIA,T2b,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,671,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,yes,No,not reported,'--,'--,'--,"Lower lobe, lung",'--,'--,No,"Lower lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS",TCGA-22-A5C4,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,4.383561643835616,'--,'--,'--,'--,'--,'--,80.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,52.0
7,f7287eb4-c77d-4c67-a768-87fcccd668f5,TCGA-70-6722,TCGA-LUSC,47,'--,'--,'--,'--,-17328,'--,not hispanic or latino,male,'--,'--,asian,Alive,'--,1963,'--,17328,'--,'--,'--,'--,M0,N1,Stage IIIA,T3,6th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,367,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iiia,'--,'--,'--,'--,'--,'--,2010,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS",TCGA-70-6722,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
8,636d0804-8a63-4bd0-86b4-dc1dc71da8b7,TCGA-77-8146,TCGA-LUSC,72,'--,'--,'--,'--,-26533,'--,not reported,male,'--,'--,not reported,Alive,'--,1933,'--,26533,'--,'--,'--,'--,M0,N0,Stage IA,T1,6th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,3189,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.1,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Upper lobe, lung",'--,'--,No,"Upper lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage ia,'--,'--,'--,'--,'--,'--,2005,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Pharmaceutical Therapy, NOS",TCGA-77-8146,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,4.109589041095891,'--,'--,'--,'--,'--,'--,75.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--
9,aeb67cc2-1573-4782-a6f8-baef7c2c5c47,TCGA-94-8491,TCGA-LUSC,73,'--,'--,'--,'--,-26698,'--,not reported,male,'--,'--,white,Alive,'--,1939,'--,26698,'--,'--,'--,'--,M0,N1,Stage IIA,T2a,7th,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,0,810,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,C34.3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,not reported,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,8070/3,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,"Squamous cell carcinoma, NOS",'--,no,No,not reported,'--,'--,'--,"Lower lobe, lung",'--,'--,No,"Lower lobe, lung",'--,'--,'--,'--,not reported,'--,'--,stage iia,'--,'--,'--,'--,'--,'--,2012,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,no,'--,"Radiation Therapy, NOS",TCGA-94-8491,TCGA-LUSC,'--,'--,'--,Not Reported,'--,'--,'--,'--,3.0684931506849313,'--,'--,'--,'--,'--,'--,56.0,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,'--,28.0


In [10]:
df_TCGA.dtypes

case_id                                     object
case_submitter_id_x                         object
project_id_x                                object
age_at_index                                object
age_is_obfuscated                           object
cause_of_death                              object
cause_of_death_source                       object
country_of_residence_at_enrollment          object
days_to_birth                               object
days_to_death                               object
ethnicity                                   object
gender                                      object
occupation_duration_years                   object
premature_at_birth                          object
race                                        object
vital_status                                object
weeks_gestation_at_birth                    object
year_of_birth                               object
year_of_death                               object
age_at_diagnosis               

In [11]:
TCGA_interesting = df_TCGA[['case_id', 'age_at_index', 'days_to_death', 'gender', 'vital_status', 'ajcc_pathologic_stage', 'days_to_last_follow_up', 'primary_diagnosis', 'pack_years_smoked']]
print(TCGA_interesting.shape)
TCGA_interesting.head(100)

(1026, 9)


Unnamed: 0,case_id,age_at_index,days_to_death,gender,vital_status,ajcc_pathologic_stage,days_to_last_follow_up,primary_diagnosis,pack_years_smoked
0,14a4a93a-e24d-46f2-bee3-18bd792ef95a,70,'--,male,Alive,Stage IB,3387,"Squamous cell carcinoma, NOS",30.0
1,037c57d1-b4a5-45dc-bda4-0550461d321b,65,822,male,Dead,Stage IB,822,"Squamous cell carcinoma, NOS",40.0
2,a2d7c06b-efa9-4b7e-9ea6-b47c9ad6ef38,70,'--,female,Alive,Stage IB,2716,"Squamous cell carcinoma, NOS",120.0
3,99daa971-31d0-4c37-9c12-b0dc42ddd19b,70,'--,male,Alive,Stage IIA,581,"Squamous cell carcinoma, NOS",100.0
4,f400b427-954a-4f8a-a885-222e3e4c28ab,60,3600,male,Dead,Stage IB,'--,"Squamous cell carcinoma, NOS",'--
5,2a0b4559-5ece-4b79-9c89-2ebe7cf82905,81,'--,male,Alive,Stage IA,4,"Squamous cell carcinoma, NOS",'--
6,7224cb42-6799-405f-819d-d45b1cef075e,70,'--,male,Alive,Stage IIA,671,"Squamous cell carcinoma, NOS",80.0
7,f7287eb4-c77d-4c67-a768-87fcccd668f5,47,'--,male,Alive,Stage IIIA,367,"Squamous cell carcinoma, NOS",'--
8,636d0804-8a63-4bd0-86b4-dc1dc71da8b7,72,'--,male,Alive,Stage IA,3189,"Squamous cell carcinoma, NOS",75.0
9,aeb67cc2-1573-4782-a6f8-baef7c2c5c47,73,'--,male,Alive,Stage IIA,810,"Squamous cell carcinoma, NOS",56.0


In [12]:
TCGA_interesting['OS'] = TCGA_interesting.apply(
    lambda row: row['days_to_death'] if row['days_to_last_follow_up'] == '\'--' else row['days_to_last_follow_up'],
    axis=1
)
TCGA_interesting.head(100)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  TCGA_interesting['OS'] = TCGA_interesting.apply(


Unnamed: 0,case_id,age_at_index,days_to_death,gender,vital_status,ajcc_pathologic_stage,days_to_last_follow_up,primary_diagnosis,pack_years_smoked,OS
0,14a4a93a-e24d-46f2-bee3-18bd792ef95a,70,'--,male,Alive,Stage IB,3387,"Squamous cell carcinoma, NOS",30.0,3387
1,037c57d1-b4a5-45dc-bda4-0550461d321b,65,822,male,Dead,Stage IB,822,"Squamous cell carcinoma, NOS",40.0,822
2,a2d7c06b-efa9-4b7e-9ea6-b47c9ad6ef38,70,'--,female,Alive,Stage IB,2716,"Squamous cell carcinoma, NOS",120.0,2716
3,99daa971-31d0-4c37-9c12-b0dc42ddd19b,70,'--,male,Alive,Stage IIA,581,"Squamous cell carcinoma, NOS",100.0,581
4,f400b427-954a-4f8a-a885-222e3e4c28ab,60,3600,male,Dead,Stage IB,'--,"Squamous cell carcinoma, NOS",'--,3600
5,2a0b4559-5ece-4b79-9c89-2ebe7cf82905,81,'--,male,Alive,Stage IA,4,"Squamous cell carcinoma, NOS",'--,4
6,7224cb42-6799-405f-819d-d45b1cef075e,70,'--,male,Alive,Stage IIA,671,"Squamous cell carcinoma, NOS",80.0,671
7,f7287eb4-c77d-4c67-a768-87fcccd668f5,47,'--,male,Alive,Stage IIIA,367,"Squamous cell carcinoma, NOS",'--,367
8,636d0804-8a63-4bd0-86b4-dc1dc71da8b7,72,'--,male,Alive,Stage IA,3189,"Squamous cell carcinoma, NOS",75.0,3189
9,aeb67cc2-1573-4782-a6f8-baef7c2c5c47,73,'--,male,Alive,Stage IIA,810,"Squamous cell carcinoma, NOS",56.0,810


In [13]:
TCGA_interesting = TCGA_interesting.replace('\'--', np.NaN)
TCGA_interesting = TCGA_interesting.dropna(subset = ['OS', 'ajcc_pathologic_stage', 'vital_status'])
print(TCGA_interesting.shape)
TCGA_interesting.head(100)

(999, 10)


Unnamed: 0,case_id,age_at_index,days_to_death,gender,vital_status,ajcc_pathologic_stage,days_to_last_follow_up,primary_diagnosis,pack_years_smoked,OS
0,14a4a93a-e24d-46f2-bee3-18bd792ef95a,70.0,,male,Alive,Stage IB,3387.0,"Squamous cell carcinoma, NOS",30.0,3387
1,037c57d1-b4a5-45dc-bda4-0550461d321b,65.0,822.0,male,Dead,Stage IB,822.0,"Squamous cell carcinoma, NOS",40.0,822
2,a2d7c06b-efa9-4b7e-9ea6-b47c9ad6ef38,70.0,,female,Alive,Stage IB,2716.0,"Squamous cell carcinoma, NOS",120.0,2716
3,99daa971-31d0-4c37-9c12-b0dc42ddd19b,70.0,,male,Alive,Stage IIA,581.0,"Squamous cell carcinoma, NOS",100.0,581
4,f400b427-954a-4f8a-a885-222e3e4c28ab,60.0,3600.0,male,Dead,Stage IB,,"Squamous cell carcinoma, NOS",,3600
5,2a0b4559-5ece-4b79-9c89-2ebe7cf82905,81.0,,male,Alive,Stage IA,4.0,"Squamous cell carcinoma, NOS",,4
6,7224cb42-6799-405f-819d-d45b1cef075e,70.0,,male,Alive,Stage IIA,671.0,"Squamous cell carcinoma, NOS",80.0,671
7,f7287eb4-c77d-4c67-a768-87fcccd668f5,47.0,,male,Alive,Stage IIIA,367.0,"Squamous cell carcinoma, NOS",,367
8,636d0804-8a63-4bd0-86b4-dc1dc71da8b7,72.0,,male,Alive,Stage IA,3189.0,"Squamous cell carcinoma, NOS",75.0,3189
9,aeb67cc2-1573-4782-a6f8-baef7c2c5c47,73.0,,male,Alive,Stage IIA,810.0,"Squamous cell carcinoma, NOS",56.0,810


In [17]:
conditions_TCGAsurv = [
    (TCGA_interesting['vital_status'] == 'Dead'),
    (TCGA_interesting['vital_status'] == 'Alive')
]
values_TCGAsurv = [1, 0]
TCGA_interesting['STATOS'] = np.select(conditions_TCGAsurv, values_TCGAsurv)

conditions_TCGAstage = [
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage I'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage IA'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage IB'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage II'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage IIA'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage IIB'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage III'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage IIIA'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage IIIB'),
    (TCGA_interesting['ajcc_pathologic_stage'] == 'Stage IV')
]
values_TCGAstage = [10, 11, 12, 20, 21, 22, 30, 31, 32, 40]
TCGA_interesting['stage_short'] = np.select(conditions_TCGAstage, values_TCGAstage)

conditions_TCGAstage = [
    (TCGA_interesting['stage_short'] < 20),
    (TCGA_interesting['stage_short'] < 30),
    (TCGA_interesting['stage_short'] < 40),
    (TCGA_interesting['stage_short'] == 40)
]
values_TCGAstage = ['Stage I', 'Stage II', 'Stage III', 'Stage IV']
TCGA_interesting['stage_short'] = np.select(conditions_TCGAstage, values_TCGAstage)

TCGA_interesting['stage_short'] = TCGA_interesting['stage_short'].astype('category')
TCGA_interesting['OS'] = TCGA_interesting['OS'].astype('int64')
TCGA_interesting['gender'] = TCGA_interesting['gender'].astype('category')
TCGA_interesting['age_at_index'] = TCGA_interesting['age_at_index'].astype('float', errors = 'raise')
TCGA_interesting['pack_years_smoked'] = TCGA_interesting['pack_years_smoked'].astype('float', errors = 'ignore')

In [18]:
TCGA_interesting.dtypes

case_id                     object
age_at_index               float64
days_to_death               object
gender                    category
vital_status                object
ajcc_pathologic_stage       object
days_to_last_follow_up      object
primary_diagnosis           object
pack_years_smoked          float64
OS                           int64
STATOS                       int64
stage_short               category
dtype: object

## Available data from the Bernese cohort

The Bernese cohort was assembled in order to study potential biomarkers in lung cancer patients which received neoadjuvant treatment. The initial cohort was assembled using the digital pathological file system of the _Institute of Pathology_ of the _University of Bern_. The study cohort consists of resections obtained after neoadjuvant therapy and this cohort was matched to a control cohort of primary resections of lung adeno- or squamous cell carcinoma. The whole dataset is available as a _.csv_ file.

In [None]:
# For all further survival analyses, we need additionally the timespan (i.e. month until death or last follow up)
df = pd.read_csv('/Users/philipp/Documents/University/CAS_ADS/Module_2/RAW_DatasetNeoadjuvantCancers_20200910.csv', sep = ';', header = 0)
df['start_date'] = pd.to_datetime(df['ED'], dayfirst = True)
df['stop_date_OS'] = pd.to_datetime(df['LFU'], dayfirst = True)
df['OS'] = ((df['stop_date_OS'] - df['start_date']) / np.timedelta64(1, 'M'))
df

In [None]:
# We see that one case does not have an age -> This was a second tumor in the same patients and should not be used for further analyses
df_invalid_DOB = df[df['AGE'].isna()]
df_invalid_DOB
df = df.dropna(subset = ['AGE'])

In [None]:
# Cases with NEOCAT = 2 are excluded. They received treatment prior resection but not in neoadjuvant intention.
df_valid = df[df['NEOCAT'] != 2]
# Most of the following analyses will compare the study and control cohort. We will thus create a clearer grouping variable.
conditions_treatment = [
    (df_valid['NEOCAT'] < 3),
    (df_valid['NEOCAT'] == 3)
]
values_treatment = ['Neoadjuvant', 'Primary']
df_valid['group'] = np.select(conditions_treatment, values_treatment)
df_valid

# Part II: Data Analysis

## Stage dependent survival in the TCGA cohort

In [24]:
for c in TCGA_interesting[['gender', 'stage_short']]:
    print(TCGA_interesting[c].value_counts())
    print()

male      598
female    401
Name: gender, dtype: int64

Stage I      518
Stage II     282
Stage III    166
Stage IV      33
Name: stage_short, dtype: int64



In [28]:
for c in TCGA_interesting[['age_at_index', 'pack_years_smoked']]:
    print(TCGA_interesting[c].mean())

66.31637843336725
48.20835071707953


In [None]:
from lifelines import KaplanMeierFitter
from lifelines.utils import median_survival_times
from lifelines.statistics import multivariate_logrank_test
kmf_TCGA = KaplanMeierFitter()

In [None]:
kmf_TCGA.fit(durations = TCGA_interesting['last_contact_days_to'], event_observed = TCGA_interesting['STATOS'], label = 'Overall')

In [None]:
ax_TCGA = kmf_TCGA.plot_survival_function(at_risk_counts = True)
ax_TCGA.set(title = 'Overall Survival of the TCGA data', xlabel = 'Overall Survival [days]', ylabel = 'Cumulative Survival')
plt.grid(True)
plt.tight_layout()
plt.savefig('/Users/philipp/Documents/GitHub/CAS-2020-21/FIG_TCGAoverall.png', format = 'png')

In [None]:
median_TCGA = kmf_TCGA.median_survival_time_
CI_TCGA = median_survival_times(kmf_TCGA.confidence_interval_)
print(median_TCGA, CI_TCGA)

In [None]:
kmf = KaplanMeierFitter()

ax_TCGAstage = plt.subplot(111)

for name, grouped_df in TCGA_interesting.groupby('stage_short'):
    kmf.fit(grouped_df['last_contact_days_to'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_TCGAstage)
    plt.title('Overall Survival TCGA according to stages')
    plt.xlabel('Overall Survival [days]')
    plt.ylabel('Cumulative Survival')

In [None]:
TCGA_interesting.stage_short.value_counts()

In [None]:
TCGA_reduced = TCGA_interesting[TCGA_interesting['stage_short'] != 'Stage IV']

ax_TCGAstage = plt.subplot(111)

for name, grouped_df in TCGA_reduced.groupby('stage_short'):
    kmf.fit(grouped_df['last_contact_days_to'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_TCGAstage)
    plt.title('Overall Survival TCGA according to stages')
    plt.xlabel('Overall Survival [days]')
    plt.ylabel('Cumulative Survival')
    
plt.savefig('/Users/philipp/Documents/GitHub/CAS-2020-21/FIG_SurvivalTCGA.png', format = 'png')

In [None]:
TCGA_reduced['stage_short'] = TCGA_reduced['stage_short'].astype('category').cat.codes 
TCGA_reduced['last_contact_days_to'] = TCGA_reduced['last_contact_days_to'].astype('int64')

results_TCGA = multivariate_logrank_test(TCGA_reduced['last_contact_days_to'], TCGA_reduced['stage_short'], TCGA_reduced['STATOS'])
print('Statistics: {0:.2f}, p-value: {1:.3f}.'.format(results_TCGA.test_statistic, results_TCGA.p_value))

In [None]:
kmf_TCGAI = KaplanMeierFitter()
kmf_TCGAII = KaplanMeierFitter()
kmf_TCGAIII = KaplanMeierFitter()

TCGAI = TCGA_reduced.query('stage_short == 0')
TCGAII = TCGA_reduced.query('stage_short == 1')
TCGAIII = TCGA_reduced.query('stage_short == 2')

In [None]:
kmf_TCGAI.fit(durations = TCGAI['last_contact_days_to'], event_observed = TCGAI['STATOS'], label = 'Stage I')
kmf_TCGAII.fit(durations = TCGAII['last_contact_days_to'], event_observed = TCGAII['STATOS'], label = 'Stage II')
kmf_TCGAIII.fit(durations = TCGAIII['last_contact_days_to'], event_observed = TCGAIII['STATOS'], label = 'Stage III')

In [None]:
OSMed_TCGAI = kmf_TCGAI.median_survival_time_
OSMed_TCGAII = kmf_TCGAII.median_survival_time_
OSMed_TCGAIII = kmf_TCGAIII.median_survival_time_
OSCI_TCGAI = median_survival_times(kmf_TCGAI.confidence_interval_)
OSCI_TCGAII = median_survival_times(kmf_TCGAII.confidence_interval_)
OSCI_TCGAIII = median_survival_times(kmf_TCGAIII.confidence_interval_)
print(OSMed_TCGAI, OSCI_TCGAI)
print(OSMed_TCGAII, OSCI_TCGAII)
print(OSMed_TCGAIII, OSCI_TCGAIII)

## Comparison of the _study_ and _control_ cohort

In [None]:
# The control cohort does include only adeno- or squamous cell carcinomas. For comparison, we will thus exclude all neoadjuvant cases with other histology than LUAD or LUSC
df_comparison = df_valid[df_valid['HISTO'] < 3].dropna(subset = ['STATOS'])

### Categorical variables - data clean up & category merging

In [None]:
# Some of the categorical variables have a lot of small categories. We will look at these in order to decide which one to simplify
for column in df_comparison[['pT_TNM8', 'Stage_TNM8', 'SMOKING', 'RTYPE', 'R', 'ADJ']]:
    print(pd.crosstab(index = df_comparison[column], columns = df_comparison['group']))
    print()

In [None]:
# Cases with no curative resection RTYPE = 1 or without any information about the completeness of the resection need to be excluded
df_testing = df_comparison[df_comparison['R'] != 3]
df_testing = df_testing[df_testing['RTYPE'] != 1]

In [None]:
# Most important pT categories are 0, 1, 2, 3 and 4. We don't need all other subcategories
conditions_pT = [
    (df_testing['pT_TNM8'] < 10),
    (df_testing['pT_TNM8'] < 20),
    (df_testing['pT_TNM8'] < 30),
    (df_testing['pT_TNM8'] < 40),
    (df_testing['pT_TNM8'] == 40)
]
values_pT = ['pT0', 'pT1', 'pT2', 'pT3', 'pT4']
df_testing['pT_short'] = np.select(conditions_pT, values_pT)

conditions_stage = [
    (df_testing['Stage_TNM8'] < 100),
    (df_testing['Stage_TNM8'] < 200),
    (df_testing['Stage_TNM8'] < 300),
    (df_testing['Stage_TNM8'] < 400),
    (df_testing['Stage_TNM8'] >= 400)
]
values_stage = ['Stage 0', 'Stage I', 'Stage II', 'Stage III', 'Stage IV']
df_testing['stage_short'] = np.select(conditions_stage, values_stage)

In [None]:
# Upper or lower bilobectomy are equally extensive, hence, we combine these
conditions_RTYPE = [
    (df_testing['RTYPE'] == 3),
    (df_testing['RTYPE'] < 6),
    (df_testing['RTYPE'] == 6)
]
values_RTYPE = [1, 2, 3]
df_testing['rtype_short'] = np.select(conditions_RTYPE, values_RTYPE)

conditions_R = [
    (df_testing['R'] == 0),
    (df_testing['R'] > 0)
]
values_R = [0, 1]
df_testing['R_short'] = np.select(conditions_R, values_R)

In [None]:
# We are only interested if the patients received adjuvant therapy after resection or not
conditions_adjuvant = [
    (df_testing['ADJ'] == 0),
    (df_testing['ADJ'] < 4),
    (df_testing['ADJ'] == 4),
    (df_testing['ADJ'] == 5)
]
values_adjuvant = [0, 1, 0, 1]

df_testing['adjuvant_short'] = np.select(conditions_adjuvant, values_adjuvant)
df_testing

### Categorical variables - testing

In [None]:
# pT- and stage-variable have a natural order (higher categories = more aggressive). We use the Mann-Whitney-U
df_testing_study = df_testing[df_testing['group'] == 'Neoadjuvant']
df_testing_control = df_testing[df_testing['group'] == 'Primary']

for column in df_testing[['pT_short', 'stage_short']]:
    stat, p = scipy.stats.mannwhitneyu(df_testing_study[column], df_testing_control[column])
    print('Statistics = {0:.2f}, p-value = {1:.3f}'.format(stat, p))

In [None]:
# The difference could probably be explained by the fact that treated cases can have no more tumor. Hence, we exclude cases with pT0 or stage 0
df_testing_withoutpT0 = df_testing[df_testing['pT_short'] != 'pT0']
df_testing_study_withoutpT0 = df_testing_withoutpT0[df_testing['group'] == 'Neoadjuvant']
df_testing_control_withoutpT0 = df_testing_withoutpT0[df_testing['group'] == 'Primary']

df_testing_withoutstage0 = df_testing[df_testing['stage_short'] != 'Stage 0']
df_testing_study_withoutstage0 = df_testing_withoutstage0[df_testing['group'] == 'Neoadjuvant']
df_testing_control_withoutstage0 = df_testing_withoutstage0[df_testing['group'] == 'Primary']

stat_pT, p_pT = scipy.stats.mannwhitneyu(df_testing_study_withoutpT0['pT_short'], df_testing_control_withoutpT0['pT_short'])
print('Statistics = {0:.2f}, p-value = {1:.3f}'.format(stat_pT, p_pT))

stat_stage, p_stage = scipy.stats.mannwhitneyu(df_testing_study_withoutstage0['stage_short'], df_testing_control_withoutstage0['stage_short'])
print('Statistics = {0:.2f}, p-value = {1:.3f}'.format(stat_stage, p_stage))

In [None]:
crosstab_pT = pd.crosstab(index = df_testing_withoutpT0['group'], columns = df_testing_withoutpT0['pT_short'])
crosstab_proportion_pT = crosstab_pT.apply(lambda x: x*100/sum(x), axis=1)
crosstab_proportion_pT.plot.bar(stacked=True)
plt.xlabel('Treatment Group')
plt.ylabel('Proportion %')
plt.title('Comparison of pT categories between treatment groups')
plt.savefig('/Users/philipp/Documents/GitHub/CAS-2020-21/FIG_pTcomparison.png', format = 'png')

In [None]:
crosstab_stage = pd.crosstab(index = df_testing_withoutstage0['group'], columns = df_testing_withoutstage0['stage_short'])
crosstab_proportion_stage = crosstab_stage.apply(lambda x: x*100/sum(x), axis=1)
crosstab_proportion_stage.plot.bar(stacked=True)
plt.xlabel('Treatment Group')
plt.ylabel('Proportion %')
plt.title('Comparison of stage categories between treatment groups')

In [None]:
# Completeness of resection and adjuvant therapy are binary -> Fisher's exact
# Adjuvant therapy
crosstab_adjuvant = pd.crosstab(index = df_testing['adjuvant_short'], columns = df_testing['group'])
fisher_table_adjuvant = crosstab_adjuvant.to_numpy()
stats_adjuvant, p_adjuvant = scipy.stats.fisher_exact(fisher_table_adjuvant)

print('Adjuvant Statistic: {0:.2f}, Adjuvant p-value: {1:.3f}'.format(stats_adjuvant, p_adjuvant))
crosstab_adjuvant

In [None]:
# Completeness of resection
crosstab_R = pd.crosstab(index = df_testing['R_short'], columns = df_testing['group'])
fisher_table_R = crosstab_R.to_numpy()
stats_R, p_R = scipy.stats.fisher_exact(fisher_table_R)

print('Completeness Statistic: {0:.2f}, Completeness p-value: {1:.3f}'.format(stats_R, p_R))
crosstab_R

In [None]:
# Resection type and smoking status are categorical without order -> Chi^2 test
# Smoking
crosstab_Smoking = pd.crosstab(index = df_testing['SMOKING'], columns = df_testing['group'])
chisquare_table_Smoking = crosstab_Smoking.to_numpy()
chi2_Smoking, p_Smoking, dof, expected = scipy.stats.chi2_contingency(chisquare_table_Smoking)

print('Smoking Statistic: {0:.2f}, Smoking p-value: {1:.3f}'.format(chi2_Smoking, p_Smoking))
crosstab_Smoking

In [None]:
# Resection type
crosstab_Rtype = pd.crosstab(index = df_testing['rtype_short'], columns = df_testing['group'])
chisquare_table_Rtype = crosstab_Rtype.to_numpy()
chi2_Rtype, p_Rtype, dof, expected = scipy.stats.chi2_contingency(chisquare_table_Rtype)

print('Smoking Statistic: {0:.2f}, Smoking p-value: {1:.3f}'.format(chi2_Rtype, p_Rtype))
crosstab_Rtype

### Continuous variables - testing

In [None]:
# First visually check if the data is normally distributed
ax_1 = plt.hist(df_testing_study['AGE'], 10, density = 1, facecolor = 'g', alpha = 0.5, label = 'Study Cohort')
ax_2 = plt.hist(df_testing_control['AGE'], 10, density = 1, facecolor = 'r', alpha = 0.5, label = 'Control Cohort')
plt.xlabel('Age')
plt.ylabel('Density')
plt.title('Age Distribution')
plt.grid(True)
plt.legend()
plt.savefig('/Users/philipp/Documents/GitHub/CAS-2020-21/FIG_agecomparison.png', format = 'png')

In [None]:
# We check if it's possible to use the students t or if we need to use the Welch
var_study = np.var(df_testing_study['AGE'])
mean_study = np.mean(df_testing_study['AGE'])
size_study = len(df_testing_study.index)
var_control = np.var(df_testing_control['AGE'])
mean_control = np.mean(df_testing_control['AGE'])
size_control = len(df_testing_control.index)

print('The study cohort has a mean age of {0:.2f} and a variance of {1:.2f}. A total of {2} cases.'.format(mean_study, var_study, size_study))
print('The control cohort has a mean age of {0:.2f} and a variance of {1:.2f}. A total of {2} cases.'.format(mean_control, var_control, size_control))

In [None]:
# All requirements are fulfilled -> perform the statistical test
stats_age, p_age = scipy.stats.ttest_ind(df_testing_study['AGE'], df_testing_control['AGE'])
print('Statistics = {0:.2f} and p-value = {1:.3f}'.format(stats_age, p_age))

In [None]:
# Visually check normal distribution
ax_histobed1 = plt.hist(df_testing_study['BED'], 10, density = 1, facecolor = 'g', alpha = 0.5, label = 'Study Cohort')
ax_histobed2 = plt.hist(df_testing_control['BED'], 10, density = 1, facecolor = 'r', alpha = 0.5, label = 'Control Cohort')
plt.xlabel('Tumor bed size [cm]')
plt.ylabel('Density')
plt.title('Tumor bed distribution')
plt.grid(True)
plt.legend()

In [None]:
# Requirement of normal distribution is not fulfilled
stats_bed, p_bed = scipy.stats.mannwhitneyu(df_testing_study['BED'], df_testing_control['BED'])
print('Statistics = {0:.2f} and p-value = {1:.3f}'.format(stats_bed, p_bed))

In [None]:
# There is a statistical difference, however, the non-parametric tests are significance driven -> visual check
data_boxplot = [df_testing_study['BED'], df_testing_control['BED']]
fig_box, ax_box = plt.subplots()
ax_box.set_title('Comparison of tumor bed size between groups')
ax_box.boxplot(data_boxplot, labels = ['Neoadjuvant', 'Primary'])
plt.xlabel('Treatment group')
plt.ylabel('Tumor bed size [cm]')
plt.grid(True)
plt.savefig('/Users/philipp/Documents/GitHub/CAS-2020-21/FIG_sizecomparison.png', format = 'png')

### Survival comparison

In [None]:
kmf_comparison = KaplanMeierFitter()
kmf_comparison.fit(durations = df_testing['OS'], event_observed = df_testing['STATOS'], label = 'Overall')

In [None]:
kmf_comparison.plot_survival_function(at_risk_counts = True)
plt.title('Overall Survival of the entire cohort')
plt.grid(True)
plt.tight_layout()

In [None]:
kmf = KaplanMeierFitter()

ax_comparison = plt.subplot(111)

for name, grouped_df in df_testing.groupby('group'):
    kmf.fit(grouped_df['OS'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_comparison)
    plt.title('Overall Survival comparison according to treatment group')
    plt.xlabel('Overall Survival [months]')
    plt.ylabel('Cumulative Survival')

In [None]:
# From the Kaplan-Meier plot it seems that neoadjuvant cases have a better survival -> let's test it
results_comparison = multivariate_logrank_test(df_testing['OS'], df_testing['group'], df_testing['STATOS'])
print('Statistics: {0:.2f}, p-value: {1:.3f}.'.format(results_comparison.test_statistic, results_comparison.p_value))

In [None]:
kmf_neo = KaplanMeierFitter()
kmf_prim = KaplanMeierFitter()

In [None]:
Neo = df_testing.query('group == "Neoadjuvant"')
Prim = df_testing.query('group == "Primary"')

In [None]:
kmf_neo.fit(durations = Neo['OS'], event_observed = Neo['STATOS'], label = 'Neoadjuvant')
kmf_prim.fit(durations = Prim['OS'], event_observed = Prim['STATOS'], label = 'Primary')

In [None]:
OSMed_neo = kmf_neo.median_survival_time_
OSMed_prim = kmf_prim.median_survival_time_
OSCI_neo = median_survival_times(kmf_neo.confidence_interval_)
OSCI_prim = median_survival_times(kmf_prim.confidence_interval_)
print(OSMed_neo, OSCI_neo)
print(OSMed_prim, OSCI_prim)

## Survival prediction for neoadjuvant cases

In [None]:
df_study_survivalanalyses = df_valid[df_valid['group'] == 'Neoadjuvant'].dropna(subset = ['VITAL', 'STATOS'])
df_study_survivalanalyses = df_study_survivalanalyses[df_study_survivalanalyses['Stage_TNM8'] < 400]
df_study_survivalanalyses

In [None]:
# Age, stage, type of resection, completeness of resection and pathological response could be important prognostic factors
conditions_stage = [
    (df_study_survivalanalyses['Stage_TNM8'] < 100),
    (df_study_survivalanalyses['Stage_TNM8'] < 200),
    (df_study_survivalanalyses['Stage_TNM8'] < 300),
    (df_study_survivalanalyses['Stage_TNM8'] < 400)
]
values_stage = ['Stage 0', 'Stage I', 'Stage II', 'Stage III']
df_study_survivalanalyses['stage_short'] = np.select(conditions_stage, values_stage)

conditions_RTYPE = [
    (df_study_survivalanalyses['RTYPE'] == 3),
    (df_study_survivalanalyses['RTYPE'] < 6),
    (df_study_survivalanalyses['RTYPE'] == 6)
]
values_RTYPE = [1, 2, 3]
df_study_survivalanalyses['rtype_short'] = np.select(conditions_RTYPE, values_RTYPE)

conditions_R = [
    (df_study_survivalanalyses['R'] == 0),
    (df_study_survivalanalyses['R'] > 0)
]
values_R = [0, 1]
df_study_survivalanalyses['R_short'] = np.select(conditions_R, values_R)

# Let's create a variable which defines major pathological response based on the histology
df_study_survivalanalyses['MPR'] = ((df_study_survivalanalyses['HISTO'] == 2) & (df_study_survivalanalyses['VITAL'] <= 65)) | ((df_study_survivalanalyses['HISTO'] != 2) & (df_study_survivalanalyses['VITAL'] <= 10))
conditions_MPR = [
    (df_study_survivalanalyses['MPR'] == True),
    (df_study_survivalanalyses['MPR'] != True)
]
values_MPR = ['MPR', 'No-MPR']
df_study_survivalanalyses['MPR'] = np.select(conditions_MPR, values_MPR)
df_study_survivalanalyses

In [None]:
# Cases with MPR should have a better survival
ax_MPR = plt.subplot(111)

for name, grouped_df in df_study_survivalanalyses.groupby('MPR'):
    kmf.fit(grouped_df['OS'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_MPR)
    plt.title('Overall Survival in neoadjuvant cases according to MPR')
    plt.xlabel('Overall Survival [months]')
    plt.ylabel('Cumulative Survival')
plt.savefig('/Users/philipp/Documents/GitHub/CAS-2020-21/FIG_MPR.png', format = 'png')

In [None]:
results_MPR = multivariate_logrank_test(df_study_survivalanalyses['OS'], df_study_survivalanalyses['MPR'], df_study_survivalanalyses['STATOS'])
print('Statistics: {0:.2f}, p-value: {1:.3f}.'.format(results_MPR.test_statistic, results_MPR.p_value))

In [None]:
# Cases with lower stages should have better survival
ax_stage = plt.subplot(111)

for name, grouped_df in df_study_survivalanalyses.groupby('stage_short'):
    kmf.fit(grouped_df['OS'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_stage)
    plt.title('Overall Survival in neoadjuvant cases according to stage')
    plt.xlabel('Overall Survival [months]')
    plt.ylabel('Cumulative Survival')

In [None]:
results_stage = multivariate_logrank_test(df_study_survivalanalyses['OS'], df_study_survivalanalyses['stage_short'], df_study_survivalanalyses['STATOS'])
print('Statistics: {0:.2f}, p-value: {1:.3f}.'.format(results_stage.test_statistic, results_stage.p_value))

In [None]:
# The Stage 0 cases fall a little bit out of order... How many cases are there? More appropriate without Stage 0 cases?
print(df_study_survivalanalyses.stage_short.value_counts())
df_study_survivalanalyses_withoutStage0 = df_study_survivalanalyses[df_study_survivalanalyses['stage_short'] != 'Stage 0']
ax_stage_new = plt.subplot(111)

for name, grouped_df in df_study_survivalanalyses_withoutStage0.groupby('stage_short'):
    kmf.fit(grouped_df['OS'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_stage_new)
    plt.title('Overall Survival in neoadjuvant cases according to stage')
    plt.xlabel('Overall Survival [months]')
    plt.ylabel('Cumulative Survival')

In [None]:
results_stage = multivariate_logrank_test(df_study_survivalanalyses['OS'], df_study_survivalanalyses['stage_short'], df_study_survivalanalyses['STATOS'])
print('Statistics: {0:.2f}, p-value: {1:.3f}.'.format(results_stage.test_statistic, results_stage.p_value))

In [None]:
# Cases with less extensive resection should have better survival
ax_rtype = plt.subplot(111)

for name, grouped_df in df_study_survivalanalyses.groupby('rtype_short'):
    kmf.fit(grouped_df['OS'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_rtype)
    plt.title('Overall Survival in neoadjuvant cases according to type of resection')
    plt.xlabel('Overall Survival [months]')
    plt.ylabel('Cumulative Survival')

In [None]:
results_Rtype = multivariate_logrank_test(df_study_survivalanalyses['OS'], df_study_survivalanalyses['rtype_short'], df_study_survivalanalyses['STATOS'])
print('Statistics: {0:.2f}, p-value: {1:.3f}.'.format(results_Rtype.test_statistic, results_Rtype.p_value))

In [None]:
# Their seem to be much less bilobectomy cases. How much are their? Redo the Kaplan-Meier without considering Bilobectomy cases
print(df_study_survivalanalyses.rtype_short.value_counts())
df_study_survivalanalyses_withoutBilo = df_study_survivalanalyses[df_study_survivalanalyses['rtype_short'] != 2]
ax_rtype_new = plt.subplot(111)

for name, grouped_df in df_study_survivalanalyses_withoutBilo.groupby('rtype_short'):
    kmf.fit(grouped_df['OS'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_rtype_new)
    plt.title('Overall Survival in neoadjuvant cases according to type of resection')
    plt.xlabel('Overall Survival [months]')
    plt.ylabel('Cumulative Survival')

In [None]:
results_Rtype = multivariate_logrank_test(df_study_survivalanalyses['OS'], df_study_survivalanalyses['rtype_short'], df_study_survivalanalyses['STATOS'])
print('Statistics: {0:.2f}, p-value: {1:.3f}.'.format(results_Rtype.test_statistic, results_Rtype.p_value))

In [None]:
# Cases without residual tumor after surgery should have better survival
ax_R = plt.subplot(111)

for name, grouped_df in df_study_survivalanalyses.groupby('R_short'):
    kmf.fit(grouped_df['OS'], grouped_df['STATOS'], label = name)
    kmf.plot_survival_function(ax = ax_R)
    plt.title('Overall Survival in neoadjuvant cases according to R status')
    plt.xlabel('Overall Survival [months]')
    plt.ylabel('Cumulative Survival')

In [None]:
results_R = multivariate_logrank_test(df_study_survivalanalyses['OS'], df_study_survivalanalyses['R_short'], df_study_survivalanalyses['STATOS'])
print('Statistics: {0:.2f}, p-value: {1:.3f}.'.format(results_R.test_statistic, results_R.p_value))

In [None]:
df_study_survivalanalyses['MPR'] = df_study_survivalanalyses['MPR'].astype('category').cat.codes
df_study_survivalanalyses['stage_short'] = df_study_survivalanalyses['stage_short'].astype('category').cat.codes
df_study_survivalanalyses['SMOKING'] = df_study_survivalanalyses['SMOKING'].astype('category').cat.codes

In [None]:
df_study_survivalanalyses.dtypes

In [None]:
scipy.stats.spearmanr(df_study_survivalanalyses['MPR'], df_study_survivalanalyses['stage_short'])

In [None]:
scipy.stats.spearmanr(df_study_survivalanalyses['MPR'], df_study_survivalanalyses['AGE'])

In [None]:
scipy.stats.spearmanr(df_study_survivalanalyses['MPR'], df_study_survivalanalyses['rtype_short'])

In [None]:
scipy.stats.spearmanr(df_study_survivalanalyses['MPR'], df_study_survivalanalyses['R_short'])

In [None]:
scipy.stats.spearmanr(df_study_survivalanalyses['MPR'], df_study_survivalanalyses['SMOKING'])

In [None]:
from lifelines import CoxPHFitter

cph = CoxPHFitter()

In [None]:
cph.fit(df_study_survivalanalyses, duration_col = 'OS', event_col = 'STATOS', formula = 'MPR + AGE')

In [None]:
cph.print_summary()