In [1]:
MIN_NB_NON_CENSORED = 40

In [8]:
import os
os.makedirs('datasets', exist_ok=True)

# SurvSet

In [3]:
from SurvSet.data import SurvLoader
loader = SurvLoader()
# List of available datasets and meta-info
df_ds = loader.df_ds
df_ds = df_ds[~df_ds['is_td']]
df_ds

Unnamed: 0,ds,is_td,n,n_fac,n_ohe,n_num
0,hdfail,False,52422,5,87,1
1,stagec,False,146,4,15,3
2,veteran,False,137,3,5,3
3,vdv,False,78,0,0,4705
4,AML_Bull,False,116,0,0,6283
...,...,...,...,...,...,...
71,prostate,False,502,6,16,9
72,flchain,False,7874,4,26,6
73,grace,False,1000,2,2,3
74,gse3143,False,158,1,3,8660


In [4]:
excluded = [
    'hdfail',
    'UnempDur',
    'divorce',
    'Unemployment',
    'Rossi',
    'oldmort',
    'scania',
]

In [9]:
from sklearndf.pipeline import PipelineDF
from sklearndf.transformation import OneHotEncoderDF, ColumnTransformerDF, SimpleImputerDF, StandardScalerDF
from sklearn.compose import make_column_selector
from sksurv.util import Surv
import numpy as np
import pickle
from tqdm import tqdm
import pandas as pd


for ds in tqdm(df_ds['ds']):
    if ds in excluded:
        continue
    df, _ = loader.load_dataset(ds_name=ds).values()

    Xcols = []
    for c in df.columns:
        if c in ['pid', 'event', 'time']:
            continue
        if 'num' == c.split('_')[0]:
            Xcols.append(df[[c]])
        elif 'fac' == c.split('_')[0]:
            ohe = pd.get_dummies(df[c]).astype('int8').add_prefix(c.replace('fac_', '')+'_')
            Xcols.append(ohe)
    X = pd.concat(Xcols, axis=1)
    y = Surv.from_arrays(event=np.array(df['event']).astype('bool'), time=df['time'])
    
    y_non_censored = y[y['event']]
    if y_non_censored.shape[0] < MIN_NB_NON_CENSORED:
        print('skipped', ds)
        continue
    print(ds, X.shape[1])
    res = {'X': X, 'y': y}
    
    with open('datasets/SurvSet_'+ds+'.pickle', 'wb') as handle:
        pickle.dump(res, handle, protocol=pickle.HIGHEST_PROTOCOL)

  0%|                                                                                            | 0/69 [00:00<?, ?it/s]

stagec 22
veteran 11


  6%|████▊                                                                               | 4/69 [00:00<00:14,  4.56it/s]

skipped vdv
AML_Bull 6283


  7%|██████                                                                              | 5/69 [00:02<00:34,  1.85it/s]

LeukSurv 31
zinc 31
burn 23
nwtco 14
rott2 18


 26%|█████████████████████▋                                                             | 18/69 [00:05<00:12,  4.00it/s]

skipped gse1992
FRTCS 17
cost 23
rdata 8
Aids2 15
skipped micro.censure
cgd 30
pharmacoSmoking 23
Z243 28


 36%|██████████████████████████████                                                     | 25/69 [00:05<00:06,  6.48it/s]

skipped NSBCD
uis 19
Dialysis 74
nki70 80


 41%|█████████████████████████████████▋                                                 | 28/69 [00:05<00:05,  8.16it/s]

Melanoma 7
cancer 31
TRACE 10
skipped gse4335
ova 14
MCLcleaned 574


 45%|█████████████████████████████████████▎                                             | 31/69 [00:08<00:12,  3.05it/s]

smarto 43
support2 76


 48%|███████████████████████████████████████▋                                           | 33/69 [00:08<00:11,  3.25it/s]

vlbw 56
pbc 11
DLBCL 7399


 55%|█████████████████████████████████████████████▋                                     | 38/69 [00:11<00:11,  2.59it/s]

phpl04K8a 22
dataDIVAT3 20
dataDIVAT2 7
wpbc 32
GBSG2 12
prostateSurvival 9


 67%|███████████████████████████████████████████████████████▎                           | 46/69 [00:11<00:03,  5.81it/s]

dataDIVAT1 19
e1684 5
acath 4
Framingham 19
colon 19
follic 7
mgus 14
d.oropha.rec 32


 74%|█████████████████████████████████████████████████████████████▎                     | 51/69 [00:12<00:02,  8.85it/s]

actg 24
dataOvarian1 164


 78%|████████████████████████████████████████████████████████████████▉                  | 54/69 [00:12<00:01,  9.38it/s]

hepatoCellular 56
skipped ovarian
retinopathy 16
Pbc3 24
whas500 26
DBCD 4919


 84%|█████████████████████████████████████████████████████████████████████▊             | 58/69 [00:14<00:02,  4.21it/s]

diabetes 7
skipped glioma
chop 3833


 96%|███████████████████████████████████████████████████████████████████████████████▍   | 66/69 [00:16<00:00,  4.29it/s]

skipped breast
skipped Bergamaschi
prostate 31
flchain 36
grace 7
gse3143 8664


100%|███████████████████████████████████████████████████████████████████████████████████| 69/69 [00:19<00:00,  3.62it/s]


# TCGA

In [5]:
from glob import glob
import pandas as pd

In [6]:
surv = pd.read_excel('/mnt/data/lrebaud/data/TCGA/clinical_TCGA.xlsx')
surv.set_index('bcr_patient_barcode', inplace=True)
surv = surv[['OS', 'OS.time']]
surv = surv.rename(columns={
    'OS': 'event',
    'OS.time': 'time'
})
surv = surv.dropna(how='any')

In [7]:
for f in tqdm(glob('/mnt/data/lrebaud/data/TCGA/RNA-seq/*/tpm.csv')):    
    ds = f.split('/')[-2]
    print(ds)
    gene_annotations = pd.read_csv(f.replace('tpm.csv', 'gene_annotations.csv'))
    gene_annotations = gene_annotations[gene_annotations['gene_type']=='protein_coding']

    tpm = pd.read_csv(f, low_memory=False)
    tpm = tpm.T
    tpm.columns = tpm.iloc[0]
    tpm = tpm.iloc[1:]
    tpm = tpm[tpm['Sample Type'].isin(['Primary Tumor', 'Primary Blood Derived Cancer - Peripheral Blood'])]
    tpm.set_index('Case ID', inplace=True)
    tpm = tpm.drop(columns=['Sample Type'])
    tpm = tpm[~tpm.index.duplicated(keep='first')]
    assert len(tpm.index.unique()) == len(tpm)
    assert len(tpm) > 0

    tpm = tpm[gene_annotations['gene_id']]

    common_patient = list(set(tpm.index)&set(surv.index))
    tpm = tpm.loc[common_patient]
    ds_surv = surv.loc[common_patient]
    tpm = tpm.astype('float64')
    tpm = np.log(tpm+1)
    tpm = tpm.loc[:, (tpm != tpm.iloc[0]).any()]  # drop constant columns
        
    y = Surv.from_arrays(event=np.array(ds_surv['event']).astype('bool'), time=ds_surv['time'])
    y_non_censored = y[y['event']]
    if y_non_censored.shape[0] < MIN_NB_NON_CENSORED:
        print('skipped', ds)
        continue

    res = {'X': tpm, 'y': y}
    
    with open('datasets/TCGA_'+ds+'.pickle', 'wb') as handle:
        pickle.dump(res, handle, protocol=pickle.HIGHEST_PROTOCOL)

  0%|                                                                                                                                                       | 0/33 [00:00<?, ?it/s]

HNSC


  3%|████▎                                                                                                                                          | 1/33 [00:36<19:31, 36.60s/it]

DLBC


  6%|████████▋                                                                                                                                      | 2/33 [00:43<09:54, 19.16s/it]

skipped DLBC
PRAD


  9%|█████████████                                                                                                                                  | 3/33 [01:25<14:53, 29.79s/it]

skipped PRAD
UVM


 12%|█████████████████▎                                                                                                                             | 4/33 [01:33<10:10, 21.04s/it]

skipped UVM
LUSC


 15%|█████████████████████▋                                                                                                                         | 5/33 [02:13<13:02, 27.94s/it]

COAD


 18%|██████████████████████████                                                                                                                     | 6/33 [02:51<14:05, 31.30s/it]

UCS


 21%|██████████████████████████████▎                                                                                                                | 7/33 [02:58<10:07, 23.38s/it]

skipped UCS
TGCT


 24%|██████████████████████████████████▋                                                                                                            | 8/33 [03:10<08:09, 19.56s/it]

skipped TGCT
STAD


 27%|███████████████████████████████████████                                                                                                        | 9/33 [03:43<09:35, 23.98s/it]

LAML


 30%|███████████████████████████████████████████                                                                                                   | 10/33 [03:56<07:52, 20.54s/it]

LGG


 33%|███████████████████████████████████████████████▎                                                                                              | 11/33 [04:33<09:22, 25.56s/it]

PAAD


 36%|███████████████████████████████████████████████████▋                                                                                          | 12/33 [04:47<07:41, 21.96s/it]

LUAD


 39%|███████████████████████████████████████████████████████▉                                                                                      | 13/33 [05:30<09:28, 28.44s/it]

ESCA


 42%|████████████████████████████████████████████████████████████▏                                                                                 | 14/33 [05:45<07:40, 24.26s/it]

BLCA


 45%|████████████████████████████████████████████████████████████████▌                                                                             | 15/33 [06:18<08:05, 27.00s/it]

MESO


 48%|████████████████████████████████████████████████████████████████████▊                                                                         | 16/33 [06:26<06:01, 21.28s/it]

KIRP


 52%|█████████████████████████████████████████████████████████████████████████▏                                                                    | 17/33 [06:47<05:36, 21.02s/it]

GBM


 55%|█████████████████████████████████████████████████████████████████████████████▍                                                                | 18/33 [07:04<04:58, 19.92s/it]

PCPG


 58%|█████████████████████████████████████████████████████████████████████████████████▊                                                            | 19/33 [07:16<04:06, 17.61s/it]

skipped PCPG
UCEC


 61%|██████████████████████████████████████████████████████████████████████████████████████                                                        | 20/33 [07:59<05:28, 25.24s/it]

LIHC


 64%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 21/33 [08:23<04:59, 24.95s/it]

READ


 67%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 22/33 [08:35<03:50, 20.97s/it]

skipped READ
THCA


 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 23/33 [09:15<04:26, 26.68s/it]

skipped THCA
ACC


 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 24/33 [09:24<03:13, 21.49s/it]

skipped ACC
BRCA


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 25/33 [10:53<05:34, 41.76s/it]

SARC


 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 26/33 [11:12<04:02, 34.66s/it]

OV


 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 27/33 [11:39<03:15, 32.55s/it]

CHOL


 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 28/33 [11:45<02:02, 24.49s/it]

skipped CHOL
THYM


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 29/33 [11:55<01:20, 20.24s/it]

skipped THYM
SKCM


 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 30/33 [12:17<01:01, 20.64s/it]

skipped SKCM
KIRC


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 31/33 [13:00<00:54, 27.36s/it]

CESC


 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 32/33 [13:20<00:25, 25.23s/it]

KICH


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 33/33 [13:28<00:00, 24.49s/it]

skipped KICH



