In [12]:
import argparse
import pandas as pd
import os
from tqdm import tqdm

def run_convert(input_folder, output_folder = None):

    # Create storage
    gene_annotations = None
    gene_counts_tpm = []
#     gene_counts_fpkm = []
#     gene_counts_fpkm_uq = []

    # Load patients list
    df_patients = None
    for file in os.listdir(input_folder):
        if file.split('.')[0] == "gdc_sample_sheet":
            df_patients = pd.read_csv(os.path.join(input_folder, file), sep="\t").set_index("File ID")
            break
    assert df_patients is not None, "'gdc_sample_sheet.tsv' is missing !"

    # Load files list
    rna_folder_path  = os.path.join(input_folder, 'RNA-seq')
    file_list = os.listdir(rna_folder_path)

    # Create output matrices
    for case_file in tqdm(df_patients.index, total=len(df_patients.index)):
        if case_file in file_list:
            case_path = os.path.join(rna_folder_path, case_file)
            file_path = None
            for f in os.listdir(case_path):
                if f.endswith(".tsv"):
                    file_path = os.path.join(case_path, f)
            if file_path is not None:
                df_rnaseq = pd.read_csv(file_path, sep="\t", skiprows=1).iloc[4:, :].set_index("gene_id")
                counts_tpm = pd.Series({"Case ID": df_patients.loc[case_file, "Case ID"] ,
                                        "Sample Type": df_patients.loc[case_file, "Sample Type"]})
#                 counts_fpkm = counts_tpm.copy()
#                 counts_fpkm_uq = counts_tpm.copy()

                counts_tpm = pd.concat([counts_tpm, df_rnaseq["tpm_unstranded"]])
#                 counts_fpkm = pd.concat([counts_fpkm, df_rnaseq["fpkm_unstranded"]])
#                 counts_fpkm_uq = pd.concat([counts_fpkm_uq, df_rnaseq["fpkm_uq_unstranded"]])

                gene_counts_tpm.append(counts_tpm.rename(df_patients.loc[case_file, "Sample ID"]))
#                 gene_counts_fpkm.append(counts_fpkm.rename(df_patients.loc[case_file, "Sample ID"]))
#                 gene_counts_fpkm_uq.append(counts_fpkm_uq.rename(df_patients.loc[case_file, "Sample ID"]))
            else:
                print(
                    "RNA-seq data of sample " + df_patients.loc[ind, "Sample ID"] + " are missing ! Check file " + ind)
        else:
            print("RNA-seq data of sample " + df_patients.loc[ind, "Sample ID"] + " are missing ! Check file " + ind)

    gene_counts_tpm = pd.concat(gene_counts_tpm, axis=1)
#     gene_counts_fpkm = pd.concat(gene_counts_fpkm, axis=1)
#     gene_counts_fpkm_uq = pd.concat(gene_counts_fpkm_uq, axis=1)

    # Create annotation matrix
    assert file_path is not None, "No rnaseq file was found, check your folder architecture !"
    gene_annotations = df_rnaseq[['gene_name', 'gene_type']]

    # Create output folder
    if output_folder is None:
        output_folder = os.path.join(input_folder, 'merged_RNAseq')
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    gene_counts_tpm.to_csv(os.path.join(output_folder, "tpm.csv"))
#     gene_counts_fpkm.to_csv(os.path.join(output_folder, "fpkm.csv"))
#     gene_counts_fpkm_uq.to_csv(os.path.join(output_folder, "fpkm_uq.csv"))
    gene_annotations.to_csv(os.path.join(output_folder, "gene_annotations.csv"))
    return


In [17]:
from glob import glob
for f in glob('/mnt/data/lrebaud/Documents/ICARE_TCGA/download/*'):
    if os.path.isfile(f+'/merged_RNAseq/tpm.csv'):
        continue
    print(f)
    run_convert(f)

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/LGG


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 534/534 [03:13<00:00,  2.76it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/PAAD


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 183/183 [01:00<00:00,  3.04it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/LUAD


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 600/600 [03:42<00:00,  2.70it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/ESCA


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 198/198 [01:14<00:00,  2.66it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/BLCA


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 431/431 [02:41<00:00,  2.68it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/MESO


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 87/87 [00:29<00:00,  2.92it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/KIRP


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 323/323 [01:54<00:00,  2.83it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/GBM


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 175/175 [01:01<00:00,  2.85it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/PCPG


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 187/187 [01:13<00:00,  2.56it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/UCEC


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 589/589 [03:12<00:00,  3.07it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/LIHC


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 424/424 [02:23<00:00,  2.95it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/READ


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 177/177 [01:07<00:00,  2.61it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/THCA


 42%|██████████████████████████████████████████████████████████▉                                                                                 | 241/572 [01:24<01:44,  3.15it/s]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/ACC


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:31<00:00,  2.54it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/BRCA


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1231/1231 [07:08<00:00,  2.87it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/SARC


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 265/265 [01:32<00:00,  2.88it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/OV


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 429/429 [02:41<00:00,  2.65it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/CHOL


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 44/44 [00:15<00:00,  2.89it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/THYM


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 122/122 [00:45<00:00,  2.70it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/SKCM


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 473/473 [02:46<00:00,  2.85it/s]


/mnt/data/lrebaud/Documents/ICARE_TCGA/download/KIRC


 53%|██████████████████████████████████████████████████████████████████████████▌                                                                 | 327/614 [01:57<01:47,  2.67it/s]IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [28]:
import shutil


for f in tqdm(glob('/mnt/data/lrebaud/Documents/ICARE_TCGA/download/*')):
    print(f)
    d = f.split('/')[-1]
    path_new = '/mnt/data/lrebaud/data/TCGA/RNA-seq/'+d+'/'
    try:
        os.mkdir(path_new)
    except:
        pass
    shutil.copyfile(f+'/merged_RNAseq/tpm.csv', path_new+'tpm.csv')
    shutil.copyfile(f+'/merged_RNAseq/gene_annotations.csv', path_new+'gene_annotations.csv')

  0%|                                                                                                                                                       | 0/33 [00:00<?, ?it/s]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/HNSC


  3%|████▎                                                                                                                                          | 1/33 [00:27<14:55, 27.99s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/DLBC


  6%|████████▋                                                                                                                                      | 2/33 [00:30<06:47, 13.14s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/PRAD


  9%|█████████████                                                                                                                                  | 3/33 [00:55<09:11, 18.37s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/UVM


 12%|█████████████████▎                                                                                                                             | 4/33 [01:03<07:01, 14.53s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/LUSC


 15%|█████████████████████▋                                                                                                                         | 5/33 [01:33<09:15, 19.86s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/COAD


 18%|██████████████████████████                                                                                                                     | 6/33 [01:52<08:50, 19.64s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/UCS


 21%|██████████████████████████████▎                                                                                                                | 7/33 [01:54<05:59, 13.84s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/TGCT


 24%|██████████████████████████████████▋                                                                                                            | 8/33 [02:01<04:54, 11.77s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/STAD


 27%|███████████████████████████████████████                                                                                                        | 9/33 [02:30<06:52, 17.17s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/LAML


 30%|███████████████████████████████████████████                                                                                                   | 10/33 [02:38<05:25, 14.15s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/LGG


 33%|███████████████████████████████████████████████▎                                                                                              | 11/33 [02:59<05:57, 16.24s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/PAAD


 36%|███████████████████████████████████████████████████▋                                                                                          | 12/33 [03:05<04:35, 13.12s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/LUAD


 39%|███████████████████████████████████████████████████████▉                                                                                      | 13/33 [03:33<05:56, 17.83s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/ESCA


 42%|████████████████████████████████████████████████████████████▏                                                                                 | 14/33 [03:49<05:27, 17.22s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/BLCA


 45%|████████████████████████████████████████████████████████████████▌                                                                             | 15/33 [04:03<04:50, 16.12s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/MESO


 48%|████████████████████████████████████████████████████████████████████▊                                                                         | 16/33 [04:06<03:30, 12.38s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/KIRP


 52%|█████████████████████████████████████████████████████████████████████████▏                                                                    | 17/33 [04:19<03:19, 12.48s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/GBM


 55%|█████████████████████████████████████████████████████████████████████████████▍                                                                | 18/33 [04:27<02:47, 11.19s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/PCPG


 58%|█████████████████████████████████████████████████████████████████████████████████▊                                                            | 19/33 [04:34<02:17,  9.82s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/UCEC


 61%|██████████████████████████████████████████████████████████████████████████████████████                                                        | 20/33 [05:09<03:45, 17.32s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/LIHC


 64%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 21/33 [05:24<03:20, 16.67s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/READ


 67%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 22/33 [05:30<02:29, 13.59s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/THCA


 70%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 23/33 [05:56<02:52, 17.26s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/ACC


 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 24/33 [06:00<01:58, 13.18s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/BRCA


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 25/33 [06:50<03:15, 24.39s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/SARC


 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 26/33 [07:03<02:25, 20.85s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/OV


 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 27/33 [07:35<02:25, 24.19s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/CHOL


 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 28/33 [07:37<01:27, 17.55s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/THYM


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 29/33 [07:42<00:55, 13.81s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/SKCM


 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 30/33 [08:06<00:50, 16.90s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/KIRC


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 31/33 [08:37<00:42, 21.08s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/CESC


 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 32/33 [08:54<00:20, 20.02s/it]

/mnt/data/lrebaud/Documents/ICARE_TCGA/download/KICH


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 33/33 [08:58<00:00, 16.31s/it]
