## Set-up

In [1]:
import os
import pandas as pd
import glob
import fnmatch

## TMB 자료가 들어 있는 파일을 불러와 기초 작업한다. 

In [2]:
TMB_Low_list=list(pd.read_csv('../Results/MAF/TCGA_LUAD_Low_TMB.tsv', index_col=None, header=None)[0])
TMB_Int_list=list(pd.read_csv('../Results/MAF/TCGA_LUAD_Int_TMB.tsv', index_col=None, header=None)[0])
TMB_High_list=list(pd.read_csv('../Results/MAF/TCGA_LUAD_High_TMB.tsv', index_col=None, header=None)[0])

## TMB Low의 RNASeq dataset을 만든다.

In [3]:
TMB_Low_list[0]

'TCGA-49-AARR'

In [4]:
# TMB_Low의 0번 자료 ('TTCGA-49-AARR')를 불러와 backbone으로 사용하고 싶다

df_TMB_Low=pd.read_csv(glob.glob('../RNASeq/TCGA-49-AARR/*.tsv')[0], sep='\t', header=1, index_col='gene_id')
df_TMB_Low=df_TMB_Low.drop(['N_unmapped','N_multimapping', 'N_noFeature', 'N_ambiguous' ])
df_TMB_Low=df_TMB_Low[['gene_name', 'unstranded']]
df_TMB_Low=df_TMB_Low.rename(columns={'unstranded': 'TCGA-55-6969'})

# 사용된 자료를 list에서 빼 버린다.
TMB_Low_list.remove('TCGA-49-AARR')

In [5]:
# TMB_Low의 RNASeq 자료를 순차적으로 이어 붙인다.

for idx in TMB_Low_list:
    df_B = pd.read_csv(glob.glob(f'../RNASeq/{idx}/*.tsv')[0], sep='\t', header=1, index_col='gene_id')
    df_B = df_B.drop(['N_unmapped','N_multimapping', 'N_noFeature', 'N_ambiguous' ])
    df_B=df_B[['unstranded']]
    df_B=df_B.rename(columns={'unstranded': f'{idx}'})
    df_TMB_Low=pd.merge(df_TMB_Low, df_B, left_index=True, right_index=True)

df_TMB_Low.rename(columns=lambda x: x.replace('-', '_'), inplace=True)
df_TMB_Low.rename(columns=lambda x: x+"_Low", inplace=True)
df_TMB_Low=df_TMB_Low.rename(columns={'gene_name_Low': 'gene_name'})

In [6]:
df_TMB_Low.to_csv("../Results/MAF/TMB_Low_RNASeq.csv")

## TMB High의 RNASeq dataset을 만든다.

In [7]:
TMB_High_list[0]

'TCGA-49-AARE'

In [8]:
# TMB_High의 0번 자료 ('TCGA-49-AARE)를 불러와 backbone으로 사용하고 싶다

df_TMB_High=pd.read_csv(glob.glob('../RNASeq/TCGA-49-AARE/*.tsv')[0], sep='\t', header=1, index_col='gene_id')
df_TMB_High=df_TMB_High.drop(['N_unmapped','N_multimapping', 'N_noFeature', 'N_ambiguous' ])
df_TMB_High=df_TMB_High[['gene_name', 'unstranded']]
df_TMB_High=df_TMB_High.rename(columns={'unstranded': 'TCGA-49-AARE'})

# 사용된 자료를 list에서 빼 버린다.
TMB_High_list.remove('TCGA-49-AARE')

In [9]:
# TMB_High의 RNASeq 자료를 순차적으로 이어 붙인다.

for idx in TMB_High_list:
    df_B = pd.read_csv(glob.glob(f'../RNASeq/{idx}/*.tsv')[0], sep='\t', header=1, index_col='gene_id')
    df_B = df_B.drop(['N_unmapped','N_multimapping', 'N_noFeature', 'N_ambiguous' ])
    df_B=df_B[['unstranded']]
    df_B=df_B.rename(columns={'unstranded': f'{idx}'})
    df_TMB_High=pd.merge(df_TMB_High, df_B, left_index=True, right_index=True)

df_TMB_High.rename(columns=lambda x: x.replace('-', '_'), inplace=True)
df_TMB_High.rename(columns=lambda x: x+"_High", inplace=True)
df_TMB_High=df_TMB_High.rename(columns={'gene_name_High': 'gene_name'})

In [10]:
df_TMB_High.to_csv("../Results/MAF/TMB_High_RNASeq.csv")

## TMB_Low 와 _High의 DataFrame을 이어 붙인다.

In [11]:
# 우선 공통된 열인 'gene_name' 먼저 없앤다.
df_TMB_High=df_TMB_High.drop(['gene_name'], axis=1)

# df_TMB_q1와 df_TMB_q3의 dataframe을 합치고 저장한다. 
RNA_seq_with_TMB = pd.merge(df_TMB_Low, df_TMB_High, left_index=True, right_index=True)

RNA_seq_with_TMB.to_csv("../Results/MAF/RNA_seq_with_Low_High_TMB.csv")

## DESeq에서 사용하기 위해 합친 dataframe의 colname을 확보한다.

In [13]:
pd.DataFrame(RNA_seq_with_TMB.columns).to_csv("../Results/MAF/Colnames_RNA_seq_with_Low_High_TMB.csv", header=True, index=False)
# 이후에는 파일을 불러서 수작업으로 정리한다. 첫 열의 이름 제거, condition ("control", "High_TMB"), type('unstranded')

## TMB Intermediate의 RNASeq dataset을 만든다.

In [None]:
TMB_Int_list[0]

In [None]:
# TMB_Int의 0번 자료 ('TCGA-05-4417')를 불러와 backbone으로 사용하고 싶다

df_TMB_Int=pd.read_csv(glob.glob('../RNASeq/TCGA-05-4417/*.tsv')[0], sep='\t', header=1, index_col='gene_id')
df_TMB_Int=df_TMB_Int.drop(['N_unmapped','N_multimapping', 'N_noFeature', 'N_ambiguous' ])
df_TMB_Int=df_TMB_Int[['gene_name', 'unstranded']]
df_TMB_Int=df_TMB_Int.rename(columns={'unstranded': 'TCGA-05-4417'})

# 사용된 자료를 list에서 빼 버린다.
TMB_Int_list.remove('TCGA-05-4417')

In [None]:
# TMB_Int의 RNASeq 자료를 순차적으로 이어 붙인다.

for idx in TMB_Int_list:
    df_B = pd.read_csv(glob.glob(f'../RNASeq/{idx}/*.tsv')[0], sep='\t', header=1, index_col='gene_id')
    df_B = df_B.drop(['N_unmapped','N_multimapping', 'N_noFeature', 'N_ambiguous' ])
    df_B=df_B[['unstranded']]
    df_B=df_B.rename(columns={'unstranded': f'{idx}'})
    df_TMB_Int=pd.merge(df_TMB_Int, df_B, left_index=True, right_index=True)

df_TMB_Int.rename(columns=lambda x: x.replace('-', '_'), inplace=True)
df_TMB_Int.rename(columns=lambda x: x+"_Int", inplace=True)
df_TMB_Int=df_TMB_Int.rename(columns={'gene_name_Int': 'gene_name'})

In [None]:
df_TMB_Int.to_csv("../Results/MAF/TMB_Int_RNASeq.csv")

## TMB_Low, _Int and _High의 DataFrame을 이어 붙인다.

In [None]:
# 우선 공통된 열인 'gene_name' 먼저 없앤다.
df_TMB_Int=df_TMB_Int.drop(['gene_name'], axis=1)
df_TMB_High=df_TMB_High.drop(['gene_name'], axis=1)

# df_TMB_q1와 df_TMB_q3의 dataframe을 합치고 저장한다. 
RNA_seq_with_TMB = pd.merge(df_TMB_Low, df_TMB_Int, left_index=True, right_index=True)
RNA_seq_with_TMB = pd.merge(RNA_seq_with_TMB, df_TMB_High, left_index=True, right_index=True)

RNA_seq_with_TMB.to_csv("../Results/MAF/RNA_seq_with_TMB.csv")

## DESeq에서 사용하기 위해 합친 dataframe의 colname을 확보한다.

In [None]:
pd.DataFrame(RNA_seq_with_TMB.columns).to_csv("../Results/MAF/Colnames_RNA_seq_with_TMB.csv", header=True, index=False)
# 이후에는 파일을 불러서 수작업으로 정리한다. 첫 열의 이름 제거, condition ("control", "High_TMB"), type('unstranded')