In [1]:
import pandas as pd
import requests
import json
import time

# 1. CSV 파일 읽기
csv_file_path = '/mnt/Code/Data/gdc_filtered_files(all_data).csv'  # 파일 경로 수정
df = pd.read_csv(csv_file_path)

# 2. Tissue Slide 또는 Diagnostic Slide 데이터만 필터링
filtered_df = df[df['EXPERIMENTAL_STRATEGY'].isin(['Tissue Slide', 'Diagnostic Slide'])]

# 3. UUID 목록 추출
uuid_list = filtered_df['FILE_UUID'].tolist()

# 4. 500개씩 나누기
batch_size = 500
uuid_batches = [uuid_list[i:i + batch_size] for i in range(0, len(uuid_list), batch_size)]

# 5. API 요청 함수 정의
def fetch_sample_ids(batch):
    url = "https://api.gdc.cancer.gov/files"
    headers = {"Content-Type": "application/json"}
    
    # 요청할 UUID 목록 설정
    params = {
        "filters": {
            "op": "in",
            "content": {
                "field": "files.file_id",
                "value": batch
            }
        },
        "fields": "cases.samples.sample_id",
        "format": "json",
        "size": batch_size
    }
    
    response = requests.post(url, headers=headers, data=json.dumps(params))
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Failed to fetch data for batch. Status Code: {response.status_code}")
        return None

# 6. 모든 배치 처리 및 결과 저장
results = []
for index, batch in enumerate(uuid_batches):
    print(f"Processing batch {index + 1}/{len(uuid_batches)}...")
    result = fetch_sample_ids(batch)
    if result:
        results.append(result)
    time.sleep(1)  # API Rate Limiting 방지

# 7. Sample ID가 있는 데이터 추출
sample_data = []
for result in results:
    for hit in result.get('data', {}).get('hits', []):
        sample_ids = hit.get('cases', [{}])[0].get('samples', [])
        if sample_ids:
            for sample in sample_ids:
                sample_id = sample.get('sample_id', 'No Sample ID')
                sample_data.append([hit.get('id', 'Unknown ID'), sample_id])

# 8. DataFrame으로 변환 후 저장
sample_df = pd.DataFrame(sample_data, columns=['FILE_UUID', 'Sample_ID'])
sample_df.to_csv('sample_ids_found.csv', index=False)
print("결과가 sample_ids_found.csv 파일로 저장되었습니다.")


FileNotFoundError: [Errno 2] No such file or directory: '/mnt/Code/Data/gdc_filtered_files(all_data).csv'

In [21]:
import pandas as pd
import requests
import json
import time

# 1. CSV 파일 읽기
csv_file_path = '/mnt/Code/Data/gdc_filtered_files(all_data).csv'  # 파일 경로 수정
df = pd.read_csv(csv_file_path)

# 2. RNA-Seq 파일만 필터링 (FILE_NAME이 *star_gene_counts.tsv 로 끝나는 경우)
filtered_df = df[df['FILE_NAME'].str.endswith('star_gene_counts.tsv', na=False)]

# 3. UUID 목록 추출
uuid_list = filtered_df['FILE_UUID'].tolist()

# 4. 500개씩 나누기
batch_size = 500
uuid_batches = [uuid_list[i:i + batch_size] for i in range(0, len(uuid_list), batch_size)]

# 5. API 요청 함수 정의
def fetch_sample_ids(batch):
    url = "https://api.gdc.cancer.gov/files"
    headers = {"Content-Type": "application/json"}
    
    # 요청할 UUID 목록 설정
    params = {
        "filters": {
            "op": "in",
            "content": {
                "field": "files.file_id",
                "value": batch
            }
        },
        "fields": "cases.samples.sample_id",
        "format": "json",
        "size": batch_size
    }
    
    response = requests.post(url, headers=headers, data=json.dumps(params))
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Failed to fetch data for batch. Status Code: {response.status_code}")
        return None

# 6. 모든 배치 처리 및 결과 저장
results = []
for index, batch in enumerate(uuid_batches):
    print(f"Processing batch {index + 1}/{len(uuid_batches)}...")
    result = fetch_sample_ids(batch)
    if result:
        results.append(result)
    time.sleep(1)  # API Rate Limiting 방지

# 7. Sample ID가 있는 데이터 추출
sample_data = []
for result in results:
    for hit in result.get('data', {}).get('hits', []):
        sample_ids = hit.get('cases', [{}])[0].get('samples', [])
        if sample_ids:
            for sample in sample_ids:
                sample_id = sample.get('sample_id', 'No Sample ID')
                sample_data.append([hit.get('id', 'Unknown ID'), sample_id])

# 8. DataFrame으로 변환 후 저장
sample_df = pd.DataFrame(sample_data, columns=['FILE_UUID', 'Sample_ID'])
sample_df.to_csv('rna_seq_sample_ids_found.csv', index=False)
print("결과가 rna_seq_sample_ids_found.csv 파일로 저장되었습니다.")


Processing batch 1/8...
Processing batch 2/8...
Processing batch 3/8...
Processing batch 4/8...
Processing batch 5/8...
Processing batch 6/8...
Processing batch 7/8...
Processing batch 8/8...
결과가 rna_seq_sample_ids_found.csv 파일로 저장되었습니다.


In [22]:
import pandas as pd
import requests
import json
import time

# 1. CSV 파일 읽기
csv_file_path = '/mnt/Code/Data/gdc_filtered_files(all_data).csv'  # 파일 경로 수정
df = pd.read_csv(csv_file_path)

# 2. RNA-Seq 파일만 필터링 (FILE_NAME이 *star_gene_counts.tsv 로 끝나는 경우)
filtered_df = df[df['FILE_NAME'].str.endswith('star_gene_counts.tsv', na=False)]

# 3. UUID 목록 추출
uuid_list = filtered_df['FILE_UUID'].tolist()

# 4. 500개씩 나누기
batch_size = 500
uuid_batches = [uuid_list[i:i + batch_size] for i in range(0, len(uuid_list), batch_size)]

# 5. API 요청 함수 정의
def fetch_sample_ids(batch):
    url = "https://api.gdc.cancer.gov/files"
    headers = {"Content-Type": "application/json"}
    
    # 요청할 UUID 목록 설정
    params = {
        "filters": {
            "op": "in",
            "content": {
                "field": "files.file_id",
                "value": batch
            }
        },
        "fields": "cases.case_id,cases.samples.sample_id,file_name,experimental_strategy",
        "format": "json",
        "size": batch_size
    }
    
    response = requests.post(url, headers=headers, data=json.dumps(params))
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Failed to fetch data for batch. Status Code: {response.status_code}")
        return None

# 6. 모든 배치 처리 및 결과 저장
results = []
for index, batch in enumerate(uuid_batches):
    print(f"Processing batch {index + 1}/{len(uuid_batches)}...")
    result = fetch_sample_ids(batch)
    if result:
        results.append(result)
    time.sleep(1)  # API Rate Limiting 방지

# 7. Sample ID가 있는 데이터 추출
sample_data = []
for result in results:
    for hit in result.get('data', {}).get('hits', []):
        file_uuid = hit.get('id', 'Unknown FILE_UUID')
        case_id = hit.get('cases', [{}])[0].get('case_id', 'Unknown CASE_UUID')
        file_name = hit.get('file_name', 'Unknown FILE_NAME')
        experimental_strategy = hit.get('experimental_strategy', 'Unknown EXPERIMENTAL_STRATEGY')
        
        # Sample ID들 추출
        sample_ids = hit.get('cases', [{}])[0].get('samples', [])
        
        if sample_ids:
            for sample in sample_ids:
                sample_id = sample.get('sample_id', 'No SAMPLE_UUID')
                sample_data.append([case_id, file_uuid, file_name, experimental_strategy, sample_id])
        else:
            sample_data.append([case_id, file_uuid, file_name, experimental_strategy, 'No SAMPLE_UUID'])

# 8. DataFrame으로 변환 후 저장
sample_df = pd.DataFrame(sample_data, columns=['CASE_UUID', 'FILE_UUID', 'FILE_NAME', 'EXPERIMENTAL_STRATEGY', 'SAMPLE_UUID'])
sample_df.to_csv('rna_seq_sample_ids_found.csv', index=False)
print("결과가 rna_seq_sample_ids_found.csv 파일로 저장되었습니다.")


Processing batch 1/8...
Processing batch 2/8...
Processing batch 3/8...
Processing batch 4/8...
Processing batch 5/8...
Processing batch 6/8...
Processing batch 7/8...
Processing batch 8/8...
결과가 rna_seq_sample_ids_found.csv 파일로 저장되었습니다.


In [24]:
import pandas as pd
import requests
import json
import time

# 1. CSV 파일 읽기
csv_file_path = '/mnt/Code/Data/gdc_filtered_files(all_data).csv'  # 파일 경로 수정
df = pd.read_csv(csv_file_path)

# 2. SVS 파일만 필터링 (FILE_NAME이 .svs 로 끝나는 경우)
filtered_df = df[df['FILE_NAME'].str.endswith('.svs', na=False)]

# 3. UUID 목록 추출
uuid_list = filtered_df['FILE_UUID'].tolist()

# 4. 500개씩 나누기
batch_size = 500
uuid_batches = [uuid_list[i:i + batch_size] for i in range(0, len(uuid_list), batch_size)]

# 5. API 요청 함수 정의
def fetch_sample_ids(batch):
    url = "https://api.gdc.cancer.gov/files"
    headers = {"Content-Type": "application/json"}
    
    # 요청할 UUID 목록 설정
    params = {
        "filters": {
            "op": "in",
            "content": {
                "field": "files.file_id",
                "value": batch
            }
        },
        "fields": "cases.case_id,cases.samples.sample_id,file_name,experimental_strategy",
        "format": "json",
        "size": batch_size
    }
    
    response = requests.post(url, headers=headers, data=json.dumps(params))
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Failed to fetch data for batch. Status Code: {response.status_code}")
        return None

# 6. 모든 배치 처리 및 결과 저장
results = []
for index, batch in enumerate(uuid_batches):
    print(f"Processing batch {index + 1}/{len(uuid_batches)}...")
    result = fetch_sample_ids(batch)
    if result:
        results.append(result)
    time.sleep(1)  # API Rate Limiting 방지

# 7. Sample ID가 있는 데이터 추출
sample_data = []
for result in results:
    for hit in result.get('data', {}).get('hits', []):
        file_uuid = hit.get('id', 'Unknown FILE_UUID')
        file_name = hit.get('file_name', 'Unknown FILE_NAME')
        experimental_strategy = hit.get('experimental_strategy', 'Unknown EXPERIMENTAL_STRATEGY')
        
        # CASE_UUID 추출
        case_id = hit.get('cases', [{}])[0].get('case_id', 'Unknown CASE_UUID')
        
        # Sample ID들 추출
        sample_ids = hit.get('cases', [{}])[0].get('samples', [])
        
        if sample_ids:
            for sample in sample_ids:
                sample_id = sample.get('sample_id', 'No SAMPLE_UUID')
                sample_data.append([case_id, file_uuid, file_name, experimental_strategy, sample_id])
        else:
            sample_data.append([case_id, file_uuid, file_name, experimental_strategy, 'No SAMPLE_UUID'])

# 8. DataFrame으로 변환 후 저장
sample_df = pd.DataFrame(sample_data, columns=['CASE_UUID', 'FILE_UUID', 'FILE_NAME', 'EXPERIMENTAL_STRATEGY', 'SAMPLE_UUID'])
sample_df.to_csv('svs_sample_ids_found.csv', index=False)
print("결과가 svs_sample_ids_found.csv 파일로 저장되었습니다.")


Processing batch 1/20...
Processing batch 2/20...
Processing batch 3/20...
Processing batch 4/20...
Processing batch 5/20...
Processing batch 6/20...
Processing batch 7/20...
Processing batch 8/20...
Processing batch 9/20...
Processing batch 10/20...
Processing batch 11/20...
Processing batch 12/20...
Processing batch 13/20...
Processing batch 14/20...
Processing batch 15/20...
Processing batch 16/20...
Processing batch 17/20...
Processing batch 18/20...
Processing batch 19/20...
Processing batch 20/20...
결과가 svs_sample_ids_found.csv 파일로 저장되었습니다.


In [26]:
import pandas as pd

# 1. CSV 파일 읽기
rna_seq_file = 'rna_seq_sample_ids_found.csv'
svs_file = 'svs_sample_ids_found.csv'

rna_seq_df = pd.read_csv(rna_seq_file)
svs_df = pd.read_csv(svs_file)

# 2. SAMPLE_UUID 집합 추출
rna_seq_sample_set = set(rna_seq_df['SAMPLE_UUID'].dropna().unique())
svs_sample_set = set(svs_df['SAMPLE_UUID'].dropna().unique())

# 3. Intersection 찾기
common_samples = rna_seq_sample_set.intersection(svs_sample_set)
print(f"Intersection Found: {len(common_samples)} common SAMPLE_UUIDs")

# 4. Intersection에 해당하는 Row 추출
rna_seq_intersection_df = rna_seq_df[rna_seq_df['SAMPLE_UUID'].isin(common_samples)]
svs_intersection_df = svs_df[svs_df['SAMPLE_UUID'].isin(common_samples)]

# 5. 두 DataFrame 합치기 (Row로 추가하기)
combined_df = pd.concat([rna_seq_intersection_df, svs_intersection_df], ignore_index=True)

# 6. SAMPLE_UUID 기준으로 정렬
sorted_df = combined_df.sort_values(by='SAMPLE_UUID')

# 7. 결과 저장
sorted_df.to_csv('combined_sample_ids.csv', index=False)
print("결과가 combined_sample_ids.csv 파일로 저장되었습니다.")


Intersection Found: 3284 common SAMPLE_UUIDs
결과가 combined_sample_ids.csv 파일로 저장되었습니다.


In [34]:
import pandas as pd

# CSV 파일 경로
csv_path = './Data/CSV/Final_combined_sample_ids.csv'

# CSV 파일 읽기
df = pd.read_csv(csv_path)

# 필요한 컬럼만 선택 (FILE_UUID만 포함)
manifest_df = df[['FILE_UUID']].copy()
manifest_df.columns = ['id']

# 나머지 컬럼을 빈 값으로 추가
manifest_df['filename'] = ''
manifest_df['md5'] = ''
manifest_df['size'] = ''
manifest_df['state'] = ''

# manifest 파일 저장
output_path = './manifest.tsv'
manifest_df.to_csv(output_path, sep='\t', index=False)

# 확인을 위해 결과 출력
manifest_df.head()


Unnamed: 0,id,filename,md5,size,state
0,cdbf4be9-215e-488b-b51a-9123d90a4277,,,,
1,c43cc26b-5077-4759-86ad-2a4bca167060,,,,
2,4fdb836e-df0e-4ebe-8bab-464ce1723b50,,,,
3,4bf6ebc1-575d-49e4-9f66-068b537373c0,,,,
4,1801b634-32ea-4fd8-b4d5-dd4cda4ceac5,,,,


In [2]:
import os
from glob import glob

root_dir = "/mnt/Code/Data/manifest_svs_gene_counts"
uuid_dirs = [d for d in glob(f"{root_dir}/*") if os.path.isdir(d)]

# 제외할 파일명 (manifest 파일들과 run.sh)
excluded_names = [
    "manifest_part_aa", "manifest_part_ab", "manifest_part_ac", "manifest_part_ad",
    "manifest_part_ae", "manifest_part_af", "manifest_part_ag", "manifest_part_ah",
    "run.sh"
]

# 검사 대상 디렉토리만 필터링
uuid_dirs = [d for d in uuid_dirs if os.path.basename(d) not in excluded_names]

# .svs, .bam, .tsv 파일이 하나도 없는 폴더 찾기
no_target_file_dirs = []

for d in uuid_dirs:
    files = os.listdir(d)
    if not any(f.endswith(('.svs', '.bam', '.tsv')) for f in files):
        no_target_file_dirs.append(d)

# 출력 또는 저장
print(f"총 {len(no_target_file_dirs)}개 폴더에 .svs, .bam, .tsv 없음")

with open("no_target_file_dirs.txt", "w") as f:
    for path in no_target_file_dirs:
        f.write(path + "\n")

# 파일 경로 리스트 (예: .svs/.bam/.tsv 없는 폴더들)
input_file = "no_target_file_dirs.txt"
output_manifest = "missing_manifest.tsv"

# 헤더
header = "id\tfilename\tmd5\tsize\tstate\n"

with open(input_file, "r") as f:
    dir_paths = [line.strip() for line in f if line.strip()]

# UUID만 추출 (폴더 이름이 UUID라고 가정)
uuids = [os.path.basename(path) for path in dir_paths]

with open(output_manifest, "w") as f:
    f.write(header)
    for uuid in uuids:
        f.write(f"{uuid}\t\t\t\t\n")


총 424개 폴더에 .svs, .bam, .tsv 없음


OSError: [Errno 122] Disk quota exceeded

In [13]:
import pandas as pd


df = pd.read_csv('/mnt/Code/Data/CSV/Final_combined_sample_ids.csv')

In [14]:
data = df['FILE_NAME'].map(lambda x: x.split('.')[-1])

In [16]:
data.value_counts()

svs    4397
tsv    3325
Name: FILE_NAME, dtype: int64