In [1]:
import sys
sys.path.append('..')
from MPRA_predict.utils import *

import requests

In [2]:
def search_encode_files(query_params):
    """
    从 ENCODE 项目进行文件搜索，返回符合条件的 accession 列表。

    参数:
        query_params (dict): 查询参数。例如 {"type": "File", "status": "released"}。

    返回:
        list[str]: 搜索到的文件 accession 列表。如果未找到任何结果，返回空列表。
    """
    print("正在搜索文件...")
    base_url = "https://www.encodeproject.org"
    search_url = f"{base_url}/search/"

    # 合并基础参数与用户自定义查询参数
    params = {
        "format": "json",
        **query_params
    }

    headers = {
        "Accept": "application/json"
    }

    # 发起 GET 请求
    response = requests.get(search_url, params=params, headers=headers)
    response.raise_for_status()  # 如果服务器返回4xx或5xx会抛出异常

    # 解析返回 JSON
    data = response.json()
    results = data.get("@graph", [])

    if not results:
        print("未找到任何文件")
        return []

    print(f"找到 {len(results)} 个文件")

    return results














def search_experiment_by_file(file_accession):
    """
    输入一个 file 的 accession，查找它对应的 experiment accession。

    参数:
        file_accession (str): 文件的 accession，例如 "ENCFF000ABC"。

    返回:
        str 或 None: 返回该文件所属 experiment 的 accession，例如 "ENCSR000XYZ"。如果找不到，则返回 None。
    """
    print(f"正在查找文件 {file_accession} 所属的实验...")

    url = f"https://www.encodeproject.org/files/{file_accession}/?format=json"
    headers = {"Accept": "application/json"}

    response = requests.get(url, headers=headers)
    response.raise_for_status()

    file_metadata = response.json()
    experiment = file_metadata.get("dataset")

    if experiment:
        # experiment 字段通常是类似 "/experiments/ENCSR000XYZ/" 的路径
        experiment_accession = experiment.strip("/").split("/")[-1]
        print(f"文件 {file_accession} 所属实验为: {experiment_accession}")
        return experiment_accession
    else:
        print("未能找到该文件的 experiment 信息")
        return None











def search_files_by_experiment(accession, file_filters):
    """
    根据 accession 获取实验的所有文件，并根据给定的过滤条件选出目标文件。

    参数:
        accession (str): 实验的 accession，例如 "ENCSR000XYZ"。
        file_filters (dict): 用于筛选文件的条件，例如 {"output_type": "signal p-value"}。

    返回:
        str 或 None: 返回符合条件的文件，如果找不到文件则返回 None。
    """
    print(f"正在获取实验 {accession} 的元数据信息...")

    url = f"https://www.encodeproject.org/experiments/{accession}/?frame=embedded&limit=all"
    headers = {"Accept": "application/json"}

    response = requests.get(url, headers=headers)
    response.raise_for_status()

    experiment_data = response.json()
    files = experiment_data.get("files", [])

    files +=  experiment_data.get("elements_references", [])[0].get("files", [])

    print(f"该实验共有 {len(files)} 个文件。")

    # 根据 file_filters 进行多字段匹配筛选
    selected_files = [
        f for f in files
        if all(f.get(k) == v for k, v in file_filters.items())
    ]

    if len(selected_files) == 0:
        print("未找到符合筛选条件的文件")
    else:
        print(f"找到 {len(selected_files)} 个符合筛选条件的文件")
    return selected_files







def download_encode_file(file, output_dir='.'):
    os.makedirs(output_dir, exist_ok=True)
    url = file['href']
    url = "https://www.encodeproject.org" + url
    print(f"正在下载文件 {url}...")
    subprocess.run(["wget", url, "-P", output_dir, "-nc"])





def search_reference_by_experiment(accession):
    url = f"https://www.encodeproject.org/experiments/{accession}/?frame=embedded&limit=all"
    headers = {"Accept": "application/json"}

    response = requests.get(url, headers=headers)
    response.raise_for_status()

    experiment_data = response.json()
    elements_reference = experiment_data.get("elements_references", [])[0]
    return elements_reference




In [6]:
# /files/ENCFF944PFA/@@download/ENCFF944PFA.bed.gz

df = pd.read_excel('../data/Gosai_MPRA/41586_2024_8070_MOESM3_ESM.xlsx')
df = df[df['Usage'] == 'MPRA experimental data used for Malinois training, validation, and testing']

for i, row in tqdm(df.iterrows(), total=len(df)):

    description_list = row['Description'].split(' ')
    experiment_accession = search_experiment_by_file(row['Accession'])

    df.loc[i, 'project'] = description_list[5]
    df.loc[i, 'cell_type'] = description_list[7]
    df.loc[i, 'experiment_accession'] = experiment_accession

    # file_filters = {
    #     "file_format": "tsv",
    #     "output_type": "element quantifications",
    # }
    
    # files = search_files_by_experiment(experiment_accession, file_filters={})
    # files = [f for f in files if 'activity' in f['aliases'][0]]

    file_filters = {
        "file_format": "fasta",
        "output_type": "elements reference",
    }
    files = search_files_by_experiment(experiment_accession, file_filters)

    if len(files) == 1:
        file = files[0]
        df.loc[i, 'ref_accession'] = file['accession']
        download_encode_file(file, "../data/Gosai_MPRA/raw/")
    else:
        print(f"⚠️ Warning: {row['Accession']} has {len(files)} files")

df

  0%|          | 0/37 [00:00<?, ?it/s]

正在查找文件 ENCFF996ECA 所属的实验...
文件 ENCFF996ECA 所属实验为: ENCSR623DJZ
正在获取实验 ENCSR623DJZ 的元数据信息...
该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF715XTT/@@download/ENCFF715XTT.fasta.gz...


--2025-04-14 05:01:57--  https://www.encodeproject.org/files/ENCFF715XTT/@@download/ENCFF715XTT.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2020/07/18/8c119afa-a4a8-4810-9092-94ca77479f52/ENCFF715XTT.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF715XTT.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=18YaZGV%2Ft%2Bia0aXjYq8wZqEx4l0%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJg

正在查找文件 ENCFF018AMJ 所属的实验...
文件 ENCFF018AMJ 所属实验为: ENCSR729IRS
正在获取实验 ENCSR729IRS 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF715XTT.fasta.gz’ already there; not retrieving.

  5%|▌         | 2/37 [00:17<04:22,  7.51s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF715XTT/@@download/ENCFF715XTT.fasta.gz...
正在查找文件 ENCFF345ASG 所属的实验...
文件 ENCFF345ASG 所属实验为: ENCSR645CIP
正在获取实验 ENCSR645CIP 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF715XTT.fasta.gz’ already there; not retrieving.

  8%|▊         | 3/37 [00:19<03:00,  5.30s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF715XTT/@@download/ENCFF715XTT.fasta.gz...
正在查找文件 ENCFF970OLE 所属的实验...
文件 ENCFF970OLE 所属实验为: ENCSR857JFG
正在获取实验 ENCSR857JFG 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF715XTT.fasta.gz’ already there; not retrieving.

 11%|█         | 4/37 [00:22<02:17,  4.16s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF715XTT/@@download/ENCFF715XTT.fasta.gz...
正在查找文件 ENCFF318XMJ 所属的实验...
文件 ENCFF318XMJ 所属实验为: ENCSR847SNQ
正在获取实验 ENCSR847SNQ 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF715XTT.fasta.gz’ already there; not retrieving.

 14%|█▎        | 5/37 [00:24<01:55,  3.60s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF715XTT/@@download/ENCFF715XTT.fasta.gz...
正在查找文件 ENCFF358MBK 所属的实验...
文件 ENCFF358MBK 所属实验为: ENCSR833GXJ
正在获取实验 ENCSR833GXJ 的元数据信息...
该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF384XZU/@@download/ENCFF384XZU.fasta.gz...


--2025-04-14 05:02:22--  https://www.encodeproject.org/files/ENCFF384XZU/@@download/ENCFF384XZU.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2020/07/18/69b420d0-c2fb-4ab8-a918-ce74553958db/ENCFF384XZU.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF384XZU.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=xQvv4bhPf7QAFq6xXwCHMXQm9sY%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJgN6tf

正在查找文件 ENCFF379XWL 所属的实验...
文件 ENCFF379XWL 所属实验为: ENCSR979TSK
正在获取实验 ENCSR979TSK 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF384XZU.fasta.gz’ already there; not retrieving.

 19%|█▉        | 7/37 [00:40<02:45,  5.50s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF384XZU/@@download/ENCFF384XZU.fasta.gz...
正在查找文件 ENCFF774CHX 所属的实验...
文件 ENCFF774CHX 所属实验为: ENCSR653LWA
正在获取实验 ENCSR653LWA 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF384XZU.fasta.gz’ already there; not retrieving.

 22%|██▏       | 8/37 [00:43<02:12,  4.56s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF384XZU/@@download/ENCFF384XZU.fasta.gz...
正在查找文件 ENCFF138DJM 所属的实验...
文件 ENCFF138DJM 所属实验为: ENCSR523VYM
正在获取实验 ENCSR523VYM 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF384XZU.fasta.gz’ already there; not retrieving.

 24%|██▍       | 9/37 [00:46<01:52,  4.03s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF384XZU/@@download/ENCFF384XZU.fasta.gz...
正在查找文件 ENCFF277DDE 所属的实验...
文件 ENCFF277DDE 所属实验为: ENCSR273YGD
正在获取实验 ENCSR273YGD 的元数据信息...
该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF074MMO/@@download/ENCFF074MMO.fasta.gz...


--2025-04-14 05:02:43--  https://www.encodeproject.org/files/ENCFF074MMO/@@download/ENCFF074MMO.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2020/07/18/b2382ea5-ecab-42f6-ae42-cad2c7e66d38/ENCFF074MMO.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF074MMO.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=xUiGIfZpqCf40QgFw116u9gzotg%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJgN6tf

正在查找文件 ENCFF334EKU 所属的实验...
文件 ENCFF334EKU 所属实验为: ENCSR697PNZ
正在获取实验 ENCSR697PNZ 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF074MMO.fasta.gz’ already there; not retrieving.

 30%|██▉       | 11/37 [00:53<01:39,  3.82s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF074MMO/@@download/ENCFF074MMO.fasta.gz...
正在查找文件 ENCFF857FQR 所属的实验...
文件 ENCFF857FQR 所属实验为: ENCSR742AAP
正在获取实验 ENCSR742AAP 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF074MMO.fasta.gz’ already there; not retrieving.

 32%|███▏      | 12/37 [00:56<01:26,  3.46s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF074MMO/@@download/ENCFF074MMO.fasta.gz...
正在查找文件 ENCFF477LDL 所属的实验...
文件 ENCFF477LDL 所属实验为: ENCSR736XUK
正在获取实验 ENCSR736XUK 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF074MMO.fasta.gz’ already there; not retrieving.

 35%|███▌      | 13/37 [00:59<01:17,  3.21s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF074MMO/@@download/ENCFF074MMO.fasta.gz...
正在查找文件 ENCFF484JFE 所属的实验...
文件 ENCFF484JFE 所属实验为: ENCSR045VPN
正在获取实验 ENCSR045VPN 的元数据信息...
该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF621JOY/@@download/ENCFF621JOY.fasta.gz...


--2025-04-14 05:02:56--  https://www.encodeproject.org/files/ENCFF621JOY/@@download/ENCFF621JOY.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2020/07/18/288f9d9c-d00b-4fd1-ac24-970d90b22856/ENCFF621JOY.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF621JOY.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=qUBf2W%2Fb7NtepuMpaxKkBUKDqLU%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJgN6

正在查找文件 ENCFF227KRF 所属的实验...
文件 ENCFF227KRF 所属实验为: ENCSR997GVD
正在获取实验 ENCSR997GVD 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF621JOY.fasta.gz’ already there; not retrieving.

 41%|████      | 15/37 [01:15<01:56,  5.30s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF621JOY/@@download/ENCFF621JOY.fasta.gz...
正在查找文件 ENCFF102ZVT 所属的实验...
文件 ENCFF102ZVT 所属实验为: ENCSR653QXW
正在获取实验 ENCSR653QXW 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF621JOY.fasta.gz’ already there; not retrieving.

 43%|████▎     | 16/37 [01:18<01:33,  4.46s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF621JOY/@@download/ENCFF621JOY.fasta.gz...
正在查找文件 ENCFF333BAD 所属的实验...
文件 ENCFF333BAD 所属实验为: ENCSR563TTU
正在获取实验 ENCSR563TTU 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF621JOY.fasta.gz’ already there; not retrieving.

 46%|████▌     | 17/37 [01:20<01:18,  3.94s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF621JOY/@@download/ENCFF621JOY.fasta.gz...
正在查找文件 ENCFF307HBZ 所属的实验...
文件 ENCFF307HBZ 所属实验为: ENCSR645XWQ
正在获取实验 ENCSR645XWQ 的元数据信息...
该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF431PJJ/@@download/ENCFF431PJJ.fasta.gz...


--2025-04-14 05:03:18--  https://www.encodeproject.org/files/ENCFF431PJJ/@@download/ENCFF431PJJ.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2020/07/18/1aa0bad2-0f5b-4b98-a5fb-5be376d004f1/ENCFF431PJJ.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF431PJJ.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=7BMkzZMje1wHZfPCjY8UDT4Tyb8%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJgN6tf

正在查找文件 ENCFF771HPB 所属的实验...
文件 ENCFF771HPB 所属实验为: ENCSR505LQA
正在获取实验 ENCSR505LQA 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF431PJJ.fasta.gz’ already there; not retrieving.

 51%|█████▏    | 19/37 [01:29<01:12,  4.00s/it]

该实验共有 20 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF431PJJ/@@download/ENCFF431PJJ.fasta.gz...
正在查找文件 ENCFF359KJL 所属的实验...
文件 ENCFF359KJL 所属实验为: ENCSR410EJE
正在获取实验 ENCSR410EJE 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF431PJJ.fasta.gz’ already there; not retrieving.

 54%|█████▍    | 20/37 [01:32<01:01,  3.61s/it]

该实验共有 14 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF431PJJ/@@download/ENCFF431PJJ.fasta.gz...
正在查找文件 ENCFF035HKU 所属的实验...
文件 ENCFF035HKU 所属实验为: ENCSR222QJT
正在获取实验 ENCSR222QJT 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF431PJJ.fasta.gz’ already there; not retrieving.

 57%|█████▋    | 21/37 [01:35<00:54,  3.38s/it]

该实验共有 23 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF431PJJ/@@download/ENCFF431PJJ.fasta.gz...
正在查找文件 ENCFF759PPO 所属的实验...
文件 ENCFF759PPO 所属实验为: ENCSR753ZRI
正在获取实验 ENCSR753ZRI 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF431PJJ.fasta.gz’ already there; not retrieving.

 59%|█████▉    | 22/37 [01:37<00:48,  3.24s/it]

该实验共有 26 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF431PJJ/@@download/ENCFF431PJJ.fasta.gz...
正在查找文件 ENCFF256WKS 所属的实验...
文件 ENCFF256WKS 所属实验为: ENCSR213UGS
正在获取实验 ENCSR213UGS 的元数据信息...
该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF982GRP/@@download/ENCFF982GRP.fasta.gz...


--2025-04-14 05:03:35--  https://www.encodeproject.org/files/ENCFF982GRP/@@download/ENCFF982GRP.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2020/07/18/22f1b6ca-00bd-43e4-92c3-3190dd3b654b/ENCFF982GRP.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF982GRP.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=9232CllhssXNvJKIdySKIL1smTE%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJgN6tf

正在查找文件 ENCFF352JAC 所属的实验...
文件 ENCFF352JAC 所属实验为: ENCSR712VZT
正在获取实验 ENCSR712VZT 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF982GRP.fasta.gz’ already there; not retrieving.

 65%|██████▍   | 24/37 [01:46<00:47,  3.65s/it]

该实验共有 24 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF982GRP/@@download/ENCFF982GRP.fasta.gz...
正在查找文件 ENCFF147SMK 所属的实验...
文件 ENCFF147SMK 所属实验为: ENCSR135MRI
正在获取实验 ENCSR135MRI 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF982GRP.fasta.gz’ already there; not retrieving.

 68%|██████▊   | 25/37 [01:49<00:40,  3.37s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF982GRP/@@download/ENCFF982GRP.fasta.gz...
正在查找文件 ENCFF311DJW 所属的实验...
文件 ENCFF311DJW 所属实验为: ENCSR574GPT
正在获取实验 ENCSR574GPT 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF982GRP.fasta.gz’ already there; not retrieving.

 70%|███████   | 26/37 [01:52<00:35,  3.19s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF982GRP/@@download/ENCFF982GRP.fasta.gz...
正在查找文件 ENCFF350IJA 所属的实验...
文件 ENCFF350IJA 所属实验为: ENCSR843APF
正在获取实验 ENCSR843APF 的元数据信息...
该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF436FCK/@@download/ENCFF436FCK.fasta.gz...


--2025-04-14 05:03:49--  https://www.encodeproject.org/files/ENCFF436FCK/@@download/ENCFF436FCK.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2020/07/18/852b9e82-bb74-4dbd-bd30-eb67fc5b1b5a/ENCFF436FCK.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF436FCK.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=58H4jvdl6FcAJj4QvBsC12oYOC8%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJgN6tf

正在查找文件 ENCFF815ORW 所属的实验...
文件 ENCFF815ORW 所属实验为: ENCSR562GGR
正在获取实验 ENCSR562GGR 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF436FCK.fasta.gz’ already there; not retrieving.

 76%|███████▌  | 28/37 [02:00<00:32,  3.56s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF436FCK/@@download/ENCFF436FCK.fasta.gz...
正在查找文件 ENCFF865LNO 所属的实验...
文件 ENCFF865LNO 所属实验为: ENCSR793OLW
正在获取实验 ENCSR793OLW 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF436FCK.fasta.gz’ already there; not retrieving.

 78%|███████▊  | 29/37 [02:02<00:26,  3.28s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF436FCK/@@download/ENCFF436FCK.fasta.gz...
正在查找文件 ENCFF755GRH 所属的实验...
文件 ENCFF755GRH 所属实验为: ENCSR003TJR
正在获取实验 ENCSR003TJR 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF436FCK.fasta.gz’ already there; not retrieving.

 81%|████████  | 30/37 [02:05<00:21,  3.07s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF436FCK/@@download/ENCFF436FCK.fasta.gz...
正在查找文件 ENCFF440YVF 所属的实验...
文件 ENCFF440YVF 所属实验为: ENCSR386XIB
正在获取实验 ENCSR386XIB 的元数据信息...
该实验共有 23 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF443RYE/@@download/ENCFF443RYE.fasta.gz...


--2025-04-14 05:04:02--  https://www.encodeproject.org/files/ENCFF443RYE/@@download/ENCFF443RYE.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2021/07/26/3848630f-34c8-49e5-9288-1fc84d5ffdee/ENCFF443RYE.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF443RYE.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=wFCpXSWcvbcXMCI1mMbh1nNmWaI%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJgN6tf

正在查找文件 ENCFF703OIL 所属的实验...
文件 ENCFF703OIL 所属实验为: ENCSR971PLA
正在获取实验 ENCSR971PLA 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF443RYE.fasta.gz’ already there; not retrieving.

 86%|████████▋ | 32/37 [02:14<00:18,  3.61s/it]

该实验共有 20 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF443RYE/@@download/ENCFF443RYE.fasta.gz...
正在查找文件 ENCFF927USI 所属的实验...
文件 ENCFF927USI 所属实验为: ENCSR554UKK
正在获取实验 ENCSR554UKK 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF443RYE.fasta.gz’ already there; not retrieving.

 89%|████████▉ | 33/37 [02:17<00:13,  3.33s/it]

该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF443RYE/@@download/ENCFF443RYE.fasta.gz...
正在查找文件 ENCFF476FXK 所属的实验...
文件 ENCFF476FXK 所属实验为: ENCSR443ZPY
正在获取实验 ENCSR443ZPY 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF443RYE.fasta.gz’ already there; not retrieving.

 92%|█████████▏| 34/37 [02:19<00:09,  3.06s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF443RYE/@@download/ENCFF443RYE.fasta.gz...
正在查找文件 ENCFF742ENC 所属的实验...
文件 ENCFF742ENC 所属实验为: ENCSR579QGV
正在获取实验 ENCSR579QGV 的元数据信息...
该实验共有 18 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF728XQT/@@download/ENCFF728XQT.fasta.gz...


--2025-04-14 05:04:16--  https://www.encodeproject.org/files/ENCFF728XQT/@@download/ENCFF728XQT.fasta.gz
Resolving www.encodeproject.org (www.encodeproject.org)... 34.211.244.144
Connecting to www.encodeproject.org (www.encodeproject.org)|34.211.244.144|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://encode-public.s3.amazonaws.com/2021/07/26/d1a750d7-c848-47e2-938f-d90fed878c22/ENCFF728XQT.fasta.gz?response-content-disposition=attachment%3B%20filename%3DENCFF728XQT.fasta.gz&AWSAccessKeyId=ASIATGZNGCNX765VE5LV&Signature=mpKJV%2FnZkVS0UBcmwN3bUo3Upb4%3D&x-amz-security-token=IQoJb3JpZ2luX2VjEIn%2F%2F%2F%2F%2F%2F%2F%2F%2F%2FwEaCXVzLXdlc3QtMiJIMEYCIQDXxkYDkcrSEtZFET6%2FOm9dHBMd0zIcEGk4OVkBajydOgIhAKDQ0%2F14ehvzIST474L47mKg8tZy9EG0g0YP3gUCW4VSKrMFCBIQABoMMjIwNzQ4NzE0ODYzIgxA6CjgF8UFNDQ1FaoqkAVXYf9msujDnhYNWsEwMQ%2FRMNy8MZsXSrk3GG677VQRhjyU6MbJT8mNIDR22f%2FO55YxXZXGBw9IXj7%2BNWOm8EVnjxTIPSxUVT%2FbY7MGgDDhxz5dqAMA6s19KpHykGfTog8y83KKMsKdDJgN6

正在查找文件 ENCFF112HAT 所属的实验...
文件 ENCFF112HAT 所属实验为: ENCSR833BYO
正在获取实验 ENCSR833BYO 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF728XQT.fasta.gz’ already there; not retrieving.

 97%|█████████▋| 36/37 [02:45<00:07,  7.24s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF728XQT/@@download/ENCFF728XQT.fasta.gz...
正在查找文件 ENCFF792IHA 所属的实验...
文件 ENCFF792IHA 所属实验为: ENCSR873QHK
正在获取实验 ENCSR873QHK 的元数据信息...


File ‘../data/Gosai_MPRA/raw/ENCFF728XQT.fasta.gz’ already there; not retrieving.

100%|██████████| 37/37 [02:48<00:00,  4.55s/it]

该实验共有 13 个文件。
找到 1 个符合筛选条件的文件
正在下载文件 https://www.encodeproject.org/files/ENCFF728XQT/@@download/ENCFF728XQT.fasta.gz...





Unnamed: 0,Accession,Database,Description,Link,Usage,project,cell_type,experiment_accession,ref_accession
28,ENCFF996ECA,ENCODE,MPRA normalized count data for OL27 in SK-N-SH...,https://www.encodeproject.org/files/ENCFF996EC...,MPRA experimental data used for Malinois train...,OL27,SK-N-SH,ENCSR623DJZ,ENCFF715XTT
29,ENCFF018AMJ,ENCODE,MPRA normalized count data for OL27 in A549 cells,https://www.encodeproject.org/files/ENCFF018AM...,MPRA experimental data used for Malinois train...,OL27,A549,ENCSR729IRS,ENCFF715XTT
30,ENCFF345ASG,ENCODE,MPRA normalized count data for OL27 in GM12878...,https://www.encodeproject.org/files/ENCFF345AS...,MPRA experimental data used for Malinois train...,OL27,GM12878,ENCSR645CIP,ENCFF715XTT
31,ENCFF970OLE,ENCODE,MPRA normalized count data for OL27 in K562 cells,https://www.encodeproject.org/files/ENCFF970OL...,MPRA experimental data used for Malinois train...,OL27,K562,ENCSR857JFG,ENCFF715XTT
32,ENCFF318XMJ,ENCODE,MPRA normalized count data for OL27 in HepG2 c...,https://www.encodeproject.org/files/ENCFF318XM...,MPRA experimental data used for Malinois train...,OL27,HepG2,ENCSR847SNQ,ENCFF715XTT
33,ENCFF358MBK,ENCODE,MPRA normalized count data for OL28 in SK-N-SH...,https://www.encodeproject.org/files/ENCFF358MB...,MPRA experimental data used for Malinois train...,OL28,SK-N-SH,ENCSR833GXJ,ENCFF384XZU
34,ENCFF379XWL,ENCODE,MPRA normalized count data for OL28 in HepG2 c...,https://www.encodeproject.org/files/ENCFF379XW...,MPRA experimental data used for Malinois train...,OL28,HepG2,ENCSR979TSK,ENCFF384XZU
35,ENCFF774CHX,ENCODE,MPRA normalized count data for OL28 in K562 cells,https://www.encodeproject.org/files/ENCFF774CH...,MPRA experimental data used for Malinois train...,OL28,K562,ENCSR653LWA,ENCFF384XZU
36,ENCFF138DJM,ENCODE,MPRA normalized count data for OL28 in A549 cells,https://www.encodeproject.org/files/ENCFF138DJ...,MPRA experimental data used for Malinois train...,OL28,A549,ENCSR523VYM,ENCFF384XZU
37,ENCFF277DDE,ENCODE,MPRA normalized count data for OL29 in A549 cells,https://www.encodeproject.org/files/ENCFF277DD...,MPRA experimental data used for Malinois train...,OL29,A549,ENCSR273YGD,ENCFF074MMO


In [None]:
df.to_csv('../data/Gosai_MPRA/metadata.csv', index=False)