In [1]:
from Bio import SeqIO

# 设定文件路径
filename = "./data/uniprot_sprot.fasta"

print(f"开始读取 {filename} ...")

# 使用 SeqIO.parse 创建一个迭代器
# "fasta" 告诉库我们要解析的格式
record_iterator = SeqIO.parse(filename, "fasta")

count = 0

for record in record_iterator:
    # --- 1. 获取基本信息 ---
    # record.id 通常就是 ">" 之后的第一个字符串，例如 "sp|Q9HGZ5|GOGA3_HUMAN"
    entry_id = record.id
    
    # record.description 是 ">" 之后的一整行内容
    description = record.description
    
    # record.seq 是实际的蛋白质序列对象
    sequence = record.seq
    
    # --- 2. 解析特定的元数据 (简单的字符串处理) ---
    # UniProt 的描述通常包含 "OS=..." (Organism Species)
    if "OS=" in description:
        # 提取物种名称的简单逻辑
        parts = description.split("OS=")
        if len(parts) > 1:
            organism = parts[1].split("=")[0].strip() # 粗略提取
    
    # --- 3. 模拟数据处理 (例如：筛选人类蛋白质) ---
    # 这里我们只打印前 3 条作为演示
    if count < 3:
        print(f"--- 记录 {count + 1} ---")
        print(f"ID: {entry_id}")
        print(f"长度: {len(sequence)}")
        print(f"前10个氨基酸: {sequence[:10]}")
        print(f"完整描述: {description}")
        print("-" * 30)
    
    count += 1

print(f"处理完成，共读取了 {count} 条蛋白质序列。")

开始读取 ./data/uniprot_sprot.fasta ...
--- 记录 1 ---
ID: sp|Q6GZX4|001R_FRG3G
长度: 256
前10个氨基酸: MAFSAEDVLK
完整描述: sp|Q6GZX4|001R_FRG3G Putative transcription factor 001R OS=Frog virus 3 (isolate Goorha) OX=654924 GN=FV3-001R PE=4 SV=1
------------------------------
--- 记录 2 ---
ID: sp|Q6GZX3|002L_FRG3G
长度: 320
前10个氨基酸: MSIIGATRLQ
完整描述: sp|Q6GZX3|002L_FRG3G Uncharacterized protein 002L OS=Frog virus 3 (isolate Goorha) OX=654924 GN=FV3-002L PE=4 SV=1
------------------------------
--- 记录 3 ---
ID: sp|Q197F8|002R_IIV3
长度: 458
前10个氨基酸: MASNTVSAQG
完整描述: sp|Q197F8|002R_IIV3 Uncharacterized protein 002R OS=Invertebrate iridescent virus 3 OX=345201 GN=IIV3-002R PE=4 SV=1
------------------------------
处理完成，共读取了 574627 条蛋白质序列。
