In [1]:
! pip install Bio

Collecting Bio
  Downloading bio-1.7.1-py3-none-any.whl.metadata (5.7 kB)
Collecting biopython>=1.80 (from Bio)
  Downloading biopython-1.85-cp312-cp312-win_amd64.whl.metadata (13 kB)
Collecting gprofiler-official (from Bio)
  Downloading gprofiler_official-1.0.0-py3-none-any.whl.metadata (11 kB)
Collecting mygene (from Bio)
  Downloading mygene-3.2.2-py2.py3-none-any.whl.metadata (10 kB)
Collecting pooch (from Bio)
  Downloading pooch-1.8.2-py3-none-any.whl.metadata (10 kB)
Collecting biothings-client>=0.2.6 (from mygene->Bio)
  Downloading biothings_client-0.4.1-py3-none-any.whl.metadata (10 kB)
Downloading bio-1.7.1-py3-none-any.whl (280 kB)
Downloading biopython-1.85-cp312-cp312-win_amd64.whl (2.8 MB)
   ---------------------------------------- 0.0/2.8 MB ? eta -:--:--
   -------------- ------------------------- 1.0/2.8 MB 5.6 MB/s eta 0:00:01
   ---------------------- ----------------- 1.6/2.8 MB 4.2 MB/s eta 0:00:01
   ---------------------------------------- 2.8/2.8 MB 4.5 MB/s 

In [1]:
import os
import time
from Bio import Entrez, SeqIO

Entrez.email = "hotuankhanh20112016@gmail.com"
# Entrez.api_key = "YOUR_API_KEY"  # nếu có

def load_existing_ids(filepath):
    """Tải các ID đã có trong file FASTA"""
    existing_ids = set()
    if os.path.exists(filepath):
        with open(filepath, 'r') as file:
            for record in SeqIO.parse(file, 'fasta'):
                existing_ids.add(record.id)
    return existing_ids

def fetch_amp_sequences(amp_count=290000, output_file='amp_peptides.fasta'):
    existing_ids = load_existing_ids(output_file)
    print(f"📝 Đã có sẵn {len(existing_ids)} ID trong {output_file}, sẽ bỏ qua những ID này.")

    search_term_amp = 'antimicrobial peptide[Title] OR (antimicrobial peptide[Protein Name] OR (antimicrobial[All Fields] AND peptide[All Fields])) AND (fungi[filter] OR bacteria[filter] OR viruses[filter])'
    handle_amp = Entrez.esearch(db="protein", term=search_term_amp, retmax=amp_count)
    record_amp = Entrez.read(handle_amp)
    handle_amp.close()

    amp_ids = record_amp['IdList']
    total_new = 0

    with open(output_file, 'a') as fasta_file:  # Ghi thêm vào file
        for i in range(276500, len(amp_ids), 100):
            batch_ids = amp_ids[i:i + 100]
            id_string = ','.join(batch_ids)
            print(f"📦 Fetching batch {i // 100 + 1} ({i}-{i+len(batch_ids)})...")

            try:
                fetch_handle = Entrez.efetch(db="protein", id=id_string, rettype="fasta", retmode="text")
                for record in SeqIO.parse(fetch_handle, "fasta"):
                    if record.id not in existing_ids:
                        fasta_file.write(f">{record.id} AMP\n{record.seq}\n")
                        existing_ids.add(record.id)
                        total_new += 1
                        print(f"✅ Ghi {record.id}")
                    else:
                        print(f"⏩ Bỏ qua {record.id} (đã tồn tại)")
                fetch_handle.close()
            except Exception as e:
                print(f"❌ Lỗi ở batch {i // 100 + 1}: {e}")
                continue

            time.sleep(0.4)

    print(f"🎉 Đã ghi thêm {total_new} AMP mới vào {output_file}.")

fetch_amp_sequences()


📝 Đã có sẵn 276547 ID trong amp_peptides.fasta, sẽ bỏ qua những ID này.
📦 Fetching batch 2766 (276500-276600)...
⏩ Bỏ qua KAJ46707.1 (đã tồn tại)
⏩ Bỏ qua KAJ46402.1 (đã tồn tại)
⏩ Bỏ qua KAJ46134.1 (đã tồn tại)
⏩ Bỏ qua KAJ46116.1 (đã tồn tại)
⏩ Bỏ qua KAJ53610.1 (đã tồn tại)
⏩ Bỏ qua KAJ53609.1 (đã tồn tại)
⏩ Bỏ qua KAJ53175.1 (đã tồn tại)
⏩ Bỏ qua KAJ53174.1 (đã tồn tại)
⏩ Bỏ qua KAJ53119.1 (đã tồn tại)
⏩ Bỏ qua KAJ53118.1 (đã tồn tại)
⏩ Bỏ qua KAJ52652.1 (đã tồn tại)
⏩ Bỏ qua KAJ52651.1 (đã tồn tại)
⏩ Bỏ qua KAJ52551.1 (đã tồn tại)
⏩ Bỏ qua KAJ52550.1 (đã tồn tại)
⏩ Bỏ qua KAJ52406.1 (đã tồn tại)
⏩ Bỏ qua KAJ52405.1 (đã tồn tại)
⏩ Bỏ qua KAJ52116.1 (đã tồn tại)
⏩ Bỏ qua KAJ52048.1 (đã tồn tại)
⏩ Bỏ qua KAJ52047.1 (đã tồn tại)
⏩ Bỏ qua KAJ51384.1 (đã tồn tại)
⏩ Bỏ qua KAJ51383.1 (đã tồn tại)
⏩ Bỏ qua KAJ51257.1 (đã tồn tại)
⏩ Bỏ qua KAJ51256.1 (đã tồn tại)
⏩ Bỏ qua KAJ50555.1 (đã tồn tại)
⏩ Bỏ qua KAJ50381.1 (đã tồn tại)
⏩ Bỏ qua KAJ50380.1 (đã tồn tại)
⏩ Bỏ qua KAJ50368.1 (đã tồn t