### 시작하기에 앞서 당부의 말씀

파이썬을 배우다 보면 같은 작업을 여러 방법으로 처리할 수 있습니다.  
각 방법은 **장점과 한계**가 다릅니다.  
어떤 방법은 문제를 **더 쉽게, 적은 양의 코드로** 해결하게 해줍니다.  
또 어떤 방법은 문제를 **더 효율적으로, 더 적은 계산양으로** 해결합니다.  
또 다른 방법은 기존 방식으로 해결할 수 없던 문제를 다룹니다.  

한 가지 작업을 하는 방법도 넘쳐납니다.    
프로그래밍과 코딩이 널리 퍼지고 AI는 빠르게 발전하고 있습니다.    
우리가 접하는 정보의 양에 압도당하고 무기력해질 수 있습니다.     
앞으로 배워야 할 것들이 산더미 같이 쌓인 상황 앞에서 막막하고 혼란스러울 수 있습니다.  

#### 하지만, 지금 무언가를 모른다고 낙담하거나 무력해질 이유가 전혀 없습니다.  
중요한 것은 **핵심 개념과 큰 그림을 잡는 것, 그리고 빠르게 배울 수 있는 능력을 갖추는 것**입니다.  
내가 지금 무엇을 알고 있냐는 크게 중요하지 않습니다.  
어차피 내가 직면한 문제에 따라 내가 써야 하는 도구들과 알아야 하는 것들은 빠르게 바뀝니다.  
특히 AI 분야는 빠르게 발전하고 있기 때문에 여기에 맞춰서도 내가 아는 것들을 조정해나가야 합니다.  

호기심 없이 이론만 공부하면 금세 잊힙니다.  
풀고 싶은 문제가 없으면 공부가 지속되지 않습니다.  
**모든 것을 미리 배우고 시작하려 하지 마세요.**  
**관심 있는 문제를 먼저 선택**하세요.  
그 문제를 해결하기 위해 필요한 지식을 하나씩 배우는 것이 가장 빠른 성장 경로입니다.  

---

### 방법은 여러 가지, 정답은 없다  

어떤 작업을 하는 "정답"은 없습니다.  
내가 직면한 문제를 차근차근 해결해나가세요.  
그때그때 가장 좋은 방법을 새로 접하면서 배워나가는 것이 가장 빠르게 배우는 방법입니다.  

---

이 노트북에서는 **Biopython의 `Entrez` 모듈**을 사용해 NCBI E-utilities API를 다루는 방법을 학습합니다.  
이전 노트북에서는 `requests` 라이브러리를 사용해 직접 HTTP 요청을 보냈습니다.  
이번에는 Biopython이 제공하는 고수준 인터페이스를 통해 같은 일을 더 간단하게 처리하는 방법을 비교하며 살펴봅니다.  

# Biopython Entrez 모듈 실습

**학습목표**: Biopython의 `Bio.Entrez` 모듈을 사용해 `NCBI Entrez E-utilities`를 호출하고 생물의학 데이터를 효율적으로 처리하는 방법을 배운다.

**Last updated**: 2025-11-03

**Reference**: *Biopython Tutorial and Cookbook* (Chapter 9: Accessing NCBI's Entrez databases)

### 핵심 개념

* **Bio.Entrez**: Biopython에서 제공하는 NCBI Entrez 데이터베이스 접근 모듈
* **내장 파싱**: XML 응답을 자동으로 파싱하여 Python 딕셔너리로 변환
* **자동 지연**: API 호출 간 적절한 지연 시간을 자동으로 관리
* **에러 처리**: HTTP 및 XML 파싱 에러를 적절히 처리
* **이메일 요구사항**: NCBI 정책에 따라 이메일 주소를 필수로 설정

---

### Biopython Entrez의 주요 장점

* **간단한 사용법**: `requests` 대비 더 간단한 API
* **자동 파싱**: XML을 딕셔너리로 자동 변환
* **내장 검증**: 잘못된 파라미터 검증
* **역사 서버 지원**: WebEnv와 query_key 자동 관리
* **배치 처리**: 대용량 데이터 처리를 위한 최적화

---

### 주요 함수들

* `Entrez.einfo()` — 데이터베이스 정보 확인
* `Entrez.esearch()` — 검색어로 UID 목록 조회
* `Entrez.esummary()` — UID 요약 정보 반환
* `Entrez.efetch()` — UID의 전체 레코드 반환
* `Entrez.elink()` — 데이터베이스 간 연관 링크 조회
* `Entrez.epost()` — UID 목록을 History 서버에 업로드
* `Entrez.parse()` — XML 결과를 파싱하여 Python 객체로 변환
* `Entrez.read()` — 단일 레코드를 파싱하여 딕셔너리로 변환


In [None]:
# Biopython Entrez 설정
from Bio import Entrez
import os
from dotenv import load_dotenv

load_dotenv()

# 이메일 설정 (필수)
Entrez.email = os.getenv("EUTILS_EMAIL", "student@example.com")

# API 키 설정 (선택사항, 더 높은 요청 제한)
api_key = os.getenv("EUTILS_API_KEY")
if api_key:
    Entrez.api_key = api_key

# 도구 이름 설정
Entrez.tool = os.getenv("EUTILS_TOOL", "biopython-class-notebook")

print(f"Email: {Entrez.email}")
print(f"Tool: {Entrez.tool}")
print(f"API Key set: {bool(api_key)}")

### EInfo: 데이터베이스 정보 확인

`Entrez.einfo()`를 사용하여 NCBI 데이터베이스의 메타데이터를 확인할 수 있습니다."

### PubMed 데이터베이스 정보

In [None]:
# PubMed 데이터베이스 정보 가져오기
handle = Entrez.einfo(db="pubmed")
record = Entrez.read(handle)
handle.close()

db_info = record["DbInfo"]

print(f"DataBase: {db_info['DbName']}")
print(f"Description: {db_info['Description']}")
print(f"LastUpdate: {db_info['LastUpdate']}")
print(f"RecordCounts: {db_info['Count']}")

print("\n=== Field Info ===")
for field in db_info['FieldList'][:10]:
    print(f"{field['Name']}: {field['FullName']} (term count: {field['TermCount']})")

print("\n=== LinkInfo (First 10) ===")
for link in db_info['LinkList'][:10]:
    print(f"{link['Name']}: link to {link['DbTo']} DB")

print(f"\n총 검색 필드 수: {len(db_info['FieldList'])}")
print(f"총 연결 데이터베이스 수: {len(db_info['LinkList'])}")

### ClinVar 데이터베이스 정보

In [None]:
# ClinVar 데이터베이스 정보 가져오기
handle = Entrez.einfo(db="clinvar")
record = Entrez.read(handle)
handle.close()

db_info = record["DbInfo"]

print(f"데이터베이스: {db_info['DbName']}")
print(f"설명: {db_info['Description']}")
print(f"마지막 업데이트: {db_info['LastUpdate']}")
print(f"레코드 수: {db_info['Count']}")

print("\n=== Field Info ===")
for field in db_info['FieldList'][:15]:
    print(f"{field['Name']}: {field['FullName']} (term count: {field['TermCount']})")

print("\n=== LinkInfo (First 10) ===")
for link in db_info['LinkList'][:10]:
    print(f"{link['Name']}: link to {link['DbTo']} DB")

print(f"\n총 검색 필드 수: {len(db_info['FieldList'])}")
print(f"총 연결 데이터베이스 수: {len(db_info['LinkList'])}")

### ESearch: 검색어로 UID 목록 조회

`Entrez.esearch()`를 사용하여 다양한 데이터베이스에서 검색을 수행할 수 있습니다."

### PubMed에서 LLM 및 생물정보학 논문 검색

In [None]:
# PubMed에서 LLM과 생물정보학 관련 논문 검색
query = '"LLM"[Title] AND bioinformatics'

handle = Entrez.esearch(db="pubmed", term=query, retmax=10)
record = Entrez.read(handle)
handle.close()

print(f"검색어: {query}")
print(f"총 결과 수: {record['Count']}")
print(f"가져온 ID 수: {len(record['IdList'])}")
print(f"쿼리 번역: {record['QueryTranslation']}")

print("\n=== PubMed ID 목록 ===")
pubmed_ids = record['IdList']
for i, pmid in enumerate(pubmed_ids):
    print(f"{i+1}. PMID: {pmid}")


### PMC에서 LLM 및 생물정보학 논문 검색

In [None]:
# PMC에서 LLM과 생물정보학 관련 논문 검색
query = '"LLM"[Title] AND bioinformatics'

handle = Entrez.esearch(db="pmc", term=query, retmax=10)
record = Entrez.read(handle)
handle.close()

print(f"검색어: {query}")
print(f"총 결과 수: {record['Count']}")
print(f"가져온 ID 수: {len(record['IdList'])}")
print(f"쿼리 번역: {record['QueryTranslation']}")

print("\n=== PMC ID 목록 ===")
pmc_ids = record['IdList']
for i, pmcid in enumerate(pmc_ids):
    print(f"{i+1}. PMCID: {pmcid}")


### EFetch: UID로 상세 레코드 가져오기

`Entrez.efetch()`를 사용하여 특정 ID의 전체 레코드를 가져올 수 있습니다."

### PubMed 논문의 상세 정보 (초록 및 메타데이터)"

In [None]:
# PubMed 논문의 상세 정보 가져오기
if pubmed_ids:
    first_pmid = pubmed_ids[0]
    
    handle = Entrez.efetch(db="pubmed", id=first_pmid, rettype="abstract", retmode="xml")
    records = Entrez.read(handle)['PubmedArticle'][0]
    
    article = records['MedlineCitation']['Article']
    
    print(f"PMID: {first_pmid}")
    print(f"제목: {article.get('ArticleTitle', 'N/A')}")
    
    # 저자 정보
    if 'AuthorList' in article:
        authors = []
        for author in article['AuthorList']:
            if 'LastName' in author and 'ForeName' in author:
                authors.append(f"{author['ForeName']} {author['LastName']}")
        print(f"저자: {', '.join(authors[:5])}{'...' if len(authors) > 5 else ''}")
    
    # 저널 정보
    journal = article.get('Journal', {})
    if journal:
        print(f"저널: {journal.get('Title', 'N/A')}")
        if 'JournalIssue' in journal:
            issue = journal['JournalIssue']
            pub_date = issue.get('PubDate', {})
            year = pub_date.get('Year', 'N/A')
            print(f"발행년도: {year}")
    
    # 초록
    if 'Abstract' in article:
        abstract = article['Abstract']
        if 'AbstractText' in abstract:
            abstract_text = abstract['AbstractText']
            if isinstance(abstract_text, list):
                # 구조화된 초록
                print("\n=== 초록 ===")
                for section in abstract_text:
                    if isinstance(section, dict) and '@Label' in section:
                        print(f"**{section['@Label']}**: {section.get('#text', section)}")
                    else:
                        print(section)
            else:
                print(f"\n=== 초록 ===\n{abstract_text}")

    handle.close()
else:
    print("검색된 PubMed ID가 없습니다.")


### PMC 논문의 전체 텍스트 가져오기"

In [None]:
from Bio import Entrez
handle = Entrez.efetch(db="pmc", id=pmc_ids[0], rettype="full", retmode="xml")
article = Entrez.parse(handle)

In [None]:
for record in article:
    print(record)

In [None]:
record['body'].keys()

In [None]:
record['front']['journal-meta']

In [None]:
record['front']['article-meta']

In [None]:
record.keys()

In [None]:
record['body']['sec']

## 참고 자료
- [Biopython Tutorial and Cookbook](http://biopython.org/DIST/docs/tutorial/Tutorial.html)
- Chapter 9: Accessing NCBI's Entrez databases\n- [NCBI E-utilities Documentation](https://www.ncbi.nlm.nih.gov/books/NBK25497/)
- [Biopython Entrez Module Documentation](https://biopython.org/docs/latest/api/Bio.Entrez.html)
- [NCBI API 사용 가이드라인](https://www.ncbi.nlm.nih.gov/home/api/)
- [PMC XML Schema](https://jats.nlm.nih.gov/) - JATS (Journal Article Tag Suite)"