### 시작하기에 앞서 당부의 말씀

파이썬을 배우다 보면 같은 작업을 여러 방법으로 처리할 수 있습니다.  
각 방법은 **장점과 한계**가 다릅니다.  
어떤 방법은 문제를 **더 쉽게, 적은 양의 코드로** 해결하게 해줍니다.  
또 어떤 방법은 문제를 **더 효율적으로, 더 적은 계산양으로** 해결합니다.  
또 다른 방법은 기존 방식으로 해결할 수 없던 문제를 다룹니다.  

한 가지 작업을 하는 방법도 넘쳐납니다.    
프로그래밍과 코딩이 널리 퍼지고 AI는 빠르게 발전하고 있습니다.    
우리가 접하는 정보의 양에 압도당하고 무기력해질 수 있습니다.     
앞으로 배워야 할 것들이 산더미 같이 쌓인 상황 앞에서 막막하고 혼란스러울 수 있습니다.  

#### 하지만, 지금 무언가를 모른다고 낙담하거나 무력해질 이유가 전혀 없습니다.  
중요한 것은 **핵심 개념과 큰 그림을 잡는 것, 그리고 빠르게 배울 수 있는 능력을 갖추는 것**입니다.  
내가 지금 무엇을 알고 있냐는 크게 중요하지 않습니다.  
어차피 내가 직면한 문제에 따라 내가 써야 하는 도구들과 알아야 하는 것들은 빠르게 바뀝니다.  
특히 AI 분야는 빠르게 발전하고 있기 때문에 여기에 맞춰서도 내가 아는 것들을 조정해나가야 합니다.  

호기심 없이 이론만 공부하면 금세 잊힙니다.  
풀고 싶은 문제가 없으면 공부가 지속되지 않습니다.  
**모든 것을 미리 배우고 시작하려 하지 마세요.**  
**관심 있는 문제를 먼저 선택**하세요.  
그 문제를 해결하기 위해 필요한 지식을 하나씩 배우는 것이 가장 빠른 성장 경로입니다.  

---

### 방법은 여러 가지, 정답은 없다  

어떤 작업을 하는 "정답"은 없습니다.  
내가 직면한 문제를 차근차근 해결해나가세요.  
그때그때 가장 좋은 방법을 새로 접하면서 배워나가는 것이 가장 빠르게 배우는 방법입니다.  

---

이 노트북에서는 **Biopython의 `Entrez` 모듈**을 사용해 NCBI E-utilities API를 다루는 방법을 학습합니다.  
이전 노트북에서는 `requests` 라이브러리를 사용해 직접 HTTP 요청을 보냈습니다.  
이번에는 Biopython이 제공하는 고수준 인터페이스를 통해 같은 일을 더 간단하게 처리하는 방법을 비교하며 살펴봅니다.  

# Biopython Entrez 모듈 실습

**학습목표**: Biopython의 `Bio.Entrez` 모듈을 사용해 `NCBI Entrez E-utilities`를 호출하고 생물의학 데이터를 효율적으로 처리하는 방법을 배운다.

**Last updated**: 2025-11-03

**Reference**: *Biopython Tutorial and Cookbook* (Chapter 9: Accessing NCBI's Entrez databases)

### 핵심 개념

* **Bio.Entrez**: Biopython에서 제공하는 NCBI Entrez 데이터베이스 접근 모듈
* **내장 파싱**: XML 응답을 자동으로 파싱하여 Python 딕셔너리로 변환
* **자동 지연**: API 호출 간 적절한 지연 시간을 자동으로 관리
* **에러 처리**: HTTP 및 XML 파싱 에러를 적절히 처리
* **이메일 요구사항**: NCBI 정책에 따라 이메일 주소를 필수로 설정

---

### Biopython Entrez의 주요 장점

* **간단한 사용법**: `requests` 대비 더 간단한 API
* **자동 파싱**: XML을 딕셔너리로 자동 변환
* **내장 검증**: 잘못된 파라미터 검증
* **역사 서버 지원**: WebEnv와 query_key 자동 관리
* **배치 처리**: 대용량 데이터 처리를 위한 최적화

---

### 주요 함수들

* `Entrez.einfo()` — 데이터베이스 정보 확인
* `Entrez.esearch()` — 검색어로 UID 목록 조회
* `Entrez.esummary()` — UID 요약 정보 반환
* `Entrez.efetch()` — UID의 전체 레코드 반환
* `Entrez.elink()` — 데이터베이스 간 연관 링크 조회
* `Entrez.epost()` — UID 목록을 History 서버에 업로드
* `Entrez.parse()` — XML 결과를 파싱하여 Python 객체로 변환
* `Entrez.read()` — 단일 레코드를 파싱하여 딕셔너리로 변환


In [3]:
# Biopython Entrez 설정
from Bio import Entrez
import os
from dotenv import load_dotenv

load_dotenv()

# 이메일 설정 (필수)
Entrez.email = os.getenv("EUTILS_EMAIL", "student@example.com")

# API 키 설정 (선택사항, 더 높은 요청 제한)
api_key = os.getenv("EUTILS_API_KEY")
if api_key:
    Entrez.api_key = api_key

# 도구 이름 설정
Entrez.tool = os.getenv("EUTILS_TOOL", "biopython-class-notebook")

print(f"Email: {Entrez.email}")
print(f"Tool: {Entrez.tool}")
print(f"API Key set: {bool(api_key)}")

Email: student@example.com
Tool: biopython-class-notebook
API Key set: False


### EInfo: 데이터베이스 정보 확인

`Entrez.einfo()`를 사용하여 NCBI 데이터베이스의 메타데이터를 확인할 수 있습니다."

### PubMed 데이터베이스 정보

In [4]:
# PubMed 데이터베이스 정보 가져오기
handle = Entrez.einfo(db="pubmed")
record = Entrez.read(handle)
handle.close()

db_info = record["DbInfo"]

print(f"DataBase: {db_info['DbName']}")
print(f"Description: {db_info['Description']}")
print(f"LastUpdate: {db_info['LastUpdate']}")
print(f"RecordCounts: {db_info['Count']}")

print("\n=== Field Info ===")
for field in db_info['FieldList'][:10]:
    print(f"{field['Name']}: {field['FullName']} (term count: {field['TermCount']})")

print("\n=== LinkInfo (First 10) ===")
for link in db_info['LinkList'][:10]:
    print(f"{link['Name']}: link to {link['DbTo']} DB")

print(f"\n총 검색 필드 수: {len(db_info['FieldList'])}")
print(f"총 연결 데이터베이스 수: {len(db_info['LinkList'])}")

DataBase: pubmed
Description: PubMed bibliographic record
LastUpdate: 2025/11/03 14:51
RecordCounts: 39614908

=== Field Info ===
ALL: All Fields (term count: )
UID: UID (term count: )
FILT: Filter (term count: )
TITL: Title (term count: )
MESH: MeSH Terms (term count: )
MAJR: MeSH Major Topic (term count: )
JOUR: Journal (term count: )
AFFL: Affiliation (term count: )
ECNO: EC/RN Number (term count: )
SUBS: Supplementary Concept (term count: )

=== LinkInfo (First 10) ===
pubmed_assembly: link to assembly DB
pubmed_bioproject: link to bioproject DB
pubmed_biosample: link to biosample DB
pubmed_biosystems: link to biosystems DB
pubmed_books_refs: link to books DB
pubmed_cdd: link to cdd DB
pubmed_clinvar: link to clinvar DB
pubmed_clinvar_calculated: link to clinvar DB
pubmed_dbvar: link to dbvar DB
pubmed_gap: link to gap DB

총 검색 필드 수: 50
총 연결 데이터베이스 수: 57


### ClinVar 데이터베이스 정보

In [5]:
# ClinVar 데이터베이스 정보 가져오기
handle = Entrez.einfo(db="clinvar")
record = Entrez.read(handle)
handle.close()

db_info = record["DbInfo"]

print(f"데이터베이스: {db_info['DbName']}")
print(f"설명: {db_info['Description']}")
print(f"마지막 업데이트: {db_info['LastUpdate']}")
print(f"레코드 수: {db_info['Count']}")

print("\n=== Field Info ===")
for field in db_info['FieldList'][:15]:
    print(f"{field['Name']}: {field['FullName']} (term count: {field['TermCount']})")

print("\n=== LinkInfo (First 10) ===")
for link in db_info['LinkList'][:10]:
    print(f"{link['Name']}: link to {link['DbTo']} DB")

print(f"\n총 검색 필드 수: {len(db_info['FieldList'])}")
print(f"총 연결 데이터베이스 수: {len(db_info['LinkList'])}")

데이터베이스: clinvar
설명: ClinVar Database
마지막 업데이트: 2025/10/27 22:26
레코드 수: 3978874

=== Field Info ===
ALL: All Fields (term count: 145148200)
UID: UID (term count: 0)
FILT: Filter (term count: 65)
TITL: Name of the ClinVar record (term count: 5497926)
WORD: Text Word (term count: 75279030)
ORGN: Organism (term count: 1)
MDAT: Modification Date (term count: 231)
CHR: Chromosome (term count: 26)
GENE: Gene Name (term count: 92717)
MIM: MIM (term count: 17431)
DIS: Disease/Phenotype (term count: 57676)
ACCN: ClinVar accession (term count: 11118780)
VRID: External allele ID (term count: 8319825)
TRID: Trait identifier (term count: 43051)
PROP: Properties (term count: 79)

=== LinkInfo (First 10) ===
clinvar_dbvar: link to dbvar DB
clinvar_gene: link to gene DB
clinvar_gene_specific: link to gene DB
clinvar_gtr: link to gtr DB
clinvar_medgen: link to medgen DB
clinvar_omim: link to omim DB
clinvar_orgtrack: link to orgtrack DB
clinvar_pmc: link to pmc DB
clinvar_pubmed: link to pubmed DB
clinv

### ESearch: 검색어로 UID 목록 조회

`Entrez.esearch()`를 사용하여 다양한 데이터베이스에서 검색을 수행할 수 있습니다."

### PubMed에서 LLM 및 생물정보학 논문 검색

In [6]:
# PubMed에서 LLM과 생물정보학 관련 논문 검색
query = '"LLM"[Title] AND bioinformatics'

handle = Entrez.esearch(db="pubmed", term=query, retmax=10)
record = Entrez.read(handle)
handle.close()

print(f"검색어: {query}")
print(f"총 결과 수: {record['Count']}")
print(f"가져온 ID 수: {len(record['IdList'])}")
print(f"쿼리 번역: {record['QueryTranslation']}")

print("\n=== PubMed ID 목록 ===")
pubmed_ids = record['IdList']
for i, pmid in enumerate(pubmed_ids):
    print(f"{i+1}. PMID: {pmid}")


검색어: "LLM"[Title] AND bioinformatics
총 결과 수: 21
가져온 ID 수: 10
쿼리 번역: "LLM"[Title] AND ("bioinformatical"[All Fields] OR "bioinformatically"[All Fields] OR "computational biology"[MeSH Terms] OR ("computational"[All Fields] AND "biology"[All Fields]) OR "computational biology"[All Fields] OR "bioinformatic"[All Fields] OR "bioinformatics"[All Fields])

=== PubMed ID 목록 ===
1. PMID: 41182819
2. PMID: 41139312
3. PMID: 40973196
4. PMID: 40831495
5. PMID: 40601266
6. PMID: 40601260
7. PMID: 40586923
8. PMID: 40540387
9. PMID: 40209077
10. PMID: 40199828


### PMC에서 LLM 및 생물정보학 논문 검색

In [7]:
# PMC에서 LLM과 생물정보학 관련 논문 검색
query = '"LLM"[Title] AND bioinformatics'

handle = Entrez.esearch(db="pmc", term=query, retmax=10)
record = Entrez.read(handle)
handle.close()

print(f"검색어: {query}")
print(f"총 결과 수: {record['Count']}")
print(f"가져온 ID 수: {len(record['IdList'])}")
print(f"쿼리 번역: {record['QueryTranslation']}")

print("\n=== PMC ID 목록 ===")
pmc_ids = record['IdList']
for i, pmcid in enumerate(pmc_ids):
    print(f"{i+1}. PMCID: {pmcid}")


검색어: "LLM"[Title] AND bioinformatics
총 결과 수: 30
가져온 ID 수: 10
쿼리 번역: "LLM"[Title] AND ("computational biology"[MeSH Terms] OR ("computational"[All Fields] AND "biology"[All Fields]) OR "computational biology"[All Fields] OR "bioinformatics"[All Fields])

=== PMC ID 목록 ===
1. PMCID: 12569577
2. PMCID: 12539697
3. PMCID: 12516316
4. PMCID: 12488635
5. PMCID: 12554096
6. PMCID: 12485990
7. PMCID: 12415252
8. PMCID: 12351685
9. PMCID: 12280092
10. PMCID: 12263107


### EFetch: UID로 상세 레코드 가져오기

`Entrez.efetch()`를 사용하여 특정 ID의 전체 레코드를 가져올 수 있습니다."

### PubMed 논문의 상세 정보 (초록 및 메타데이터)"

In [19]:
records['PubmedArticle']

[{'MedlineCitation': DictElement({'GeneralNote': [], 'InvestigatorList': [], 'CitationSubset': ['IM'], 'OtherID': [], 'KeywordList': [ListElement([StringElement('RNA interaction prediction', attributes={'MajorTopicYN': 'N'}), StringElement('biological language models', attributes={'MajorTopicYN': 'N'}), StringElement('multimodal representation learning', attributes={'MajorTopicYN': 'N'})], attributes={'Owner': 'NOTNLM'})], 'OtherAbstract': [], 'SpaceFlightMission': [], 'PMID': StringElement('41139312', attributes={'Version': '1'}), 'DateCompleted': {'Year': '2025', 'Month': '10', 'Day': '26'}, 'DateRevised': {'Year': '2025', 'Month': '10', 'Day': '30'}, 'Article': DictElement({'ArticleDate': [], 'ELocationID': [StringElement('bbaf549', attributes={'EIdType': 'pii', 'ValidYN': 'Y'}), StringElement('10.1093/bib/bbaf549', attributes={'EIdType': 'doi', 'ValidYN': 'Y'})], 'Language': ['eng'], 'Journal': {'ISSN': StringElement('1477-4054', attributes={'IssnType': 'Electronic'}), 'JournalIssu

In [11]:
article

b'<?xml version="1.0"  ?><!DOCTYPE pmc-articleset PUBLIC "-//NLM//DTD ARTICLE SET 2.0//EN" "https://dtd.nlm.nih.gov/ncbi/pmc/articleset/nlm-articleset-2.0.dtd"><pmc-articleset><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" xml:lang="en" article-type="research-article" dtd-version="1.4"><processing-meta base-tagset="archiving" mathml-version="3.0" table-model="xhtml" tagset-family="jats"><restricted-by>pmc</restricted-by></processing-meta><front><journal-meta><journal-id journal-id-type="nlm-ta">J Integr Bioinform</journal-id><journal-id journal-id-type="iso-abbrev">J Integr Bioinform</journal-id><journal-id journal-id-type="pmc-domain-id">3434</journal-id><journal-id journal-id-type="pmc-domain">jib</journal-id><journal-id journal-id-type="publisher-id">jib</journal-id><journal-title-group><journal-title>Journal of Integrative Bioinformatics</journal-title></journal-title-group><issn pub-type="epub">1613-4516</issn><publisher><p

In [24]:
# PubMed 논문의 상세 정보 가져오기
if pubmed_ids:
    first_pmid = pubmed_ids[0]
    
    handle = Entrez.efetch(db="pubmed", id=first_pmid, rettype="abstract", retmode="xml")
    records = Entrez.read(handle)['PubmedArticle'][0]
    
    article = record['MedlineCitation']['Article']
    
    print(f"PMID: {first_pmid}")
    print(f"제목: {article.get('ArticleTitle', 'N/A')}")
    
    # 저자 정보
    if 'AuthorList' in article:
        authors = []
        for author in article['AuthorList']:
            if 'LastName' in author and 'ForeName' in author:
                authors.append(f"{author['ForeName']} {author['LastName']}")
        print(f"저자: {', '.join(authors[:5])}{'...' if len(authors) > 5 else ''}")
    
    # 저널 정보
    journal = article.get('Journal', {})
    if journal:
        print(f"저널: {journal.get('Title', 'N/A')}")
        if 'JournalIssue' in journal:
            issue = journal['JournalIssue']
            pub_date = issue.get('PubDate', {})
            year = pub_date.get('Year', 'N/A')
            print(f"발행년도: {year}")
    
    # 초록
    if 'Abstract' in article:
        abstract = article['Abstract']
        if 'AbstractText' in abstract:
            abstract_text = abstract['AbstractText']
            if isinstance(abstract_text, list):
                # 구조화된 초록
                print("\n=== 초록 ===")
                for section in abstract_text:
                    if isinstance(section, dict) and '@Label' in section:
                        print(f"**{section['@Label']}**: {section.get('#text', section)}")
                    else:
                        print(section)
            else:
                print(f"\n=== 초록 ===\n{abstract_text}")

    handle.close()
else:
    print("검색된 PubMed ID가 없습니다.")


PMID: 41139312
제목: BioLLMNet: enhancing RNA-interaction prediction with a specialized cross-LLM transformation network.
저자: Abrar Rahman Abir, Md Toki Tahmid, Md Shamsuzzoha Bayzid
저널: Briefings in bioinformatics
발행년도: 2025

=== 초록 ===
Ribonucleic acids (RNAs) play a central role in cellular processes by interacting with proteins, small molecules, and other RNAs. Accurate prediction of these interactions is critical for understanding post-transcriptional regulation and advancing RNA-targeted therapeutics. However, existing computational methods are limited by their reliance on hand-crafted features, modality-specific architectures, and often require structural or physicochemical data, which are experimentally challenging to obtain and unavailable for many RNA molecules. These constraints hinder generalizability and fail to capture the complex, context-dependent semantics of RNA interactions. We present BioLLMNet, a unified sequence-only framework that leverages pretrained biological la

### PMC 논문의 전체 텍스트 가져오기"

In [17]:
from Bio import Entrez
handle = Entrez.efetch(db="pmc", id=pmc_ids[0], rettype="full", retmode="xml")
article = Entrez.parse(handle)

In [20]:
for record in article:
    print(record)

DictElement({'front': {'ack': [], 'glossary': [], 'bio': [], 'notes': [], 'def-list': [], 'fn-group': [], 'list': [], 'journal-meta': {'self-uri': [], 'aff-alternatives': [], 'contrib-group': [], 'journal-id': [StringElement('J Integr Bioinform', attributes={'journal-id-type': 'nlm-ta'}), StringElement('J Integr Bioinform', attributes={'journal-id-type': 'iso-abbrev'}), StringElement('3434', attributes={'journal-id-type': 'pmc-domain-id'}), StringElement('jib', attributes={'journal-id-type': 'pmc-domain'}), StringElement('jib', attributes={'journal-id-type': 'publisher-id'})], 'issn': [StringElement('1613-4516', attributes={'pub-type': 'epub'})], 'aff': [], 'notes': [], 'journal-title-group': [{'trans-title-group': [], 'abbrev-journal-title': [], 'journal-subtitle': [], 'journal-title': ['Journal of Integrative Bioinformatics']}], 'isbn': [], 'publisher': [['De Gruyter']]}, 'article-meta': {'x': [], 'volume-issue-group': [], 'issue-title': [], 'trans-abstract': [], 'self-uri': [StringE

In [25]:
record['body'].keys()

dict_keys(['alternatives', 'x', 'answer-set', 'ack', 'disp-quote', 'tex-math', 'p', 'verse-group', 'answer', 'chem-struct-wrap', 'preformat', 'question', 'code', 'supplementary-material', 'address', 'sec', 'explanation', 'boxed-text', 'fig-group', 'table-wrap', 'list', 'block-alternatives', 'fig', 'array', 'related-article', 'table-wrap-group', 'speech', 'def-list', 'media', 'statement', 'graphic', 'disp-formula-group', 'disp-formula', 'question-wrap', 'question-wrap-group', 'related-object', 'mml:math'])

In [33]:
record['front']['journal-meta']

{'self-uri': [], 'aff-alternatives': [], 'contrib-group': [], 'journal-id': [StringElement('J Integr Bioinform', attributes={'journal-id-type': 'nlm-ta'}), StringElement('J Integr Bioinform', attributes={'journal-id-type': 'iso-abbrev'}), StringElement('3434', attributes={'journal-id-type': 'pmc-domain-id'}), StringElement('jib', attributes={'journal-id-type': 'pmc-domain'}), StringElement('jib', attributes={'journal-id-type': 'publisher-id'})], 'issn': [StringElement('1613-4516', attributes={'pub-type': 'epub'})], 'aff': [], 'notes': [], 'journal-title-group': [{'trans-title-group': [], 'abbrev-journal-title': [], 'journal-subtitle': [], 'journal-title': ['Journal of Integrative Bioinformatics']}], 'isbn': [], 'publisher': [['De Gruyter']]}

In [34]:
record['front']['article-meta']

{'x': [], 'volume-issue-group': [], 'issue-title': [], 'trans-abstract': [], 'self-uri': [StringElement('', attributes={'content-type': 'pmc-pdf', 'http://www.w3.org/1999/xlink href': 'jib-22-2-jib-2024-0046.pdf'})], 'funding-group': [{'award-group': [DictElement({'support-source': [], 'principal-investigator': [], 'funding-source': [StringElement('Xunta de Galicia', attributes={'http://www.w3.org/1999/xlink href': 'http://dx.doi.org/10.13039/501100010801'})], 'award-id': ['ED431C 2022/03-GRC'], 'principal-award-recipient': []}, attributes={'award-type': 'grant', 'id': 'award-grp1'}), DictElement({'support-source': [], 'principal-investigator': [], 'funding-source': ['Ministry of Science and Innovation, Spain'], 'award-id': ['PID2022-138936OB-C31'], 'principal-award-recipient': []}, attributes={'award-type': 'grant', 'id': 'award-grp2'})], 'open-access': [], 'funding-statement': []}], 'conference': [], 'issue': ['2'], 'issue-sponsor': [], 'supplementary-material': [], 'pub-date': [List

In [None]:
record.keys()

dict_keys(['front', 'body', 'back'])

In [29]:
record['body']['sec']

[DictElement({'alternatives': [], 'x': [], 'answer-set': [], 'ack': [], 'glossary': [], 'disp-quote': [], 'tex-math': [], 'p': ['As social creatures, we are part of a complex net of relationships that shape our personal growth, daily decisions, mental health, and overall quality of life. The closer the relationship, the greater its influence; that is why the study of family structures, aside from the biological standpoint, is so important for understanding social dynamics, history, and even epidemics, to cite a few examples.', 'Registering and analyzing this type of information is complex. The first records of an encoding algorithm date from 1,590, where the Austrian historian Michaël Eytzinger designs an encoding system to document the royal European houses (<italic toggle="yes">Thesaurus Principum Hac Aetate In Europa Viventium</italic>). This system, later known as Ahnentafel, was widely used by genealogists for centuries. It assigns the number one to a reference person, doubling fo

## 데이터셋 생성: PMC에서 ML용 데이터 추출\n\nBiopython을 사용하여 PMC에서 전체 텍스트를 포함한 데이터셋을 생성해보겠습니다."

In [None]:
import pandas as pd\nimport time\nfrom collections import defaultdict\n\ndef extract_text_recursive(element):\n    \"\"\"XML 요소에서 텍스트를 재귀적으로 추출합니다.\"\"\"\n    if isinstance(element, str):\n        return element.strip()\n    elif isinstance(element, dict):\n        text_parts = []\n        # 직접 텍스트\n        if '#text' in element:\n            text_parts.append(element['#text'].strip())\n        \n        # 다른 텍스트 요소들\n        for key, value in element.items():\n            if key not in ['@id', '@rid', '@ref-type', '#text'] and value:\n                if isinstance(value, (dict, list)):\n                    text_parts.append(extract_text_recursive(value))\n                elif isinstance(value, str):\n                    text_parts.append(value.strip())\n        \n        return ' '.join(filter(None, text_parts))\n    elif isinstance(element, list):\n        return ' '.join(extract_text_recursive(item) for item in element)\n    else:\n        return str(element).strip() if element else \"\"\n\ndef extract_full_text_from_sections(sections):\n    \"\"\"PMC 논문 섹션에서 전체 텍스트를 추출합니다.\"\"\"\n    if not sections:\n        return \"\"\n    \n    if not isinstance(sections, list):\n        sections = [sections]\n    \n    full_text_parts = []\n    \n    for section in sections:\n        section_text = extract_text_recursive(section)\n        if section_text:\n            full_text_parts.append(section_text)\n    \n    return '\\n\\n'.join(full_text_parts)\n\ndef parse_pmc_article_biopython(record):\n    \"\"\"Biopython으로 파싱된 PMC 레코드에서 정보를 추출합니다.\"\"\"\n    try:\n        article = record.get('article', {})\n        \n        # 메타데이터 추출\n        front = article.get('front', {})\n        article_meta = front.get('article-meta', {})\n        \n        # 제목\n        title_group = article_meta.get('title-group', {})\n        title = title_group.get('article-title', '')\n        if isinstance(title, dict):\n            title = extract_text_recursive(title)\n        \n        # PMCID\n        pmcid = \"\"\n        article_ids = article_meta.get('article-id', [])\n        if not isinstance(article_ids, list):\n            article_ids = [article_ids]\n        \n        for aid in article_ids:\n            if isinstance(aid, dict) and aid.get('@pub-id-type') == 'pmcid':\n                pmcid = aid.get('#text', '')\n                break\n        \n        # 저널 정보\n        journal_meta = front.get('journal-meta', {})\n        journal_title_group = journal_meta.get('journal-title-group', {})\n        journal_title = journal_title_group.get('journal-title', '')\n        if isinstance(journal_title, dict):\n            journal_title = extract_text_recursive(journal_title)\n        \n        # 발행 날짜\n        pub_date = \"\"\n        pub_date_info = article_meta.get('pub-date', {})\n        if isinstance(pub_date_info, list):\n            pub_date_info = pub_date_info[0]\n        if isinstance(pub_date_info, dict):\n            year = pub_date_info.get('year', '')\n            month = pub_date_info.get('month', '')\n            day = pub_date_info.get('day', '')\n            pub_date = '-'.join(filter(None, [str(year), str(month), str(day)]))\n        \n        # 저자들\n        authors = []\n        contrib_group = article_meta.get('contrib-group', {})\n        contribs = contrib_group.get('contrib', [])\n        if not isinstance(contribs, list):\n            contribs = [contribs]\n        \n        for contrib in contribs:\n            if isinstance(contrib, dict) and contrib.get('@contrib-type') == 'author':\n                name_info = contrib.get('name', {})\n                if isinstance(name_info, dict):\n                    given_names = name_info.get('given-names', '')\n                    surname = name_info.get('surname', '')\n                    full_name = f\"{given_names} {surname}\".strip()\n                    if full_name:\n                        authors.append(full_name)\n        \n        # 초록\n        abstract_text = \"\"\n        abstract_info = article_meta.get('abstract', {})\n        if isinstance(abstract_info, dict):\n            abstract_text = extract_text_recursive(abstract_info)\n        \n        # 전체 텍스트\n        full_text = \"\"\n        body = article.get('body', {})\n        if 'sec' in body:\n            full_text = extract_full_text_from_sections(body['sec'])\n        \n        return {\n            'pmcid': pmcid,\n            'title': title,\n            'journal': journal_title,\n            'pubdate': pub_date,\n            'authors': ', '.join(authors),\n            'abstract': abstract_text,\n            'full_text': full_text\n        }\n    \n    except Exception as e:\n        print(f\"레코드 파싱 중 오류 발생: {e}\")\n        return None\n\ndef fetch_pmc_articles_biopython(search_term, max_articles=5, delay=0.5):\n    \"\"\"Biopython을 사용하여 PMC에서 논문들을 가져와 데이터셋을 생성합니다.\"\"\"\n    print(f\"검색어: {search_term}\")\n    \n    # 1. PMC에서 검색\n    handle = Entrez.esearch(db=\"pmc\", term=search_term, retmax=max_articles)\n    search_results = Entrez.read(handle)\n    handle.close()\n    \n    pmc_ids = search_results['IdList']\n    print(f\"찾은 논문 수: {len(pmc_ids)}\")\n    \n    if not pmc_ids:\n        return pd.DataFrame()\n    \n    # 2. 각 논문의 상세 정보 가져오기\n    articles_data = []\n    \n    for i, pmcid in enumerate(pmc_ids):\n        print(f\"처리 중: {i+1}/{len(pmc_ids)} - PMC{pmcid}\")\n        \n        try:\n            # PMC 전체 텍스트 가져오기\n            handle = Entrez.efetch(db=\"pmc\", id=pmcid, rettype=\"full\", retmode=\"xml\")\n            records = Entrez.parse(handle)\n            \n            for record in records:\n                article_data = parse_pmc_article_biopython(record)\n                if article_data:\n                    # PMCID가 비어있으면 검색 결과의 ID 사용\n                    if not article_data['pmcid']:\n                        article_data['pmcid'] = f\"PMC{pmcid}\"\n                    articles_data.append(article_data)\n                break  # 첫 번째 레코드만 처리\n            \n            handle.close()\n            \n        except Exception as e:\n            print(f\"PMC{pmcid} 처리 중 오류 발생: {e}\")\n            continue\n        \n        # API 제한을 위한 지연\n        time.sleep(delay)\n    \n    # 3. DataFrame 생성\n    df = pd.DataFrame(articles_data)\n    return df\n\n# 예제: LLM과 생물정보학 관련 논문들로 데이터셋 생성\nsearch_query = '(\"LLM\" OR \"large language model\")[Title/Abstract] AND bioinformatics'\nprint(\"PMC에서 데이터셋 생성 중...\")\ndf_pmc = fetch_pmc_articles_biopython(search_query, max_articles=3, delay=0.5)\n\nprint(f\"\\n=== 데이터셋 요약 ===\")\nprint(f\"총 논문 수: {len(df_pmc)}\")\nif len(df_pmc) > 0:\n    print(f\"컬럼: {list(df_pmc.columns)}\")\n    print(f\"전체 텍스트가 있는 논문: {(df_pmc['full_text'].str.len() > 0).sum()}\")\n    print(f\"초록이 있는 논문: {(df_pmc['abstract'].str.len() > 0).sum()}\")\n    \n    # 샘플 논문 정보 표시\n    if len(df_pmc) > 0:\n        sample = df_pmc.iloc[0]\n        print(f\"\\n=== 샘플 논문 정보 ===\")\n        print(f\"PMCID: {sample['pmcid']}\")\n        print(f\"제목: {sample['title'][:100]}...\")\n        print(f\"저널: {sample['journal']}\")\n        print(f\"저자: {sample['authors'][:100]}...\")\n        print(f\"전체 텍스트 길이: {len(sample['full_text'])} 문자\")\n\ndf_pmc.head()"

## 데이터 탐색 및 분석"

In [None]:
# 데이터셋 상세 분석\nif len(df_pmc) > 0:\n    print(\"=== 데이터셋 상세 분석 ===\")\n    \n    # 기본 통계\n    print(f\"총 논문 수: {len(df_pmc)}\")\n    print(f\"유니크 저널 수: {df_pmc['journal'].nunique()}\")\n    print(f\"평균 제목 길이: {df_pmc['title'].str.len().mean():.1f} 문자\")\n    print(f\"평균 초록 길이: {df_pmc['abstract'].str.len().mean():.1f} 문자\")\n    print(f\"평균 전체 텍스트 길이: {df_pmc['full_text'].str.len().mean():.1f} 문자\")\n    \n    # 연도별 분포 (간단한 분석)\n    years = df_pmc['pubdate'].str.extract(r'(\\d{4})')[0]\n    if not years.empty:\n        print(f\"\\n=== 발행 연도 분포 ===\")\n        year_counts = years.value_counts().sort_index()\n        for year, count in year_counts.items():\n            print(f\"{year}: {count}편\")\n    \n    # 저널별 분포\n    if df_pmc['journal'].nunique() > 1:\n        print(f\"\\n=== 저널별 분포 ===\")\n        journal_counts = df_pmc['journal'].value_counts()\n        for journal, count in journal_counts.items():\n            print(f\"{journal}: {count}편\")\n    \n    # 첫 번째 논문의 전체 텍스트 샘플 보기\n    if len(df_pmc) > 0 and len(df_pmc.iloc[0]['full_text']) > 0:\n        print(f\"\\n=== 전체 텍스트 샘플 (첫 1000자) ===\")\n        sample_text = df_pmc.iloc[0]['full_text'][:1000]\n        print(sample_text)\n        print(\"...\")\n    \n    # 데이터 품질 확인\n    print(f\"\\n=== 데이터 품질 ===\")\n    print(f\"제목이 있는 논문: {(df_pmc['title'].str.len() > 0).sum()}/{len(df_pmc)}\")\n    print(f\"초록이 있는 논문: {(df_pmc['abstract'].str.len() > 0).sum()}/{len(df_pmc)}\")\n    print(f\"전체 텍스트가 있는 논문: {(df_pmc['full_text'].str.len() > 0).sum()}/{len(df_pmc)}\")\n    print(f\"저자 정보가 있는 논문: {(df_pmc['authors'].str.len() > 0).sum()}/{len(df_pmc)}\")\n    \nelse:\n    print(\"분석할 데이터가 없습니다.\")"

## 모범 사례 및 팁\n\n### Biopython Entrez 사용 시 주의사항\n\n1. **이메일 주소 설정**: 반드시 `Entrez.email`을 설정해야 합니다\n2. **API 키 사용**: 더 높은 요청 제한을 위해 API 키를 설정하세요\n3. **적절한 지연**: API 호출 간 적절한 지연 시간을 유지하세요\n4. **에러 처리**: XML 파싱 및 네트워크 오류에 대한 예외 처리를 포함하세요\n5. **핸들 관리**: 사용 후 반드시 핸들을 닫으세요\n\n### 대용량 데이터 처리 팁\n\n- `usehistory=y`를 사용하여 History 서버 활용\n- 배치 처리로 여러 ID를 한 번에 가져오기\n- `Entrez.parse()`를 사용하여 메모리 효율적인 파싱\n- 중간 결과를 파일로 저장하여 재시작 가능한 프로세스 구축"

## 참고 자료\n\n- [Biopython Tutorial and Cookbook](http://biopython.org/DIST/docs/tutorial/Tutorial.html) - Chapter 9: Accessing NCBI's Entrez databases\n- [NCBI E-utilities Documentation](https://www.ncbi.nlm.nih.gov/books/NBK25497/)\n- [Biopython Entrez Module Documentation](https://biopython.org/docs/latest/api/Bio.Entrez.html)\n- [NCBI API 사용 가이드라인](https://www.ncbi.nlm.nih.gov/home/api/)\n- [PMC XML Schema](https://jats.nlm.nih.gov/) - JATS (Journal Article Tag Suite)"