# NCBI 데이터베이스
   ## NCBI란, 
   미국 국립생물공학정보센터(National Center for Biotechnology Information(NCBI))는 미국 보건성 산하 국립의학도서관의 운영 분야 중 하나이다. NCBI는 1988년 미국 메릴랜드 주(북위 38.994994° 서경 77.099339°좌표: 북위 38.994994° 서경 77.099339°)에 설립되었다.**NCBI는 생명과학 및 의학 논문 인덱스의 데이터베이스인 펍메드(PubMed), 유전체 서열 데이터베이스인 진뱅크(GenBank)를 비롯하여 각종 생명공학 정보들을 담고 있으며**, 이 모든 **정보들은 Entrez 검색엔진을 이용하여 온라인으로 열람할 수 있다.** - 위키피디아 발췌

더 많은 정보는 http://www.incodom.kr/NCBI 를 참고할 수 있습니다. 

여기서는 
1. NCBI 데이터 검색 시스템인 Entrez에 대해 알아보고
2. Entrez에서 제공하는 유틸리티들을 바이오파이썬을 통해 검색하고 
3. 결과를 활용하는 방법에 대해 *소아마비를 일으키는 poliovirus 데이터 읽기* 에 대해서 알아봅니다. 

### 1. Entrez 소개
Entrez는 NCBI의 방대한 데이터 검색 시스템으로 PubMed, GenBank, GEO등 49개 NCBI 데이터베이스 접근을 제공합니다. 바이오파이썬에는 **Entrez의 유용한 검색 시스템을 활용할 수 있는 Bio.Entrez 모듈이 있습니다. ** 


#### Bio.Entrez란, 
파이썬 내부에서 NCBI 데이터를 검색하고, 파이썬에서 사용할 수 있도록 데이터를 파싱하는 역할을 수행하는 모듈입니다. 



### 2. EFetch: 소아마비를 일으키는 poliovirus 데이터 읽기
: EFetch는 Entrez의 모든 레코드를 받는 유틸리티입니다. 
바이오파이썬의 Entrez.efetch()메서드를 사용하여 NCBI의 데이터를 읽어올 수 있습니다. 

In [14]:
#1. read NCBI data with Entrez.efetch()

from Bio import Entrez

Entrez.email = "jhjyj5414@naver.com"
handle = Entrez.efetch(db = "nucleotide", id = "NC_002058.3", rettype = "gb", retmode = "text")
#결과 파일의 포멧을 rettype, retmoded에서 설정해줍니다. 

print(handle.read())

LOCUS       NC_002058               7440 bp ss-RNA     linear   VRL 13-AUG-2018
DEFINITION  Poliovirus, complete genome.
ACCESSION   NC_002058 NC_001428 NC_014336
VERSION     NC_002058.3
DBLINK      BioProject: PRJNA485481
KEYWORDS    RefSeq; coat protein; complementary DNA; genome; polyprotein.
SOURCE      Enterovirus C
  ORGANISM  Enterovirus C
            Viruses; Riboviria; Picornavirales; Picornaviridae; Enterovirus.
REFERENCE   1  (bases 1 to 742)
  AUTHORS   Kafasla,P., Morgner,N., Robinson,C.V. and Jackson,R.J.
  TITLE     Polypyrimidine tract-binding protein stimulates the poliovirus IRES
            by modulating eIF4G binding
  JOURNAL   EMBO J. 29 (21), 3710-3722 (2010)
   PUBMED   20859255
REFERENCE   2  (bases 1 to 742)
  AUTHORS   Vogt,D.A. and Andino,R.
  TITLE     An RNA element at the 5'-end of the poliovirus genome functions as
            a general promoter for RNA synthesis
  JOURNAL   PLoS Pathog. 6 (6), E1000936 (2010)
   PUBMED   20532207
  REMARK    Publication

### 3. Entrez XML로 EFetch 데이터 파싱하기
바이오파이썬에는 XML포멧을 파싱해주는 2가지 메서드를 제공합니다. 
1. Entrez.read(): XML파일을 읽으며, 리스트형태로 반환하고, 메모리 부담이 크다. 
즉,XML을 읽은 모든 레코드 결과를 한 번에 메모리에 올려서 사용한다. 

2. Entrez.parse(): XML파일을 읽으며, 제너레이터 형태로 반환하고, 메모리 부담이 적다. 
레코드를 하나하나 읽어 그때마다 파싱하여 결과를 반환한다. 

예를 들어, 기가바이트 단위의 XML 결과는 메모리에 부담이 적게 가는 .parse를 사용하는 것이 좋다. 

In [15]:
#2. Entrez.read() example
from Bio import Entrez 

Entrez.email = "jhjyj5414@naver.com"
handle = Entrez.efetch(db = "nucleotide", id = "NC_002058.3", rettype = "gb", retmode = "xml")

records = Entrez.read(handle)
for record in handle:
    print(record["GBSeq_locus"])
    print(record["GBSeq_definition"])
    print(record["GBSeq_strandedness"], record["GBSeq_moltype"])
    print(record["GBSeq_length"], "bp")
    print(len(record["GBSeq_references"]), "journals")





In [16]:
#3. NC_002058.3에 대해 출판된 논문에 대한 제목들을 가져오기
from Bio import Entrez 

Entrez.email = "jhjyj5414@naver.com"
handle = Entrez.efetch(db = "nucleotide", id = "NC_002058.3", rettype = "gb", retmode = "xml")

records = Entrez.parse(handle)

for record in records:
    for journal in record["GBSeq_references"]:
        print(journal["GBReference_title"])

Polypyrimidine tract-binding protein stimulates the poliovirus IRES by modulating eIF4G binding
An RNA element at the 5'-end of the poliovirus genome functions as a general promoter for RNA synthesis
Replication of poliovirus requires binding of the poly(rC) binding protein to the cloverleaf as well as to the adjacent C-rich spacer sequence between the cloverleaf and the internal ribosomal entry site
Interaction of translation initiation factor eIF4B with the poliovirus internal ribosome entry site
Poly (rC) binding protein 2 forms a ternary complex with the 5'-terminal sequences of poliovirus RNA and the viral 3CD proteinase
Cis-element, oriR, involved in the initiation of (-) strand poliovirus RNA: a quasi-globular multi-domain RNA structure maintained by tertiary ('kissing') interactions
Poly(rC) binding protein 2 binds to stem-loop IV of the poliovirus RNA 5' noncoding region: identification by automated liquid chromatography-tandem mass spectrometry
The cellular polypeptide p57 (p

### 4. EInfo의 소개
Entrez에 어떤 데이터베이스가 있는지 Entrez.einfo() 을 사용하여 확인할 수 있습니다. 

In [17]:
# 4. listing entrez examples
from Bio import Entrez

Entrez.email = "jhjyj5414@naver.com"

handle = Entrez.einfo() #이 메서드로 Entrez의 데이터베이스 목록 출령하기
result = handle.read()

print(result)

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE eInfoResult PUBLIC "-//NLM//DTD einfo 20190110//EN" "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20190110/einfo.dtd">
<eInfoResult>
<DbList>

	<DbName>pubmed</DbName>
	<DbName>protein</DbName>
	<DbName>nuccore</DbName>
	<DbName>ipg</DbName>
	<DbName>nucleotide</DbName>
	<DbName>structure</DbName>
	<DbName>sparcle</DbName>
	<DbName>genome</DbName>
	<DbName>annotinfo</DbName>
	<DbName>assembly</DbName>
	<DbName>bioproject</DbName>
	<DbName>biosample</DbName>
	<DbName>blastdbinfo</DbName>
	<DbName>books</DbName>
	<DbName>cdd</DbName>
	<DbName>clinvar</DbName>
	<DbName>gap</DbName>
	<DbName>gapplus</DbName>
	<DbName>grasp</DbName>
	<DbName>dbvar</DbName>
	<DbName>gene</DbName>
	<DbName>gds</DbName>
	<DbName>geoprofiles</DbName>
	<DbName>homologene</DbName>
	<DbName>medgen</DbName>
	<DbName>mesh</DbName>
	<DbName>ncbisearch</DbName>
	<DbName>nlmcatalog</DbName>
	<DbName>omim</DbName>
	<DbName>orgtrack</DbName>
	<DbName>pmc</DbName>
	<DbName>p

### 5. ESearch의 소개
Entrez.esearch()를 통해 49개의 데이터베이스를 검색해 주는 메서드입니다. 
이 메서드는 키워드를 넣고얻어낸 id를 eEntrez.efetch()메서드에 대해 더 자세한 내용알 알 수 있습니다.

In [18]:
#5. Enterz.eshearch

from Bio import Entrez

Entrez.email = "jhjyj5414@naver.com"
handle = Entrez.esearch(db = "pubmed", term = "metagenome")

record = Entrez.read(handle)
print(record["Count"]) #r결과로 7020이 출력된다. 



8258
