# Next Generation Sequencing (차세대 염기 서열 결정법) 이론

- author: "Kwon DoHyung"
- toc: true 
- comments: true
- categories: [bio, NGS, bioinformatics]
- image: images/2020-11-09-ngs/Untitled8.png
- permalink: /ngs-concept/

기존의 직접염기서열분석법(direct sequencing)은 분석하고자 하는 부위를 PCR로 증폭해야 하기 때문에 여러 타겟을 분석할 경우 많은 시간과 노력 및 비용이 소요되어 효율성이 낮은 문제점이 있었다. 이러한 단점을 극복하고자 차세대 염기서열분석(next generation sequencing; NGS) 법이 개발되었으며 이것은 DNA 가닥을 각각 하나씩 분석하는 방식으로 기존의 직접 염기서열분석법에 비해 매우 빠르고 저렴하게 염기서열이 가능하다는 장점을 가지고 있다. NGS는 DNA를 일정한 조각(fragment)으로 분절화시키고 장비가 인식할 수 있는 특정 염기서열을 가진 올리고뉴클레오티드(oligonucleotide)를 붙여주는 라이브러리 (library) 제작, 각 라이브러리 DNA 가닥의 염기서열을 장비에서 읽는 단계, 그리고 장비에서 생성된 데이터를 가공하여 알고리즘으로 분석하는 단계로 구성된다.

![](../images/2020-11-09-ngs/Untitled.png)

![](../images/2020-11-09-ngs/Untitled1.png)

NGS 장비 기술의 발달로 2008년 1명의 유전체를 분석하는 데에 6개월이 걸렸다면, 2017년엔 60명의 유전체를 분석하는 데에 2일이 걸리게 되었고, 그 비용도 낮아졌다. 이는 IT의 발전과 무관하다고 볼 수 없다. 

![](../images/2020-11-09-ngs/Untitled2.png)

개인의 유전체를 분석하는 것이 왜 사업이 될까? 예를 들어 특정 화학물질이나 약물에 대하여 부작용이 발생할 가능성을 유전체 정보를 통해 파악할 수 있다. 한 개인이 자신의 유전체 정보를 가지고 있다면, CYP2C19(약물 대사와 관련된 유전자)의 변이로 인해 Plavix와 같은 혈압 조절제를 복용하면 심각한 부작용이 나타나는 등의 일의 발생을 막을 수 있다. 혹은 CYP1A2(카페인 분해 능력 관련 유전자)의 변이가 있다면, 이로 인해 카페인을 먹은 후 가슴 두근거림 등의 부작용이 발생할 수 있다는 것을 알 수 있다. 이처럼 개인의 유전체 정보를 이용하면 특정 약물에 대한 부작용을 사전에 방지할 수 있다는 이점이 있다.

# Sequencing(염기 서열 결정)과 NGS

## chain termination 방법

Sanger sequencing은 1977년에 Frederick Sanger에 의해 개발된 방법으로, 기본적으로 polymerase chain reaction (PCR) 과정에서 di-deoxynucleotide triphosphates (ddNTPs)에 의해 DNA strand가 합성되지 않는 chain termination의 원리와, 전기영동의 원리를 이용하여 염기서열을 확인하는 방법이다. PCR 과정에서 DNA가 증폭되던 중 우연히 dNTP 대신 ddNTP가 결합된 경우, ddNTP의 3번 탄소에는 수산화기가 없으므로 더 이상 새로운 인산기가 결합될 수 없어 증폭이 중지된다는 이유에서 chain termination이라는 이름이 붙었다.

### chain termination의 원리

Sanger sequencing을 이해하기 위해서는 우선적으로 PCR 과정 대해 이해할 필요가 있다. DNA 서열 증폭을 위해서는 DNA를 구성하는 기본 단위인 deoxynucleotide triphosphate (dNTP)가 필요하다. 즉, DNA의 복제는 주형 DNA 가닥에 상보적인 dNTP가 결합하면서 이루어진다. DNA 서열에 dNTP가 중합될 때, DNA 서열 마지막 nucleotide 3번 탄소의 수산화기(-OH)와 새로운 dNTP 5번 탄소의 인산기가 반응하여 결합된다. 이 과정에서 dNTP 대신 ddNTP를 이용하면(즉, DNA 복제 과정에서 DNA 가닥이 합성될 때 dNTP 대신 ddNTP가 결합하게 하면) DNA 복제가 중단된다. 즉, Sanger sequencing 원리의 핵심은 ddNTPs에 있다. 그렇게 되면 다양한 길이의 DNA 조각이 발생하게 된다.

![](../images/2020-11-09-ngs/Untitled3.png)

dNTP는 3'-OH가 연결되어 있어 새로운 뉴클레오타이드의 인산과 결합하여 DNA가 복제될 수 있게 한다. 그러나 ddNTP는 dNTP의 3번 탄소에 산소(oxygen)가 존재하지 않는, 즉 수산화기(-OH) 대신 수소(-H)가 결합되어 있는 nucleotide 구조이다. 따라서 다른 뉴클레오타이드의 결합을 방해한다. 즉, DNA 복제가 더이상 일어나지 않게 한다. 이는 DNA가 중합될 때 3번 탄소의 하이드록시기와 인산기가 탈수축합 하는데, 디데옥시뉴클레오타이드(ddNTP)의 경우 탈수축합이 불가능해서 DNA 중합반응이 멈추기 때문이다.

![](../images/2020-11-09-ngs/Untitled4.png)

1차적으로 ddNTP를 포함한 PCR이 완료된 후에는 염기서열을 크기 순으로, 증폭된 서열을 정렬하여 해당 염기서열의 합성정보가 각 서열 끝에 마지막으로 결합된 ddNTP가 가지고 있던 형광물질을 종류에 따라 읽게 되는 원리이다. 이 방법에 필요한 재료는 염기 서열을 알고자 하는 template DNA 단일 가닥(ssDNA strand), DNA primer, DNA polymerase, 네 개의 dNTP(dATP, dTTP, dGTP, dCTP), 서로 다른 색깔로 형광 표시된 4 종류의, 소량의 ddNTP (디디옥시뉴클레오티드;핵산별로 ddATP (아데닌), ddGTP (구아닌), ddTTP (티민), ddCTP (사이토신))이다. 이들을 이용하여 PCR을 우선 진행한다. ddNTP는 방사성 또는 형광으로 표지되어, 자동 시퀀싱 기계에서 감지된다. 따라서 ddNTP가 합성 중인 DNA 사슬의 끝에 붙게 되면 detection이 가능해진다. ddNTP의 결합은 무작위적으로 일어나게 되므로, 수 많은 증폭과정을 통해 거의 모든 염기서열 위치에서 chain termination이 일어나게 된다.

![](../images/2020-11-09-ngs/Untitled5.png)

![](../images/2020-11-09-ngs/Untitled6.png)

ddNTP를 포함한 PCR이 완료된 후에는, 염기서열을 크기에 따라 작은 순서대로 정렬할 수 있는 전기영동을 이용하여 증폭된 서열을 정렬한다. 크기순으로 정렬된 서열의 순서대로 형광 신호를 인식시키면, 염기서열 순서대로 해당 염기 서열에 해당하는 핵산 정보가 각 서열 끝에 마지막으로 결합된 ddNTP가 가지고 있던 형광물질 종류에 따라 읽게 된다. 생어의 염기서열 분석법 이전에는 DNA를 길이 별로 정렬하는 것을 ‘수동’으로 진행했다. 그렇지만 생어는 이것을 전기영동을 활용함으로써, 자동으로 배열되도록 했다. 전기영동에 아까의 DNA 분자들을 넣으면, 길이 순서대로 내려가게 되고 이것을 감지기가 감지하면서 염기서열을 읽어나가게 된다. 

![](../images/2020-11-09-ngs/Untitled7.png)

DNA 염기서열을 알아내기 위하여 겔 상에서 시험할 때, 네 개의 시퀀스에 따른 네 개의 레인별로 별도의 시퀀싱 반응을 위한 샘플로 나누고, 각 샘플에는 dNTP와 DNA polymerase, ddNTP가 추가된다. 

![](../images/2020-11-09-ngs/Untitled8.png)

겔 상에서 검은띠로 나타난 strand는 아래에서 위로 읽어들인다. 즉 위의 사진에서 서열은 `TACGAGATATATGGCGTTAATACGATATATTGGAACTTCTATTGC`다.

염기 서열 분석의 초창기에는 다음에 소개할 chemical degradation 방법이 많이 사용되었다. 그러나 chain termination 방식이 더 쉽고 빠르게 읽을 수 있기 때문에 chain termination이 많이 쓰였고, 현재는 대규모 자동 게놈 분석을 위해 NGS 방법이 많이 쓰인다. 다만, Sanger 방식은 더 작은 규모의 프로젝트와 NGS 결과의 검증, 긴 연속 DNA 염기서열 분석(>500 뉴클레오티드)을 위해 아직도 널리 쓰이고 있다.

## chemical degradation 방법

특정 염기를 자를 수 있는 chemical을 이용하여 DNA 가닥을 잘라내고, 전기영동을 통해 길이 별로 잘려진 말단 부위의 염기서열을 인식하여 서열을 결정하는 원리.

# NGS

생어의 방법의 한계점은 인간게놈프로젝트를 통해 나타나게 된다. 염기서열 분석법으로는 인간의 게놈과 같이 대량의 DNA를 분석하기에는 부족하다는 것이다. 보통 1000 염기 정도를 한번에 분석할 수 있는 생어의 염기서열 분석법과는 달리, NGS를 이용하면 100만에서 10억 염기까지 한번에 분석할 수 있다. 사실 차세대 염기서열 분석법이 아직까지는 정확도 측면 등에서 생어의 방법보다 부족하다. 그럼에도 불구하고 NGS를 사용하는 이유는 앞서 언급했듯이 ‘대량의 DNA’를 읽기 위함이다. 인간게놈프로젝트가 13년에 걸쳐 무려 30조원의 비용이 든 것을 생각하면, 비용과 시간적 측면에서 많은 양의 DNA 분석에 생어의 방법을 사용하기 어렵다는 결론이 나온다. 반면 NGS는 방법마다 조금의 차이는 있지만 비용이 100만원대로 극적으로 줄어들었다. 그만큼 NGS는 대량의 DNA분석에 반드시 필요한 도구이다.

NGS는 genomic 수준의 해독을 통해 세포 내에 존재하는 다양한 현상들을 규명하기 위한 방법이다. 세포 내의 복잡한 현상들을 DNA나 RNA의 해독을 통해 생명 현상을 이해하려는 시도라고 볼 수 있다. NGS는 Sanger에 의해 고안된 chain termination 방법 이후 급격하게 발전을 거듭해왔다. Illumina사의 플랫폼이 현재 가장 dominant하다. 

NGS에서는 기종에 따라 약간의 차이는 있지만 기본적으로 DNA 서열에 대한 증폭을 하고 그 후 형광 표식 등을 카메라로 찍어 이미지 처리를 하는 과정을 거쳐 염기를 읽어낸다.

## NGS 플랫폼

NGS 장비는 현재 일루미나(Illumina), 써모피셔사이언티픽(Thermo Fisher Scientific), 퍼시픽바이오사이언스 (Pacific Biosciences), 옥스포드나노포어(Oxford Nanopore Technologies) 등의 회사에서 출시된 제품들이 관련 시장을 형성하고 있다. 퍼시픽바이오사이언스, 옥스포드나노포어 등의 3세대 장비들은 2세대 장비의 짧은 분석범위의 단점을 보완한 것으로서 PCR 증폭 과정이 없이 DNA 단일분자를 실시간(real-time)으로 읽어 매우 긴 DNA 가닥의 염기서열을 한번에 읽을 수 있다는 장점이 있으나 개별 염기서열 측면에서 보면 정확도가 높지 않은 단점이 있다.

![](../images/2020-11-09-ngs/Untitled9.png)

![](../images/2020-11-09-ngs/Untitled10.png)

여러 장비 회사 중 Illumina의 NovaSeq이 현재로서는 가장 최신의 기기인데, 60명의 게놈을 하루만에 해독가능하다. 같은 회사 장비 중 HiSeq X는 하루에 한 명의 게놈만 해독 가능하다는 점에서 60배나 높은 성능을 보인다.

### 로슈(Roche)의 454 시리즈

2008년 NGS로는 최초로 인간 게놈의 시퀀싱 결과를 발표하였다. NGS를 사용하여 4.5개월 만에 완료된 이 결과는 13년이 걸렸던 Human Genome Project와 비교되면서 당시 큰 주목을 받았다. 454는 또한 GS Junior라는 소형 NGS 장비도 2009년 가장 먼저 시장에 내놓았는데, read length는 400bp에 이르며, 10시간의 run time으로 35Mb의 데이터를 생산한다. 454 시리즈에서는 하나의 bead에 하나의 DNA 사슬을 고정한 후에 emPCR로 증폭을 시킨다. 증폭이 끝나면 각 bead에는 수백만 개로 복제된 동일한 DNA 서열이 덮이게 되고, 각 bead는 PicoTiterPlate라는 장치에서 하나의 구멍 (well)에 하나씩 들어가서 시퀀싱에 개시된다. 454의 시퀀싱 기법은 Pyrosequencing chemistry라고 하며 Luciferase가 사용되어 염기의 빛을 측정하여 읽어낸다.

![](../images/2020-11-09-ngs/Untitled11.png)

454에서는 대신 한 번의 run에서 생산되는 데이터 양이 다른 기종에 비해서 상대적으로 적어서 FLX+ 시스템의 경우에도 700Mb 정도이다. 생물정보학에서는 어떠한 형식으로 데이터가 생성 되는지도 중요한데, NGS 데이터를 분석하기 위한 소프트웨어가 어떤 형식의 데이터를 받아들일 수 있는지를 먼저 확인해야 하기 때문이다. 454 시리즈에서 생성되는 NGS의 데이터 형식은 SFF 파일이다. 

로슈 산하의 454에서는 GS FLX+ system을 기준으로 read length가 600bp 또는 1,000bp 에 이른다는 점을 가장 큰 장점으로 내세운다. 하나의 read에서 읽어내는 염기 길이가 길다는 점은 방대한 수의 그러한 단편을 모아서 순서를 맞추는 어셈블리, 혹은 기존의 reference 서열에 맞추는 resequencing의 mapping 난이도를 낮출 수 있다는 의미를 가진다.

### 일루미나 (Illumina)의 GA, HiSeq, MiSeq 시리즈

1998년 설립된 Solexa는 SBS (Sequence by Synthesis) 라는 새로운 기술을 시퀀싱에 적용하였고, 2007년 일루미나는 Solexa를 합병한 후에 SBS 기반의 다양한 NGS 장비를 발전시켜 왔다. 2012년 현재의 대표적인 기종인 HiSeq 2000의 경우, 2 x 100bp read에서 11일까지의 run time으로 최대 540-600Gb까지 데이터 생산이 가능한 것이 특징이다. 일루미나의 NGS 시리즈는 전반적으로 저렴한 run 가격으로 많은 데이터를 생산하는 특징을 추구해 왔으며, 따라서 대용량의 시퀀싱을 대량으로 처리하는 연구에서 많이 사용되었다.

일루미나(Illumina)사의 기술은 DNA 가닥을 복제 혹은 합성하면서 각기 다른 형광이 부착된 염기(dATP, dCTP, dTTP, dGTP)와 함께 DNA 중합효소(polymerase)를 넣어 주면 각 DNA의 염기서열에 상보적인 염기가 삽입되면서 각기 다른 형광을 방출하게 되는데 이것을 장비에 부착된 CCD 카메라로 사진을 찍고, 장비는 형광이 발생된 클러스터의 위치를 기억하고 있다가 각 클러스터의 형광 변화를 감지하여 클러스터의 염기서열을 기록하는 기술이다. 출시된 장비로는 iSeq, MiniSeq, MiSeq, NextSeq, HiSeq, NovaSeq 등이 있으며 열거된 순서에 따라 출력(output)이 높아져 대량의 데이터를 생산할 수 있다.

![](../images/2020-11-09-ngs/Untitled12.png)

일루미나의 NGS 기법에서는 브릿지 증폭이라는 방식으로 슬라이드 위에 DNA 단편을 고정시킨 후에 최대 1,000 분자까지 증폭시켜 같은 서열의 DNA 단편 집단을 형성시키는 게 특징이다. 즉, bead가 아닌 plate 위에서 bridge PCR 과정을 통해 DNA를 증폭시킨 후, 단일 가닥의 template만 확보하여 염기서열을 알아내는 방식이며 이를 solid-state based 방식이라고도 한다. 일루미나에서는 이 집단을 클러스터 (cluster)라고 표현하며, 이 클러스터를 주형으로 네 종류의 형광 표식 염기를 사용한 염기 합성반응인 SBS를 수행한다.

![](../images/2020-11-09-ngs/Untitled13.png)

![](../images/2020-11-09-ngs/Untitled14.png)

일루미나 시리즈에서는 DNA 서열을 다른 기법들처럼 용액 안에서 증폭시키는 것이 아니라 판 위에 고정시킨 후에 판 위에서 구부러지면서 증폭되어 서열집단을 형성하는 것이 특징이다. 그렇게 형성된 클러스터라는 집단은 집단 별로 시퀀싱이 이루어져 각 read의 염기서열 정보로 전환되고 분석과정으로 넘어간다. 일루미나의 데이터 형식인 FASTQ 파일은 현재 가장 많은 분석 소프트웨어에서 널리 사용되고 있다.

2011년에는 일루미나도 MiSeq을 발표하여 소형 NGS 장비 시장에 참가했다. MiSeq의 특징은 기존 대용량 시퀀서인 HiSeq의 기법 (chemistry)을 그대로 유지하면서 소형화에 성공하여, 장비 크기와 가격을 줄이고 작업을 더 빠르고 간편하게 만들었다는 점이다. MiSeq은 2 x 150bp에서 최대 24시간의 run time으로 3.7-4.6Gb의 데이터를 생산하며, 향후 2 x 250bp가 되면 35시간 이상의 run time으로 7Gb까지 가능할 예정이다. 2012년에 발표된 HiSeq2500은 HiSeq2000을 업그레이드하여 MiSeq의 신속함을 겸비함으로써 27시간에 120Gb까지 데이터를 생산하는 기능도 추가로 갖추게 된다. 

### 라이프 테크놀로지스 (Life Technologies (ABI))의 SOLiD, 5500 시리즈

원래는 최초의 시퀀서를 등장시킨 어플라이드 바이오시스템즈 (Applied Biosystems / ABI)라는 이름으로 알려져 있지만, 인비트로젠 (Invitrogen)과 합병되어 현재는 라이프 테크놀로지스가 공식 명칭이 되었다. 라이프 테크놀로지스의 SOLiD 시리즈에서는 emulsion PCR 과정 이후의 Ligation을 사용한 시퀀싱이 특징이다. 이 기법에서는 간격을 두면서 두 개씩 염기를 읽는데, primer reset을 통해 독립적으로 다섯 번을 반복하기 때문에, 최종적으로는 각 염기를 두 번씩 중복하여 읽어서 정확도를 높인다. 

![](../images/2020-11-09-ngs/Untitled15.png)

하나의 reed 위에 Primer(n)에서 (n-4)까지 독립적으로 염기들을 다섯 번을 읽어낸다. 이는 그림의 검은 점에 해당되는 위치에 나타나있다. 다섯 번의 독립적인 사이클이 모두 완료되면 Read Position 1번에서 29번까지는 최종적으로 모두 두 개의 검은 점이 위치하게 되는데, 이는 두 번씩 독립적으로 읽힌다는 것을 의미한다.

SOLiD 후속 기종인 5500 시리즈에서는 ECC (Exact Call Chemistry) 기법이 적용되어 여섯 번째 프라이머가 추가되었고 따라서 read 상에서 상당수의 염기를 서로 다른 프라이머로 세 번씩 독립적으로 읽음으로써 정확도를 SOLiD 시리즈의 99.94%에서 99.99%로 향상시켰다. 5500의 다른 특징은 여섯 개의 lane으로 구성된 FlowChip에서 각 lane 별로 서로 다른 시퀀싱을 동시에 수행하는 Pay-Per-Lane sequencing 방식도 가능하기 때문에 시간과 비용을 절약할 수 있다는 점이다.

![](../images/2020-11-09-ngs/Untitled16.png)

5500 시리즈에서는 정확도를 더 높이기 위해 상당수의 Read Position이 겹쳐지는 프라이머가 추가되어 한 번 더 독립적으로 읽어들여, 내부 검증을 강화시킨다.

SOLiD 시리즈에서는 csfasta 형식으로 데이터가 생성되고, 5500 시리즈에서는 기본적으로 35, 60, 75bp 등의 read length로 XSQ (eXtensible SeQuence)라는 바이너리 파일 형식의 데이터가 생성된다.

### 제3세대 시퀀서, 차차세대 시퀀서 (3rd Generation Seguencer, Next NGS)

제3세대 시퀀서는 시퀀싱 전의 PCR 증폭 과정이 생략되고, DNA 단일분자를 그대로 시퀀싱 할 수 있다는 점이 차세대 시퀀서와 구분되는 점이다. Single Molecule Real Time (SMRT) 기법이라고도 한다. 

시장에는 Pacific BioSciences사의 PacBio RS 시스템이 나와있는데, 이 시스템의 경우에는 ZMW (Zero-Mode Waveguide)라는 기술이다. 이 기술은 바닥에 고정된 작은 구멍으로 DNA 사슬이 통과하면서, DNA polymerase와 상보적으로 결합하는 염기의 형광을 인식하여 시퀀싱을 수행한다. 시퀀싱이 하루 안에 완료되며 최대 90Mb의 데이터를 생산하는데, read length가 평균 2,500-3,000bp로 매우 길다는 것이 장점이다.

### 반도체 시퀀서 (Semiconductor Sequencer)

써모피셔사이언티픽(Thermo Fisher Scientific) 사의 장비는 인수하기 전 처음 개발한 회사인 Ion Torrent 장비로 더 널리 알려져 있다. 이 장비는 미세한 비드(bead)에 DNA 라이브러리를 붙여 촘촘하게 짜여진 미세한 구멍(well)에 하나씩 들어가도록 하고 각 구멍 밑에는 전류를 측정할 수 있는 반도체 칩 회로가 설계되어 있어 상보적인 염기가 결합하는 합성 과정에서 방출되는 수소이온(H+)으로 인하여 pH가 낮아지는 것을 반도체칩의 센서가 탐지하고 분석하는 방식이다. 현재 출시된 장비로는 Ion Personal Genome Machine(PGM) 및 Ion S5 System 두 가지 종류가 있다.

![](../images/2020-11-09-ngs/Untitled17.png)

emulsion PCR로 DNA를 증폭하는 것은 다른 NGS 기종과 유사하지만, 다른 기법처럼 빛을 발생시키는 인공염기를 사용해서 빛을 인식하는 시퀀싱 방식이 아닌, 반도체 칩의 작은 구멍(well)에서 각각 DNA 합성이 일어나면서 나타나는 pH 변화를 직접 반도체에서 신호로 잡아내어 수행한다는 점이 특징이다.

![](../images/2020-11-09-ngs/Untitled18.png)

다른 NGS 장비에서 필요한 카메라와 빛 인식, 이미지 처리 등이 모두 생략되었기 때문에 장비가 작고 저렴해졌으며, 시퀀싱과 분석도 3시간 정도에 완료된다. 따라서 신속한 소규모 시퀀싱이 가장 큰 장점이다. 반도체 칩에서 실제 시퀀싱을 하기 때문에 세 종류의 칩 중에서 하나를 선택하면 데이터 생산량과 비용을 고려한 시퀀싱이 가능하다 (10Mb to > 1Gb). 2012년 현재는 10Gb와 100Gb의 데이터를 생산하는 새로운 반도체 칩에 대응하는 Ion Proton이 발표되었으며, 100Gb에 해당되는 칩을 사용한다면 약 1,000달러의 비용으로 하루 안에 인간 게놈 시퀀싱이 가능하게 될 예정이다. 

개발자인 로스버그 (Rothberg) 박사가 454를 개발했던 장본인이기 때문에 기법이 454와 유사한 부분이 있지만, 기본적으로는 지금까지의 어느 NGS 장비와도 구별되는 반도체 시퀀싱이기 때문에 다른 NGS 시퀀싱 결과에 대한 상호검증에 효과적이며, 새로운 기술이지만 사실은 오랫동안 무어의 법칙에 따라 발전하고 있는 반도체 기술이 그 기반이라는 점은 장점으로 꼽을 수 있다. Ion PGM에서는 평균 100bp와 200bp의 read length로 SFF, FASTQ 형식 데이터를 생산하며, PGM에 부속된 서버에서 reference 서열에 대한 mapping도 수행되기 때문에 그 결과 파일인 BAM 파일도 함께 제공한다.

### 옥스포드 나노포어 (Oxford Nanopore)

나노포어 라는 것은 직경 나노 (10억분의 1)미터의 극소의 구멍을 DNA 분자가 통과하면서 네 종류의 염기마다 서로 다른 세기의 전류가 흐르게 해서 염기를 읽어내는 기법이다. NGS에서 염기서열을 읽어내기 위해서는 보통 DNA를 증폭하고 빛을 방출하는 인공염기를 사용해 복제할 필요가 있는데 그러한 조작과 시약이 모두 생략되는 셈이다. 참고로, 위에서 설명한 것처럼 제3세대에서는 DNA 증폭이, 반도체 시퀀싱에서는 인공염기가 이미 각각 생략되어 있다.

## NGS의 원리

NGS도 여러가지가 있는데, 여러 방법들 모두에게서 공통적으로 나타나는 특징이 있다. 첫째로는 DNA 증폭이 필요하다는 점이다. DNA를 조각 내고, 각 조각들을 증폭하여 양을 늘린다. 두번째는, 증폭된 DNA를 어떤 곳에 ‘부착’한다는 점이다. 이 ‘부착’을 위해서, 증폭된 각 조각들은 특별히 만들어진 부착 서열과 결합하게 된다. 이렇게 부착을 통한 분석 방법의 큰 장점은 바로 방향성을 조절할 수 있다는 것이다. 그래서 3’에서 5’ 방향과 5’에서 3’ 방향을 조절하여 양 방향의 DNA를 모두 읽어 낼 수 있다. NGS는 구체적인 방법에 따라서 크게 3가지로 구분할 수 있다. 454 시리즈의 특징인 긴 read는 reference 서열이 없이 read를 서로 조립하는 de novo sequencing 등을 유리하게 하는 것으로 알려져 있다. 

### NGS의 기술별 분류

![](../images/2020-11-09-ngs/Untitled19.png)

염기 서열 결정 방법에 따라 first generation, second generation, third generation으로 나눌 수 있다. 기본적으로 모든 시퀀서는 Sanger 방식 기반이었다. 그러나 1세대인 Sanger 방식과 달리 대량의 병렬 데이터 생산이 가능한 시퀀서가 등장했고 이를 차세대 시퀀서 (Next Generation Sequencer, 2nd Generation Sequencer)라고 한다. first generation이 바로 sanger의 방식이다. second generation과 third generation은 NGS에 해당하는데, 이는 해독되어지는 뉴클레오티드의 단위인 read의 길이에 따라 분류된다. Illumina, Thermo Fisher 등이 short read를 해독할 수 있는 기술을 갖고 있다. PacBio와 Oxford Nanopore는 long read를 해독할 수 있는 기술을 갖고 있다. short read를 해독할 수 있는 second generation 방식은 다시 SBL과 SBS 방식으로 나누어진다. SBS 방식은 다시 CRT 방식과 SNA 방식으로 나누어진다. 염기 서열을 결정하기에 앞서, 해독하고자 하는 template DNA에 대한  증폭 과정을 거치게 되는데, 이를 template cluster generation이라고 한다. template cluster generation은 구슬(bead) 방식, 유리판(solid-state) 방식으로 다시 나누어진다. 

최근에는 NGS를 넘어선 3세대 염기서열 분석법 또한 개발되고 있다. 이 3세대 염기서열 분석법은 DNA 증폭 과정을 생략하고 분석할 수 있도록 하는 기술로, 점점 상용화 단계에 접어들고 있다. 

### Pyrosequencing(또는 bead-based 방식)

Pyrosequencing은 DNA 단일가닥을 비드(bead)에 부착하고, DNA 중합효소를 통해 반대쪽 가닥을 합성하면서 염기서열을 읽어나가는 방식이다. Pyrosequencing은 Pyro라는 이름에서 알 수 있듯이, 중합 시 발생하는 피로인산을 통해 염기서열을 알아내는 방식이다. 

구슬같이 생긴 nano 단위의 adopter가 oil 방울(emulsion)에 갇혀있고 이 emulsion 내에서 PCR 반응이 이루어진다. 염기서열 결정을 위해 bead에 붙어있는 adopter와 template의 상보적인 서열을 바탕으로 결합시킨 후 증폭시키면, 단일 가닥의 증폭된 DNA를 확보하게 된다. 해당 기술은 Roche, Thermo Fisher 등이 가지고 있다.

방식은 다음과 같다. 먼저, dATP를 넣는다. 이때 만약 중합 되어야 할 염기가 아데닌이라면, 피로인산이 나오면서 DNA가 신장될 것이다. 이때 발생한 피로인산은 일련의 화학반응을 거치게 되어 빛을 내고, 이 빛을 감지하여 염기서열을 읽을 수 있는 상태가 된다. 만약 이때 빛이 나오지 않는다면 아데닌이 아니라는 것이고, 반응물을 씻어내고 구아닌, 티민, 사이토신에 대해서 같은 일을 반복하여 빛이 언제 발생하는지 알면 어떤 염기인지 알 수 있게 된다. 이런 Pyrosequencing의 장점으로는 한번에 긴 서열을 읽을 수 있다는 점이다. 그러나 단점은 반응물에 들어가는 비용이 크다는 것, 두번째로는 같은 염기가 6개 이상 반복될 경우 오차가 크게 발생한다는 점이다.

![](../images/2020-11-09-ngs/Untitled20.png)

### Sequencing by synthesis

DNA 중합반응을 이용한 염기서열 분석법이다. 이 분석법은 어떤 면에서 생어의 분석법과 상당히 유사하다. 이 분석법에서는 조금 변형된 뉴클레오타이드를 사용하는데, 이 뉴클레오타이드는 DNA 분자에 연결될 때 형광이 발생하며, Teminator cap이라는 부위가 있어서 DNA가 더 이상 연장되지 못하도록 막는다. 이것은 ddNTP와 유사한 특징을 가진다. 다만 차이점은 ddNTP는 절대 연장되지 못하지만, Terminator cap의 경우 효소를 통해 잘라낼 수 있기 때문에 원하는 순간에 다시 DNA 연장을 재개할 수 있다. 이 분석법은 이렇게 변형된 뉴클레오타이드의 특성을 활용하여 염기서열을 알아낸다. 네 종류의 뉴클레오타이드(A, T, G, C)는 각각 다른 형광을 띄고, 그러므로 한 염기가 결합했을 때 발생하는 형광의 종류를 분석하면 어떤 염기가 그 위치에 들어가는지 알 수 있게 된다. 

그 뒤, Teminator cap을 잘라내고 다음 염기를 중합하게 되면, 형광이 또 발생하고 이를 통해 그 다음 염기의 종류를 알아내고, 이 과정을 계속 반복하여 염기서열을 쭉 읽어낼 수 있다. 이 방식의 장점은 위의 Pyrosequencing에서 동일한 염기만 반복되는 경우 오차가 커지는 문제를 해결할 수 있다는 점이다. 그러나 이 방식은 긴 염기서열을 읽을수록 오차가 커지는 문제가 있다.

### Sequencing by ligation

앞선 두 과정에서는 뉴클레오타이드를 DNA 중합효소를 이용하여 단일 가닥에서 이중 가닥으로 합성하는 과정을 사용하는데, 이 방법의 경우 인위적으로 설계된 작은 DNA 조각을 DNA ligase로 연결하는 방식이다. 이 방법의 경우 굉장히 짧은 서열 밖에 읽지 못한다는 단점이 있다. 

### 세 방법 중 선택의 기준?

각각의 장단점이 있는 세가지 방법은 상황과 목적에 따라 다르게 쓰인다. 셋 중에 가장 널리 쓰이는 것은 두번째 방법인 Sequencing by synthesis이나, 읽어야하는 샘플의 크기에 따라 사용하는 방법은 달라진다.

# 문제

## 문제 1

그림은 dGTP와 ddGTP를 나타낸 것이다. ㈎와 ㈏에 대한 설명으로 옳은 것만을 보기에서 있는 대로 고른 것은?

![](../images/2020-11-09-ngs/Untitled21.png)

보기

ㄱ. ㈎는 DNA의 3´말단과 결합한다.

ㄴ. ㈏가 결합하면 DNA 합성이 중지된다.

ㄷ. ㈎의 염기는 C와 상보적 결합을 할 수 있으나, ㈏의 염기는 C와 상보적 결합을 할 수 없다.

정답: ㄱ, ㄴ

## 문제 2

그림은 DNA(주형 가닥)와 DNA 염기 서열 분석에 의해 합성된 가닥들을 나타낸 것이다. 이 자료에 대한 설명으로 옳은 것만을 보기에서 있는 대로 고른 것은?

![](../images/2020-11-09-ngs/Untitled22.png)

보기

ㄱ. ddNTP 때문에 합성된 가닥들의 길이가 다르다.

ㄴ. 전기 영동시킬 때 DNA 가닥이 길수록 더 멀리 이동한다.

ㄷ. 새로 합성된 DNA의 염기 서열은 주형 가닥의 염기 서열과 동일하다.

정답: ㄱ

# Reference

- [https://ko.wikipedia.org/wiki/생어_염기서열_분석](https://ko.wikipedia.org/wiki/%EC%83%9D%EC%96%B4_%EC%97%BC%EA%B8%B0%EC%84%9C%EC%97%B4_%EB%B6%84%EC%84%9D)
- [http://study.zum.com/book/14731](http://study.zum.com/book/14731)
- [http://www.incodom.kr/Sanger_sequencing](http://www.incodom.kr/Sanger_sequencing)
- [https://www.bio.davidson.edu/courses/molbio/molstudents/01licohen/sequencing.html](https://www.bio.davidson.edu/courses/molbio/molstudents/01licohen/sequencing.html)
- [http://dwb.unl.edu/Teacher/NSF/C08/C08Links/www.piopio.school.nz/molmed.htm](http://dwb.unl.edu/Teacher/NSF/C08/C08Links/www.piopio.school.nz/molmed.htm)
- [https://www.ksakosmos.com/post/지식더하기-더-많은-양을-더-빠르게-차세대-염기서열-분석법-ngs](https://www.ksakosmos.com/post/%EC%A7%80%EC%8B%9D%EB%8D%94%ED%95%98%EA%B8%B0-%EB%8D%94-%EB%A7%8E%EC%9D%80-%EC%96%91%EC%9D%84-%EB%8D%94-%EB%B9%A0%EB%A5%B4%EA%B2%8C-%EC%B0%A8%EC%84%B8%EB%8C%80-%EC%97%BC%EA%B8%B0%EC%84%9C%EC%97%B4-%EB%B6%84%EC%84%9D%EB%B2%95-ngs)
- 박근준, "NGS (Next Generation Sequencer) 기법 소개," KSBMB NEWS, 6월호
- 이승태, 이경아, 심효섭, 원홍희, 김나경, 신새암, "Next Generation Sequencing 기반 유전자 검사의 이해 입문용," 식품의약품안전처 식품의약품안전평가원
