# RNA sequencing 기초 이론 및 실습

- author: "Kwon DoHyung"
- toc: true 
- comments: true
- categories: [bio, NGS, bioinformatics, experiment]
- image: images/2020-11-16-rna-seq/Untitled38.png
- permalink: /rna-seq-basic/

# 1. Basics of RNA-seq

RNA sequencing을 활용하여 알아낼 수 있는 정보들은 매우 많다. 최근 굉장히 유행하고 있는 single cell RNA sequencing 기술, 각종 RNA sequencing Library를 만드는 Chemistry 분야 등에서 쓰이는 것이 대표적이다. 이 섹션에서는 이 중 일부를 다루고자 한다. 가장 기본적으로 RNA sequencing이 무엇인지, RNA sequencing Library를 만드는 방법에는 어떤 것들이 있는지, RNA sequencing을 통해 유전자 발현량을 어떻게 측정하는지 등을 다룬다. 기본적으로 유전자의 발현량은 RNA sequencing 이후에 해당 유전자의 read가 몇 개나 mapping이 되느냐를 바탕으로 그 양을 추정하게 된다. 

## 1-1. What is RNA-seq?

- 일반적으로, RNA-seq이라고 하면 Bulk RNA-seq을 말한다. RNA sequencing은 NGS 방법으로 RNA 분자를 sequencing하는 방법이다. 특히, RNA-seq이라고 하면 주로 mRNA 분석을 의미한다. mRNA가 단백질로 번역되기 때문에 mRNA의 양을 조사하면 발현 정도를 분석할 수 있다. RNA Sequencing기술은 sanger sequencing 및 microarray 기반 방식으로 사용할 수 있는 것보다 훨씬 높은 해상도로 Genome을 분석할 수 있다.

![](../images/2020-11-16-rna-seq/Untitled.png)

- NGS를 이용한 RNA 분석 이전의 기존의 임상영역에서(oncology) 시행되고 있는 RNA 검사는 qRT-PCR, Microarray를 이용하여 일부 시행되고 있었다. 그러나 연속적으로 probe의 강도를 측정하는 microarray와는 달리, NGS를 활용한 RNA-seq는 reference sequence에 할당되는 각각의 sequence read를 정량화하여 read count를 생성한다. 따라서 NGS를 이용한 RNA-seq을 통한 유전자 발현량의 계산이 중요하다. 또한 sequence read (coverage level이나 coverage depth)를 늘이거나 줄여서 민감도를 조정할 수 있다.

### 1-1-1. RNA-seq의 개략적인 과정

![](../images/2020-11-16-rna-seq/Untitled1.png)

- 샘플에서 먼저 mRNA를 추출한다. 위 그림에서와 같이 특정 condition에 놓인 샘플들을 얻게 된다고 해보자. 이 샘플은 우리 조직에서 나오는 샘플일 수도 있고, cell culture 과정에서 나온 샘플일 수도 있다. 어쨌든 RNA가 있다면 sequencing이 가능하므로 RNA의 출처가 동물인지, 식물인지, 혹은 사람으로부터 나온 샘플인지 실험실에서 배양하여 나온 샘플인지는 중요하지 않다.
- 샘플로부터 RNA를 얻고 난 후엔 cDNA로 합성한다. 요즘에는 nanopore 기술로 RNA를 곧바로 sequencing할 수 있으나, 여전히 대부분의 RNA sequencing은 cDNA를 만들어야 sequencing이 가능하다. 그 이유는, Illumina의 sequencing기법인 bridge PCR 기법이 DNA 수준에서 이루어지는 PCR이기 때문이기도 하고, PacBio사에서의 sequencing 기법도 DNA로 sequencing을 수행하는 방법이기 때문이다. 따라서 cDNA로 변환하는 단계를 거친다.
- cDNA가 만들어진 후에는 sequencing 기기에 넣기 위해 sequencing Library를 제작한다. RNA 상태에서 조각을 낸 뒤 fragment 양 끝단에 adapter라는 molecule을 붙이는 등(PolyA tailing), 시퀀싱에 필요한 서열들을 붙여 라이브러리를 만든다.
- 필요하다면 PCR amplification을 수행하여 RNA를 증폭시킨다.
- sequencing Library를 만들면 sequencing 기기에 넣어 대용량의 read를 얻는다. 즉, RNA에 대한 sequence를 획득하기 위해 sequencing을 진행한다. 이 과정에서 RNA에 붙어있는 poly A tail이나 Library를 만들 때 사용된 adapter는 제거되고 read(sequencing 데이터)가 생성된다.
- 해당 샘플이 유래된 생물종의 서열을 reference로 하여 read를 reference 서열에 붙인다. 이를 mapping이라고 한다.

![](../images/2020-11-16-rna-seq/Untitled2.png)

## 1-2. The Purpose of RNA-seq

### 1-2-1. 유전자 발현에 대한 정보 획득

기본적으로 RNA sequencing을 통해 transcriptome을 분석하여 유전자 발현량의 차이를 확인 하는 것이 목적이다. Transcript에서 translation을 통해 단백질이 된다는 central dogma에 입각하여 transcript 수가 많을수록 발현이 많이 된다고 판단하여 계산하는 방법이다. Transcriptome 대용량 시퀀싱 후 분석을 하는 RNA-seq을 통하여 새로운 것을 발견할 수도 있으며, 발현 값을 정량 할 수도 있다. RNA sequencing 기술의 발전에 따라 RNA sequencing으로 할 수 있는 일들이 많아졌다. RNA sequencing은 central dogma(DNA→mRNA→protein) 단계의 중간 단계인 mRNA를 sequencing하여 mRNA의 서열을 알게 됨으로써, 기본적으로 어떤 tissue에 어떤 유전자가 발현되는지, 세포 종류에 따라 발현되는 유전자의 양, 발달 과정에서 특이하게 발현되는 RNA 유전자의 발현량, 암 세포에서의 RNA sequencing, 시간에 따른 유전자 발현량 등을 알 수 있다. 

### 1-2-2. isoform에 대한 정보 획득

![](../images/2020-11-16-rna-seq/Untitled3.png)

RNA sequencing이 많이 쓰이는 또 다른 분야는 isoform을 찾아내는 영역이다. isoform은 DNA에서 mRNA가 만들어질 때, 무작위적인 exon의 짜집기 과정에 의해 여러 형태의 mRNA가 발생하는 과정에서 나오는 RNA들을 말한다. RNA sequencing 기술을 이용하면 isoform들에 대한 sequencing을 수행함으로써 어떤 종류의 isoform이 만들어졌는지 알 수 있게 된다.

### 1-2-3. Assembling and Annotating a transcriptome(전사체)

단순히 RNA 유전자의 발현량을 보는 것 뿐만 아니라, RNA sequencing을 통해 sequencing read를 assembling하는 방식으로 새로운 RNA를 찾는 것, 그리고 non-coding RNA를 찾는 것 등, RNA를 annotation하기 위한 목적으로 RNA-seq이 사용된다.

#### 1-2-3-1. transcriptome(전사체)

- 전사물(transcript)의 총체(-ome)의 합성어로 전사체를 의미하는 용어이다. 즉, 전사체는 모든 mRNA의 집합을 의미한다. Transcript 중 하나인 mRNA는 단백질을 합성하는 데 사용되므로 transcriptome은 genome의 기능적 요소를 해석하고 세포와 조직의 분자 구성 요소를 밝혀내고 발달과 질병을 이해하는 데 필수적이다. Transcript의 범위는 단백질 합성에 필요한 mRNA부터 아미노산 운반을 담당하는 tRNA, 코딩에 관여되지 않는 non-coding RNA 등에 이르기까지 RNA 전반을 포함한다.
- 전사체학(transcriptomics)이란 mRNA 수준에서 생명 현상을 전체적으로 다루는 학문이라고 정의 할 수 있다.
- 전사체 수준에서의 유전자 발현(gene expression)에 대한 연구는 DNA 마이크로어레이(microarray)와 같은 고 처리량의 분석 기술 발달과 더불어 활발하게 진행되어 왔다. 유전자의 발현을 전사 수준에서 다루는 것은 단백질 활성의 직접 정량보다 분석이 쉬우며 간접적 지표로서의 가치가 있다.
- NGS기술 기반의 RNA sequencing (RNA-seq)은 기존의 전사체학을 위한 방법의 한계를 넘어 현대의학의 가장 강력한 tool로 여겨지고 있다. RNA-seq는 Gene Expression 분석을 위한 정확하고 민감한 방법으로, 이전에 검출되지 않았던 gene expression에서의 변화뿐만 아니라 noncoding RNA의 다양한 형태의 특성들을 알 수 있게 한다. RNA-seq를 통해 동형 전사물(transcript isoforms), gene fusions, single nucleotide variants(SNV) 등과 같은 전사체 구조에 대한 분석을 제한 없이 할 수 있게 되었다.

## 1-3. RNA-seq 외 RNA sequencing 분석 기법들

mRNA를 분석하는 RNA-seq 이외에 Alternative splicing 분석과 ncRNA 분석 (non-coding RNA)이 있다.

### 1-3-1. Alternative splicing 분석

- 유전자는 Splicing을 통해 다양한 조합의 mRNA를 생성해낸다. 이렇게 발생한 isoform에 대하여, 전체 유전자 구조에 RNA를 시퀀싱한 데이터를 대응해보면 splicing이 일어난 부분을 확인할 수 있다.
- 또한, 세포 내에서는 gene이 fusion되는 현상이 발생할 수 있다. RNA sequencing을 통해 어떤 유전자가 fusion이 되는지 알아낼 수 있다.

### 1-3-2. ncRNA 분석 (non-coding RNA)

- small RNA profiling이라고도 한다.
- miRNA와 같은 짧은 RNA나 lncRNA 등에 대한 sequencing 분석에 해당한다. 실제로 번역이 되는 부분은 아니지만, 발현을 조절한다고 알려진 부위로 최근 활발한 연구가 이루어지고 있다.
- 피에는 DNA가 주로  떠돌아다니는데, 아주 짧게 degradation되어 있는 RNA들을 small RNA sequencing 방법으로 sequencing할 수도 있다.

### 1-3-3. scRNA 분석

Bulk RNA-seq은 적어도 나노 그램의 RNA가 필요하다. 그러나 일반적인 포유류의 세포는 pg의 RNA를 가지고 있기 때문에 충분히 많은 수의 세포를 얻을 수 없을 경우, bulk RNA-seq을 수행할 수 없다. 반면, scRNA-seq은 단일 세포로도 시퀀싱이 가능하다. 

#### 1-3-3-1. Bulk RNA-seq과 비교해서 scRNA-seq을 성공적으로 하기 위한 두 가지 이슈

1. 조직에서 세포를 하나씩 캡처할 수 있는 기술이 필요하다. 이를 위해 최근 cell 별로 바코드를 도입하는 기술이 적용되고 있다.
2. ng단위의 RNA양이 필요하므로 pg단위일 경우 RNA의 양을 늘리기 위한 증폭 과정이 필요하다. 이 과정에서 노이즈가 발생할 수 있다.

### 1-3-3. targeted approaches

exom sequencing처럼 특정 probe를 짜서 원하는 RNA만 capture하는 targeted RNA sequencing을 말한다.

### 1-3-4. direct RNA sequencing

nanopore를 이용하여 cDNA를 합성하지 않은 채 RNA 상태 그 자체로 RNA를 바로 sequencing하는 기술을 말한다.

## 1-3. Why is RNA-seq difficult?

RNA sequencing은 매우 유용하며, 흔하게 쓰이는 기술이다. 하지만 여전히 분석에 있어서 bias의 문제가 발생한다. 

### 1-3-1. bias란?

bias란, 우리가 데이터를 통해 살펴본 내용이 실제 상황(true state)을 반영하지 않는 것을 말한다. bias는 Bulk RNA-seq은 어떤 조직(샘플)에 2가지 이상의 세포가 섞여 있을 때, 각 세포에서 나온 전사체들이 섞여 결과에 편향성(bias)을 만들기 때문에 발생한다. (scRNA-seq은 세포끼리 섞여있지 않기 때문에 편향성이 발생하지 않는다.)

### 1-3-2. bias를 유발하는 문제들

#### 1-3-2-1. PCR에 의한 bias

예를 들어 굉장히 작은 cell number를 가진 샘플로부터 RNA를 뽑았을 때에는 당연히 RNA 양을 증폭시키기 위해 PCR 과정을 거치게 될 것이다. 이 때, PCR에 의한 bias가 생길 수 있다. 

#### 1-3-2-2. degradation된 RNA에 의한 bias

혹은, RNA quality 자체가 좋지 않은 경우(RNA가 많이 degradation된 경우 등)에서, sequencing 이후에 read들이 일관되게 mapping되지 않는 문제가 발생하기도 한다. 이로 인해 bias가 생긴다. 

#### 1-3-2-3. splicing에 의한 bias

또다른 RNA sequencing 데이터 해석에서 어려움을 유발하는 부분은 splicing에 의한 문제다. sequencing을 통해 read를 mapping(exon을 mapping)했을 때 실질적으로 어떤 isoform에서 나온 read(exon)인지 명확하지 않다. splicing은 다양한 방식으로 이루어지는데, read의 길이가 짧은 short read의 경우, 정확하게 어떤 조합으로 exon이 이어 붙여졌는지 알 수 없다. 이로 인해 최근에는 isoform만 특별히 잘 sequencing할 수 있는 Iso-Seq이라는 기술이 나와있다. 

#### 1-3-2-4. gene level과 exon level에서의 발현량 계산에서의 혼동

sequencing 분석 시, 유전자 발현량을 계산할 때 gene level에서 유전자 발현량을 계산하는 것인지, exon level에서 발현량을 계산하는 것인지 유념할 필요가 있다. 

#### 1-3-2-5. multiple mapping에 의한 bias

특정 read가 한 군데 이상에 mapping이 되는 경우를 multiple mapping이라고 한다. 특정한 read가 한 군데 이상에 mapping이 되어 있는 경우를 말한다.

#### 1-3-2-6. partial mapping에 의한 bias

partial mapping은 exon에 해당하는 두 개 이상의 read가 겹쳐져 있을 때 발생되는 문제를 말한다. 이러한 read를 chimeric read(또는 fusion transcript)라고도 한다. 예를 들어, 굉장히 짧은 RNA인 miRNA 등의 경우에서 우리가 원하는 miRNA 길이 이상의 read의 길이를 얻는 경우가 발생할 수 있다. 이럴 경우엔 trimming 등의 과정을 거쳐야 한다. 

#### 1-3-2-7. Normalization 

RNA sequencing에서 흔히 일어나는 이슈는 Normalization 이슈다. RNA sequencing을 통해 우리가 얻고자 하는 주된 정보 중에 하나가 유전자의 발현량이다. 기본적으로 유전자의 발현량은 RNA sequencing 이후에 해당 유전자의 read가 몇 개나 mapping이 되느냐를 바탕으로 그 양을 추정하게 된다. sequencing 과정에서 동일한 샘플로부터 어떤 경우엔 30M read를 얻고, 어떤 경우엔 60M read의 샘플을 얻을 때, 60M 짜리 read에 해당하는 데이터가 훨씬 많은 정보를 담고 있기 때문에 어쩔 수 없이 특정한 유전자에 mapping될 수 있는 read의 개수가 30M 데이터보다 훨씬 많아 질 수 밖에 없다. 따라서 이를 어떻게 Normalization할지에 대한 고민이 필요하다.

## 1-4. NGS 데이터 분석 과정

![](../images/2020-11-16-rna-seq/Untitled4.png)

raw reads quality control → preprocessing → mapping(aligning) → post-alignment processing → variant calling → annotation → prioritization 과정으로 이루어진다.

## 1-5. RNA-seq 상세 과정

![](../images/2020-11-16-rna-seq/Untitled5.png)

이미 살펴 보았듯이 NGS 분석을 위해 위의 그림과 같은 과정을 거치게 된다.

### 1-5-1. RNA 분리

Isolate RNA 단계에서 고려할 사항은 어떤 RNA를 sequencing할지를 결정하는 것이다. 정상적인 조직이라면 RNA를 비롯한 유전 물질이 세포 안에 잘 포장돼 있기 때문에 RNA를 분리해내기 위해서는 세포를 갈아버리는 (Lysis) 과정도 필요하고, RNA들만 골라내는 과정도 필요하다. 아래의 cell 분리에 관한 섹션(1-5-1-1은 scRNA-seq에 해당되는 내용이며, 본 노트 전체에서 주제로 다루는 RNA-seq과는 관련성이 떨어진다.)

#### 1-5-1-1. Capturing of Single Cell

Single Cell 단위로 분류하기 위해서는 크게 두 가지 방식을 시도할 수 있다.

##### 1-5-1-1-1. 하나하나 분리

![](../images/2020-11-16-rna-seq/Untitled6.png)

실험량이 매우 적은(Low-throughput) 경우에 적용 가능한 방식이다. 피펫 등으로 직접 하나씩 집는 방식(Micromanipulation)과 레이저로 얇은 필름에 세포를 하나씩 붙여가며 떼어내는 방식(Laser Capture Microdissection) 등이 있다. 초기 배아세포(Early Embryo) 등 세포 개수가 적은 경우에 이용할 수 있는 방식이다.

##### 1-5-1-1-2. 한꺼번에 분리

- 좀 더 많은 세포를 한꺼번에 분석하기 위해서는 세포를 조직으로부터 분리한 후 완충용액에 섞는다. 하지만 대부분의 동물 세포들은 다당류 (Polysaccharide), 당화단백질 (Proteoglycan) 등 다양한 세포외 기질 (Extracellular Matrix, ECM) 로 둘러싸여 있다. 세포를 하나씩 떼어내려면 각종 효소(trypsin, collagenase)를 쳐서 이 구조를 모두 깨야한다. 이러한 효소들은 세포의 생존 능력(Cell Viability) 에 영향을 준다. 이로 인해 세포의 전사체 발현 경향(Transcriptional Profile)이 변할 수 있기 때문에 분석량을 늘리는 대가로 감수해야 할 부분이라고 할 수 있다.

![](../images/2020-11-16-rna-seq/Untitled7.png)

- 이 방식에 해당하는 기법으로는 FACS, Microfluicis, Microdoplets 등이 있다. FACS는 세포를 면역형광 (Immunofluorescence) 방식으로 염색한 후, 이를 이용해 세포를 구분하는 방식이다. 예를 들어, FSC와 SSC 두 가지 물질을 이용해 살아있는 세포만을 추출하는 식이다.
    - Microfluidics는 칩 안의 미세한 공간으로 세포를 하나씩 집어넣고, 그 안에서 역전사와 증폭이 이뤄지는 방식으로 동작한다. 마지막으로 Microdroplets은 가장 많은 실험량 (High-throughput) 을 가능케 하며, 세포를 특정 방울 (Droplet) 에 가두고 그 안에서 세포의 용해가 이뤄진다.

#### 1-5-1-2. RNA 분리: rRNA depletion vs. Poly-A selection

사람이나 쥐 등의 mammalian cell로부터 RNA를 추출했다고 가정해본다면, 해당 RNA에는 rRNA(ribosomal RNA)가 80%, tRNA(transfer RNA)가 15% 정도 들어있다. 따라서 RNA 전체(total RNA)를 그대로 sequencing하면 mRNA가 아닌 rRNA나 tRNA를 sequencing하는 셈이 된다. 즉, rRNA와 tRNA에 의한 data contamination이 발생한다. 이를 해결하기 위해 다음의 두 가지 선택지 중 하나를 고려해야 한다.

##### 1-5-1-2-1. rRNA depletion

![](../images/2020-11-16-rna-seq/Untitled8.png)

rRNA depletion은 mRNA에 대한 sequencing을 수행하기 위해 rRNA를 depletion(크게 감소시키는)하는 과정이다. 이와 같이 rRNA를 없애고 sequencing하는 방법을 total RNA sequencing이라고 표현한다. 이 방법의 장점은 rRNA, tRNA, small RNA 처럼 풍부(abundant)하면서도, 굳이 읽지 않아도 되는 서열들을 제거함으로써 많은 non-coding RNA에 대한 정보를 얻을 수 있다는 점이다. 반면, 단점도 이다. RNA 유전자에는 exon보다 intron이 훨씬 더 많고, 길다. 즉, Poly-Adenylation 되기 전에 intron이 다수 껴있는 RNA들을 대거 sequencing하게 되기 때문에, total RNA sequencing을 수행하면 intron을 끼고 있는 RNA들이 sequencing된다는 단점이 있다. 따라서 ribosome을 depletion한 후, 그대로 total RNA sequencing을 할지, mRNA sequencing을 할지 결정해야 한다.

##### 1-5-1-2-2. Poly-A selection

rRNA, tRNA는 그대로 둔 채, mRNA의 3'-end에 붙어 있는 Poly-A를 capture할 수 있는 oligo dt 서열이 있는 bead를 이용하여 RNA를 capture하는 방법이다. 이를 mRNA sequencing이라고 표현한다.

### 1-5-2. cDNA 제작: Poly-A priming vs. Random priming

![](../images/2020-11-16-rna-seq/Untitled9.png)

- 세포를 분리했다면, 이번에는 RNA를 cDNA로 바꿔줄 단계다. 이 단계는 RNA를 역전사(Reverse Transcription) 하여 cDNA(Complementary DNA, 주어진 RNA에 상보적으로 생긴 DNA)를 만들어내는 과정이다. (scRNA-seq이라면 PCR을 이용해 샘플 양을 충분히 증가시켜 줄 필요가 있다.) 따라서 cDNA를 만들기 위해서는 reverse transcription 단계에서 쓰일 primer가 필요하다.
- mRNA의 경우 폴리-A 꼬리 (Poly-A Tail)을 함유하고 있다. 따라서, mRNA에 대한 분석을 위해 폴리-T 시퀀스에 프로모터를 융합한 프라이머인 Poly-A priming을 이용하여 cDNA를 만들 수 있다.
    - Poly-A를 priming하게 되면 oligo dt로 priming을 수행하여 cDNA를 합성하게 된다. 이 방법의 단점은, 만약 RNA를 뽑는 과정에서 degradation된 RNA에 대해 Poly-A 쪽을 priming 했을 때, cDNA가 3'부터 5'까지 합성되어 가는 과정에서 더이상 5'-end까지 가지 못하고 중간에서 멈추는 일이 발생한다는 점이다.
    - 따라서 Poly-A만 priming해서 cDNA를 만들 경우, RNA quality가 완벽하지 않으면 sequencing 이후의 NGS read를 mapping 하게 되면, read가 전체 gene에 균일하게 mapping되는 것이 아니라 유독 3'-end 쪽에만 mapping되는 bias가 발생할 수 있다.
    - 따라서 priming을 하는데에 있어서도 반드시 Poly-A를 priming을 하는 것보다는 random primer로 priming하면서 cDNA를 만들 필요가 있다.

### 1-5-3. Library 제작: RNA ligation method vs. dUTP method

- 현재 대부분의 Sequencing은 전체 시퀀스를 한 번에 읽지 않고 여러 조각으로 쪼개어 읽는 샷건 방식을 이용한다. 세부 방식은 매우 다양하지만, 일반적으로 작은 어댑터(Adaptor) 시퀀스를 더해준 후 라이브러리(Library)를 완성한다. 이를 통해, 결과적으로는 작은 RNA 시퀀스 조각들인 리드(reads)를 얻게 된다.
- cDNA를 만든 후, Library를 만드는 방식에 있어서도 방법을 선택할 필요가 있다. 라이브러리를 만드는 과정 중, 꼭 읽을 필요가 없는 정보가 있는데 그 정보는 바로 strand 정보다. 알다시피 DNA는 이중나선인데, 이중나선 중 watson strand 또는 crick strand 각각에서 RNA가 만들어진다. 즉, 둘 중 어느 strand에서 RNA가 만들어졌는지 파악하기 힘들다는 문제가 발생한다. 이를 해결하기 위한 원리엔 DNA와 RNA의 방향성 유무에 있다. DNA는 방향성이 없지만 RNA는 방향성이 있다. 따라서 RNA sequencing을 했을 때 우리가 얻은 read가 과연 watson strand에서 transcription이 일어났는지 crick strand에서 transcription이 일어났는지에 대하여, 그 정보를 계속 유지하면 RNA sequencing의 결과를 믿을 수 있게 된다. 그럼 어떻게 RNA의 방향성 정보를 유지할까?

![](../images/2020-11-16-rna-seq/Untitled10.png)

#### 1-5-3-1. RNA ligation method

DNA의 이중나선의 방향성을 파악하기 위해서는 각 ss nucleic acid의 왼쪽과 오른쪽에 다른 종류의 adaptor를 붙인다. 우리가 알고 있는 다른 종류의 adaptor를 양 끝단에 붙이면 왼쪽 끝과 오른쪽 끝 서열이 다르기 때문에 primer를 다르게 쓸 수 있다. 가장 쉬운 아이디어는 cDNA가 만들어지기 전 RNA에서 5'-end, 3'-end에 direct로 RNA adaptor를 ligation 시키는 방법이다.

#### 1-5-3-2. dUTP method

dUTP 방식은 cDNA를 만들 때 한 쪽 strand에 dUTP가 들어가게 만드는 방식이다. 그 다음 ds 양 끝 단에 Y shape adaptor를 붙인다. dUTP가 들어간 strand는 degradation되도록 효소가 들어가게 되어 한 쪽 가닥을 없앨 수 있다. Y shape이 되도록 만드는 방법은 Y shape이 되도록 서열을 만드는 것이다. 즉, DNA는 서로 상보적으로 A-T, G-C로 수소결합을 이루는 상태인데, 이를 서로 상보적인지 않은(not reverse complementary) 상태로 만든다. 즉 Y shape을 이루는 마주보는 두 서열은 서로 다른 서열을 갖게 된다.

#### 1-5-3-3. RT method

이 외에 RT method 방식도 있다. 

## 1-6. QC

1-5 과정을 통해 sequencing 데이터가 만들어지면 대부분의 시퀀싱 데이터들은 QC(Quality Control; 품질 관리) 과정을 거쳐야 한다. 이 과정을 통해 read의 길이와 수를 체크하고, contaminating 시퀀스나 낮은 quality의 시퀀스가 있는지 찾아야한다. 즉 이 데이터가 깔끔한 데이터인지, 얼마만큼 깔끔한지, base quality가 좋은지, adaptor contamination은 없는지 여부 등을 살피게 된다. 

## 1-7. preprocessing

이 과정은 시퀀스의 퀄리티를 증가시키기 위한 과정이다. QC와 preprocessing 과정은 매우 중요하며, 이 과정이 제대로 되어야 이후의 분석 결과를 신뢰할 수 있게 된다.

## 1-8. mapping(또는 alignment)

- QC 과정과 preprocessing 과정을 거친 이후에 가장 첫째로 하는 분석은 mapping 또는 alignment다. 각 리드를 레퍼런스 유전체(Reference Genome)에 배열(Mapping)하거나, 참조하는 유전체 없이 직접 새로운 (De novo) 배열을 조립하는 것을 말한다. RNA sequencing을 통해 sequencing read들이 발생하는데, 각 read들을 genome에 alignment하는 것이다. 즉, reads를 reference genome이나 reference transcriptome에 정렬하는 것을 뜻한다. (reference genome은 표준게놈 또는 참조게놈 또는 참조 서열 등으로 불리며, HG19, HG38 등을 예로 들 수 있다.) 예를 들어 WES 데이터의 경우 WES 데이터의 read를 reference genome에 mapping 한다면, reference와 WES 데이터의 시퀀스 간의 다른 부분(variant)을 알아낼 수 있게 되고, 이 variant의 정확도는mapping accuracy에 의존적이다.
- 따라서 그 다음에 해야할 일은 바로 mapping quality를 체크하는 일이다. 데이터의 특정 종류의 bias는 mapping step 이후 나타난다. mapping quality가 만족스럽지 않으면 이를 processing하는 과정을 거쳐야 한다. 다음 섹션에서 언급할 post-alignment processing이 그것이다.

![](../images/2020-11-16-rna-seq/Untitled11.png)

- a: read가 exon 부위에만 쌓이는 것이 아니라 intron 부위에도 쌓인다. 가장 이상적인 read의 모습은 read 하나하나가 조금씩 어긋나면서 쌓이는 형태(a-1)이다. 만약 동일한 위치에 read가 계속 쌓인다면(a-2) PCR에 의한 duplication을 의심해야 한다. 이러한 류의 read의 문제는 해당 read들이 여러 molecule에 의해 나온 read가 아닌 PCR에 의해 bias가 생긴 것이므로 유전자 발현량을 정량화 하는데에 있어서도 bias가 생길 수 밖에 없다는 점이다.
- b: RNA는 방향성이 있다. 따라서 read도 RNA의 방향대로 mapping이 된다. 이는 Library 제작 부분에서 다루었듯이 방향성을 부여하는 adaptor를 부착하는 등의 처리를 했기 때문이다. 그러나 antisense orientation(역방향)으로 mapping되어 있는 read들이 낮지 않은 확률로 발생한다. 이는 과학적으로 발생 가능한 현상이기도 하지만, DNA contamination에 의해 DNA도 함께 sequencing된 현상으로도 볼 수 있다. 이를 구분해야 한다.
- c: read들이 정상적으로 mapping되지 않고 특정 구조를 이루면서 mapping이 된다면 RNA가 실제로 그러한 구조적인 모양을 띄고 있을 수도 있고, RNA가 심하게 degradation된 것으로 해석할 수 있다.

read자체가 ambiguous하게 mapping되는 경우도 있다. 

![](../images/2020-11-16-rna-seq/Untitled12.png)

- 첫 번째 케이스는 가장 이상적이다.
- 두 번째 케이스는 read가 유전자 바깥으로 빠져나갔다. 해당 read가 유전자의 일부라고 볼 수 있을까? 애매하다.
- 세 번째 케이스는 중간에 intron을 걸쳐서 mapping된 경우다. 애매한 경우다.
- 네 번째 케이스는 이상적인 케이스다.
- 다섯번째 케이스는 유전자가 overlap되어 annotation되었으나 read가 A 유전자에 mapping된 경우다. 이상적이다. 따라서 A 유전자의 발현량으로 계산하면 된다.
- 여섯번째와 케이스는 read의 일부가 두 유전자 모두에 mapping 되어 있는 것이다. 애매한 경우다.
- 일곱번째 케이스는 유전자 모두에 mapping 되어 있다. 애매한 경우다.

HT-Seq이라는 RNA sequencing read들을 mapping하고 counting하는 python프로그램을 이용하면, 위의 케이스들을 고려하여 자동적으로 read counting을 해준다.

## 1-9. post-alignment processing

post-alignment processing은 예를 들어, 중복된 mapped read를 제거하는 것을 의미한다. 중요한 과정이며 다음 분석에 큰 영향을 미친다.

## 1-10. variant calling

- 시퀀스가 참조 서열에 align 되었다면, 데이터를 experiment-specific한 방법으로 분석을 해야할 필요가 있다. 따라서 WES 데이터를 참조 서열에 mapping한 후에, variant 분석을 수행한다. 즉, variant calling과 그 variant가 gene에 미치는 영향 (단백질의 변화, frame shift 등)을 알아본다. 이 과정에서 시퀀스를 참조 서열과 비교하고, 차이를 확인하여 이 차이가 유전자에 얼마나 큰 영향을 미칠지에 대해 분석해야 한다.
- 예를 들어, 이것이 snynonymous variant(mRNA가 생성하는 아미노산에 변화가 없는 변이)인 경우에는 이 영향이 미미할 것이다. 하지만 그 variant가 사이즈가 큰 deletion 이라면, 해당 시퀀스를 포함하는 유전자에 큰 영향을 줄 것이라고 예측해볼 수 있다. 분석과는 별개로 데이터를 visualization 해볼 수도 있다. mapped read 데이터를 visualising 함에 있어 가장 표준적인 tool 중 하나는 Genome Browser다.
