# RNA sequencing 기초 이론 및 실습

- author: "Kwon DoHyung"
- toc: true 
- comments: true
- categories: [bio, NGS, bioinformatics, experiment]
- image: images/2020-11-16-rna-seq/Untitled38.png
- permalink: /rna-seq-basic/

# 1. Basics of RNA-seq

RNA sequencing을 활용하여 알아낼 수 있는 정보들은 매우 많다. 최근 굉장히 유행하고 있는 single cell RNA sequencing 기술, 각종 RNA sequencing Library를 만드는 Chemistry 분야 등에서 쓰이는 것이 대표적이다. 이 섹션에서는 이 중 일부를 다루고자 한다. 가장 기본적으로 RNA sequencing이 무엇인지, RNA sequencing Library를 만드는 방법에는 어떤 것들이 있는지, RNA sequencing을 통해 유전자 발현량을 어떻게 측정하는지 등을 다룬다. 기본적으로 유전자의 발현량은 RNA sequencing 이후에 해당 유전자의 read가 몇 개나 mapping이 되느냐를 바탕으로 그 양을 추정하게 된다. 

## 1-1. What is RNA-seq?

- 일반적으로, RNA-seq이라고 하면 Bulk RNA-seq을 말한다. RNA sequencing은 NGS 방법으로 RNA 분자를 sequencing하는 방법이다. 특히, RNA-seq이라고 하면 주로 mRNA 분석을 의미한다. mRNA가 단백질로 번역되기 때문에 mRNA의 양을 조사하면 발현 정도를 분석할 수 있다. RNA Sequencing기술은 sanger sequencing 및 microarray 기반 방식으로 사용할 수 있는 것보다 훨씬 높은 해상도로 Genome을 분석할 수 있다.

![](../images/2020-11-16-rna-seq/Untitled.png)

- NGS를 이용한 RNA 분석 이전의 기존의 임상영역에서(oncology) 시행되고 있는 RNA 검사는 qRT-PCR, Microarray를 이용하여 일부 시행되고 있었다. 그러나 연속적으로 probe의 강도를 측정하는 microarray와는 달리, NGS를 활용한 RNA-seq는 reference sequence에 할당되는 각각의 sequence read를 정량화하여 read count를 생성한다. 따라서 NGS를 이용한 RNA-seq을 통한 유전자 발현량의 계산이 중요하다. 또한 sequence read (coverage level이나 coverage depth)를 늘이거나 줄여서 민감도를 조정할 수 있다.

### 1-1-1. RNA-seq의 개략적인 과정

![](../images/2020-11-16-rna-seq/Untitled1.png)

- 샘플에서 먼저 mRNA를 추출한다. 위 그림에서와 같이 특정 condition에 놓인 샘플들을 얻게 된다고 해보자. 이 샘플은 우리 조직에서 나오는 샘플일 수도 있고, cell culture 과정에서 나온 샘플일 수도 있다. 어쨌든 RNA가 있다면 sequencing이 가능하므로 RNA의 출처가 동물인지, 식물인지, 혹은 사람으로부터 나온 샘플인지 실험실에서 배양하여 나온 샘플인지는 중요하지 않다.
- 샘플로부터 RNA를 얻고 난 후엔 cDNA로 합성한다. 요즘에는 nanopore 기술로 RNA를 곧바로 sequencing할 수 있으나, 여전히 대부분의 RNA sequencing은 cDNA를 만들어야 sequencing이 가능하다. 그 이유는, Illumina의 sequencing기법인 bridge PCR 기법이 DNA 수준에서 이루어지는 PCR이기 때문이기도 하고, PacBio사에서의 sequencing 기법도 DNA로 sequencing을 수행하는 방법이기 때문이다. 따라서 cDNA로 변환하는 단계를 거친다.
- cDNA가 만들어진 후에는 sequencing 기기에 넣기 위해 sequencing Library를 제작한다. RNA 상태에서 조각을 낸 뒤 fragment 양 끝단에 adapter라는 molecule을 붙이는 등(PolyA tailing), 시퀀싱에 필요한 서열들을 붙여 라이브러리를 만든다.
- 필요하다면 PCR amplification을 수행하여 RNA를 증폭시킨다.
- sequencing Library를 만들면 sequencing 기기에 넣어 대용량의 read를 얻는다. 즉, RNA에 대한 sequence를 획득하기 위해 sequencing을 진행한다. 이 과정에서 RNA에 붙어있는 poly A tail이나 Library를 만들 때 사용된 adapter는 제거되고 read(sequencing 데이터)가 생성된다.
- 해당 샘플이 유래된 생물종의 서열을 reference로 하여 read를 reference 서열에 붙인다. 이를 mapping이라고 한다.

![](../images/2020-11-16-rna-seq/Untitled2.png)

## 1-2. The Purpose of RNA-seq

### 1-2-1. 유전자 발현에 대한 정보 획득

기본적으로 RNA sequencing을 통해 transcriptome을 분석하여 유전자 발현량의 차이를 확인 하는 것이 목적이다. Transcript에서 translation을 통해 단백질이 된다는 central dogma에 입각하여 transcript 수가 많을수록 발현이 많이 된다고 판단하여 계산하는 방법이다. Transcriptome 대용량 시퀀싱 후 분석을 하는 RNA-seq을 통하여 새로운 것을 발견할 수도 있으며, 발현 값을 정량 할 수도 있다. RNA sequencing 기술의 발전에 따라 RNA sequencing으로 할 수 있는 일들이 많아졌다. RNA sequencing은 central dogma(DNA→mRNA→protein) 단계의 중간 단계인 mRNA를 sequencing하여 mRNA의 서열을 알게 됨으로써, 기본적으로 어떤 tissue에 어떤 유전자가 발현되는지, 세포 종류에 따라 발현되는 유전자의 양, 발달 과정에서 특이하게 발현되는 RNA 유전자의 발현량, 암 세포에서의 RNA sequencing, 시간에 따른 유전자 발현량 등을 알 수 있다. 

### 1-2-2. isoform에 대한 정보 획득

![](../images/2020-11-16-rna-seq/Untitled3.png)

RNA sequencing이 많이 쓰이는 또 다른 분야는 isoform을 찾아내는 영역이다. isoform은 DNA에서 mRNA가 만들어질 때, 무작위적인 exon의 짜집기 과정에 의해 여러 형태의 mRNA가 발생하는 과정에서 나오는 RNA들을 말한다. RNA sequencing 기술을 이용하면 isoform들에 대한 sequencing을 수행함으로써 어떤 종류의 isoform이 만들어졌는지 알 수 있게 된다.

### 1-2-3. Assembling and Annotating a transcriptome(전사체)

단순히 RNA 유전자의 발현량을 보는 것 뿐만 아니라, RNA sequencing을 통해 sequencing read를 assembling하는 방식으로 새로운 RNA를 찾는 것, 그리고 non-coding RNA를 찾는 것 등, RNA를 annotation하기 위한 목적으로 RNA-seq이 사용된다.

#### 1-2-3-1. transcriptome(전사체)

- 전사물(transcript)의 총체(-ome)의 합성어로 전사체를 의미하는 용어이다. 즉, 전사체는 모든 mRNA의 집합을 의미한다. Transcript 중 하나인 mRNA는 단백질을 합성하는 데 사용되므로 transcriptome은 genome의 기능적 요소를 해석하고 세포와 조직의 분자 구성 요소를 밝혀내고 발달과 질병을 이해하는 데 필수적이다. Transcript의 범위는 단백질 합성에 필요한 mRNA부터 아미노산 운반을 담당하는 tRNA, 코딩에 관여되지 않는 non-coding RNA 등에 이르기까지 RNA 전반을 포함한다.
- 전사체학(transcriptomics)이란 mRNA 수준에서 생명 현상을 전체적으로 다루는 학문이라고 정의 할 수 있다.
- 전사체 수준에서의 유전자 발현(gene expression)에 대한 연구는 DNA 마이크로어레이(microarray)와 같은 고 처리량의 분석 기술 발달과 더불어 활발하게 진행되어 왔다. 유전자의 발현을 전사 수준에서 다루는 것은 단백질 활성의 직접 정량보다 분석이 쉬우며 간접적 지표로서의 가치가 있다.
- NGS기술 기반의 RNA sequencing (RNA-seq)은 기존의 전사체학을 위한 방법의 한계를 넘어 현대의학의 가장 강력한 tool로 여겨지고 있다. RNA-seq는 Gene Expression 분석을 위한 정확하고 민감한 방법으로, 이전에 검출되지 않았던 gene expression에서의 변화뿐만 아니라 noncoding RNA의 다양한 형태의 특성들을 알 수 있게 한다. RNA-seq를 통해 동형 전사물(transcript isoforms), gene fusions, single nucleotide variants(SNV) 등과 같은 전사체 구조에 대한 분석을 제한 없이 할 수 있게 되었다.

## 1-3. RNA-seq 외 RNA sequencing 분석 기법들

mRNA를 분석하는 RNA-seq 이외에 Alternative splicing 분석과 ncRNA 분석 (non-coding RNA)이 있다.

### 1-3-1. Alternative splicing 분석

- 유전자는 Splicing을 통해 다양한 조합의 mRNA를 생성해낸다. 이렇게 발생한 isoform에 대하여, 전체 유전자 구조에 RNA를 시퀀싱한 데이터를 대응해보면 splicing이 일어난 부분을 확인할 수 있다.
- 또한, 세포 내에서는 gene이 fusion되는 현상이 발생할 수 있다. RNA sequencing을 통해 어떤 유전자가 fusion이 되는지 알아낼 수 있다.

### 1-3-2. ncRNA 분석 (non-coding RNA)

- small RNA profiling이라고도 한다.
- miRNA와 같은 짧은 RNA나 lncRNA 등에 대한 sequencing 분석에 해당한다. 실제로 번역이 되는 부분은 아니지만, 발현을 조절한다고 알려진 부위로 최근 활발한 연구가 이루어지고 있다.
- 피에는 DNA가 주로  떠돌아다니는데, 아주 짧게 degradation되어 있는 RNA들을 small RNA sequencing 방법으로 sequencing할 수도 있다.

### 1-3-3. scRNA 분석

Bulk RNA-seq은 적어도 나노 그램의 RNA가 필요하다. 그러나 일반적인 포유류의 세포는 pg의 RNA를 가지고 있기 때문에 충분히 많은 수의 세포를 얻을 수 없을 경우, bulk RNA-seq을 수행할 수 없다. 반면, scRNA-seq은 단일 세포로도 시퀀싱이 가능하다. 

#### 1-3-3-1. Bulk RNA-seq과 비교해서 scRNA-seq을 성공적으로 하기 위한 두 가지 이슈

1. 조직에서 세포를 하나씩 캡처할 수 있는 기술이 필요하다. 이를 위해 최근 cell 별로 바코드를 도입하는 기술이 적용되고 있다.
2. ng단위의 RNA양이 필요하므로 pg단위일 경우 RNA의 양을 늘리기 위한 증폭 과정이 필요하다. 이 과정에서 노이즈가 발생할 수 있다.

### 1-3-3. targeted approaches

exom sequencing처럼 특정 probe를 짜서 원하는 RNA만 capture하는 targeted RNA sequencing을 말한다.

### 1-3-4. direct RNA sequencing

nanopore를 이용하여 cDNA를 합성하지 않은 채 RNA 상태 그 자체로 RNA를 바로 sequencing하는 기술을 말한다.

## 1-3. Why is RNA-seq difficult?

RNA sequencing은 매우 유용하며, 흔하게 쓰이는 기술이다. 하지만 여전히 분석에 있어서 bias의 문제가 발생한다. 

### 1-3-1. bias란?

bias란, 우리가 데이터를 통해 살펴본 내용이 실제 상황(true state)을 반영하지 않는 것을 말한다. bias는 Bulk RNA-seq은 어떤 조직(샘플)에 2가지 이상의 세포가 섞여 있을 때, 각 세포에서 나온 전사체들이 섞여 결과에 편향성(bias)을 만들기 때문에 발생한다. (scRNA-seq은 세포끼리 섞여있지 않기 때문에 편향성이 발생하지 않는다.)

### 1-3-2. bias를 유발하는 문제들

#### 1-3-2-1. PCR에 의한 bias

예를 들어 굉장히 작은 cell number를 가진 샘플로부터 RNA를 뽑았을 때에는 당연히 RNA 양을 증폭시키기 위해 PCR 과정을 거치게 될 것이다. 이 때, PCR에 의한 bias가 생길 수 있다. 

#### 1-3-2-2. degradation된 RNA에 의한 bias

혹은, RNA quality 자체가 좋지 않은 경우(RNA가 많이 degradation된 경우 등)에서, sequencing 이후에 read들이 일관되게 mapping되지 않는 문제가 발생하기도 한다. 이로 인해 bias가 생긴다. 

#### 1-3-2-3. splicing에 의한 bias

또다른 RNA sequencing 데이터 해석에서 어려움을 유발하는 부분은 splicing에 의한 문제다. sequencing을 통해 read를 mapping(exon을 mapping)했을 때 실질적으로 어떤 isoform에서 나온 read(exon)인지 명확하지 않다. splicing은 다양한 방식으로 이루어지는데, read의 길이가 짧은 short read의 경우, 정확하게 어떤 조합으로 exon이 이어 붙여졌는지 알 수 없다. 이로 인해 최근에는 isoform만 특별히 잘 sequencing할 수 있는 Iso-Seq이라는 기술이 나와있다. 

#### 1-3-2-4. gene level과 exon level에서의 발현량 계산에서의 혼동

sequencing 분석 시, 유전자 발현량을 계산할 때 gene level에서 유전자 발현량을 계산하는 것인지, exon level에서 발현량을 계산하는 것인지 유념할 필요가 있다. 

#### 1-3-2-5. multiple mapping에 의한 bias

특정 read가 한 군데 이상에 mapping이 되는 경우를 multiple mapping이라고 한다. 특정한 read가 한 군데 이상에 mapping이 되어 있는 경우를 말한다.

#### 1-3-2-6. partial mapping에 의한 bias

partial mapping은 exon에 해당하는 두 개 이상의 read가 겹쳐져 있을 때 발생되는 문제를 말한다. 이러한 read를 chimeric read(또는 fusion transcript)라고도 한다. 예를 들어, 굉장히 짧은 RNA인 miRNA 등의 경우에서 우리가 원하는 miRNA 길이 이상의 read의 길이를 얻는 경우가 발생할 수 있다. 이럴 경우엔 trimming 등의 과정을 거쳐야 한다. 

#### 1-3-2-7. Normalization 

RNA sequencing에서 흔히 일어나는 이슈는 Normalization 이슈다. RNA sequencing을 통해 우리가 얻고자 하는 주된 정보 중에 하나가 유전자의 발현량이다. 기본적으로 유전자의 발현량은 RNA sequencing 이후에 해당 유전자의 read가 몇 개나 mapping이 되느냐를 바탕으로 그 양을 추정하게 된다. sequencing 과정에서 동일한 샘플로부터 어떤 경우엔 30M read를 얻고, 어떤 경우엔 60M read의 샘플을 얻을 때, 60M 짜리 read에 해당하는 데이터가 훨씬 많은 정보를 담고 있기 때문에 어쩔 수 없이 특정한 유전자에 mapping될 수 있는 read의 개수가 30M 데이터보다 훨씬 많아 질 수 밖에 없다. 따라서 이를 어떻게 Normalization할지에 대한 고민이 필요하다.
