# 단일 세포 RNA 시퀀싱

이 장에서는 가장 널리 사용되는 단일 세포 리보핵산({term}`RNA`) 시퀀싱 분석법과 관련 기본 분자 생물학 개념을 간략하게 소개합니다.
{term}`다중 모드 <양식>` 또는 공간 분석은 여기서 다루지 않지만 각 고급 장에서 소개됩니다.
모든 {term}`시퀀싱` 분석법에는 개별적인 장점과 한계가 있으며, 데이터 분석가는 데이터에 존재할 수 있는 편향을 인지하기 위해 이를 알아야 합니다.

## 생명의 구성 요소

우리가 알고 있는 생명은 살아있는 개체를 죽거나 무생물인 개체와 구별하는 특징입니다.
생명이라는 용어의 대부분 정의는 공통된 개체, 즉 {term}`세포 <Cell>`를 공유합니다.
세포는 항상성을 유지하고, 신진대사를 하며, 성장하고, 환경에 적응하고, 번식하고, 자극에 반응하고, 스스로를 조직하는 개방형 시스템을 형성합니다.
따라서 세포는 생명의 기본 구성 요소이며, 1665년 영국의 과학자 로버트 훅에 의해 처음 발견되었습니다.
훅은 매우 초보적인 현미경으로 얇은 코르크 조각을 조사했고, 놀랍게도 그 조각이 벌집처럼 보인다는 것을 발견했습니다.
그는 이 작은 단위들을 "세포"라고 명명했습니다.

:::{figure-md} markdown-fig
<img src="../_static/images/scrna_seq/hooke_cork.jpg" alt="Robert Hook cell" class="bg-primary mb-1" width="100%">

로버트 훅이 그린 코르크 세포. Micrographia에서 얻은 이미지.
:::

1839년, 마티아스 야코프 슐라이덴과 테오도르 슈반은 모든 살아있는 유기체가 세포로 이루어져 있다는 세포설을 처음으로 기술했습니다.
세포설의 초기 정의 이후, 연구자들은 모든 세포가 거의 동일한 화학 조성을 가지며, 데옥시리보핵산({term}`DNA`) 형태로 한 세포에서 다른 세포로 유전 코드를 전달하는 역동적인 정보 흐름을 보인다는 것을 발견했습니다.
세포에는 진핵세포와 원핵세포의 두 가지 일반적인 유형이 있습니다.
진핵세포는 핵막이 염색체를 감싸는 핵을 포함하는 반면, 원핵세포는 핵양체 영역만 있고 핵은 없습니다.
핵은 세포의 게놈 DNA를 가지고 있기 때문에 진핵생물이라고 불립니다. _Nucleus_는 라틴어로 핵이나 씨앗을 의미합니다.
DNA 복제 기계는 핵에 저장된 유전 정보를 읽어 스스로를 복제하고 생명 주기를 계속 유지합니다.
진핵 DNA는 염색체라고 불리는 여러 개의 선형 묶음으로 나뉘며, 핵분열 동안 미세소관 방추사에 의해 분리됩니다.
DNA에 숨겨진 유전 정보를 이해하는 것은 많은 진화 및 질병 관련 과정을 이해하는 데 핵심입니다.

시퀀싱은 DNA 뉴클레오티드의 순서를 해독하는 과정입니다.
주로 특정 DNA 분절, 완전한 게놈 또는 복잡한 미생물 군집에 의해 운반되는 유전 정보를 밝히는 데 사용됩니다.
DNA 시퀀싱을 통해 연구자들은 유전자의 위치, 기능 및 조절을 식별할 수 있습니다. 예를 들어, 단백질 코딩 서열인 개방형 읽기 프레임(ORF)이나 {term}`프로모터` 영역을 나타내는 {term}`CpG` 섬과 같은 유전적 특징을 발견합니다.
또 다른 널리 퍼진 적용 분야는 다른 유기체의 상동 DNA 서열을 비교하는 진화 분석입니다.
DNA 시퀀싱은 돌연변이와 질병 또는 때로는 질병 저항성 사이의 연관성을 밝히는 데 추가로 적용될 수 있어 가장 가치 있는 응용 분야 중 하나로 간주됩니다.

(introduction-scrna-seq-key-takeaway-1)=

## 시퀀싱의 간략한 역사

### 1세대 시퀀싱

DNA는 1869년 프리드리히 미셔에 의해 처음 분리되었지만, 과학계가 대용량 시퀀싱 기술을 개발하는 데는 100년 이상이 걸렸습니다.
1953년 왓슨, 크릭, 프랭클린이 DNA의 구조를 발견했고, 1965년 로버트 홀리가 최초의 tRNA를 시퀀싱했습니다.
7년 후인 1972년, 월터 피어스는 RNase를 사용하여 바이러스 RNA를 소화하고, 올리고뉴클레오티드를 분리한 후 전기영동과 크로마토그래피로 분리하여 완전한 유전자(박테리오파지 MS2의 외피 단백질)를 처음으로 시퀀싱했습니다 {cite}`Jou1972`.
병행하여 프레더릭 생어는 방사성 동위원소로 표지된 부분적으로 소화된 단편을 사용하는 DNA 시퀀싱 방법인 "사슬 종료 방법"을 개발했으며, 이는 "생어 시퀀싱"으로 더 잘 알려져 있습니다.
생어 시퀀싱은 오늘날에도 여전히 사용되지만, 자동화 부족과 시간 소모 등 여러 단점이 있었습니다.
1987년, 르로이 후드와 마이클 헝커필러는 생어 시퀀싱 과정을 자동화하는 기기인 ABI 370을 개발했습니다.
가장 중요한 혁신적인 성과는 방사성 분자 대신 형광 염료로 DNA 단편을 자동으로 표지하는 것이었습니다.
이러한 변화는 방법을 더 안전하게 수행할 수 있게 했을 뿐만 아니라 컴퓨터가 획득한 데이터를 분석할 수 있게 했습니다 {cite}`Hood1987`.

```{dropdown} <i class="fa-solid fa-thumbs-up"></i>&nbsp;&nbsp;&nbsp;강점
- 생어 시퀀싱은 간단하고 저렴합니다.
- 올바르게 수행하면 오류율이 매우 낮습니다(<0.001%).
```

```{dropdown} <i class="fa-solid fa-thumbs-down"></i></i>&nbsp;&nbsp;&nbsp;한계
- 생어 방법은 약 300~1000 염기쌍의 짧은 DNA 조각만 시퀀싱할 수 있습니다.
- 생어 시퀀스의 품질은 프라이머가 결합하는 처음 15~40개 염기에서 종종 좋지 않습니다.
- 시퀀싱은 700~900개 염기 이후에 저하됩니다.
- 시퀀싱된 DNA 단편이 클로닝된 경우, 일부 클로닝 벡터 서열(유전자를 복사, 저장 및 증폭하기 위한 DNA 운반체)이 최종 서열에 들어갈 수 있습니다.
- 생어 시퀀싱은 시퀀싱된 염기당 2세대 또는 3세대 시퀀싱보다 비쌉니다.
```

### 2세대 시퀀싱

9년 후인 1996년, 모스타파 로나기, 마티아스 울렌, 팔 니렌은 파이로시퀀싱을 개발하여 DNA 시퀀싱에 혁명을 일으켰고, 이는 2세대 시퀀싱의 시작을 알렸습니다.
차세대 시퀀싱(NGS)이라고도 알려진 2세대 시퀀싱은 실험실의 추가적인 자동화, 컴퓨터 사용, 반응의 소형화 덕분에 주로 가능해졌습니다.
파이로시퀀싱은 시퀀싱 중 피로인산 합성에 의해 생성되는 발광을 측정합니다.
이 과정은 "합성에 의한 시퀀싱"으로도 흔히 알려져 있습니다.
2년 후, 샹카르 발라수브라마니안과 데이비드 클레너만은 솔렉사라는 회사에서 형광 염료를 사용하는 새로운 방법을 위해 합성에 의한 시퀀싱 과정을 개발하고 적용했습니다.
솔렉사의 기술은 오늘날 시장을 지배하는 일루미나 시퀀서의 기반이 되기도 합니다.
2005년에 개발된 로슈 454 시퀀서는 단일 자동화 기계에서 파이로시퀀싱 과정을 완전히 자동화한 최초의 시퀀서였습니다.
라이프 테크놀로지스는 2007년 SOLiD("결찰에 의한 시퀀싱" 시스템)와 2011년 이온 토렌트(새로운 DNA 합성 중 수소 이온 검출)를 포함한 여러 다른 플랫폼을 도입했습니다.
일반적으로 합성에 의한 시퀀싱은 성장하는 DNA 가닥에 단일 뉴클레오티드를 추가하고 각 추가를 검출하는 것을 포함합니다.
동시에, 결찰에 의한 시퀀싱은 서열을 결정하기 위해 단편에 짧은 DNA 프로브가 결합하는 것을 검출하는 데 의존합니다.

```{dropdown} <i class="fa-solid fa-thumbs-up"></i>&nbsp;&nbsp;&nbsp;강점
- 2세대 시퀀싱은 필요한 화학 물질과 관련하여 종종 가장 저렴한 옵션입니다.
- 희소한 물질도 여전히 입력으로 사용할 수 있습니다.
- 저주파 변이 검출에 대한 높은 민감도와 포괄적인 게놈 커버리지.
- 샘플 다중화를 통한 높은 용량.
- 수천 개의 유전자를 동시에 시퀀싱하는 능력.
```

```{dropdown} <i class="fa-solid fa-thumbs-down"></i></i>&nbsp;&nbsp;&nbsp;한계
- 시퀀싱 기계는 비싸고 종종 동료와 공유해야 합니다.
- 2세대 시퀀서는 현장 작업용으로 설계되지 않은 크고 고정된 기계입니다.
- 일반적으로 2세대 시퀀싱은 새로운 게놈에 사용하기 어려운 많은 짧은 시퀀싱 단편(리드)을 생성합니다.
- 시퀀싱 결과의 품질은 참조 게놈에 따라 달라집니다.
```

### 3세대 시퀀싱

오늘날 차세대 시퀀싱이라고도 알려진 3세대 시퀀싱은 시장에 두 가지 혁신을 가져왔습니다.
첫째, 2세대 시퀀싱으로 생성된 것보다 훨씬 긴 뉴클레오티드 단편을 검출할 수 있는 롱리드 시퀀싱입니다.
일반적인 일루미나 숏리드 시퀀서는 모델에 따라 75~300 염기쌍 범위의 단편을 생성합니다.
3세대 시퀀싱을 사용하면 시퀀서는 수만 염기쌍을 읽을 수 있습니다.
이는 사용 가능한 참조 게놈 없이 새로운 게놈을 조립하는 데 특히 중요합니다.
둘째, 실시간으로 시퀀싱하는 능력은 3세대 시퀀싱의 또 다른 주요 발전입니다.
크기가 작고 화학에 대한 추가적인 복잡한 기계가 필요 없는 휴대용 시퀀서와 결합하여, 시퀀싱은 이제 "현장 준비"가 되어 실험실 시설에서 멀리 떨어진 곳에서도 샘플을 수집하는 데 사용할 수 있습니다.

```{admonition} 시퀀싱 길이에 대한 참고
:class: note, dropdown
- 1 염기쌍 (bp)
- 1 킬로 염기쌍 (kb) = 1,000 bp
- 1 메가 염기쌍 (Mb) = 1,000,000 bp
- 1 기가 염기쌍 (Gb) = 1,000,000,000 bp
```

퍼시픽 바이오사이언스(PacBio)는 2010년에 단일 DNA 중합효소를 포함하는 소위 나노홀을 사용하는 제로 모드 도파관 시퀀싱을 도입했습니다.
이를 통해 단일 뉴클레오티드의 통합을 나노홀 아래에 부착된 검출기로 직접 관찰할 수 있습니다.
각 유형의 뉴클레오티드는 통합 과정에서 형광 신호를 방출하는 특정 형광 염료로 표지되며, 이는 이후 시퀀스 판독값으로 측정됩니다.
PacBio 시퀀서에서 얻은 리드는 일반적으로 8~15kb이며, 최대 70kb까지 가능합니다.

옥스포드 나노포어 테크놀로지스는 2012년에 GridION을 도입했습니다. GridION과 그 후속 제품인 MinION 및 Flongle은 DNA 및 RNA 시퀀싱을 위한 휴대용 시퀀서로, 2Mb 이상의 리드를 생성합니다.
특히, 이러한 시퀀싱 장치는 한 손에 들어갈 정도입니다.
옥스포드 나노포어 시퀀서의 아이디어는 핵산이 단백질 나노포어를 통과할 때 전기 전류의 변화를 감지하는 것입니다 {cite}`Jain2016`.

```{dropdown} <i class="fa-solid fa-thumbs-up"></i>&nbsp;&nbsp;&nbsp;강점
- 롱리드는 큰 새로운 게놈의 조립을 가능하게 합니다.
- 시퀀서는 휴대 가능하여 현장 작업에 이상적입니다.
- DNA 및 RNA 서열의 후성유전학적 변형을 직접 검출할 수 있습니다.
- 속도! 3세대 시퀀서는 빠릅니다.
```

```{dropdown} <i class="fa-solid fa-thumbs-down"></i></i>&nbsp;&nbsp;&nbsp;한계
- 일부 3세대 시퀀서는 2세대 시퀀서보다 높은 오류율을 보입니다 (예를 들어 로슈의 새로운 확장 기술에 의한 시퀀싱은 이 문제를 해결하려고 시도합니다 {cite}`Jain2016`
{cite}`roche`).
- 시약은 일반적으로 2세대 시퀀싱보다 비쌉니다.
```

```{admonition} 세대별 시퀀싱 기술 비교
:class: note, dropdown

:::{table} 최대 리드 길이에 따라 정렬된 일반적인 시퀀싱 기술의 성능 비교. 생어 시퀀싱에 대한 수치는 개별 출처([a](https://assets.thermofisher.com/TFS-Assets/GSD/brochures/sanger-sequencing-workflow-brochure.pdf), [b](https://www.sciencedirect.com/science/article/abs/pii/B9780128154991000132), [c](https://www.base4.co.uk/cost-comparison-of-dna-sequencing-technologies/#:~:text=$500%20per%20megabase.), [d](https://www.thermofisher.com/de/de/home/life-science/cloning/cloning-learning-center/invitrogen-school-of-molecular-biology/next-generation-sequencing/dna-sequencing-history.html#:~:text=Although%20DNA%20sequencers%20using%20Sanger,base%20pairs))에서 얻었고, 다른 모든 방법은 {cite:t}`logsdon2020long`에서 얻었습니다.
:name: table
:align: center

| 이름                                 | 최대 리드 길이 (kb) | 정확도 (%)  | 비용 ($/Gb)     | 처리량 (Mb/년) | 세대 |
| ------------------------------------ | -------------------- | ------------- | --------------- | -------------------- | ---------- |
| Illumina NextSeq 550                 | 0.15                 | >99.9         | >47,782         | 50-63                | 2          |
| Illumina NovaSeq 6000                | 0.25                 | >99.9         | 10-35           | >1,194,545           | 2          |
| 생어 시퀀싱 (예: ThermoFisher) | 1{sup}`b`            | 99.99{sup}`a` | 500,000{sup}`c` | 0.73{sup}`d`         | 1          |
| PacBio (Sequel II, HiFi)             | >20                  | >99           | 43–86           | 10,220               | 3          |
| PacBio (Sequel II, CLR)              | >200                 | 87–92         | 13-26           | 93,440               | 3          |
| Nanopore (PromethION)                | >1,000               | 87–98         | 21-42           | 3,153,600            | 3          |
| Nanopore (MinION/GridION)            | >1,500               | 87–98         | 50-2,000        | 913-109,500          | 3          |

:::

```

## NGS 과정 개요

다양한 NGS 기술이 존재하지만, DNA(따라서 역전사된 RNA)를 시퀀싱하는 일반적인 단계는 대체로 동일합니다.
차이점은 주로 각 시퀀싱 기술의 화학에 있습니다.

1. **샘플 및 라이브러리 준비**: 첫 번째 단계로, DNA 샘플을 단편화하고 {term}`어댑터 분자 <Adapter sequences>`와 결합하여 소위 {term}`라이브러리`를 준비합니다.
   이러한 어댑터는 라이브러리 단편이 매트릭스에 혼성화되는 데 참여하고 프라이밍 부위를 형성합니다.

2. **증폭 및 시퀀싱**: 두 번째 단계에서 라이브러리는 단일 가닥 분자로 변환됩니다.
   중합효소 연쇄 반응과 같은 증폭 단계 동안 DNA 분자 클러스터가 생성됩니다.
   모든 클러스터는 단일 시퀀싱 실행 동안 개별 반응을 수행합니다.

3. **데이터 출력 및 분석**: 시퀀싱 실험의 출력은 시퀀싱 기술과 화학에 따라 다릅니다.
   일부 시퀀서는 특정 출력 파일에 저장되는 형광 신호를 생성합니다.
   다른 시퀀서는 해당 파일 형식에 저장되는 전기 신호를 생성할 수 있습니다.
   일반적으로 생성된 데이터, 즉 원시 데이터의 양은 방대합니다.
   이러한 데이터는 복잡하고 계산적으로 무거운 처리가 필요합니다.
   이에 대해서는 원시 데이터 처리 장에서 더 자세히 설명합니다.

(introduction-scrna-seq-key-takeaway-3)=
(exp-data:rna-sequencing)=

## RNA 시퀀싱

지금까지 우리는 DNA가 시퀀싱된다는 언급되지 않은 가정 하에 시퀀싱을 소개했습니다.
그러나 유기체의 DNA 서열과 조절 요소의 위치를 아는 것만으로는 세포의 역동적이고 실시간 프로세스에 대해 거의 알 수 없습니다.
RNA 시퀀싱(RNA-Seq)을 통해 과학자들은 유전자 발현 프로파일 형태로 시퀀싱 시점의 세포, 조직 또는 유기체의 스냅샷을 얻을 수 있습니다.
이 정보는 치료법, 환경 요인, 유전자형 및 기타 실험 조건에 대한 반응으로 질병 상태의 변화를 감지하는 데 사용될 수 있습니다.

RNA-Seq는 대체로 DNA 시퀀싱 프로토콜을 따르지만, RNA 주형에서 {term}`상보적 DNA (cDNA)`가 합성되는 역전사 단계를 포함합니다.
현대 RNA 시퀀싱은 예를 들어 마이크로어레이 기반 분석법이나 정량적 역전사 PCR과 같이 관심 영역을 구체적으로 표적화하기 위해 프로브 설계가 필요한 것과 대조적으로 전사체의 편향되지 않은 샘플링을 허용합니다.
{ref}`마이크로어레이 기반 분석법 <seealso-dropdown>`은 프로브, 즉 상보적 서열을 사용하여 관심 있는 특정 서열(예: 유전자)을 검출합니다.
{ref}`정량적 역전사 PCR <seealso-dropdown>`은 PCR 동안 상보적 DNA(cDNA) 분자의 증폭을 모니터링하여 표적 RNA의 양을 측정합니다.

얻어진 유전자 발현 프로파일은 유전자 이소폼, 유전자 융합, 단일 뉴클레오티드 변이 및 기타 여러 흥미로운 특성의 검출을 가능하게 합니다.
현대 RNA 시퀀싱은 사전 지식에 의해 제한되지 않으며 알려진 특징과 새로운 특징을 모두 포착할 수 있습니다.
이는 탐색적 데이터 분석에 사용할 수 있는 풍부한 데이터 세트를 생성합니다.

(introduction-scrna-seq-key-takeaway-2)=

## 단일 세포 RNA 시퀀싱

### 벌크 시퀀싱 대 단일 세포 RNA 시퀀싱

RNA-Seq는 주로 두 가지 방식으로 수행될 수 있습니다. 즉, 관심 소스의 혼합된 RNA를 세포 전체에 걸쳐 시퀀싱하거나({term}`벌크 시퀀싱 <Bulk RNA sequencing>`) 세포의 전사체를 개별적으로 시퀀싱하는 것입니다(단일 세포 시퀀싱).
모든 세포의 RNA를 혼합하는 것은 대부분의 경우 실험적으로 복잡한 단일 세포 RNA-Seq(scRNA-Seq)보다 저렴하고 쉽습니다.
벌크 RNA-Seq는 세포 평균 발현 프로파일을 생성하며, 이는 일반적으로 분석하기 쉽지만, 관심 질문에 답하는 데 도움이 될 수 있는 세포 발현 프로파일 이질성과 같은 복잡성의 일부를 숨깁니다.
일부 약물이나 교란은 특정 {term}`세포 유형 <Cell type>` 또는 세포 유형 간의 상호 작용에만 영향을 미칠 수 있습니다.
예를 들어, 종양학에서는 재발을 유발하는 드문 약물 내성 종양 세포가 있을 수 있으며, 이는 배양된 세포에 대해서도 단순한 벌크 RNA-Seq로는 식별하기 어렵습니다.

이러한 관계를 밝히기 위해서는 단일 세포 수준에서 유전자 발현을 조사하는 것이 중요합니다.
그러나 scRNA-Seq에는 몇 가지 주의 사항이 있습니다.
첫째, 단일 세포 실험은 일반적으로 더 비싸고 제대로 수행하기가 더 어렵습니다.
둘째, 해상도 증가로 인해 {term}`다운스트림 분석`이 더 복잡해지고 잘못된 결론을 내리기가 더 쉽습니다.
단일 세포 실험은 일반적으로 벌크 RNA-Seq 실험과 유사한 단계를 따르지만(위 참조) 몇 가지 조정이 필요합니다.
벌크 시퀀싱과 마찬가지로 단일 세포 시퀀싱은 용해, 역전사, 증폭 및 최종 시퀀싱이 필요합니다.
또한, 단일 세포 시퀀싱은 나중에 얻은 전사체를 원래 세포에 다시 매핑할 수 있도록 세포 분리 및 더 작은 반응 챔버로의 물리적 분리 또는 다른 형태의 세포 표지가 필요합니다.
따라서 대부분의 단일 세포 분석법이 다른 단계는 다음과 같습니다. 즉, 단일 세포 분리, 전사체 증폭 및 시퀀싱 기계에 따른 시퀀싱입니다.
그러나 단일 세포 RNA 시퀀싱의 복잡성을 설명하기 전에, 이러한 미세한 해상도에서 {term}`mRNA <Messenger RNA (mRNA)>`를 측정할 때 발생하는 생물학적 및 기술적 과제를 이해하는 것이 중요합니다.

(introduction-scrna-seq-key-takeaway-4)=

### 유전자 발현 정량화

```{figure} ../_static/images/scrna_seq/quantifying_gene_expression.png
:name: quantifying-gene-expression
:alt: 전사 폭발에서 단백질 생산까지의 유전자 발현 정량화
:width: 100%

전사 폭발에서 단백질 생산까지의 유전자 발현 정량화.
이 값들은 일반적인 인상을 주기 위한 근사치이며, 문맥이나 미래에 따라 달라질 수 있습니다.
```

#### "메신저" 측정

scRNA-Seq의 핵심에는 근본적인 질문이 있습니다. 우리는 **정확히** 무엇을 측정하려고 하는가?
RNA-seq 실험에서 우리의 초점은 개별 세포 내의 메신저 RNA(mRNA)를 정량화하는 것입니다.
이 분자는 1961년 브레너, 제이콥, 메셀슨이 설명했듯이 "유전자에서 리보솜으로 정보를 전달하여 단백질 합성을 하는 불안정한 중간체"이며, 따라서 "메신저"라는 용어를 만들었습니다 {cite}`brenner1961unstable`.
따라서 mRNA는 DNA와 단백질 생산 사이의 중요한 연결고리 역할을 합니다.
그러나 mRNA는 세포 전체 RNA의 작은 부분을 차지할 뿐입니다.
RNA 질량의 약 3-7%가 mRNA인 반면, 압도적인 다수는 비코딩 RNA입니다. 80-90%는 리보솜 RNA(rRNA), 10-15%는 운반 RNA(tRNA), 약 1%는 기타 비코딩 종입니다 {cite}`palazzo2015non` ([비코딩 RNA 개요](https://www.bio-rad.com/de-de/applications-technologies/coding-non-coding-rna?ID=Q1070M70KWE7)).
추정에 따르면 일반적인 포유류 세포에는 100,000개에서 1,000,000개의 mRNA 분자가 있으며, 이는 모든 유전자의 최대 50%를 차지합니다 {cite}`velculescu1999analysis, Islam2014`.
이는 특정 세포에서 상당수의 유전자가 전혀 전사되지 않음을 의미하며, 이는 세포의 특정 정체성과 기능을 반영합니다.
그러나 현재 scRNA-seq 기술의 기술적 한계는 측정을 더욱 복잡하게 만듭니다.
예를 들어, 10X Genomics와 같은 인기 있는 플랫폼은 실행당 최대 65%의 세포만 포획하고 각 세포의 mRNA를 약 14%만 회수합니다 {cite}`aljanahi2018introduction`.
이러한 제약은 약하게 발현되는 유전자를 검출하는 것을 특히 어렵게 만듭니다.

이러한 수치적 렌즈를 통해 유전자 발현을 이해하면 생물학적 복잡성뿐만 아니라 우리 도구의 한계도 드러납니다({numref}`quantifying-gene-expression`).
이를 더 깊이 이해하기 위해 유전자에서 단백질까지 단계별로 살펴보겠습니다.

#### 유전자에서 단백질까지

우리의 여정은 DNA에서 mRNA 합성을 위한 주형 역할을 하는 정의된 영역인 유전자에서 시작됩니다.
유전자 수는 개인마다 약간 다를 수 있지만(약 70개 유전자), 평균 인간 게놈에는 약 22,000개의 유전자가 포함되어 있습니다 {cite}`pertea2010between`.
유전자 전사는 연속적이지 않습니다.
대신, 유전자가 갑자기 여러 mRNA 전사체를 생성한 후 침묵으로 돌아가는 짧고 불규칙한 활동 기간인 확률적 폭발로 발생합니다 {cite}`suter2011mammalian`.
이것이 우리가 음이항 분포로 mRNA 전사를 모델링하는 이유이기도 합니다.
이 분포는 전사 폭발로 인한 과분산(평균을 초과하는 분산)을 포착하면서 이벤트 수(mRNA)를 모델링하기 때문에 이상적입니다 {cite}`ren2020negative,love2015deseq2`.

초기 RNA 전사체인 pre-mRNA는 그 후 대체 스플라이싱을 거치는데, 이는 전사체의 다른 영역(인트론과 엑손이라고 함)이 여러 가지 방식으로 결합될 수 있도록 하는 과정입니다.
이는 단일 유전자가 여러 개의 고유한 mRNA 이소폼을 생성할 수 있음을 의미합니다.
평균적으로 각 인간 유전자는 약 3.4개의 mRNA 이소폼을 생성합니다 {cite}`lee2015mechanisms`.
모든 인간 유전자는 적어도 두 개의 대체 이소폼을 가지고 있지만, 일부는 복잡성의 한계를 뛰어넘습니다.
예를 들어, 인간 바소누클린 2 유전자는 최대 90,000개의 mRNA 이소폼을 생성할 수 있는 잠재력을 가지고 있으며, 이는 2,000개 이상의 다른 단백질을 생성합니다 {cite}`vanhoutteghem2007human`.
그러나 어떤 경우에는 대체 스플라이싱이 기능하지 않는 효소를 초래하고 유도된 질병 상태를 유발할 수도 있습니다.
마지막으로, 이 "성숙한" mRNA는 단백질로 번역됩니다.
여기서도 숫자는 극적으로 다릅니다.
포유류에서 중간 단백질 대 mRNA 비율은 mRNA당 약 10,000개의 단백질로 추정됩니다 {cite}`li2014system`.
그러나 이는 유전자, 세포 유형 및 기타 여러 요인에 따라 전사체당 수백 개에서 거의 백만 개의 단백질에 이를 수 있습니다 {cite}`edfors2016gene`.
궁극적으로 이 과정은 단일 인간 세포 내에서 약 10억 개의 단백질을 생성합니다 {cite}`milo2013total`.

전사 폭발과 대체 스플라이싱에서 단백질 번역에 이르기까지 이러한 층을 이해하면 유전자 발현이 정적인 경로가 아니라 역동적이고 확률적인 시스템임을 강조합니다.
단일 세포 해상도에서 이를 측정하면 깊은 통찰력을 제공하지만, 현재 기술의 과제와 한계도 드러납니다.

(exp-data:transcript-quantification)=

### 전사체 정량화

전사체 정량화는 원시 데이터를 샘플당(벌크 시퀀싱의 경우) 또는 세포당(단일 세포 시퀀싱의 경우) 추정된 전사체 수 테이블로 변환하는 과정입니다.
이 계산 과정에 대한 자세한 내용은 [다음 장](../introduction/raw_data_processing.md)에서 설명합니다.

전사체 정량화에는 전체 길이 및 태그 기반의 두 가지 주요 접근 방식이 있습니다.
전체 길이 프로토콜은 시퀀싱 리드로 전체 전사체를 균일하게 커버하려고 시도하는 반면, 태그 기반 프로토콜은 5' 또는 3' 말단만 포착합니다.
전사체 정량화 방법은 포착된 유전자에 큰 영향을 미치므로 분석가는 사용된 정량화 과정을 인지해야 합니다.
전체 길이 시퀀싱은 플레이트 기반 프로토콜[(아래 참조)](#plate-based)에 국한되며, 라이브러리 준비는 벌크 RNA-seq 시퀀싱 접근 방식과 유사합니다.
전체 길이 프로토콜로 전사체의 균일한 커버리지가 항상 달성되는 것은 아니므로 유전자 본체 전체의 특정 영역이 여전히 편향될 수 있습니다.
전체 길이 프로토콜의 주요 장점은 스플라이스 변이체를 검출할 수 있다는 것입니다.

태그 기반 프로토콜은 전사체의 3' 또는 5' 말단만 시퀀싱합니다.
이는 전체 유전자 길이를 (반드시) 커버하지 못하는 대가를 치르며, 리드를 전사체에 명확하게 정렬하고 다른 이소폼을 구별하기 어렵게 만듭니다 {cite}`Archer2016`.
그러나 이는 전사체 증폭 과정에서 편향을 해결하는 데 유용한 고유 분자 식별자({term}`UMI <Unique Molecular Identifier (UMI)>`)를 사용할 수 있게 합니다.

전사체 증폭 과정은 전사체가 품질 관리 및 시퀀싱에 충분히 풍부하도록 보장하는 모든 RNA-seq 시퀀싱 실행에서 중요한 단계입니다.
일반적으로 중합효소 연쇄 반응({term}`PCR`)으로 수행되는 이 과정 동안, 원본 분자의 동일한 단편에서 사본이 만들어집니다.
사본과 원본 분자는 구별할 수 없으므로 샘플의 원본 분자 수를 결정하는 것이 어려워집니다.
UMI는 원본, 중복되지 않은 분자를 정량화하기 위한 일반적인 해결책입니다.

UMI는 분자 {term}`바코드 <barcode>` 역할을 하며 때로는 무작위 바코드라고도 합니다.
이러한 '바코드'는 샘플의 모든 분자에 고유한 태그로 추가되는 짧은 무작위 뉴클레오티드 서열로 구성됩니다.
UMI는 증폭 단계 전에 라이브러리 생성 중에 추가되어야 합니다.
PCR 중복을 정확하게 식별하는 것은 {term}`증폭 편향 <amplification bias>`을 배제하거나 인지하기 위해 다운스트림 분석에 중요합니다 {cite}`Aird2011`.

증폭 편향은 우선적으로 증폭되어 더 자주 시퀀싱되어 더 높은 카운트를 초래하는 RNA/cDNA 서열에 대한 용어입니다.
별로 활발하지 않은 유전자가 갑자기 고도로 발현되는 것처럼 보일 수 있기 때문에 모든 유전자 발현 분석에 해를 끼칠 수 있습니다.
이는 특히 PCR 단계의 후반 단계에서 증폭되는 서열에 해당하며, 이 단계에서는 오류율이 이미 이전 PCR 단계보다 비교적 높을 수 있습니다.
동일한 정렬 좌표를 가진 리드를 필터링하여 이러한 서열을 계산적으로 감지하고 제거하는 것이 가능하지만, 가능하면 항상 UMI를 사용하여 실험을 설계하는 것이 일반적으로 권장됩니다.
UMI를 사용하면 정확도 손실 없이 유전자 카운트를 정규화할 수 있습니다 {cite}`Kivioja2012`.

(introduction-scrna-seq-key-takeaway-5)=

### 단일 세포 시퀀싱 프로토콜

개별 세포의 전사체를 시퀀싱하기 위한 수많은 프로토콜이 존재합니다.
그러나 특히 이 분야에 새로 온 사람들에게는 용어가 종종 모호할 수 있습니다.
명확히 하기 위해, 우리는 세포가 분리되는 방식에 따라 이러한 기술을 두 가지 넓은 클래스로 분류합니다.

- **액체 방울에서의 분리**: 이 방법은 개별 세포를 에멀젼 내의 작은 액체 방울에 캡슐화하여 고처리량 처리를 가능하게 합니다.
- **물리적 구획에서의 분리**: 이 기술은 세포를 종종 웰이라고 하는 별개의 물리적 구획으로 분리합니다.

각 접근 방식은 전사체 회수 능력, 시퀀싱된 세포 수 및 기타 여러 측면에서 다릅니다.
다음 하위 섹션에서는 각각의 프로토콜에 대해 데이터 분석가가 알아야 할 작동 방식, 장단점 및 가능한 편향에 대해 간략하게 논의할 것입니다.

#### 액체 방울에서의 분리

##### 가장 일반적인 프로토콜

가장 널리 사용되는 프로토콜은 **inDrop** {cite}`Klein2015`, **Drop-seq** {cite}`exp:Macosko2015` 및 상업적으로 이용 가능한 **10x Genomics Chromium** {cite}`exp:Zheng2017`입니다.
이러한 프로토콜은 미세유체공학을 사용하여 세포를 액체 방울이라고 하는 작은 물방울에 가둡니다.
각 액체 방울은 단 하나의 세포와 필요한 화학 물질(비드)만 포함하는 별도의 공간을 형성합니다.
언급된 프로토콜은 초당 수천 개의 액체 방울을 생성할 수 있습니다.
이 대규모 병렬 프로세스는 비교적 저렴한 비용으로 매우 많은 수의 액체 방울을 생성합니다.

```{admonition} 와류에 의한 액체 방울
:class: dropdown, note
PIP-seq 프로토콜은 단분산 수중유 액체 방울을 생성하기 위한 전통적인 미세유체공학 방법에 대한 단순화된 대안을 제공합니다.
전문 장비와 전문 지식이 필요한 복잡한 미세유체공학 장치와 달리, PIP-seq는 용액의 간단한 와류를 통해 액체 방울 형성을 달성합니다.
이 방법은 미세유체공학의 일반적인 한계인 에멀젼 시간에 의해 제약을 받지 않고 용기 부피를 늘려 쉽게 확장할 수 있습니다 {cite}`clark2023microfluidics`.

그러나 단순함에도 불구하고 독립적인 {term}`벤치마크 <benchmark>`는 PIP-seq가 잘 정립된 방법에 비해 여전히 한계가 있음을 나타냅니다.
예를 들어, PIP-seq는 약 1,500개의 유전자 수를 달성한 반면, 최고의 10x Genomics Chromium 키트는 약 4,000개의 유전자 수를 보였습니다 {cite}`de2025comprehensive`.
이러한 발견은 PIP-seq 프로토콜의 현재 버전에서 사용 편의성과 성능 간의 절충점을 강조합니다.
```

세 가지 프로토콜 모두 세부적으로는 다르지만, 캡슐화된 세포를 포함하는 나노리터 크기의 액체 방울은 항상 비드와 세포를 동시에 포착하도록 설계되었습니다.
캡슐화 과정은 PCR 핸들, 세포 바코드, 4-8b 염기쌍 길이의 UMI 및 폴리-T 꼬리(또는 5' 키트의 경우 폴리-T 프라이머)를 포함하는 비드 위 프라이머가 있는 특수 미세 비드를 사용하여 수행됩니다.
용해 시, 세포의 mRNA는 즉시 방출되어 비드에 부착된 바코드 올리고뉴클레오티드에 의해 포착됩니다.
다음으로, 액체 방울을 수집하고 파괴하여 미세 입자에 부착된 단일 세포 전사체(STAMP)를 방출합니다.
이어서 PCR 및 역전사를 통해 전사체를 포착하고 증폭합니다.
마지막으로, 태그멘테이션이 일어나 전사체가 무작위로 절단되고 시퀀싱 어댑터가 부착됩니다.
이 과정은 위에서 설명한 대로 시퀀싱 준비가 된 시퀀싱 라이브러리를 생성합니다.
액체 방울 기반 프로토콜에서는 세포 전사체의 약 10%만 회수됩니다 {cite}`Islam2014`.
특히, 이 낮은 시퀀싱은 세포 유형을 강력하게 식별하기에 충분합니다.

세 가지 방법 모두 특징적인 편향을 초래합니다.
사용된 비드의 재료는 프로토콜마다 다릅니다.
{term}`Drop-seq`는 비드에 부서지기 쉬운 수지를 사용합니다.
따라서 비드는 {term}`푸아송 분포`로 캡슐화되는 반면, {term}`InDrop` 및 10X Genomics 비드는 변형 가능하여 비드 점유율이 80%를 초과합니다 {cite}`Zhang2019`.

또한, 포획 효율은 Drop-Seq에서 표면에 고정된 프라이머를 사용하는 것에 의해 영향을 받을 가능성이 있습니다.
InDrop은 광분해로 방출되는 프라이머를 사용하고, 10X genomics는 비드를 용해시킵니다.
이러한 차이는 역전사 과정의 위치에도 영향을 미칩니다.
Drop-seq에서는 비드가 액체 방울에서 방출된 후 역전사가 일어나는 반면, InDrop 및 10X genomics 프로토콜에서는 액체 방울 내에서 역전사가 일어납니다 {cite}`Zhang2019`.

2019년 Zhang 등의 비교에 따르면, 이전 두 시스템의 세포 바코드에 명백한 불일치가 포함되어 있어 비드 품질 측면에서 inDrop 및 Drop-seq가 10X Genomics보다 성능이 떨어지는 것으로 나타났습니다.
또한, 유효한 바코드에서 유래한 리드의 비율은 10X Genomics의 경우 75%인 반면, InDrop은 25%, Drop-seq는 30%에 불과했습니다.

감도에 관한 유사한 장점이 10X Genomics에 대해 입증되었습니다.
비교 기간 동안 10X Genomics는 평균적으로 3000개 유전자에서 약 17000개의 전사체를 포착한 반면, Drop-seq는 2500개 유전자에서 8000개, InDrop은 1250개 유전자에서 2700개의 전사체를 포착했습니다.
기술적 노이즈는 10X Genomics가 가장 낮았고, 그 다음이 Drop-seq, InDrop 순이었습니다 {cite}`Zhang2019`.

실제로 생성된 데이터는 큰 프로토콜 편향을 보였습니다.
10X Genomics는 더 짧은 유전자와 GC 함량이 높은 유전자의 포획 및 증폭을 선호하는 반면, Drop-seq는 비교적으로 GC 함량이 낮은 유전자를 선호했습니다.
10X Genomics가 다양한 측면에서 다른 프로토콜보다 성능이 우수하다는 것이 입증되었지만, 세포당 비용도 약 두 배 더 비쌉니다.
또한, 비드를 제외하고 Drop-seq는 오픈 소스이며 필요한 경우 프로토콜을 더 쉽게 조정할 수 있습니다.
InDrop은 완전히 오픈 소스이며, 비드도 실험실에서 제조 및 수정할 수 있습니다.
따라서 InDrop은 세 가지 프로토콜 중 가장 유연합니다.

```{dropdown} <i class="fa-solid fa-thumbs-up"></i>&nbsp;&nbsp;&nbsp;강점
- 조직의 전체 구성을 식별하고 희귀 세포 유형을 특성화하기 위해 대량의 세포를 비용 효율적으로 시퀀싱할 수 있습니다.
- UMI를 통합할 수 있습니다.
```

```{dropdown} <i class="fa-solid fa-thumbs-down"></i></i>&nbsp;&nbsp;&nbsp;한계
- 다른 방법에 비해 전사체 검출률이 낮습니다.
- 전체 전사체가 아닌 3' 말단(또는 키트에 따라 5' 말단)만 포착합니다.
```

##### 나노포어 시퀀싱과 액체 방울 기술의 만남

롱리드 단일 세포 시퀀싱 접근법은 UMI를 거의 사용하지 않거나 {cite}`Singh2019` UMI 보정을 수행하지 않아 {cite}`Gupta2018` 일부 리드를 새로운 UMI에 잘못 할당합니다.
롱리드 시퀀서의 높은 시퀀싱 오류율로 인해 심각한 문제가 발생합니다 {cite}`Lebrigand2020`.
Lebrigand 등은 나노포어 시퀀싱과 세포 바코드 및 UMI 할당을 결합한 ScNaUmi-seq(UMI를 사용한 단일 세포 나노포어 시퀀싱)를 도입했습니다.
바코드 할당은 나노포어 리드에서 발견된 세포 바코드 서열을 동일한 영역 또는 유전자에 대한 일루미나 리드에서 회수된 서열과 비교하여 일루미나 데이터로 안내됩니다 {cite}`Lebrigand2020`.
그러나 이는 사실상 두 개의 단일 세포 라이브러리를 필요로 합니다.
ScCOLOR-seq는 바코드 전체 길이에 걸쳐 뉴클레오티드 쌍 상보성을 사용하여 오류 없는 바코드를 계산적으로 식별합니다.
그런 다음 이러한 바코드는 나머지 오류가 있는 바코드를 수정하는 가이드로 사용됩니다 {cite}`Philpott2021`.
수정된 UMI-tools 방향성 네트워크 기반 방법은 UMI 서열 중복을 수정합니다.

```{dropdown} <i class="fa-solid fa-thumbs-up"></i>&nbsp;&nbsp;&nbsp;강점
- 스플라이싱 및 서열 이질성 정보를 복구합니다.
```

```{dropdown} <i class="fa-solid fa-thumbs-down"></i></i>&nbsp;&nbsp;&nbsp;한계
- 나노포어 시약이 비쌉니다.
- 높은 세포 바코드 회수 오류율.
- 프로토콜에 따라 바코드 할당은 두 개의 시퀀싱 분석이 필요한 일루미나 데이터로 안내됩니다.
```

#### 물리적 구획에서의 분리

(plate-based)=

##### 플레이트 기반 프로토콜

일반적으로 플레이트 기반 프로토콜은 세포를 마이크로웰 플레이트로 물리적으로 분리합니다.
첫 번째 단계는 예를 들어 형광 활성 세포 분류(FACS)와 같이 특정 세포 표면 마커에 따라 세포를 분류하거나 마이크로 피펫팅으로 세포를 분류하는 것입니다.
선택된 세포는 세포 용해 버퍼가 들어 있는 개별 웰에 배치됩니다.
그런 다음 이 웰에서 역전사가 수행됩니다.
이를 통해 단일 실험에서 각각 5000~10000개의 포획된 유전자를 가진 수백 개의 세포를 분석할 수 있습니다.

플레이트 기반 시퀀싱 프로토콜에는 SMART-seq2, MARS-seq, QUARTZ-seq 및 SRCB-seq가 포함되지만 이에 국한되지는 않습니다.
일반적으로 프로토콜은 다중화 능력에서 다릅니다.
예를 들어, MARS-seq는 강력한 다중화 기능을 위해 분자, 세포 및 플레이트 수준 태그의 세 가지 바코드 수준을 허용합니다.
반대로 SMART-seq2는 조기 다중화를 허용하지 않아 세포 수를 제한합니다.
2020년 Mereu 등의 프로토콜에 대한 체계적인 비교에 따르면 QUARTZ-seq2는 SMART-seq2, MARS-seq 또는 SRCB-seq보다 세포당 더 많은 유전자를 포획할 수 있는 것으로 나타났습니다 {cite}`Mereu2020`.
이는 QUARTZ-seq2가 세포 유형 특정 마커 유전자를 잘 포획하여 신뢰할 수 있는 세포 유형 주석을 허용함을 의미합니다.

```{dropdown} <i class="fa-solid fa-thumbs-up"></i>&nbsp;&nbsp;&nbsp;강점
- 세포당 많은 유전자를 회수하여 심층적인 특성화를 허용합니다.
- 라이브러리 준비 전에 정보를 수집할 수 있습니다. 예를 들어 FACS 분류를 통해 세포 크기 및 사용된 모든 레이블의 강도와 같은 정보를 양호한 좌표와 연관시킬 수 있습니다.
- 전체 길이 전사체 회수를 허용합니다.
```

```{dropdown} <i class="fa-solid fa-thumbs-down"></i></i>&nbsp;&nbsp;&nbsp;한계
- 플레이트 기반 실험의 규모는 개별 처리 장치의 처리량이 낮아 제한됩니다.
- 단편화 단계는 가닥 특이적 정보를 제거합니다 {cite}`Hrdlickova2017`.
- 프로토콜에 따라 플레이트 기반 프로토콜은 많은 피펫팅 단계가 필요하여 노동 집약적일 수 있으며, 잠재적인 기술적 노이즈와 {term}`배치 효과 <batch effect>`를 유발할 수 있습니다.
```

##### Fluidigm C1

상용 Fluidigm C1 시스템은 세포를 작은 반응 챔버로 자동화된 방식으로 로드하고 분리하는 미세유체 칩입니다.
CEL-seq2 및 SMART-seq(버전 1) 프로토콜은 워크플로우에 Fluidigm C1 칩을 사용하여 RNA 추출 및 라이브러리 준비 단계를 함께 수행할 수 있도록 하여 필요한 수작업을 줄입니다.
그러나 Fluidigm C1은 세포가 크기에 따라 미세유체 칩의 다른 위치에 도달하기 때문에 다소 균일한 세포 혼합물이 필요하며, 이는 잠재적인 위치 편향을 유발할 수 있습니다.
증폭 단계가 개별 웰에서 수행되므로 전체 길이 시퀀싱이 가능하며, 이는 다른 많은 단일 세포 RNA-seq 시퀀싱 프로토콜의 3' 편향을 효과적으로 줄입니다.
이 프로토콜은 일반적으로 더 비싸므로 특정 세포 집단을 광범위하게 조사하는 데 주로 유용합니다.

```{dropdown} <i class="fa-solid fa-thumbs-up"></i>&nbsp;&nbsp;&nbsp;강점
- 전체 길이 전사체 커버리지를 허용합니다.
- 스플라이싱 변이체 및 T/B 세포 수용체 레퍼토리 다양성을 복구할 수 있습니다.
```

```{dropdown} <i class="fa-solid fa-thumbs-down"></i></i>&nbsp;&nbsp;&nbsp;한계
- 최대 800개의 세포만 시퀀싱할 수 있습니다 {cite}`fluidigm`.
- 다른 프로토콜보다 세포당 비용이 더 비쌉니다.
- 추출된 세포의 약 10%만 포획되므로 이 프로토콜은 희귀 세포 유형이나 낮은 입력에는 적합하지 않습니다.
- 사용된 어레이는 특정 세포 크기만 포획하므로 포획된 전사체에 편향이 있을 수 있습니다.
```

#### 요약

요약하자면, 습식 실험실과 건식 실험실 과학자들은 연구 목적에 따라 시퀀싱 프로토콜을 선택할 것을 강력히 권장합니다.
특정 세포 유형 집단의 심층적인 특성화를 원하십니까?
이 경우 플레이트 기반 방법 중 하나가 더 적합할 수 있습니다.
반대로, 액체 방울 기반 분석법은 이종 혼합물을 더 잘 포획하여 시퀀싱된 세포의 더 넓은 특성화를 허용합니다.
또한 예산이 제한적인 요인인 경우, 선택한 프로토콜은 더 비용 효율적이고 견고해야 합니다.
데이터를 분석할 때 시퀀싱 분석법별 편향에 유의하십시오.
모든 단일 세포 시퀀싱 프로토콜에 대한 광범위한 비교를 위해 Mereu 등의 "세포 아틀라스 프로젝트를 위한 단일 세포 RNA 시퀀싱 프로토콜 벤치마킹" 논문을 권장합니다 {cite}`Mereu2020`.


### 단일 세포 대 단일 핵

지금까지 우리는 단일 세포 분석법에 대해서만 논의했지만, 세포의 핵만 시퀀싱하는 것도 가능합니다.
단일 세포 프로파일링은 뇌와 같은 특정 조직이나 기관에 대한 세포 유형의 편향되지 않은 시각을 항상 제공하는 것은 아닙니다.
조직 해리 과정에서 일부 세포 유형은 더 취약하여 포획하기 어렵습니다. 예를 들어, 빠른 스파이킹 파르브알부민 양성 개재 뉴런과 피질하 투사 글루타메이트성 뉴런은 마우스 신피질에서 예상보다 낮은 비율로 관찰되었습니다 {cite}`Tasic2018`.
반대로, 비신경 세포는 신경 세포보다 해리를 더 잘 견뎌내며 성인 인간 신피질의 단일 세포 현탁액에서 과대 대표됩니다 {cite}`darmanis2015`.
또한, 단일 세포 시퀀싱은 신선한 조직에 크게 의존하므로 조직 바이오뱅크를 사용하기 어렵습니다.
반면에, 핵은 기계적 힘에 더 강하고 조직 해리 효소를 사용하지 않고도 냉동 조직에서 안전하게 분리할 수 있습니다 {cite}`Krishnaswami2016`.
두 옵션 모두 조직 및 샘플 유형에 따라 적용 가능성이 다르며, 결과적인 편향과 불확실성은 아직 완전히 밝혀지지 않았습니다.
핵이 세포의 모든 전사 패턴을 정확하게 반영한다는 것이 이미 입증되었습니다 {cite}`Ding2020`.
실험 설계에서 단일 세포 대 단일 핵의 선택은 주로 조직 샘플의 유형에 따라 결정됩니다.
그러나 데이터 분석은 해리 능력이 잠재적으로 관찰 가능한 세포 유형에 큰 영향을 미친다는 사실을 인지해야 합니다.
따라서 실험 설계에 관해 습식 실험실과 건식 실험실 과학자 간의 논의를 강력히 권장합니다.

(seealso-dropdown)=
```{seealso}
:class: dropdown
:name: test-test-test
실험 분석법에 대한 더 자세한 이해를 위해 다음 논문을 추천합니다.
- 단일 세포 RNA 시퀀싱 방법의 비교 분석 {cite}`Ziegenhain2017`
- 단일 세포 RNA 시퀀싱 실험의 검정력 분석 {cite}`Svensson2017`
- 일치하는 피질 세포 유형에서 비교된 단일 핵 및 단일 세포 전사체 {cite}`Bakken2018`
- 단일 세포 RNA 시퀀싱 연구의 실험 설계를 위한 지침 {cite}`Lafzi2018`
- 세포 아틀라스 프로젝트를 위한 단일 세포 RNA 시퀀싱 프로토콜 벤치마킹 {cite}`Mereu2020`
- 10X Genomics Chromium 및 Smart-seq2의 직접 비교 분석 {cite}`Wang2021`

실험실 방법 동영상:
- [마이크로어레이 기반 분석법](https://www.youtube.com/watch?v=NgRfc6atXQ8)
- [정량적 역전사 PCR](https://www.youtube.com/watch?v=XH6vIBLwC2M)

기타:
- [생물학적 숫자](https://bionumbers.hms.harvard.edu/search.aspx)
```


### 질문
#### 플립카드

In [None]:
%run ../src/lib.py

flip_card(
    "q5",
    "scRNA-seq 프로토콜에 대해 소개한 두 가지 주요 범주는 무엇입니까?",
    "액체 방울에서의 분리와 물리적 구획에서의 분리입니다.",
)

flip_card(
    "q6", "액체 방울 기반 프로토콜의 주요 장점은 무엇입니까?", "높은 처리량"
)

flip_card(
    "q7",
    "2세대 시퀀싱의 특징은 무엇입니까?",
    "일루미나 및 이온 토렌트와 같은 대용량, 단일 읽기 시퀀싱 기술입니다.",
)

flip_card(
    "q8",
    "3세대 시퀀싱의 주요 장점은 무엇입니까?",
    "나노포어 및 PacBio에서 볼 수 있듯이 증폭 없이 긴 읽기 시퀀싱입니다.",
)

#### 객관식 문제

In [None]:
%run ../src/lib.py

multiple_choice_question(
    "q1",
    "scRNA-seq의 주요 목적은 무엇입니까?",
    [
        "단일 세포의 게놈을 시퀀싱하기 위해",
        "개별 세포의 유전자 발현을 측정하기 위해",
        "DNA 메틸화 패턴을 포착하기 위해",
        "세포 표면 마커를 결정하기 위해",
    ],
    "개별 세포의 유전자 발현을 측정하기 위해",
    {},
)

multiple_choice_question(
    "q2",
    "scRNA-seq의 맥락에서 역전사란 무엇입니까?",
    [
        "cDNA를 mRNA로 변환",
        "DNA 시퀀싱",
        "mRNA를 cDNA로 변환",
        "세포 표면 마커 표지",
    ],
    "mRNA를 cDNA로 변환",
    {},
)

multiple_choice_question(
    "q3",
    "단일 세포와 단일 핵 시퀀싱의 주요 차이점은 무엇입니까?",
    [
        "단일 세포는 전체 세포를 포착하는 반면, 단일 핵은 핵만 포착합니다.",
        "단일 핵 시퀀싱은 처리량이 더 높습니다.",
        "단일 세포가 더 정확합니다.",
        "단일 핵 시퀀싱이 더 저렴합니다.",
    ],
    "단일 세포는 전체 세포를 포착하는 반면, 단일 핵은 핵만 포착합니다.",
    {},
)

multiple_choice_question(
    "q4",
    "다음 중 PIP-seq를 가장 잘 설명하는 것은 무엇입니까?",
    [
        "미세유체공학을 사용하는 프로토콜",
        "플레이트 기반 프로토콜",
        "와류를 사용하는 단순화된 액체 방울 기반 방법",
        "롱리드 시퀀싱 방법",
    ],
    "와류를 사용하는 단순화된 액체 방울 기반 방법",
    {},
)


## 참고 문헌

```{bibliography}
:filter: docname in docnames
:labelprefix: exp
```

## 기여자

다음 분들의 기여에 감사드립니다.

### 저자

- Lukas Heumos
- Luis Heinzlmeier

### 검토자

- Yuexin Chen