このノートブックでは、染色体ごとに保存されているゲノムデータ (`VCF`形式)をマージし、`matrix table` 形式で保存します。
その後、`imputation quality` の低いバリアント (R2 < 0.3) を除外します。

### Step 1 `hail` など、必要なモジュールを読み込みます

下記のコードを実行してください。 ページ上側のメニューバーにある `実行` ボタンを押下することで、実行することができます。

In [1]:
import hail as hl
hl.init()
from hail.plot import show
from pprint import pprint
hl.plot.output_notebook()

Running on Apache Spark version 3.1.1
SparkUI available at http://192.168.179.3:4042
Welcome to
     __  __     <>__
    / /_/ /__  __/ /
   / __  / _ `/ / /
  /_/ /_/\_,_/_/_/   version 0.2.67-a673309b0445
LOGGING: writing to /Users/hacchy/prs-on-hail/hail-20210529-2339-0.2.67-a673309b0445.log


### Step 2 ゲノムデータのファイル形式を変換します

（`python` 初学者向けに）`for` 文の挙動を確認します。
下記のコードを実行してください。

In [2]:
for chr in range(1,23):
    print(chr)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22


`1` から `22` の整数が表示されました。
`range(1,23)` は、「`1` 以上 `23` 未満の整数」を列挙します（つまり、`1` から `22` までの整数が列挙されます）。

インデントされた `print(chr)` は、`chr` 変数を表示します。
`chr` 変数は、`range(1,23)` で列挙された値が、入力されます。

`chr` 変数に `range(1,23)` で列挙された値が一つずつ入力され、都度 `print(chr)` が実行されます。
そのために、`1` から `22` の整数が表示されます。

プログラミングに慣れてないと、すぐに理解は難しいかもしれません。
その場合は、（`python`でなくても良いですが）地道にプログラミングの技術習得を行うことで、理解が捗るようになります。

本題に戻ります。
ゲノムデータは、1番染色体から22番染色体まで、染色体ごとに異なるファイルに保存されています。
例えば、1番染色体のゲノムデータは、`genome-data/1kg.JPT.chr1.dose.vcf.bgz` に保存されています。
また、2番染色体のゲノムデータは、`genome-data/1kg.JPT.chr2.dose.vcf.bgz` に
22番染色体のゲノムデータは、`genome-data/1kg.JPT.chr22.dose.vcf.bgz` に保存されています。

ゲノムデータは、よく利用されるファイル形式である `VCF` フォーマットで保存されています。
これを、`matrix table` 形式に変換して、保存します。

下記コマンドを実行してください。
1時間程度の待ち時間が生じます。

In [4]:
for chr in range(1,23):
    infile = 'genome-data/1kg.JPT.chr' + str(chr) + '.dose.vcf.bgz'
    outfile = 'genome-data/1kg.JPT.chr' + str(chr) + '.mt'
    print(chr, infile, outfile)
    hl.import_vcf(infile).write(outfile, overwrite=True)

1 genome-data/1kg.JPT.chr1.dose.vcf.bgz genome-data/1kg.JPT.chr1.mt


2021-05-29 23:50:31 Hail: INFO: Coerced almost-sorted dataset
2021-05-29 23:54:05 Hail: INFO: wrote matrix table with 3738238 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr1.mt
    Total size: 233.04 MiB
    * Rows/entries: 233.04 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 3738238 rows (233.04 MiB)
    * Largest partition:  3738238 rows (233.04 MiB)


2 genome-data/1kg.JPT.chr2.dose.vcf.bgz genome-data/1kg.JPT.chr2.mt


2021-05-29 23:54:24 Hail: INFO: Coerced almost-sorted dataset
2021-05-29 23:58:11 Hail: INFO: wrote matrix table with 4057611 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr2.mt
    Total size: 244.48 MiB
    * Rows/entries: 244.48 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 4057611 rows (244.48 MiB)
    * Largest partition:  4057611 rows (244.48 MiB)


3 genome-data/1kg.JPT.chr3.dose.vcf.bgz genome-data/1kg.JPT.chr3.mt


2021-05-29 23:58:27 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:01:36 Hail: INFO: wrote matrix table with 3355936 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr3.mt
    Total size: 196.39 MiB
    * Rows/entries: 196.39 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 3355936 rows (196.39 MiB)
    * Largest partition:  3355936 rows (196.39 MiB)


4 genome-data/1kg.JPT.chr4.dose.vcf.bgz genome-data/1kg.JPT.chr4.mt


2021-05-30 00:01:52 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:04:45 Hail: INFO: wrote matrix table with 3338263 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr4.mt
    Total size: 201.04 MiB
    * Rows/entries: 201.04 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 3338263 rows (201.04 MiB)
    * Largest partition:  3338263 rows (201.04 MiB)


5 genome-data/1kg.JPT.chr5.dose.vcf.bgz genome-data/1kg.JPT.chr5.mt


2021-05-30 00:04:58 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:07:42 Hail: INFO: wrote matrix table with 3032421 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr5.mt
    Total size: 176.82 MiB
    * Rows/entries: 176.82 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 3032421 rows (176.82 MiB)
    * Largest partition:  3032421 rows (176.82 MiB)


6 genome-data/1kg.JPT.chr6.dose.vcf.bgz genome-data/1kg.JPT.chr6.mt


2021-05-30 00:07:55 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:10:25 Hail: INFO: wrote matrix table with 2954409 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr6.mt
    Total size: 177.03 MiB
    * Rows/entries: 177.03 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 2954409 rows (177.03 MiB)
    * Largest partition:  2954409 rows (177.03 MiB)


7 genome-data/1kg.JPT.chr7.dose.vcf.bgz genome-data/1kg.JPT.chr7.mt


2021-05-30 00:10:37 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:12:59 Hail: INFO: wrote matrix table with 2753492 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr7.mt
    Total size: 170.74 MiB
    * Rows/entries: 170.74 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 2753492 rows (170.74 MiB)
    * Largest partition:  2753492 rows (170.74 MiB)


8 genome-data/1kg.JPT.chr8.dose.vcf.bgz genome-data/1kg.JPT.chr8.mt


2021-05-30 00:13:11 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:15:26 Hail: INFO: wrote matrix table with 2651558 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr8.mt
    Total size: 156.66 MiB
    * Rows/entries: 156.66 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 2651558 rows (156.66 MiB)
    * Largest partition:  2651558 rows (156.66 MiB)


9 genome-data/1kg.JPT.chr9.dose.vcf.bgz genome-data/1kg.JPT.chr9.mt


2021-05-30 00:15:35 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:17:21 Hail: INFO: wrote matrix table with 2063096 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr9.mt
    Total size: 126.46 MiB
    * Rows/entries: 126.45 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 2063096 rows (126.45 MiB)
    * Largest partition:  2063096 rows (126.45 MiB)


10 genome-data/1kg.JPT.chr10.dose.vcf.bgz genome-data/1kg.JPT.chr10.mt


2021-05-30 00:17:32 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:19:34 Hail: INFO: wrote matrix table with 2334089 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr10.mt
    Total size: 145.59 MiB
    * Rows/entries: 145.59 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 2334089 rows (145.59 MiB)
    * Largest partition:  2334089 rows (145.59 MiB)


11 genome-data/1kg.JPT.chr11.dose.vcf.bgz genome-data/1kg.JPT.chr11.mt


2021-05-30 00:19:44 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:21:44 Hail: INFO: wrote matrix table with 2333240 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr11.mt
    Total size: 140.64 MiB
    * Rows/entries: 140.64 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 2333240 rows (140.64 MiB)
    * Largest partition:  2333240 rows (140.64 MiB)


12 genome-data/1kg.JPT.chr12.dose.vcf.bgz genome-data/1kg.JPT.chr12.mt


2021-05-30 00:21:54 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:23:49 Hail: INFO: wrote matrix table with 2242715 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr12.mt
    Total size: 135.15 MiB
    * Rows/entries: 135.14 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 2242715 rows (135.14 MiB)
    * Largest partition:  2242715 rows (135.14 MiB)


13 genome-data/1kg.JPT.chr13.dose.vcf.bgz genome-data/1kg.JPT.chr13.mt


2021-05-30 00:23:56 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:25:21 Hail: INFO: wrote matrix table with 1661699 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr13.mt
    Total size: 99.94 MiB
    * Rows/entries: 99.94 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 1661699 rows (99.94 MiB)
    * Largest partition:  1661699 rows (99.94 MiB)


14 genome-data/1kg.JPT.chr14.dose.vcf.bgz genome-data/1kg.JPT.chr14.mt


2021-05-30 00:25:28 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:26:47 Hail: INFO: wrote matrix table with 1535591 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr14.mt
    Total size: 96.11 MiB
    * Rows/entries: 96.11 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 1535591 rows (96.11 MiB)
    * Largest partition:  1535591 rows (96.11 MiB)


15 genome-data/1kg.JPT.chr15.dose.vcf.bgz genome-data/1kg.JPT.chr15.mt


2021-05-30 00:26:53 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:28:07 Hail: INFO: wrote matrix table with 1404162 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr15.mt
    Total size: 89.75 MiB
    * Rows/entries: 89.75 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 1404162 rows (89.75 MiB)
    * Largest partition:  1404162 rows (89.75 MiB)


16 genome-data/1kg.JPT.chr16.dose.vcf.bgz genome-data/1kg.JPT.chr16.mt


2021-05-30 00:28:14 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:29:36 Hail: INFO: wrote matrix table with 1549316 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr16.mt
    Total size: 100.85 MiB
    * Rows/entries: 100.85 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 1549316 rows (100.85 MiB)
    * Largest partition:  1549316 rows (100.85 MiB)


17 genome-data/1kg.JPT.chr17.dose.vcf.bgz genome-data/1kg.JPT.chr17.mt


2021-05-30 00:29:42 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:30:54 Hail: INFO: wrote matrix table with 1345835 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr17.mt
    Total size: 90.38 MiB
    * Rows/entries: 90.38 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 1345835 rows (90.38 MiB)
    * Largest partition:  1345835 rows (90.38 MiB)


18 genome-data/1kg.JPT.chr18.dose.vcf.bgz genome-data/1kg.JPT.chr18.mt


2021-05-30 00:31:00 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:32:14 Hail: INFO: wrote matrix table with 1319629 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr18.mt
    Total size: 81.31 MiB
    * Rows/entries: 81.31 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 1319629 rows (81.31 MiB)
    * Largest partition:  1319629 rows (81.31 MiB)


19 genome-data/1kg.JPT.chr19.dose.vcf.bgz genome-data/1kg.JPT.chr19.mt


2021-05-30 00:32:19 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:33:18 Hail: INFO: wrote matrix table with 1084535 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr19.mt
    Total size: 76.72 MiB
    * Rows/entries: 76.72 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 1084535 rows (76.72 MiB)
    * Largest partition:  1084535 rows (76.72 MiB)


20 genome-data/1kg.JPT.chr20.dose.vcf.bgz genome-data/1kg.JPT.chr20.mt


2021-05-30 00:33:23 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:34:18 Hail: INFO: wrote matrix table with 1047612 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr20.mt
    Total size: 66.17 MiB
    * Rows/entries: 66.16 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 1047612 rows (66.16 MiB)
    * Largest partition:  1047612 rows (66.16 MiB)


21 genome-data/1kg.JPT.chr21.dose.vcf.bgz genome-data/1kg.JPT.chr21.mt


2021-05-30 00:34:21 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:34:55 Hail: INFO: wrote matrix table with 653791 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr21.mt
    Total size: 42.75 MiB
    * Rows/entries: 42.75 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 653791 rows (42.75 MiB)
    * Largest partition:  653791 rows (42.75 MiB)


22 genome-data/1kg.JPT.chr22.dose.vcf.bgz genome-data/1kg.JPT.chr22.mt


2021-05-30 00:34:59 Hail: INFO: Coerced almost-sorted dataset
2021-05-30 00:35:34 Hail: INFO: wrote matrix table with 652193 rows and 104 columns in 1 partition to genome-data/1kg.JPT.chr22.mt
    Total size: 48.10 MiB
    * Rows/entries: 48.10 MiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 652193 rows (48.10 MiB)
    * Largest partition:  652193 rows (48.10 MiB)


### Step 3 ゲノムデータをマージします

続いて、1番染色体から22番染色体の `matrix table` 形式のファイルを、ひとつの `matrix table` 形式のファイルにマージします。

下記コマンドを実行してください。

In [6]:
chr = 1
file = 'genome-data/1kg.JPT.chr' + str(chr) + '.mt'
mt = hl.read_matrix_table(file)
print(chr, file, mt.count(), mt.count())
for chr in range(2,23):
    file = 'genome-data/1kg.JPT.chr' + str(chr) + '.mt'
    tmpmt = hl.read_matrix_table(file)
    mt = mt.union_rows(tmpmt)
    print(chr, file, tmpmt.count(), mt.count())

1 genome-data/1kg.JPT.chr1.mt (3738238, 104) (3738238, 104)
2 genome-data/1kg.JPT.chr2.mt (4057611, 104) (7795849, 104)
3 genome-data/1kg.JPT.chr3.mt (3355936, 104) (11151785, 104)
4 genome-data/1kg.JPT.chr4.mt (3338263, 104) (14490048, 104)
5 genome-data/1kg.JPT.chr5.mt (3032421, 104) (17522469, 104)
6 genome-data/1kg.JPT.chr6.mt (2954409, 104) (20476878, 104)
7 genome-data/1kg.JPT.chr7.mt (2753492, 104) (23230370, 104)
8 genome-data/1kg.JPT.chr8.mt (2651558, 104) (25881928, 104)
9 genome-data/1kg.JPT.chr9.mt (2063096, 104) (27945024, 104)
10 genome-data/1kg.JPT.chr10.mt (2334089, 104) (30279113, 104)
11 genome-data/1kg.JPT.chr11.mt (2333240, 104) (32612353, 104)
12 genome-data/1kg.JPT.chr12.mt (2242715, 104) (34855068, 104)
13 genome-data/1kg.JPT.chr13.mt (1661699, 104) (36516767, 104)
14 genome-data/1kg.JPT.chr14.mt (1535591, 104) (38052358, 104)
15 genome-data/1kg.JPT.chr15.mt (1404162, 104) (39456520, 104)
16 genome-data/1kg.JPT.chr16.mt (1549316, 104) (41005836, 104)
17 genome-da

ゲノムデータのマージが完了しました。
マージ後のゲノムデータのバリアント数を表示します。

In [7]:
mt.count()

(47109431, 104)

```
(47109431, 104)
```
と表示されました。

これは、次のことを意味します。
- 研究対象者の人数が 104 名
- バリアントの個数が 47,109,431 個

### Step 4 マージしたゲノムデータを保存します

今後のステップの実行時間を短縮するため、マージしたゲノムデータを保存し、再度読み込みます。

下記のコードは、マージしたゲノムデータを `genome-data/1kg.JPT.chrAll.mt` に保存します。
10分程度の待ち時間が生じます。

In [8]:
mt.write('genome-data/1kg.JPT.chrAll.mt', overwrite=True)

2021-05-30 00:59:28 Hail: INFO: wrote matrix table with 47109431 rows and 104 columns in 22 partitions to genome-data/1kg.JPT.chrAll.mt
    Total size: 2.83 GiB
    * Rows/entries: 2.83 GiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 653791 rows (42.75 MiB)
    * Largest partition:  4057611 rows (244.48 MiB)


下記のコードは、`genome-data/1kg.JPT.chrAll.mt` を読み込みます。

In [9]:
mt = hl.read_matrix_table('genome-data/1kg.JPT.chrAll.mt')

### Step 5 ゲノムデータに `variantID` を追加します

下記のコードは、ゲノムデータのバリアント情報に `variantID` を追加します。

In [10]:
mt = mt.annotate_rows(variantID = (hl.str(mt.locus.contig) + ":" + hl.str(mt.locus.position)) )

下記のコードは、`variantID` を追加した後のバリアント情報を表示します。

In [11]:
mt.rows().show(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,info,info,info,info,Unnamed: 9_level_0
locus,alleles,rsid,qual,filters,AF,MAF,R2,ER2,variantID
locus<GRCh37>,array<str>,str,float64,set<str>,float64,float64,float64,float64,str
1:10177,"[""A"",""AC""]","""1:10177""",-10.0,{},0.447,0.447,0.087,,"""1:10177"""
1:10235,"[""T"",""TA""]","""1:10235""",-10.0,{},0.00093,0.00093,0.00157,,"""1:10235"""
1:10352,"[""T"",""TA""]","""1:10352""",-10.0,{},0.445,0.445,0.0835,,"""1:10352"""
1:10539,"[""C"",""A""]","""1:10539""",-10.0,{},0.00042,0.00042,5e-05,,"""1:10539"""
1:10616,"[""CCGCCGTTGCAAAGGCGCGCCG"",""C""]","""1:10616""",-10.0,{},0.979,0.0213,0.281,,"""1:10616"""


`variantID` のカラムが追加されていることが分かります。

### Step 6 `imputation quality` に基づいてゲノムデータをフィルタリングします

下記のコードでは、各バリアントの `imputation quality` の分布を表示します。
1分程度の待ち時間が生じます。

In [12]:
p = hl.plot.histogram(mt.info.R2, title='Imputation Quality Histogram', legend='Imputation Quality (R2)')
show(p)

<img src="plots/merge-and-filter-plot-01.png" width=50% >

`imputation quality` が低い（R2 < 0.3）バリアントも多いことが分かります。

下記のコードは、`imputation quality` が低い（R2 < 0.3）バリアントを除外します。

In [13]:
mt_filt = mt.filter_rows(mt.info.R2>=0.3)

下記のコードは、`imputation quality` が低い（R2 < 0.3）バリアントを除外した後の分布を表示します。

In [14]:
p = hl.plot.histogram(mt_filt.info.R2, title='Imputation Quality Histogram', legend='Imputation Quality (R2)')
show(p)

<img src="plots/merge-and-filter-plot-02.png" width=50% >

`imputation quality` が低い（R2 < 0.3）バリアントが除外されたことが分かります。

下記のコードは、`imputation quality` が低い（R2 < 0.3）バリアントを除外したのちのバリアントの個数を表示します。

In [15]:
mt_filt.count()

(10860860, 104)

```
(10860860, 104)
```
と表示されました。

これは、次のことを意味します。
- 研究対象者の人数が 104 名
- バリアントの個数が 10,860,860 個

下記のコードは、`imputation quality` が低い（R2 < 0.3）バリアントを除外した後の `minor allele frequency` の分布を表示します。

In [16]:
p = hl.plot.histogram(mt_filt.info.MAF, title='MAF Histogram', legend='MAF', bins=50)
show(p)

<img src="plots/merge-and-filter-plot-03.png" width=50% >

MAF<1% のバリアントが多くある一方、MAFが5%〜50%のバリアントはほぼ等しい個数あることが分かります。

### Step 7 フィルタリング後のゲノムデータを保存します

下記のコードは、マージしたゲノムデータを `genome-data/1kg.JPT.chrAll.filtered.mt` に保存します。
3分程度の待ち時間が生じます。

In [18]:
mt_filt.write('genome-data/1kg.JPT.chrAll.filtered.mt', overwrite=True)

2021-05-30 01:14:54 Hail: INFO: wrote matrix table with 10860860 rows and 104 columns in 22 partitions to genome-data/1kg.JPT.chrAll.filtered.mt
    Total size: 1.11 GiB
    * Rows/entries: 1.11 GiB
    * Columns: 858.00 B
    * Globals: 11.00 B
    * Smallest partition: 149412 rows (17.13 MiB)
    * Largest partition:  906649 rows (93.12 MiB)


### 以上でこのチュートリアルは終了です