
# **Qiime2 tutorial - Parkinson’s Mouse Tutorial**
QIIME 2如同其在[官網](https://qiime2.org/)中提到的:QIIME 2™ is a next-generation microbiome bioinformatics platform that is extensible, free, open source, and community developed."是用來分析微生物次世代基因定序資料的開源軟體。

本教學將簡單敘述QIIME 2使用方式，對應qiime2官網文件的[Parkinson’s Mouse Tutorial](https://docs.qiime2.org/2023.5/tutorials/pd-mice/)實作教學，使用之16S rRNA基因定序資料源自於[Sampson et al., 2016](https://www.cell.com/cell/fulltext/S0092-8674(16)31590-2?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS0092867416315902%3Fshowall%3Dtrue)的研究，此實驗證實了糞便之微生物菌相對Parkinson’s Disease (PD)症狀發展有所影響。其中一項實驗分別將來自健康對照組及PD患者之糞便微生物植入野生基因型或帶有易感染PD基因之小鼠體內。小鼠隨機分配至三個不同籠子飼養7周，並觀察其PD症狀表現。

僅採用實驗之小部分數據，共48個小鼠樣本，且各樣本之序列數列約為5000條。本實驗之所有原始定序資料可從EBI資料庫下載[PRJEB17694](https://www.ebi.ac.uk/ena/browser/view/PRJEB17694)，數據衍生之相關資料則可從[Qiita](https://qiita.ucsd.edu/)資料庫下載[study 10483](https://qiita.ucsd.edu/study/description/10483)。

# 實驗假說
本教學將探討，小鼠之微生物菌相分布受到其所移植之菌相來源影響，而菌相分別源自健康對照組及PD患者之糞便微生物。

# 環境設定
請閱讀並執行`install_package.ipynb`

完成上述步驟後，將新建立之`HMP_project`環境的binary執行檔路徑寫入環境變數中

In [1]:
import os
# 執行檔資訊
# 如果完成了1_install_package，已安裝conda env於自己的帳號中。
Add_Binarry_Path='~/.conda/envs/HMP_project/bin/'
# 如果尚未下載完成conda env，則先使用已建立好的
# Add_Binarry_Path='/home/s4107037054/.conda/envs/HMP_project/bin/'
os.environ['PATH']=Add_Binarry_Path+':'+os.environ['PATH']

# 建立專案目錄
開始分析之前，建議建立一個專屬的分析目錄，將所有分析相關之input/output檔存放一起方便管理。

In [2]:
# 執行一次即可，重複執行會持續在當前目錄建新資料夾
# 不能以數字開頭作為命名
project_folder = "mouse_tutorial"
!mkdir -p ./{project_folder}/seqs
!mkdir -p ./{project_folder}/qza
!mkdir -p ./{project_folder}/qzv
# !表示執行bash命令
%cd ./{project_folder} 
# %cd表示切換路徑

/storage_1/S4107037054/HMP_project/GitHub/mouse_tutorial


- `!...`在jupyterlab中表示，透過bash執行後面指令
- `mkdir ...`建立名為...的目錄
- `%cd ...`移動至名為...的目錄底下

# 準備資料

## (1). **XXXX.fastq:** 定序的原始壓縮檔案
先透過URL下載此教學使用的範例壓縮檔(.zip)

In [4]:
!wget \
-O "demultiplexed_seqs.zip" \
"https://data.qiime2.org/2023.5/tutorials/pd-mice/demultiplexed_seqs.zip"

--2023-08-24 09:16:30--  https://data.qiime2.org/2023.5/tutorials/pd-mice/demultiplexed_seqs.zip
Resolving lgn304-v304 (lgn304-v304)... 172.17.26.4
Connecting to lgn304-v304 (lgn304-v304)|172.17.26.4|:53128... connected.
Proxy request sent, awaiting response... 302 FOUND
Location: https://s3-us-west-2.amazonaws.com/qiime2-data/2023.5/tutorials/pd-mice/demultiplexed_seqs.zip [following]
--2023-08-24 09:16:31--  https://s3-us-west-2.amazonaws.com/qiime2-data/2023.5/tutorials/pd-mice/demultiplexed_seqs.zip
Connecting to lgn304-v304 (lgn304-v304)|172.17.26.4|:53128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 21508775 (21M) [application/zip]
Saving to: 'demultiplexed_seqs.zip'


2023-08-24 09:16:34 (10.6 MB/s) - 'demultiplexed_seqs.zip' saved [21508775/21508775]



再透過`unzip`將zip檔解壓縮。所有原始序列壓縮檔(.fastq.gz)存放在`demultiplexed_seqs/`。**注意: 輸入qiime2分析之序列原始檔都需要進行資料壓縮，指令如下:**
```
# 壓縮單一檔案
gzip filename.fastq
# 壓縮目錄下所有檔案
gzip folder/*
```

In [5]:
!unzip demultiplexed_seqs.zip

Archive:  demultiplexed_seqs.zip
   creating: demultiplexed_seqs/
  inflating: demultiplexed_seqs/10483.recip.539.ASO.PD4.D7_4_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.539.ASO.PD4.D14_5_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.413.WT.HC2.D7_12_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.220.WT.OB1.D7_30_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.458.ASO.HC3.D49_2_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.538.WT.PD4.D21_4_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.459.WT.HC3.D14_2_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.461.ASO.HC3.D7_20_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.465.ASO.PD3.D14_16_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.461.ASO.HC3.D21_11_L001_R1_001.fastq.gz  
  inflating: demultiplexed_seqs/10483.recip.540.ASO.HC4.D7_7_L001_R1_001.fastq.gz  
  i

## (2). **Manifest:** 樣本清單檔案 manifest.tsv
manifest 是清單的意思，目的是告訴 QIIME2 .fastq.gz 的路徑在哪裡，以及該檔案所對應的樣本名稱為何，

In [25]:
import os, sys
seqs_folder = "seqs/" #原始序列存放的位置
forward_tail = ".fastq.gz" #forward序列檔案的結尾
reverse_tail = "" #reverse序列檔案的結尾，若為單尾定序，則將這欄改為""

abs_seqs_folder = os.path.abspath(seqs_folder)
seq_files = os.listdir(seqs_folder)
manifest = {} #以字典的形式儲存sample-id(key)和absolute-filepath(value)
if reverse_tail != "" and forward_tail != "": #雙尾定序
    for seq in seq_files:
        for_res_check = 0 # 如果是forward，判定1，若是reverse，判定2
        # 判斷是forward還是reverse
        if forward_tail in seq: 
            for_res_check = 1
            basename = seq.replace(forward_tail,"")
        elif reverse_tail in seq:
            for_res_check = 2
            basename = seq.replace(reverse_tail,"")
        else:
            sys.exit("ERROR: NO align tail in filename. Please check tails.")
        seq_abs_path = f"{abs_seqs_folder}/{seq}" # seq的絕對路徑
        if for_res_check==1:
            if basename in manifest: #雙尾定序的value指定為list，list[0]放forward
                manifest[basename][0] = seq_abs_path
            else:
                manifest[basename]=[seq_abs_path,""]
        elif for_res_check==2:
            if basename in manifest: #雙尾定序的value指定為list，list[1]放reverse
                manifest[basename][1] = seq_abs_path
            else:
                manifest[basename]=["",seq_abs_path]
        sorted_manifest = {}# 重新排列manifest，以basename排序
        for sample_id in sorted(list(manifest.keys())):
            sorted_manifest[sample_id] = manifest[sample_id]
        with open("manifest.tsv", "w") as manifest_w: #寫進manifest.csv
            manifest_w.write("sample-id\tforward-absolute-filepath\treverse-absolute-filepath\n") # header
            for sample_id, absolute_filepath in sorted_manifest.items():
                manifest_w.write(f"{sample_id}\t{absolute_filepath[0]}\t{absolute_filepath[1]}\n")
            print(f"manifest.tsv already generate in {os.getcwd()}")
            
elif reverse_tail == "" and forward_tail != "": #單尾定序
    for seq in seq_files:
        seq_basename = seq.replace(forward_tail,"")
        seq_abs_path = f"{abs_seqs_folder}/{seq}" # seq的絕對路徑
        manifest[seq_basename] = seq_abs_path
    sorted_manifest = {}# 重新排列manifest，以basename排序
    for sample_id in sorted(list(manifest.keys())):
        sorted_manifest[sample_id] = manifest[sample_id]
    with open("manifest.tsv", "w") as manifest_w:
        manifest_w.write("sample-id\tabsolute-filepath\n") # header
        for sample_id, absolute_filepath in sorted_manifest.items():
            manifest_w.write(f"{sample_id}\t{absolute_filepath}\n")
        print(f"manifest.tsv already generate in {os.getcwd()}")
else:
    sys.exit("ERROR: Please set tails.")

透過`head -n 10`來查看metadata前十行內容:

In [26]:
!head -n 10 manifest.tsv

sample-id	absolute-filepath
recip.220.WT.OB1.D7	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.220.WT.OB1.D7.fastq.gz
recip.290.ASO.OB2.D1	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.290.ASO.OB2.D1.fastq.gz
recip.389.WT.HC2.D21	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.389.WT.HC2.D21.fastq.gz
recip.391.ASO.PD2.D14	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.391.ASO.PD2.D14.fastq.gz
recip.391.ASO.PD2.D21	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.391.ASO.PD2.D21.fastq.gz
recip.391.ASO.PD2.D7	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.391.ASO.PD2.D7.fastq.gz
recip.400.ASO.HC2.D14	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.400.ASO.HC2.D14.fastq.gz
recip.401.ASO.HC2.D7	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.401.ASO.HC2.D7.fastq.gz
recip.403.ASO.PD2.D21	/home/s4107037054/HMP_project/mouse_tutorial/seqsrecip.403.ASO.PD2.D21.fastq.gz


**columns**包含，樣本名稱(sample-id)對應metadata的sample-name，以及序列原始檔案的**絕對路徑**(absolute-filepath)，指定文件的**完整**位置。在這裡使用`$PWD`變數，它包含了當前目錄的完整路徑。

- [QIIME2官方文件說明](https://docs.qiime2.org/2023.5/tutorials/importing/#fastq-manifest-formats)

## (3). **Metadata:** 註釋資料 metadata.tsv
metadata記錄了實驗各樣本之不同特徵。透過`wget`下載本教學使用之metadata，並檢視其內容。先做好manifest，可以再用excel編輯metadata.tsv，比較方便一些

In [6]:
!wget \
-O "metadata.tsv" \
"https://data.qiime2.org/2023.5/tutorials/pd-mice/sample_metadata.tsv" 

--2023-08-24 09:17:04--  https://data.qiime2.org/2023.5/tutorials/pd-mice/sample_metadata.tsv
Resolving lgn304-v304 (lgn304-v304)... 172.17.26.4
Connecting to lgn304-v304 (lgn304-v304)|172.17.26.4|:53128... connected.
Proxy request sent, awaiting response... 302 FOUND
Location: https://docs.google.com/spreadsheets/d/e/2PACX-1vQH04jrXQddOv0QPkk6_9-kwiNYfbdcCmh4nX79RnfIOqtC-VVIWrEh2Pkl9y49JHb6Oy2a2390-oKL/pub?gid=1509704122&single=true&output=tsv [following]
--2023-08-24 09:17:04--  https://docs.google.com/spreadsheets/d/e/2PACX-1vQH04jrXQddOv0QPkk6_9-kwiNYfbdcCmh4nX79RnfIOqtC-VVIWrEh2Pkl9y49JHb6Oy2a2390-oKL/pub?gid=1509704122&single=true&output=tsv
Connecting to lgn304-v304 (lgn304-v304)|172.17.26.4|:53128... connected.
Proxy request sent, awaiting response... 307 Temporary Redirect
Location: https://doc-0k-60-sheets.googleusercontent.com/pub/54bogvaave6cua4cdnls17ksc4/jgtral1je142hm4ph8pbrcgug8/1692839825000/105250506097979753968/*/e@2PACX-1vQH04jrXQddOv0QPkk6_9-kwiNYfbdcCmh4nX79RnfIOq

- `wget ...`: 從指定的 URL 下載文件
- `\`: 當命令分成多行時，指示shell指令接續下一行執行
- `-O ...`: 檔案output位置，輸出在當前目錄則只需命名檔案名稱即可

下一步，檢視metadata的內容，對接下來的分析流程至關重要，這裡將使用到qiime2的指令，產出`metadata.qzv`。

In [8]:
!qiime metadata tabulate \
--m-input-file metadata.tsv \
--o-visualization qzv/metadata.qzv

[32mSaved Visualization to: metadata.qzv[0m
[0m

- `qiime metadata tabulate`: 用於將輸入資料進行整理和視覺化。
- `--m-input-file ...`: metadata.tsv之路徑，因為當前目錄跟檔案路徑是同樣的，因此輸入檔案名稱即可。
- `--o-visualization ...`: metadata.qzv輸出路徑。

執行完以上指令後會產生output在當前目錄下，輸出檔案為`qzv`檔，可上傳至[Qiime2 view](https://view.qiime2.org/)視覺化。

或是透過head -n 10來查看metadata前十行內容:

In [25]:
!head -n 10 metadata.tsv

sample_name	barcode	mouse_id	genotype	cage_id	donor	donor_status	days_post_transplant	genotype_and_donor_status
#q2:types		categorical	categorical	categorical	categorical	categorical	numeric	categorical
recip.220.WT.OB1.D7	CCTCCGTCATGG	457	wild type	C35	hc_1	Healthy	49	wild type and Healthy
recip.290.ASO.OB2.D1	AACAGTAAACAA	456	susceptible	C35	hc_1	Healthy	49	susceptible and Healthy
recip.389.WT.HC2.D21	ATGTATCAATTA	435	susceptible	C31	hc_1	Healthy	21	susceptible and Healthy
recip.391.ASO.PD2.D14	GTCAGTATGGCT	435	susceptible	C31	hc_1	Healthy	14	susceptible and Healthy
recip.391.ASO.PD2.D21	AGACAGTAGGAG	437	susceptible	C31	hc_1	Healthy	21	susceptible and Healthy
recip.391.ASO.PD2.D7	GGTCTTAGCACC	435	susceptible	C31	hc_1	Healthy	7	susceptible and Healthy
recip.400.ASO.HC2.D14	CGTTCGCTAGCC	437	susceptible	C31	hc_1	Healthy	14	susceptible and Healthy
recip.401.ASO.HC2.D7	ATTTACAATTGA	437	susceptible	C31	hc_1	Healthy	7	susceptible and Healthy


**columns**儲存了樣本名稱(sample_name)，barcode，實驗小鼠編號(mouse_id)，基因型(genotype)，籠子編號(cage_id)，菌相來源(donor)，人類健康狀態(donor_status)，微生物菌相移植天數(days_post_transplant)，小鼠基因型與人類健康狀態(genotype_and_donor_status)。**row 2**紀錄每個特徵的屬性，樣本名稱(column 1)會用`#q2:types`表示，其餘的依照類別型(categorical)或數值型(numeric)進行分類。接著每個row代表一個樣本。

準備好以下檔案，接著可以開始分析了:
- 原始序列檔案(.fastq.gz)
- manifest.tsv
- metadata.tsv

# **進入qiime2分析**

# 輸入序列原始資料，存成qza格式
`qza`: qiime2中儲存資料的格式，進行任何分析時input皆為qza。在qiime2中，所有的資料都以特定[語義類型(Semantic types)](https://docs.qiime2.org/2023.5/semantic-types/)的Artifact儲存，並且分析。
`qza`: 與qza對應的格式，供人類觀看的視覺化檔案，可上傳至[qiime2 view](https://view.qiime2.org/)察看結果。

將將序列作為`SampleData[SequencesWithQuality]`進行導入，這是已解褶的單端序列格式。如果我們想導入成對序列(paired-end)，則需要指定語義類型(Semantic types)`SampleData[PairedEndSequencesWithQuality]`。

In [29]:
!qiime tools import \
--type "SampleData[SequencesWithQuality]" \
--input-format SingleEndFastqManifestPhred33V2 \
--input-path ./manifest.tsv \
--output-path ./qza/demux_seqs.qza

[32mImported ./manifest.tsv as SingleEndFastqManifestPhred33V2 to ./demux_seqs.qza[0m
[0m

- `qiime tools import`: 使用此命令將資料輸入。可以指定`--help`來查看詳細使用方法。
- `--type ...`: artifact的Semantic type，若想輸入成對序列，則指定SampleData[PairedEndSequencesWithQuality]。
- `--input-format ...`: FASTQ 格式中的序列品值編碼方式，比較常見的為`Phred33V2`，其次還有`Phred64V2`，其中`V2`代表第二版。若原始資料為成對序列並以Phred64V2進行編碼，則指定`PairedEndFastqManifestPhred64V2`。
- `--input-path ...`: manifest之檔案路徑，`./`表示當前目錄。
- `--output-path ...`: qza檔案輸出位置，這裡我們設定輸出在當前目錄下，並命名為`demux_seqs.qza`。

In [31]:
!qiime tools import --help

Usage: [94mqiime tools import[0m [OPTIONS]

  Import data to create a new QIIME 2 Artifact. See https://docs.qiime2.org/
  for usage examples and details on the file types and associated semantic
  types that can be imported.

[1mOptions[0m:
  [94m[4m--type[0m TEXT             The semantic type of the artifact that will be
                          created upon importing. Use --show-importable-types
                          to see what importable semantic types are available
                          in the current deployment.                [35m[required][0m
  [94m[4m--input-path[0m PATH       Path to file or directory that should be imported.
                                                                    [35m[required][0m
  [94m[4m--output-path[0m ARTIFACT  Path where output artifact should be written.
                                                                    [35m[required][0m
  [94m--input-format[0m TEXT     The format of the data to be imported.

接著可以透過`qiime demux summarize`命令來檢查序列以及樣本的测序深度(sequencing depth)。該命令會提供每個樣本中序列的數量信息，以及序列的品質(quality score)。

In [38]:
!qiime demux summarize \
--i-data ./qza/demux_seqs.qza \
--p-n 20000 \
--o-visualization ./qzv/demux_seqs.qzv

[32mSaved Visualization to: ./demux_seqs.qzv[0m
[0m

- `--i-data ...`: demux_seqs.qza之檔案路徑。
- `--p-n ...`: 指定要從所有序列中隨機選擇的序列數量，預設為10000。選中的序列用以生成序列品質分數圖(quality plot)。
- `--o-visualization ...`: qzv檔案輸出位置，命名為demux_seqs.qzv。

In [35]:
!qiime demux summarize --help

Usage: [94mqiime demux summarize[0m [OPTIONS]

  Summarize counts per sample for all samples, and generate interactive
  positional quality plots based on `n` randomly selected sequences.

[1mInputs[0m:
  [94m[4m--i-data[0m ARTIFACT [32mSampleData[SequencesWithQuality |[0m
    [32mPairedEndSequencesWithQuality | JoinedSequencesWithQuality][0m
                       The demultiplexed sequences to be summarized.
                                                                    [35m[required][0m
[1mParameters[0m:
  [94m--p-n[0m INTEGER        The number of sequences that should be selected at
                       random for quality score plots. The quality plots will
                       present the average positional qualities across all of
                       the sequences selected. If input sequences are paired
                       end, plots will be generated for both forward and
                       reverse reads for the same `n` sequences.
             

從`demux_seqs.qzv`的quality plot可以判斷序列的整體品質分布，並**決定是否要進行修剪(trimmed)，從哪個位置(position)進行修剪。**將鼠標移動到box顯示該position的seven-number summary。通常定序剛開始與結束的兩端品質都會比較差，若序列頭尾品質低於20可以考慮切除。

Q = -10log10p（p表示測序的錯誤率，Q表示鹼基質量分數）

- Q Value,正確率,錯誤率
- 10, 90%, 10%
- 20, 99%, 1%
- 30, 99.9%, 0.1%

![demux_qzv.png](attachment:949a5aee-adf5-470b-9f1d-4b30f669c3c2.png)

# 序列品質控制(DADA2)
序列品質控制，去除低品質序列，將使用DADA2套件，將序列進行修剪 (trimming)、過濾 (filters)、降躁 (denoises)、合併 (merge)、去除重疊 (dereplicates)。由於上圖quality plot顯示在任何position，Q value幾乎皆大於20，定序品質良好，因此保留完整序列(150 bases)。

- [DADA2品質控管方式](https://ithelp.ithome.com.tw/articles/10296865)

In [39]:
%%bash 
# 由於在國網筆記本的notebook環境下，
# 變數$CONDA_PREFIX是/work/u00cjz00/share/miniconda3_py38且不能更動
# 因此透過在cell中開啟新的bash shell並啟動HMP_project環境
# $CONDA_PREFIX在這個cell中就會是~/.conda/envs/HMP_project
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate HMP_project 
#__若是直接在國網筆記本下的terminal執行，則只要輸入下方指令________

qiime dada2 denoise-single \
--i-demultiplexed-seqs ./qza/demux_seqs.qza \
--p-trunc-len 150 \
--p-trim-left 0 \
--o-denoising-stats ./qza/dada2_stats.qza \
--o-table ./qza/dada2_table.qza \
--o-representative-sequences ./qza/dada2_rep_set.qza

[32mSaved FeatureTable[Frequency] to: ./dada2_table.qza[0m
[32mSaved FeatureData[Sequence] to: ./dada2_rep_set.qza[0m
[32mSaved SampleData[DADA2Stats] to: ./dada2_stats.qza[0m
[0m

- `%bash`: 表示notebook中這個cell透過bash shell執行。

經過品質控管後，將相同的序列分成一組ASV，並從各ASVs選出一條代表該群的序列(Representative sequences)，並給予一串編號稱為(Feature ID)。與傳統OTU利用序列相似性進行類聚不同的是，ASV以更高的分辨率，更準確地表示不同的微生物群落成分。
- `qiime dada2 denoise-single`: 單尾定序品質控管指令，輸出三個qza檔案；雙尾定序`qiime dada2 denoise-paired`。
- `--i-demultiplexed-seqs ...`: 輸入之ARTIFACT路徑。
- `--p-trunc-len ...`: 序列剪切後的總長度，若單一序列低於此設定長度則捨棄這一序列。
- `--p-trim-left 0 ...`: 序列起始端切多少，預設是0。
- `--o-denoising-stats ...`: 輸出檔案位置，使用dada2各個階段控制序列的簡單統計(statistics)。檢查各個控管階段有無不尋常的篩選掉大量序列，以評估是否剪切過多。
- `--o-table ...`: dada2處理後之特徵表(feature table)，包含了每個樣本中的微生物特徵（如ASVs或OTUs）的計數信息，以Feature ID表示，描述了這些特徵在不同樣本中的存在。特徵表對於後續的微生物群落分析非常重要，它可以被用來比較不同樣本之間的微生物組成，進行多樣性分析。
- `--o-representative-sequences ...`: 各個Feature ID所對應的代表序列(representative sequences)

其他詳細參數設定介紹如下:

In [47]:
!qiime dada2 denoise-single --help
# !qiime dada2 denoise-paired --help

Usage: [94mqiime dada2 denoise-single[0m [OPTIONS]

  This method denoises single-end sequences, dereplicates them, and filters
  chimeras.

[1mInputs[0m:
  [94m[4m--i-demultiplexed-seqs[0m ARTIFACT [32mSampleData[SequencesWithQuality |[0m
    [32mPairedEndSequencesWithQuality][0m
                         The single-end demultiplexed sequences to be
                         denoised.                                  [35m[required][0m
[1mParameters[0m:
  [94m[4m--p-trunc-len[0m INTEGER  Position at which sequences should be truncated due
                         to decrease in quality. This truncates the 3' end of
                         the of the input sequences, which will be the bases
                         that were sequenced in the last cycles. Reads that
                         are shorter than this value will be discarded. If 0
                         is provided, no truncation or length filtering will
                         be performed                 

將三個輸出的qza轉成qzv以視覺化。

In [48]:
!qiime metadata tabulate \
--m-input-file ./qza/dada2_stats.qza  \
--o-visualization ./qzv/dada2_stats.qzv

[32mSaved Visualization to: ./dada2_stats.qzv[0m
[0m

![dada2stats.png](attachment:a8c189e0-ea4c-49bb-9478-1ebf263e1565.png)

`qiime metadata tabulate ...`: 表格化統計結果。input 輸入數據；filtered 過濾後的數據；denoised 去噪後的數據；non-chimeric 去除嵌合體後的數據

In [49]:
!qiime feature-table summarize \
--i-table ./qza/dada2_table.qza \
--m-sample-metadata-file ./metadata.tsv \
--o-visualization ./qzv/dada2_table.qzv

[32mSaved Visualization to: ./dada2_table.qzv[0m
[0m

顯示特徵表(feeature)的統計結果，進一步查看每個樣本的品質控管後的特徵量，和每個特徵的頻率和其在樣本中出現的次數。
![feature_table.png](attachment:6d9a9079-1087-450f-87ba-d6a87afa2408.png)

In [52]:
!qiime feature-table tabulate-seqs \
--i-data qza/dada2_rep_set.qza \
--o-visualization qzv/dada2_rep_set.qzv

[32mSaved Visualization to: dada2_rep_set.qzv[0m
[0m

Feature ID之代表序列
![rep_seq.png](attachment:81a787ed-2aaa-4802-acdb-f2092d077844.png)

# 物種分類(Taxonomy assignment)
使用機器學習分類器進行物種分類(Taxonomy assignment):
- 分類器(classifier): 用以分類菌種之機器學習模型。
- 微生物序列資料庫(microbiota database): 用以訓練分類器之資料來源。常見的微生物資料庫，分別是 Greegenes, SILVA 和 RDP 。下圖節自: https://ithelp.ithome.com.tw/articles/10298358
![DATABASES.png](attachment:6e4d9494-9e74-4447-91f1-b150052bf315.png)
- 已訓練的分類器: 通常會有訓練好的分類器模型可直接使用。[QIIME2: Data resources](https://docs.qiime2.org/2023.5/data-resources/#taxonomy-classifiers-for-use-with-q2-feature-classifier)

本次分析之序列為16S V4，將使用qiime2提供之[Silva 138 99% OTUs from 515F/806R region of sequences](https://data.qiime2.org/2023.5/common/silva-138-99-515-806-nb-classifier.qza)分類器，透過`wget`下載分類器，並命名為`silva-V4-nb-classifier.qza`。

In [53]:
!wget \
-O "qza/silva-V4-nb-classifier.qza" \
"https://data.qiime2.org/2023.5/common/silva-138-99-515-806-nb-classifier.qza"

--2023-08-13 16:24:45--  https://data.qiime2.org/2023.5/common/silva-138-99-515-806-nb-classifier.qza
Resolving lgn304-v304 (lgn304-v304)... 172.17.26.4
Connecting to lgn304-v304 (lgn304-v304)|172.17.26.4|:53128... connected.
Proxy request sent, awaiting response... 302 FOUND
Location: https://s3-us-west-2.amazonaws.com/qiime2-data/2023.5/common/silva-138-99-515-806-nb-classifier.qza [following]
--2023-08-13 16:24:46--  https://s3-us-west-2.amazonaws.com/qiime2-data/2023.5/common/silva-138-99-515-806-nb-classifier.qza
Connecting to lgn304-v304 (lgn304-v304)|172.17.26.4|:53128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 148294965 (141M) [binary/octet-stream]
Saving to: 'silva-V4-nb-classifier.qza'


2023-08-13 16:25:10 (6.00 MB/s) - 'silva-V4-nb-classifier.qza' saved [148294965/148294965]



In [54]:
!qiime feature-classifier classify-sklearn \
--i-classifier qza/silva-V4-nb-classifier.qza \
--i-reads qza/dada2_rep_set.qza \
--o-classification qza/taxonomy.qza

[32mSaved FeatureData[Taxonomy] to: taxonomy.qza[0m
[0m

- `qiime feature-classifier classify-sklearn`: 透過分類器對representive sequences進行分類之指令。
- `--i-classifier ...`: 分類器檔案位置。
- `--i-reads ...`: representive sequences之檔案位置。
- `--o-classification ...`: 輸出結果taxonomy.qza。

其他可調整參數如下，除上述以外都用預設的即可。

In [57]:
!qiime feature-classifier classify-sklearn --help

Usage: [94mqiime feature-classifier classify-sklearn[0m [OPTIONS]

  Classify reads by taxon using a fitted classifier.

[1mInputs[0m:
  [94m[4m--i-reads[0m ARTIFACT [32mFeatureData[Sequence][0m
                         The feature data to be classified.         [35m[required][0m
  [94m[4m--i-classifier[0m ARTIFACT
    [32mTaxonomicClassifier[0m  The taxonomic classifier for classifying the reads.
                                                                    [35m[required][0m
[1mParameters[0m:
  [94m--p-reads-per-batch[0m VALUE [32mInt % Range(1, None) | Str % Choices('auto')[0m
                         Number of reads to process in each batch. If "auto",
                         this parameter is autoscaled to min( number of query
                         sequences / [4mn-jobs[0m, 20000).         [35m[default: 'auto'][0m
  [94m--p-n-jobs[0m INTEGER     The maximum number of concurrently worker processes.
                         If -1 all CPUs are u

將分類結果比格化輸出，同樣上傳至[qiime2 view](https://view.qiime2.org/)察看結果。

In [60]:
!qiime metadata tabulate \
--m-input-file qza/taxonomy.qza \
--o-visualization qzv/taxonomy.qzv

[32mSaved Visualization to: taxonomy.qzv[0m
[0m

![taxo.qzv.png](attachment:2aa867cd-8ca4-448d-86f6-8d50dce2133c.png)
Taxon 呈現各階層的分類結果 (界d 門p 綱c 目o 科f 屬g 種s)，若是出現許多顯示 Unassigned 或多數無法到 G (Genus) / S (Species)，
就要考慮分類器是否合適。由於使用16S V4定序，片段較短，許多分類結果只能達到G階層。

# 分類柱狀圖

In [63]:
!qiime taxa barplot \
--i-table qza/dada2_table.qza \
--i-taxonomy qza/taxonomy.qza \
--m-metadata-file metadata.tsv \
--o-visualization qzv/taxa-bar-plots.qzv

[32mSaved Visualization to: taxa-bar-plots.qzv[0m
[0m

- `qiime taxa barplot`: 繪製分類柱狀圖指令
- `--i-table ...`: 輸入之feature table qza檔案位置
- `--i-taxonomy ...`: 輸入之taxonomy.qza檔案位置
- `--m-metadata-file ...`: 輸入之metadata位置
- `--o-visualization ...`: 輸出之taxa-bar-plots.qzv位置

其他詳細介紹如下:

In [64]:
!qiime taxa barplot --help

Usage: [94mqiime taxa barplot[0m [OPTIONS]

  This visualizer produces an interactive barplot visualization of taxonomies.
  Interactive features include multi-level sorting, plot recoloring, sample
  relabeling, and SVG figure export.

[1mInputs[0m:
  [94m[4m--i-table[0m ARTIFACT [32mFeatureTable[Frequency | PresenceAbsence][0m
                         Feature table to visualize at various taxonomic
                         levels.                                    [35m[required][0m
  [94m--i-taxonomy[0m ARTIFACT [32mFeatureData[Taxonomy][0m
                         Taxonomic annotations for features in the provided
                         feature table. All features in the feature table must
                         have a corresponding taxonomic annotation. Taxonomic
                         annotations that are not present in the feature table
                         will be ignored. If no taxonomy is provided, the
                         feature IDs will be used

分類柱狀圖之qiime2 view顯示結果:
![tarbox_naviget.png](attachment:1b3ca9dd-9547-4329-b71b-636359217ad5.png)
- **Download**可選擇資料之下載方式，圖片(柱狀圖bar or 資料標籤legand)或是csv(儲存不同樣本之metadata及在特定分類層級下，各微生物出現頻率)。
- **Bar Width**可調整每個bar的寬度。
- **Taxomic Level**可選擇繪製之分類層級(界1 門2 綱3 目4 科5 屬6 種7)。
- **Color Palette**可選擇bar繪製顏色。
- **Sort Sample By**可選擇樣本依照metadata分類之排序依據。
![tarbox_plot.png](attachment:c20f1a51-5c77-46a9-9e44-ea7b4b23662e.png)
不同樣本之分類柱狀圖，顯示不同樣本之微生物相對頻率(Relative Frequency)，也可以想成是微生物於樣本中之相對豐度(Relative Abundence)。顏色代表微生物分類，分類層級將依照使用者自行選擇進行繪製(這邊是選擇level 4 目)，鼠標移動至柱狀圖上將顯示詳細微生物在樣本中佔比於圖片左上角。

# 互動式動態分類圓餅圖(korna)
將使用korna套件繪製圓餅圖，需另外透過conda安裝`krona`，若是照著前面流程下來則conda的krona已安裝完畢。
```
conda install -c bioconda krona
```
不過還需要透過pip安裝q2-krona方得使用:

In [None]:
%%bash 
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate HMP_project 
pip install git+https://github.com/kaanb93/q2-krona.git

In [67]:
%%bash 
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate HMP_project 

qiime krona collapse-and-plot \
--i-table qza/dada2_table.qza \
--i-taxonomy qza/taxonomy.qza \
--o-krona-plot qzv/krona.qzv

[32mSaved Visualization to: krona.qzv[0m
[0m

- `qiime krona collapse-and-plot`: 繪製動態分類圓餅圖指令
- `--i-table ...`: 輸入之feature table qza檔案位置
- `--i-taxonomy ...`: 輸入之taxonomy.qza檔案位置
- `--o-krona-plot ...`: 輸出之krona.qzv位置

其他詳細介紹如下:

In [68]:
!qiime krona collapse-and-plot --help

Usage: [94mqiime krona collapse-and-plot[0m [OPTIONS]

  Generate Krona plot from feature table by collapsing to specified level.

[1mInputs[0m:
  [94m[4m--i-table[0m ARTIFACT [32mFeatureTable[Frequency][0m
                          Feature table containing the frequencies. [35m[required][0m
  [94m[4m--i-taxonomy[0m ARTIFACT [32mFeatureData[Taxonomy][0m
                                                                    [35m[required][0m
[1mParameters[0m:
  [94m--p-level[0m INTEGER       The taxonomic level at which the features should be
                          collapsed.                              [35m[default: 7][0m
  [94m--p-delimiter[0m TEXT      Delimiter character used in taxonomy file.
                                                                [35m[default: ';'][0m
[1mOutputs[0m:
  [94m[4m--o-krona-plot[0m VISUALIZATION
                          Visualizer of Krona plots.                [35m[required][0m
[1mMiscellaneous[0m:
  [94m

將krona.qzv上傳至[Qiime2 view](https://view.qiime2.org/)
圓餅圖表示單一樣本中微生物在不同階層之分布，可以透過鼠標按住並滑動來觀察特定分類階層下的詳細分類。最內層代表界層級之分類，最外圍則為種層級之分類(根據taxonamy之分類解析度，最外層不一定是種)。
![korna.png](attachment:64e1ffdf-ffa7-4ff1-aab4-06aa77aaed83.png)

# 繪製熱圖


# 繪製親緣樹(phylogenetic tree)
可分為**rooted tree**以及**unrooted tree**，兩者最大差別是在，有根樹之所有物種起源皆自同一個點，可看出演化方向性，適合應用在觀察演化過程與不同物種之演化關係。無根樹則無定義出演化的方向與路徑，著重在分類群之間的關係。繪製親緣樹之目的除了可供視覺化參考外，後續多樣性分析時，部分指標會需要用到rooted tree來考慮菌種間之親緣關係(如:  Faith’s Phylogenetic Diversity和UniFrac distance)

樹的製作主要可分為兩種方法:
- [**fragment-insertion**](https://docs.qiime2.org/2023.5/tutorials/pd-mice/#generating-a-phylogenetic-tree-for-diversity-analysis): 將representative sequences依照序列插入已知之參考親緣樹中，需要處理未分類序列的插入，這可能需要更多的計算和時間成本。
- [**align-to-tree**](https://docs.qiime2.org/2022.8/tutorials/moving-pictures/#generate-a-tree-for-phylogenetic-diversity-analyses): 將序列進行alignment，接著透過遮罩（masks ），去除高度變異的位置，最後使用特定方法繪製親緣樹，這裡所使用的是`FastTree `。

qiime2官方教學文件解釋，通過將序列alignment至由較大序列構建之參考樹，fragment-insertion在對短片段 Illumina 序列進行親緣樹繪製時可能會比傳統的基於序列比對的方法表現更好，雖然這可能會花費更多的計算資源。若您是使用國網HPC環境進行操作，不必特別擔心計算資源的問題，因此這邊將使用fragment-insertion方法繪製親緣樹(將輸出rooted tree)。

首先透過`wget`下載參考樹。

In [72]:
!wget \
-O "qza/sepp-refs-gg-13-8.qza" \
"https://data.qiime2.org/2023.5/common/sepp-refs-gg-13-8.qza"

--2023-08-14 09:54:59--  https://data.qiime2.org/2023.5/common/sepp-refs-gg-13-8.qza
Resolving lgn304-v304 (lgn304-v304)... 172.17.26.4
Connecting to lgn304-v304 (lgn304-v304)|172.17.26.4|:53128... connected.
Proxy request sent, awaiting response... 302 FOUND
Location: https://s3-us-west-2.amazonaws.com/qiime2-data/2023.5/common/sepp-refs-gg-13-8.qza [following]
--2023-08-14 09:55:00--  https://s3-us-west-2.amazonaws.com/qiime2-data/2023.5/common/sepp-refs-gg-13-8.qza
Connecting to lgn304-v304 (lgn304-v304)|172.17.26.4|:53128... connected.
Proxy request sent, awaiting response... 200 OK
Length: 50161069 (48M) [binary/octet-stream]
Saving to: 'sepp-refs-gg-13-8.qza'


2023-08-14 09:55:04 (13.7 MB/s) - 'sepp-refs-gg-13-8.qza' saved [50161069/50161069]



In [71]:
!nproc

18


In [75]:
%%bash 
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate HMP_project 

qiime fragment-insertion sepp \
--i-representative-sequences ./qza/dada2_rep_set.qza \
--i-reference-database qza/sepp-refs-gg-13-8.qza \
--o-tree ./qza/rooted_tree.qza \
--o-placements ./qza/tree_placements.qza \
--p-threads 18

[32mSaved Phylogeny[Rooted] to: ./rooted_tree.qza[0m
[32mSaved Placements to: ./tree_placements.qza[0m
[0m

可將其繪製好之親緣樹同其他qza如taxonomy.qza, dada2_rep_set.qza, dada2_table.qza上傳至[iTOL](https://itol.embl.de/upload.cgi)視覺化觀察。

[中文iTOL詳細使用介紹](https://ithelp.ithome.com.tw/articles/10300082)，[iTOL官方使用教學影片](https://itol.embl.de/video_tutorial.cgi#)
- `qiime fragment-insertion sepp`: 透過sepp方法進行fragment-insertion之指令
- `--i-representative-sequences ...`: 輸入之representative sequences qza檔案位置
- `--i-reference-database ...`: 輸入之參考樹位置
- `--o-tree ...`: 輸出之tree位置及名稱
- `--o-placements ...`: 輸出插入結果之文件。
- `--p-threads ...`: 使用之CPU核心數量，可透過`nproc`查詢最大CPU可使用量。

詳細指令使用方法如下:

In [70]:
!qiime fragment-insertion sepp --help

Usage: [94mqiime fragment-insertion sepp[0m [OPTIONS]

  Perform fragment insertion of sequences using the SEPP algorithm.

[1mInputs[0m:
  [94m[4m--i-representative-sequences[0m ARTIFACT [32mFeatureData[Sequence][0m
                       The sequences to insert into the reference tree.
                                                                    [35m[required][0m
  [94m[4m--i-reference-database[0m ARTIFACT [32mSeppReferenceDatabase[0m
                       The reference database to insert the representative
                       sequences into.                              [35m[required][0m
[1mParameters[0m:
  [94m--p-alignment-subset-size[0m INTEGER
                       Each placement subset is further broken into subsets
                       of at most these many sequences and a separate HMM is
                       trained on each subset.                 [35m[default: 1000][0m
  [94m--p-placement-subset-size[0m INTEGER
                      

# Alpha多樣性之稀疏曲線(rarefaction curve)繪製
有了各樣本之ASVs資訊(feature table)和各ASVs間的親緣關係(phylogenetic tree)，那可以準備進行多樣性分析了。不過考慮到不同樣本的測序深度不一樣，進行多樣性分析前，需先對各樣本進行正規化(normalization)，方能比較不同樣本之間多樣性之差異，這邊將透過繪製**稀疏曲線(rarefaction curve)**，來選擇各樣本進行後續多樣性分析之**取樣深度(Sampling Depth)進行標準化。**

多樣性分析分為alpha多樣性以及beta多樣性，[alpha多樣性](https://highscope.ch.ntu.edu.tw/wordpress/?p=63470)其計算結果**反映的是單一樣本(或一組樣本)內之多樣性**，不涉及個體間的比較，如物種豐富度richness、物種均勻度evenness等；而[Beta多樣性](https://summer-inequality.blogspot.com/2019/02/beta-diversity.html)分析，則是屬於組間比較(計算兩組之間菌種分布差異程度)，如bray curtis、jaccard、unifrac等。

In [81]:
%%bash 
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate HMP_project 

qiime diversity alpha-rarefaction \
--i-table ./qza/dada2_table.qza \
--i-phylogeny qza/rooted_tree.qza \
--m-metadata-file ./metadata.tsv \
--o-visualization ./qzv/alpha_rarefaction_curves.qzv \
--p-min-depth 1 \
--p-max-depth 4996

[32mSaved Visualization to: ./alpha_rarefaction_curves.qzv[0m
[0m

- `qiime diversity alpha-rarefaction`: 繪製alpha rarefaction之指令。
- `--i-table ...`: 輸入之feature table qza檔案位置。
- `--i-phylogeny ...`: 輸入之rooted tree qza檔案位置，有輸入親緣樹才能計算Faith’s Phylogenetic Diversity。
- `--m-metadata-file ...`: 輸入之metadata之位置。
- `--o-visualization ...`: 輸出之qzv結果位置。
- `--p-min-depth ...`: 繪製稀疏曲線之最小測序深度，預設為1。
- `--p-max-depth ...`: 繪製稀疏曲線之最大測序深度，可以查看feature table qzv設定樣本之最大測序深度(此範例為4996)。

In [76]:
!qiime diversity alpha-rarefaction --help

Usage: [94mqiime diversity alpha-rarefaction[0m [OPTIONS]

  Generate interactive alpha rarefaction curves by computing rarefactions
  between `min_depth` and `max_depth`. The number of intermediate depths to
  compute is controlled by the `steps` parameter, with n `iterations` being
  computed at each rarefaction depth. If sample metadata is provided, samples
  may be grouped based on distinct values within a metadata column.

[1mInputs[0m:
  [94m[4m--i-table[0m ARTIFACT [32mFeatureTable[Frequency][0m
                          Feature table to compute rarefaction curves from.
                                                                    [35m[required][0m
  [94m--i-phylogeny[0m ARTIFACT  Optional phylogeny for phylogenetic metrics.
    [32mPhylogeny[Rooted][0m                                               [35m[optional][0m
[1mParameters[0m:
  [94m[4m--p-max-depth[0m INTEGER   The maximum rarefaction depth. Must be greater than
    [32mRange(1, None)[0m    

![rarefaction_naviget.png](attachment:73002b6b-9ced-46ea-8def-9bfea6da1f15.png)
- **Metrix**: 可以選擇顯示之Alpha多樣性指標，樣本中**觀察到物種數量observed_features**在特定採樣深度下，觀察到的AVSs數量；**香農多樣性指數shannon和系統發育多樣性faith_pd**，皆為多樣性指數，計算時考量到樣本之物種豐富度(Richness)以及均勻度(evenness)，差別在於計算faith_pd時有考慮到物種間親緣關係(phylogenetic tree)。
- **Sample Metadata Column**: 繪製稀疏曲線樣本分組方式。
![rarefaction_plot.png](attachment:19a0fe15-639f-460f-b262-16836076eb03.png)
**圖一:**
- **X軸**: 採樣深度(Sampling Depth)
- **Y軸**: 多樣性指標。
透過稀疏曲線可以確認樣本中的序列數是否足夠代表整個樣本。取樣深度代表每一輪無放回抽樣時所取出的菌種觀察值數量，隨著採樣深度提高，Y軸之多樣性指標也趨於飽和（即斜率接近於零），即可以推論樣本中的序列數足夠代表整個樣本。
![rarefaction_plot2.png](attachment:02b81878-3ca4-4ee7-b1e6-6fa0b6b2bf28.png)
**圖二:**
顯示了每個取樣深度下每個分組的樣本數。這有助於確定樣本損失的取樣深度。

**選擇稀釋深度是在最小化序列損失(圖二觀察樣本損失量)的同時，最大化保留用於多樣性分析的序列(圖一確定取樣深度是否足以代表整個樣本)。**我們將使用每個樣本2000個序列的取樣深度進行分析。

In [82]:
%%bash 
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate HMP_project 

qiime diversity core-metrics-phylogenetic \
--i-table ./qza/dada2_table.qza \
--i-phylogeny ./qza/rooted_tree.qza \
--m-metadata-file ./metadata.tsv \
--p-sampling-depth 2000 \
--output-dir ./core-metrics-results

[32mSaved FeatureTable[Frequency] to: ./core-metrics-results/rarefied_table.qza[0m
[32mSaved SampleData[AlphaDiversity] to: ./core-metrics-results/faith_pd_vector.qza[0m
[32mSaved SampleData[AlphaDiversity] to: ./core-metrics-results/observed_features_vector.qza[0m
[32mSaved SampleData[AlphaDiversity] to: ./core-metrics-results/shannon_vector.qza[0m
[32mSaved SampleData[AlphaDiversity] to: ./core-metrics-results/evenness_vector.qza[0m
[32mSaved DistanceMatrix to: ./core-metrics-results/unweighted_unifrac_distance_matrix.qza[0m
[32mSaved DistanceMatrix to: ./core-metrics-results/weighted_unifrac_distance_matrix.qza[0m
[32mSaved DistanceMatrix to: ./core-metrics-results/jaccard_distance_matrix.qza[0m
[32mSaved DistanceMatrix to: ./core-metrics-results/bray_curtis_distance_matrix.qza[0m
[32mSaved PCoAResults to: ./core-metrics-results/unweighted_unifrac_pcoa_results.qza[0m
[32mSaved PCoAResults to: ./core-metrics-results/weighted_unifrac_pcoa_results.qza[0m
[32mSave

- `qiime diversity core-metrics-phylogenetic`: 繪製alpha rarefaction之指令。
- `--i-table ...`: 輸入之feature table qza檔案位置。
- `--i-phylogeny ...`: 輸入之rooted tree qza檔案位置，有輸入親緣樹才能計算Faith’s Phylogenetic Diversity。
- `--m-metadata-file ...`: 輸入之metadata之位置。
- `--p-sampling-depth ...`: 取樣深度。
- `--output-dir ...`: 將所有結果輸出成一個資料夾。

輸出結果:
- Alpha diversity:
    1. Observed Features
    2. Shannon’s diversity index
    3. Faith’s phylogenetic diversity
    以上三種Alpha diversity的視覺化需另外再輸入指令。
- Beta diversity:
    1. Jaccard: 只比較兩群集共有物種的數量(richness)。
    2. Bray-Curtis: 考量物種組成(richness)也採計了各物種的數量(abundence)。
    3. UniFrac: 特定群集在系統發生樹上獨佔節點的比率，是評估群集間物種親緣關係的多樣性指標，又分為weighted和unweighted，對應是否採計族群規模進行加權。
    
    以上三種Beta diversity指標的視覺化結果可分為distance和pcoa(以emperor呈現)。

In [87]:
!qiime diversity core-metrics-phylogenetic --help

Usage: [94mqiime diversity core-metrics-phylogenetic[0m [OPTIONS]

  Applies a collection of diversity metrics (both phylogenetic and non-
  phylogenetic) to a feature table.

[1mInputs[0m:
  [94m[4m--i-table[0m ARTIFACT [32mFeatureTable[Frequency][0m
                          The feature table containing the samples over which
                          diversity metrics should be computed.     [35m[required][0m
  [94m[4m--i-phylogeny[0m ARTIFACT  Phylogenetic tree containing tip identifiers that
    [32mPhylogeny[Rooted][0m     correspond to the feature identifiers in the table.
                          This tree can contain tip ids that are not present
                          in the table, but all feature ids in the table must
                          be present in this tree.                  [35m[required][0m
[1mParameters[0m:
  [94m[4m--p-sampling-depth[0m INTEGER
    [32mRange(1, None)[0m        The total frequency that each sample should be
          

# 視覺化Alpha Diversity和Beta diversity

In [84]:
# alpha diversity
!qiime diversity alpha-group-significance \
--i-alpha-diversity ./core-metrics-results/faith_pd_vector.qza \
--m-metadata-file ./metadata.tsv \
--o-visualization ./qzv/faiths_pd_statistics.qzv

[32mSaved Visualization to: ./core-metrics-results/faiths_pd_statistics.qzv[0m
[0m

- `qiime diversity alpha-group-significance`: 視覺化alpha多樣性之指令。
- `--i-alpha-diversity ...`: 輸入之alpha多樣性檔案位置。
- `--m-metadata-file ...`: 輸入之metadata之位置。
- `--o-visualization ...`: 輸出檔案位置。

In [89]:
!qiime diversity alpha-group-significance --help

Usage: [94mqiime diversity alpha-group-significance[0m [OPTIONS]

  Visually and statistically compare groups of alpha diversity values.

[1mInputs[0m:
  [94m[4m--i-alpha-diversity[0m ARTIFACT [32mSampleData[AlphaDiversity][0m
                       Vector of alpha diversity values by sample.  [35m[required][0m
[1mParameters[0m:
  [94m[4m--m-metadata-file[0m METADATA...
    (multiple          The sample metadata.
     arguments will    
     be merged)                                                     [35m[required][0m
[1mOutputs[0m:
  [94m[4m--o-visualization[0m VISUALIZATION
                                                                    [35m[required][0m
[1mMiscellaneous[0m:
  [94m--output-dir[0m PATH    Output unspecified results to a directory
  [94m--verbose[0m / [94m--quiet[0m  Display verbose output to stdout and/or stderr during
                       execution of this action. Or silence output if
                       execution is succe

![alpha_faithpd.png](attachment:e6dfbf50-cd13-4fb5-8569-b0e9b6bb48ef.png)
![alpha_faithpd_KWp.png](attachment:c3cd6a8b-9ee8-49f7-9c14-80a1e49ce715.png)
以Faith’s phylogenetic diversity為例，探究不同條件下分組之組間差異，並且進行成對比較(Pairwise)檢測差異是否顯著。

In [95]:
# distance for beta diversity
!qiime diversity beta-group-significance \
--i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
--m-metadata-file metadata.tsv \
--m-metadata-column genotype_and_donor_status \
--p-pairwise \
--o-visualization qzv/unweighted-unifrac-genotype_and_donor_status-significance.qzv

[32mSaved Visualization to: core-metrics-results/unweighted-unifrac-genotype_and_donor_status-significance.qzv[0m
[0m

- `qiime diversity beta-group-significance`: 視覺化beta多樣性之指令。
- `--i-distance-matrix`: 輸入之beta多樣性(for distance)檔案位置。
- `--m-metadata-file ...`: 輸入之metadata之位置。
- `--m-metadata-column ...`: 樣本分組依據，查看metadata中之分組，例:donor or genotype。
- `--p-pairwise ...`: 進行成對以較(pairwise)，預設只有ANOVA。
- `--o-visualization ...`: 輸出檔案位置。

In [88]:
!qiime diversity beta-group-significance --help

Usage: [94mqiime diversity beta-group-significance[0m [OPTIONS]

  Determine whether groups of samples are significantly different from one
  another using a permutation-based statistical test.

[1mInputs[0m:
  [94m[4m--i-distance-matrix[0m ARTIFACT
    [32mDistanceMatrix[0m     Matrix of distances between pairs of samples.
                                                                    [35m[required][0m
[1mParameters[0m:
  [94m[4m--m-metadata-file[0m METADATA
  [94m[4m--m-metadata-column[0m COLUMN  [32mMetadataColumn[Categorical][0m
                       Categorical sample metadata column.          [35m[required][0m
  [94m--p-method[0m TEXT [32mChoices('permanova', 'anosim', 'permdisp')[0m
                       The group significance test to be applied.
                                                        [35m[default: 'permanova'][0m
  [94m--p-pairwise[0m / [94m--p-no-pairwise[0m
                       Perform pairwise tests between all pairs

![beta_distance.png](attachment:0171b654-707b-436c-985a-e719a1c08173.png)
將顯示分組(donor type)之間[PERMANOVA](https://en.wikipedia.org/wiki/Permutational_analysis_of_variance)分析結果，上圖顯示按照genotype_and_donor_status分的四組小鼠之間微生物beta多樣性(distance)存在統計上之顯著差異。
- PERANOVA是一種比較兩分組之間距離，為一種無母數統計的分析方法。
- number of permutations，無母數統計中，對數據進行排序的方式的數量，用於計算 p 值。

![beta_distance_plot.png](attachment:81ce6790-dd46-4c57-aa4b-2e4baded7234.png)
樣本總共分成四組，因此會產出四張圖，這邊只顯示其中兩個結果。兩張圖表示四個組別分別與susceptible and Healthy以及susceptible and PD兩組間的距離盒鬚圖，值越大代表兩組之間差異越大。
![beta_distance_pw.png](attachment:ff13e574-fb8d-4a3b-b44a-d42723882651.png)
確定PERMANOVA分析組間的距離存在顯著差異後，進行成對比較(pairwise)看是哪兩組之間有顯著差異。可以看出四組之間距離皆存在顯著差異的，但從圖二可以看出，不同donor來源對距離的影響可能較genotype來的劇烈，可以將上列參數`--m-metadata-column genotype_and_donor_status`改成`--m-metadata-column donor`或`--m-metadata-column genotype`查看更詳細的分析結果。

將core-metrics-results資料夾中之bray_curtis_emperor.qzv透過emperor套件視覺化結果。
![pcoa_donor.png](attachment:a1dee471-64d2-41c5-8283-c879e37cef02.png)
emperor是很強大的互動式PCoA(主座標分析)視覺化工具，功能有很多，這裡只顯示了其中四種功能，可以選擇樣本的分組方式，透過**Color**顏色或是**Shape**形狀表示，也可以選擇顯示**Visibility**特定分類的數據，以及可以選擇顯示的主座標**Axes**，並且標示了每個主座標所能解釋樣本中變異量的百分比。圖中每一個點代表一個樣本，相同顏色的點來自同一個分組，此處，兩點之間距離越近表明兩者的群落構成差異越小。

主成分分析PCA及主座標PCoA皆為一種資料降維方法，對多維數據進行降維，同時保持數據中雙方差異貢獻最大的特徵。如果樣品的群落組成越相似，則PCA/PCoA圖中的距離則越接近，因此群落結構相似度高的樣品會聚集在一起。PCoA主座標主要使用距離矩陣，用於在多維空間中呈現樣本之間的距離關係(讓原本數據各點間距離，跟投影裡各點間距離之間的相關最高)，而PCA主成分分析主要用於在高維數據中找到最能解釋變異性的主成分(設法保留數據裡的變異 (variance) 讓點的位置儘量不要變動)。詳細介紹可查閱[細菌人的一口書](https://bitesizemicrobook.wordpress.com/2016/07/24/%E7%B5%B1%E8%A8%8826%E5%9B%9E-pca-%E5%92%8C-pcoa-%E6%9C%89%E4%BB%80%E9%BA%BC%E4%B8%8D%E4%B8%80%E6%A8%A3/)。
![PCA PCOA.png](attachment:2bc08e43-7044-46f2-8c73-956197a19197.png)

# 差異豐度分析LDA Effect Size (LEFse)
用於檢測不同樣本組之間特徵（如ASV、菌種等）的相對豐度是否存在顯著差異。這裡將使用dokdo套件，產出LEfse，並透過網頁版[Galaxy with LEfSe](https://huttenhower.sph.harvard.edu/galaxy/)進行視覺化。
```
# dokdo conda 安裝方式，使用自己的環境才需要另外安裝(HMP_env不用)
conda install -c hcc dokdo
```
進行差異豐度分析之前，過濾掉低豐度(abundance)/低出現頻率(prevalence)的ASVs，可以提供更好的分辨率。

In [106]:
!qiime feature-table filter-features \
--i-table ./qza/dada2_table.qza \
--p-min-frequency 50 \
--p-min-samples 4 \
--o-filtered-table ./qza/dada2_table_filtered.qza

[32mSaved FeatureTable[Frequency] to: ./dada2_table_filtered.qza[0m
[0m

- `qiime feature-table filter-features`: 過濾特定ASVs的指令。
- `--i-table ...`: 輸入feature table位置。
- `--p-min-frequency ...`: ASV在所有樣本中出現的總頻率低於這個值，則去除掉此ASV。
- `--p-min-samples ...`: ASV在樣本中出現的次數，低於這個值，則去除掉此ASV。
- `--o-filtered-table ...`: 輸出篩選後的filtered table。
---
- `  --m-metadata-file ...`: 輸入metadata路徑，這裡沒有用到。
- `--p-where ...`: 這裡範例並沒有用到，但輸入metadata並設定此參數可透過metadata分組，篩選特定分組的結果，如: donor = hc。

In [97]:
!qiime feature-table filter-features --help

Usage: [94mqiime feature-table filter-features[0m [OPTIONS]

  Filter features from table based on frequency and/or metadata. Any samples
  with a frequency of zero after feature filtering will also be removed. See
  the filtering tutorial on https://docs.qiime2.org for additional details.

[1mInputs[0m:
  [94m[4m--i-table[0m ARTIFACT [32mFeatureTable[Frequency][0m
                       The feature table from which features should be
                       filtered.                                    [35m[required][0m
[1mParameters[0m:
  [94m--p-min-frequency[0m INTEGER
                       The minimum total frequency that a feature must have
                       to be retained.                            [35m[default: 0][0m
  [94m--p-max-frequency[0m INTEGER
                       The maximum total frequency that a feature can have to
                       be retained. If no value is provided this will default
                       to infinity (i.e., no maxim

## 安裝[dokdo](https://github.com/sbslee/dokdo)
要注意的是用於分析qiime2的dokdo要先透過git取得GitHub的dokdo檔案，再透過pip進行安裝，而不能像krona或nextflow直接先寫在yml配置黨裡面，因為pip還存在著另一個[dokdo](https://pypi.org/project/dokdo/)套件，兩者是不一樣的東西，以避免與我們要的dokdo搞混。

In [None]:
%%bash 
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate HMP_project 

git clone https://github.com/sbslee/dokdo
cd dokdo
pip install .

透過dokdo產出輸入[Galaxy with LEfSe](https://huttenhower.sph.harvard.edu/galaxy/)之tsv檔。

In [109]:
!dokdo prepare-lefse \
--table-file ./qza/dada2_table_filtered.qza \
--taxonomy-file ./qza/taxonomy.qza \
--metadata-file ./metadata.tsv \
--class-col donor \
--output-file ./lefse_input_table.tsv

[0m

- `dokdo prepare-lefse`: 準備lefse輸入tsv之指令。
- `--table-file ...`: 輸入feature table位置，這裡所使用的是filtered table。
- `--taxonomy-file ...`: 輸入taxonomy.qza位置
- `--m-metadata-file ...`: metadata之檔案路徑。
- `--class-col ...`: 樣本分組依據。
- `--output-file ...`: tsv for lefse之檔案位置，詳細LEFSE網頁使用方式參見[16S rRNA 從次世代到三代定序-生資QIIME2資料分析趣](https://ithelp.ithome.com.tw/articles/10312346)。


In [101]:
!dokdo prepare-lefse --help

usage: dokdo prepare-lefse -t PATH -x PATH -m PATH -o PATH -c TEXT [-s TEXT]
                           [-u TEXT] [-w TEXT] [-h]

Create a TSV file which can be used as input for the LEfSe tool. This command
1) collapses the input feature table at the genus level, 2) computes relative
frequency of the features, 3) performs sample filtration if requested, 4)
changes the format of feature names, 5) adds the relevant metadata as 'Class',
'Subclass', and 'Subject', and 6) writes a text file which can be used as
input for LEfSe.

Arguments:
  -t PATH, --table-file PATH
                        Path to the table file with the
                        'FeatureTable[Frequency]' type. [required]
  -x PATH, --taxonomy-file PATH
                        Path to the taxonomy file with the
                        'FeatureData[Taxonomy]' type. [required]
  -m PATH, --metadata-file PATH
                        Path to the metadata file. [required]
  -o PATH, --output-file PATH
                        Pa

透過[Galaxy with LEfSe](https://huttenhower.sph.harvard.edu/galaxy/)視覺化結果
![LDAS.png](attachment:922a4a03-4277-463c-b88c-2bc0aeb9340f.png)
LDA 也是透過降維方式了解各樣本間的相似程度，詳細介紹可參考: [機器學習: 降維(Dimension Reduction)- 線性區別分析( Linear Discriminant Analysis)](https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-%E9%99%8D%E7%B6%AD-dimension-reduction-%E7%B7%9A%E6%80%A7%E5%8D%80%E5%88%A5%E5%88%86%E6%9E%90-linear-discriminant-analysis-d4c40c4cf937)。LDA分數通常用於類別組間分析，例如，在移植PD和健康組微生物小鼠之間比較微生物特徵的相對豐度比較，可以幫助識別在差異豐度分析中具有生物學或疾病相關性的特徵。如上圖顏色為綠色之菌種為在移植PD之小鼠組別中特別豐富之為生物分類，而紅色的則是在移植Health微生物小鼠中特別豐富之微生物。

# 微生物基因功能預測 [PICRUSt2](http://toolsbiotech.blog.fc2.com/blog-entry-134.html)
透過菌種基因推測其功能腳色。PICRUSt2 (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States)是一套根據標記基因的序列(如16S rRNA)去預測微生物基因功能的工具。需要的資料包含想要分析的樣本中所帶有的ASVs序列(dada2-representative-sequence)，以及樣本物種序列的豐度(dada2-feature-table)。

首先將`dada2_table.qza`透過qiime2輸出成`feature-table.biom`。BIOM檔案(Biological Observation Matrix)是專為生物資訊分析的檔案。內含ASVs在各樣本中的數量(Abundance)資訊。

In [None]:
!qiime tools export \
--input-path ./qza/dada2_table_filtered.qza \
--output-path ./

- `qiime tools export`: 用於將qza匯出成不同格式。
- `--input-path ...`: 輸入feature table位置，這裡所使用的是filtered table。
- `--output-path ...`: 輸出之BIOM位置

檔案屬於二進制檔案，需要使用特別指令才能檢視。

In [None]:
!biom head -i feature-table.biom

將`dada2_rep_set.qza`轉成fasta。內含Feature ID與原始序列。

In [None]:
!qiime tools export \
  --input-path qza/dada2_rep_set.qza \
  --output-path ./

In [None]:
head dna-sequences.fasta

## 安裝與啟動mamba及PICRUSt2 (v2.5.0)
官方建議，跑PICRUSt2的設備最好要含有16GB以上的RAM。安裝PICRUSt建議使用mamba，其操作方法與conda相同，只需要將conda改成mamba即可，安裝速度會比透過conda安裝PICRUSt還來的快速。

**以下指令請打開terminal執行**

In [None]:
## 請開啟Terminal執行
source /work/c00cjz002/share/miniconda3_py38/bin/activate
mamba create -n picrust2 -c bioconda -c conda-forge picrust2=2.5.0

啟動`conda`並且透過`mamba`建立一個新的含有picrust2的環境，若透過conda安裝picrust2在原HMP_project環境會發生套件之間的版本衝突

查看`picrust2_pipeline.py -h`可調整參數及詳細資訊。同樣的因為參數`$CONDA_PREFIX`的原因，我們在cell中指定用bash執行，並且指定使用剛剛安裝之`picrust2`環境。

In [None]:
%%bash 
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate picrust2

picrust2_pipeline.py -h

先查看此node有多少cpu可以使用

In [None]:
!nproc

執行picrust2_pipeline.py

In [None]:
%%bash 
source /work/c00cjz002/share/miniconda3_py38/bin/activate
conda activate picrust2

picrust2_pipeline.py \
-s dna-sequences.fasta \
-i feature-table.biom \
-o picrust2_out_pipeline \
-p 56

- `-s ...`: 輸入之`sequence.fasta`位置
- `-i ...`: 輸入之`feature-table.biom`位置
- `-o ...`: 輸出檔案之資料夾名稱
- `-p ...`: CPUs數量

若想要重跑PICRUSt，輸出結果至同樣命名的folder，則要刪掉原本的folder才能重跑。

In [None]:
%cd picrust2_out_pipeline

分析結束後進入`picrust2_out_pipeline`folder，可以看到三個資料夾，以及4個檔案。
- `EC_metagenome_out`: Folder containing unstratified EC number metagenome predictions
- `EC_predicted.tsv.gz`: Predicted EC number copy numbers per ASV.
- `intermediate`: Folder containing intermediate MinPath files and files used for sequence placement pipeline.
- `KO_metagenome_out`: As EC_metagenome_out above, but for KO metagenomes.
- `KO_predicted.tsv.gz`: As EC_predicted.tsv.gz above, but for KO predictions.
- `marker_predicted_and_nsti.tsv.gz`: Predicted 16S copy numbers and NSTI per ASV.
- `out.tre`: Tree of reference and study 16S sequences.
- `pathways_out`: Folder containing predicted pathway abundances and coverages per-sample, based on predicted EC number abundances.

[PICRUSt-Full pipeline script](https://github.com/picrust/picrust2/wiki/Full-pipeline-script)

PICPUSt2可藉由菌相資料獲得Enzyme Commission (E.C number)、KEGG Orthology (KO)、MetaCyc pathway 豐富度資料，以此**預測菌群中的酵素及代謝途徑豐富度**。分析後主要透過三個壓縮檔解壓縮後之tsv視覺化，分別為`EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz`、`
KO_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz`和`
pathways_out/path_abun_unstrat_descrip.tsv.gz`。然PICRUSt2原始輸出時僅含有酵素及代謝途徑編號，為方便人類判讀，會使用 [PICRUSt2 Add descriptions](https://github.com/picrust/picrust2/wiki/Add-descriptions)功能替編號加上註釋(EC number, pathway)，在加上註釋的tsv中看到第二個column為description，供人類方便檢視。 

In [None]:
!add_descriptions.py \
-i EC_metagenome_out/pred_metagenome_unstrat.tsv.gz \
-m EC \
-o EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz

!gunzip EC_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz

In [None]:
!add_descriptions.py \
-i KO_metagenome_out/pred_metagenome_unstrat.tsv.gz \
-m KO \
-o KO_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz

!gunzip KO_metagenome_out/pred_metagenome_unstrat_descrip.tsv.gz

In [None]:
!add_descriptions.py \
-i pathways_out/path_abun_unstrat.tsv.gz \
-m METACYC \
-o pathways_out/path_abun_unstrat_descrip.tsv.gz

!gunzip pathways_out/path_abun_unstrat_descrip.tsv.gz

- `add_descriptions.py`: 於tsv加上註釋
- `-i ...`: 輸入之tsv.gz檔位置
- `-m ...`: Mapping table to use: `EC`,`KO`,`METACYC`。
- `-o ...`: 輸出檔案之名稱
- `gunzip ...`: 解壓縮.gz

接下來我們將使用[STAMP](https://picrust.github.io/picrust/tutorials/stamp_tutorial.html)對上述三個tsv進行視覺化，以查看預測菌群中的酵素及代謝途徑豐富度之結果。
1. 在本機端下載STAMP([連結](https://beikolab.cs.dal.ca/software/STAMP))
2. 解壓縮後，可以獲得分別含有 KO/EC/Pathway、註釋、樣本名、豐富度的 tsv 三個檔案。
3. 將此三個檔案下載到本機端，並以Excel開啟。
4. 刪除function/pathway column (否則輸入STAMP時會ERROR)。並刪除metadata中#q2:types 那一row，
5. 打開STAMP，`Ctrl + O`載入檔案。
   - `Profile file`: KO/EC/Pathway之tsv。
   - `Group metadata file`: metadata。

![STAMP.png](attachment:5a344181-3122-4393-a973-833350f98ee2.png)

1. 選擇分組依據，並選擇分組於圖中顯示。
2. 選擇`Multiple groups`, `Two groups`, `Two samples`比較，選擇欲比較之組別，選擇統計方式。
3. 選擇製作之圖表類型
4. 選擇是否過濾部分樣本。

以下為STAMP使用範例:

Multiple groups / bar plot / (S,S)-butanediol dehydrogenase。顯示不同樣本中(S,S)-butanediol dehydrogenase之豐度，並以顏色區分不同組，ANOVA統計之P值顯示在圖片右上角。
![bar plot multigrup.png](attachment:f6a969dd-df97-4859-80fa-82a8975075da.png)
Multiple groups / box plot / (S,S)-butanediol dehydrogenase。同上，但是是將組別內所有樣本集合起來以box plot顯示。
![box plot multigrup.png](attachment:59681166-fb27-47a1-8d19-6261355bc9eb.png)

Multiple groups / [post hoc / 1,3-beta-galactosyl-N-acetylhexosamine phosphorylase。當ANOVA分析結果顯示多組間存在顯著差異，再透過post hoc查看哪些組別存在差異。
![post hoc multigrup.png](attachment:6bf5ce78-fb7a-4ead-a2ad-e3f71491e4d5.png)
Two samples / Profile bar plot。描繪出兩組間具有差異之特徵。
![Profile bar plot.png](attachment:f56a458d-c9fc-4f61-9f19-ee0294ba8387.png)