<h1>QIIME2 Tutorial menggunakan Python melalui Jupyter Notebook/Lab</h1>

Tutorial ini merupakan merupakan tutorial analisis microbiome "Moving Picture". Analisis QIIME2 ini berasal dari sampel microbimoe manusia yang sebelumnya telah dipublikasikan oleh Caporasso et al. (2011). Data yang digunakan merupakan hasil sekuensing NSG Illumina HiSeq terhadap Hypervariabel region 4 (V4) 16S rRNA menggunakan protocol Earth Microbiome Project.

Disini saya menggunakan QIIME2 versi 2019.10 dan kemungkinan anda menggunakan QIIME2 versi terbaru. tidak banyak tools yang berubah , tapi pastikan anda perhatikan sumber tutorial ini untuk lebih jelasnya. 
https://docs.qiime2.org/2020.8/tutorials/moving-pictures/|

<h2>1. Membuat Directory atau Folder Baru</h2>
Sebelum melakukan analisi, ada baiknya dibuat directory atau file baru untuk menampung seluruh hasil analisis yang dilakukan. Adapun comment "mkdir" digunakan untuk membuat directory baru, kemudian disusul nama directorynya. Selanjutnya "cd" untuk berpindah ke directory yang telah dibuat sebelumnya, tentunya dengan menuliskan nama directorynya. Jika lupa nama directorynya, bisa menuliskan "dir" untuk melihat directory apa saya yang ada dalam directory kerja kita sekarang.

Perlu diperhatikan untuk setiap line wajib ditambahkan tanda seru "!" agar terbaca sebagai command line. 

In [None]:
!mkdir qiime2-moving-pictures-tutorial
!cd qiime2-moving-pictures-tutorial

<h2>2. Mendapatkan Metadata Sample</h2>
metadata merupakan data pendukung analisis microbiome yang berisikan keterangan parameter lingkungan, jenis perlakuan, informasi sumber sample, waktu pengisolasian sample, dan keterngan-keterngan pendukung sampel. 
Dalam tahap ini, akan diperoleh metadata melalui command "wget" yang diunduh dari laman dibawah ini.Metadata akan secara otomatis tersimpan dalam working directory (folder kita bekerja saat ini). info lebih lanjut mengenai metadata:

https://docs.qiime2.org/2020.8/tutorials/metadata/

Untuk mengecek lokasi working directory, dapat dituliskan:

In [None]:
import os
os.getcwd()

In [None]:
!wget \
  -O "sample-metadata.tsv" \
  "https://data.qiime2.org/2019.10/tutorials/moving-pictures/sample_metadata.tsv"

<h2>3. Unduh data dan Import Data</h2>
pertama-tama buatlah sebuah sub-directory (contoh: emp-single-end-sequence). kemudian unduh data. 

In [None]:
!mkdir emp-single-end-sequences

Sekuens secara otomatis tersimpan dalam sub-directory yang telah dibuat sebelumnya. 

Perlu diperhatikan tipe sekuens hasil NGS yang ingin di import, karena di tutorial ini digunakan EMP protocol multiplexed single-end. Selain itu terdapat tipe lain seperti EMP Protocaol multiplexed paired-end, Casava 1.8 single-end demultiplexed fastq, Casava 1.8 paired-end demultiplexed fastq, Multiplexed paired-end FASTQ with barcodes in sequence, dll. Misal, sekuens anda merupakan paired-end, tentunya importing data pada tutorial ini tidak akan dapat digunakan. lebih jelasnya dapat mengunjungi QIIME2 docs importing data https://docs.qiime2.org/2020.8/tutorials/importing/#sequence-data-with-sequence-quality-information-i-e-fastq 

Ditahap ini dilakukan importing pada 2 data, yaitu data barcode dan sequence fastq. Barcode atau index adapter (1) digunakan sebagai tag atau "tanda pengenal" untuk tiap sequence library (2).


In [None]:
!wget \
  -O "emp-single-end-sequences/barcodes.fastq.gz" \ #file barcodes.fastq.gz disimipan dalam sub-directory emp-single-end-sequence
  "https://data.qiime2.org/2019.10/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz"

Importing sequence fastq

In [None]:
!wget \
  -O "emp-single-end-sequences/sequences.fastq.gz" \ #file sequence.fastq.gz disimipan dalam sub-directory emp-single-end-sequence
  "https://data.qiime2.org/2019.10/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz"

Semua data yang di input ke QIIME2 dalam bentuk QIIME2 artifact, yang mana berisikan informasi mengenai tipe data dan sumber data. Oleh karena itu, setelah memperoleh data sequence dan barcode selajutnya kedua data sequence tersebut diubah kedalam betuk QIIME2 artifact. 

In [None]:
!qiime tools import \
  --type EMPSingleEndSequences \
  --input-path emp-single-end-sequences \ #input berasal dari directory tempat tersimpannya barcodes.fastq.gz dan sequences.fastq.gz
  --output-path emp-single-end-sequences.qzan #output berupa artifact QIIME2 dengan extention .gza

In [None]:
#untuk melihat data artifact QIIME2
!qiime tools peek emp-single-end-sequences.qza

<h2>4. Demultiplexing Sequences</h2>
Demultiplexing merupakan tahap awal dari Quality Filtering yang mana pada tahap demultiplexing seqeunce fastq akan dikelompokkan berdasarkan barcode yang terdapat pada metadata (Moving Pictures sample-metadata). sequence yang tidak terbaca oleh barcode akan dibuang atau dengan kata lain memiliki kualitas dibawah threshold (3).

In [None]:
!qiime demux emp-single \
  --i-seqs emp-single-end-sequences.qza \ #input data dari artiact QIIME2 yang sebelumnya dibuat
  --m-barcodes-file sample-metadata.tsv \ #sample metadata yang memiliki informasi barcode
  --m-barcodes-column barcode-sequence \
  --o-per-sample-sequences demux.qza \ #artifact demultiplexing
  --o-error-correction-details demux-details.qza

Visualiasi hasil demultiplexing dari artifact demux.qza. File untuk visualisasi berupa file dengan extention .qzv

In [None]:
!qiime demux summarize \
  --i-data demux.qza \
  --o-visualization demux.qzv

In [None]:
#menampilkan visualisasi demux
!qiime tools view demux.qzv

demux.qzv <a href="https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Fdemux.qzv">VIEW</a> 
Visualisi demux.qzv memberikan gambaran visual untuk jumlah sequence yang berhasil terdeteksi oleh barcode yang berhasil didemultiplexing. Dari visualisi ini memberikan informasi jumlah sequence in total dan jumlah sample berdasarkan penggolongan barcode yang diwakilkan oleh sample ID. Mengingat data sequence yang digunakan merupakan data sequence single-end, sehingga hanya terdapat satu reads, yaitu forward reads. 

<h2>5. Sequence Quality Control dan Konstruksi feature table</h2>
Tiga plugin untuk quality control pada QIIME2- <a href="https://pubmed.ncbi.nlm.nih.gov/27214047/">DADA2</a>, <a href="https://msystems.asm.org/content/msys/2/2/e00191-16.full.pdf">Deblur</a>, dan <a href="http://nature.com/articles/nmeth.2276">basic-quality-socre-based filtering</a>, terserah ingin menggunakan yang mana saja, namun dalam turorial ini digunakan DADA2 dan Deblur. Kedua metode ini menghasilkan FeatureTable yang sama, yang mana FeatureTable ini menunjukkan jumlah atau frekuensi sekuen unik yang tersaring berdasarkan parameter yang kita setting. Disamping itu juga dihasilkan FeatureData sebagai dasar penggolongan masing-masing sekuen unik yang telah tersaring. Perlu diperhatikan bahwa penamaan artifact FeatureTable untuk tiap method akan berbeda untuk menunjukkan masing-masing artifact dari tiap metode. 

<h4>A. The Divisive Amplicon Denoising Algorithm (DADA)</h4>
Selain di QIIME2, DADA2 juga merupakan open source <a href="https://github.com/benjjneb/dada2">R-package</a> (4). DADA2 mengimplementasikan full amplicon workflow yaitu: filtering, dereplication, identifikasi sekuen chimera, dan merging paired-end reads (jika sekuen paired-end). 


Dua parameter yang perlu di set untuk quality filtering, yaitu <i>--p-trim-left m</i> dan <i>--p-trunc-len n</i>. Masing-masing memotong/trimming basa sebelum basa ke-m dan pada urutan basa ke-n. Penentuan nilai m dan n dapat berdasarkan pada dua hal, yaitu sekuen primer dan kualitas sekuen. Jika masih terdapat sekuen primer pada sekuen yang akan di trim, maka sebaiknya bagian juga ikut di potong/trim. Kualitas sekuen dapat dilihat pada hasil demux bagian Interactive Quality Plot. Umumnya treshhold kualitas urutan sekuen yaitu <b><20 </b> pada nilai median <a href="https://forum.qiime2.org/t/trim-based-on-quality-score-not-the-sequence-position/6830/2">(QIIME2 forum)</a>. 

In [None]:
!qiime dada2 denoise-single \
  --i-demultiplexed-seqs demux.qza \
  --p-trim-left 0 \ #trimming sebelum basa ke-0
  --p-trunc-len 120 \ #trimming dari basa ke-120 dan setelahnya
  --o-representative-sequences rep-seqs-dada2.qza \
  --o-table table-dada2.qza \
  --o-denoising-stats stats-dada2.qza

In [None]:
#visualisi hasil dada2
!qiime metadata tabulate \
  --m-input-file stats-dada2.qza \
  --o-visualization stats-dada2.qzv

In [None]:
#melihat visualiasi hasil dada2
!qiime tools view stats-dada2.qzv

Output visualisasi DADA2 <a href="https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Fstats-dada2.qzv">VIEW</a>.

In [None]:
#move and copy hasil dada2 ke local storage
!mv rep-seqs-dada2.qza rep-seqs.qza
!mv table-dada2.qza table.qza

<h4>B. Deblur</h4>
Seperti pada DADA2, Deblur juga berperan untuk filtering kualitas sekeun. Deblur baik digunakan untuk asssessing taxa yang relatif berdekatan dan untuk dataset yang sangat banyak (5).   

In [None]:
!qiime quality-filter q-score \
--i-demux demux.qza \
--o-filtered-sequences demux-filtered.qza \
--o-filter-stats demux-filter-stats.qza

Parameter yang dibutuhkan pada tahap ini yaitu trimmming panjang sekuen. Penentuan nilai trim berdasarkan pada kualitas posisi basa. Umumnya direkomendasikan pada saat kualitas basa mulai menurun terlalu rendah melihat pada nilai median tiap basa. 

In [None]:
!qiime deblur denoise-16S \
--i-demultiplexed-seqs demux-filtered.qza \
--p-trim-length 120 \
--o-representative-sequences rep-seqs-deblur.qza \
--o-table table-deblur.qza \
--p-sample-stats \
--o-stats deblur-stats.qza

In [None]:
#visuliasasi deblur berdasarkan artifact demux-filter-stast dan deblur-stats
!qiime metadata tabulate \
--m-input-file demux-filter-stats.qza \
--o-visualization demux-filter-stats.qzv
!qiime deblur visualize-stats \
--i-deblur-stats deblur-stats.qza \
--o-visualization deblur-stats.qzv

In [None]:
#melihat hasil visualisasi deblur 
!qiime tools view demux-filter-stats.qzv
!qiime tools view deblur-stats.qzv

Output visualiasi deblur :

demux-filter-stats <a href="https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Fdemux-filter-stats.qzv">VIEW</a>

deblur-stats <a href="https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Fdeblur-stats.qzv">VIEW</a>

In [None]:
#move and copy hasil deblur ke local storage
!mv rep-seqs-deblur.qza rep-seqs.qza
!mv table-deblur.qza table.qza

<h2>6. FeatureTable dan FeatureData Summaries</h2>
Tahap ini merupakan tahap exploratory data hasil quality quality filtering DADA2 atau Deblur dari dua artifact yang digunakan yaitu table.qza da rep-seqs.qza. <i>feature-table summariza</i> merupakan commend untuk memberikan informasi terkait jumlah sekuen feature beserta sekuen feature dan keterangan statistik terkait sekuen hasil filtering. Sekeun dapat di-klik untuk langsung terhubung ke NCBI BLAST. Command <i>feature-table tabulate-seqs</i> memberikan informasi terkait jumlah sample, feature, frequency sekuen per sample dan feature disertai histogram. Pada bagian <i>Interactive Sample Detail</i> dapat dilihat histogram jumlah sample berdasarkan Metadata Category dan sampling depth. Pada tahap ini telah terbentuk sekuen format fasta, sehingga dapat dilakukan alignment. 

In [None]:
!qiime feature-table summarize \
--i-table table.qza \
--o-visualization table.qzv \
--m-sample-metadata-file sample-metadata.tsv
!qiime feature-table tabulate-seqs \
--i-data rep-seqs.qza \
--o-visualization rep-seqs.qzv

In [None]:
#melihat hasil visualisasi table and rep-seqs 
!qiime tools view table.qzv
!qiime tools view rep-seqs.qzv

Output visualisasi table dan reps-seqs:

Table <a href="https://view.qiime2.org/visualization/?type=html&src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Ftable.qzv">VIEW</a>

rep-seqs <a href="https://view.qiime2.org/visualization/?type=html&src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Frep-seqs.qzv">VIEW</a>

<h2>7. Membuat pohon untuk analisis diversitas filogenetik</h2>
Pada dasarnya, analisis metabarkoding maupun metagenomic menerapakan prinsip-prinsip ekologi, namun dalam skala mikro. Hal yang terpenting adalah mengetahui bakteri apa saja yang ada dalam sample yang disekuesing. Setelah memperoleh kumpulan sekuens fasta yang tersimpen dalam astifact rep-seqs, maka selanjutnya dilakukan alignment dan pembuatan pohon filogenetik. Default alignment pada proses ini adalah multiple aligmnet MAFTT fast tree dengan output berupa rooted tree dan unrooted tree.


In [None]:
!qiime phylogeny align-to-tree-mafft-fasttree \
--i-sequences rep-seqs.qza \
--o-alignment aligned-rep-seqs.qza \
--o-masked-alignment masked-aligned-rep-seqs.qza \
--o-tree unrooted-tree.qza \ #unrooted tree
--o-rooted-tree rooted-tree.qza #rooted tree

output berupa artifact:

align-rep-seqs <a href="https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Faligned-rep-seqs.qza">VIEW</a>

masked-aligned-rep-seqs <a href="https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Fmasked-aligned-rep-seqs.qza">VIEW</a>

unrooted tree <a href="https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Frooted-tree.qza">VIEW</a> <a href="https://docs.qiime2.org/2020.11/data/tutorials/moving-pictures/rooted-tree.qza">DOWNLOAD</a>

rooted tree <a href="https://view.qiime2.org/?src=https%3A%2F%2Fdocs.qiime2.org%2F2020.11%2Fdata%2Ftutorials%2Fmoving-pictures%2Funrooted-tree.qza">VIEW</a> <a href="https://docs.qiime2.org/2020.11/data/tutorials/moving-pictures/unrooted-tree.qza">DOWNLOAD</a>

Diperlukan server atau aplikasi tambahan untuk melihat pohon filogentik yang telah dibuat, seperti <a href="https://itol.embl.de/upload.cgi">iTOL</a> atau server sejenisnya. Adapun file yang dapat diunggah ke iTOL adalah file <b>unrooted-tree.qza</b> dan <b>rooted-tree.qza</b>. Perlu diperhatikan bahwa pada tahap ini belum dilakukan analisis taksonomi sehingga hanya dapat dikethui ID tiap sequence.

<h2>8. Analisi Diversitas Alfa dan Beta</h2>
Tidak berbeda jauh dengan analisis ekologi terkait diversitas suatu lokasi sampling, pada analisis metabarkoding juga mengaplikasikan konsep yang sama. Diversitas alfa/Alfa divesity merupakan divesitas lokal pada suatu wilayah (Krebs, ) yang dicirikan oleh jumlah spesies. Divesitas beta/Beta diversity menunjukkan tingkat perbedaan sample komunitas pada 2 atau lebih wilayah (krebs, ). Dalam microbiome, diversitas direpresentasikan sebagai variasi sequence amplicon (8). Gambar dibawah ini menunujukkan alfa dan beta diversity (7)
<img src="C:\Users\Ahmad Ardi\Documents\GitHub\QIIME2\picture1.2.jpg" alt="Bynum, 2021 in https://bio.libretexts.org/Bookshelves/Ecology/Book%3A_Biodiversity_(Bynum)/7%3A_Alpha%2C_Beta%2C_and_Gamma_Diversity">


Adapun pada tahap ini akan dihasilkan output berupa diversitas Alfa dan Beta.  

Perlu diperhatikan bahwa penentuan sampling depth merupakan hal yang krusial dalam analisis ekologi mikrobia. pertimbangan menentukan sampling depth:

https://forum.qiime2.org/t/deep-sequencing/3586/2

https://forum.qiime2.org/t/how-to-select-a-sampling-depth/4265/10

In [None]:
!qiime diversity core-metrics-phylogenetic \
--i-phylogeny rooted-tree.qza \
--i-table table.qza \
--p-sampling-depth 1109 \
--m-metadata-file sample-metadata.tsv \
--output-dir core-metrics-results

In [None]:
!qiime tools view core-metrics-results/bray_curtis_emperor.qzv

In [None]:
!qiime diversity alpha-group-significance \
  --i-alpha-diversity core-metrics-results/faith_pd_vector.qza \
  --m-metadata-file sample-metadata.tsv \
  --o-visualization core-metrics-results/faith-pd-group-significance.qzv

!qiime diversity alpha-group-significance \
  --i-alpha-diversity core-metrics-results/evenness_vector.qza \
  --m-metadata-file sample-metadata.tsv \
  --o-visualization core-metrics-results/evenness-group-significance.qzv

In [None]:
!qiime tools view core-metrics-results/faith-pd-group-significance.qzv

In [None]:
!qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  --m-metadata-file sample-metadata.tsv \
  --m-metadata-column body-site \
  --o-visualization core-metrics-results/unweighted-unifrac-body-site-significance.qzv \
  --p-pairwise

!qiime diversity beta-group-significance \
  --i-distance-matrix core-metrics-results/unweighted_unifrac_distance_matrix.qza \
  --m-metadata-file sample-metadata.tsv \
  --m-metadata-column subject \
  --o-visualization core-metrics-results/unweighted-unifrac-subject-group-significance.qzv \
  --p-pairwise

In [None]:
!qiime tools view core-metrics-results/unweighted-unifrac-body-site-significance.qzv

In [None]:
!qiime emperor plot \
  --i-pcoa core-metrics-results/unweighted_unifrac_pcoa_results.qza \
  --m-metadata-file sample-metadata.tsv \
  --p-custom-axes days-since-experiment-start \
  --o-visualization core-metrics-results/unweighted-unifrac-emperor-days-since-experiment-start.qzv

!qiime emperor plot \
  --i-pcoa core-metrics-results/bray_curtis_pcoa_results.qza \
  --m-metadata-file sample-metadata.tsv \
  --p-custom-axes days-since-experiment-start \
  --o-visualization core-metrics-results/bray-curtis-emperor-days-since-experiment-start.qzv

In [None]:
!qiime tools view core-metrics-results/bray-curtis-emperor-days-since-experiment-start.qzv

In [None]:
!qiime diversity alpha-rarefaction \
  --i-table table.qza \
  --i-phylogeny rooted-tree.qza \
  --p-max-depth 4000 \
  --m-metadata-file sample-metadata.tsv \
  --o-visualization alpha-rarefaction.qzv

the database have been downloaded before, but if you want to donwnload it you can use : 

In [None]:
!wget \
  -O "gg-13-8-99-515-806-nb-classifier.qza" \
  "https://data.qiime2.org/2019.10/common/gg-13-8-99-515-806-nb-classifier.qza"

In [None]:
!qiime feature-classifier classify-sklearn \
  --i-classifier gg-13-8-99-515-806-nb-classifier.qza \
  --i-reads rep-seqs.qza \
  --o-classification taxonomy.qza

!qiime metadata tabulate \
  --m-input-file taxonomy.qza \
  --o-visualization taxonomy.qzv

In [None]:
!qiime tools view taxonomy.qzv

In [None]:
!qiime taxa barplot \
  --i-table table.qza \
  --i-taxonomy taxonomy.qza \
  --m-metadata-file sample-metadata.tsv \
  --o-visualization taxa-bar-plots.qzv

In [None]:
!qiime tools view taxa-bar-plots.qzv

# Differential abundance testing with ANCOM

In [None]:
!qiime feature-table filter-samples \
  --i-table table.qza \
  --m-metadata-file sample-metadata.tsv \
  --p-where "[body-site]='gut'" \
  --o-filtered-table gut-table.qza

In [None]:
!qiime composition add-pseudocount \
  --i-table gut-table.qza \
  --o-composition-table comp-gut-table.qza

In [None]:
!qiime composition ancom \
  --i-table comp-gut-table.qza \
  --m-metadata-file sample-metadata.tsv \
  --m-metadata-column subject \
  --o-visualization ancom-subject.qzv

In [None]:
!qiime tools view ancom-subject.qzv

In [None]:
!qiime taxa collapse \
  --i-table gut-table.qza \
  --i-taxonomy taxonomy.qza \
  --p-level 6 \
  --o-collapsed-table gut-table-l6.qza

!qiime composition add-pseudocount \
  --i-table gut-table-l6.qza \
  --o-composition-table comp-gut-table-l6.qza

!qiime composition ancom \
  --i-table comp-gut-table-l6.qza \
  --m-metadata-file sample-metadata.tsv \
  --m-metadata-column subject \
  --o-visualization l6-ancom-subject.qzv

In [None]:
!qiime tools view l6-ancom-subject.qzv