### [BIC30007 - _Sequence Alignment Fundamentals, Algorithm, and Application_](http://ugm.id/BIC30007practical02)
# Aplikasi pensejajaran sekuen untuk identifikasi spesies (DNA Barcoding)

## Pengantar
Pada tutorial ini, anda akan melakukan pemrosesan data hasil sanger sequencing dan mengidentifikasi sekuen yang diperoleh. Sampel berasal dari hasil ekstraksi DNA jaringan hewan yang diperoleh dari alam. DNA yang sudah diekstraksi dijadikan sebagai template PCR dengan menggunakan sepasang primer COI, yaitu:
* Forward primer (HCO2198) = `5'-TAAACTTCAGGGTGACCAAAAAATCA-3'`
* Reverse primer (LCO1490) = `5'-GGTCAACAAATCATAAAGATATTGG-3'`

Produk PCR yang diperoleh kemudian dikirim untuk dilakukan sanger sequencing. Sequencing dilakukan dengan masing-masing primer sehingga diperoleh sepasang hasil sequencing berupa 2 ABI trace file (forward dan reverse). 

## Visualisasi Kromatogram Hasil Sequencing
* Jika anda berhasil melakukan git clone, maka anda telah mengunduh folder baru dengan nama “`BIC30007-2`” yang berisi notebook tutorial (`.ipynb`) dan folder “`data`”.
* Anda dapat menemukan sepasang **[file](data/1st_BASE_3766078_S1_F.ab1)** dengan ekstensi `.ab1` di folder “`data`” yang tidak dapat dibaca di Jupyter Lab.
* File dengan ekstensi `.ab1` tersebut merupakan raw data hasil sanger sequencing dari sebuah sampel DNA Barcoding (Gen COI). 
* Masing-masing file menunjukkan hasil forward dan reverse sequencing dari gen COI hewan yang belum diketahui spesiesnya.
* Selanjutnya, kita akan membaca ab1 trace file dengan menggunakan Benchling.
* Login ke akun Benchling yang telah dibuat di **[Benchling](https://benchling.com/)**.
* Ikuti langkah-langkah pada slide berikut: 

In [1]:
%%html
<iframe src="https://docs.google.com/presentation/d/e/2PACX-1vR-f1V4Ag9BokpaCUVWBQ6Ja4jPX8G_kp6LHDO9XpzF3co0QGaox_OepecjJkAmsXJufv4tChkBxyIe/embed?start=false&loop=false&delayms=3000" frameborder="0" width="720" height="423" allowfullscreen="true" mozallowfullscreen="true" webkitallowfullscreen="true"></iframe>

Jika anda tidak bisa melihat tampilan interaktif slide di atas, silahkan dibuka pada **[link ini](https://docs.google.com/presentation/d/1bF3T5YeePtdQWE5FPj91GBkAo7rIzMm4_eT-8Tpe2x4/edit?usp=sharing)**.

## Membaca hasil sanger Sequencing & Sequence File Formats
Pada praktikum ini kita akan menggunakan BioPython untuk membaca dan menulis beberapa file format yang digunakan untuk menyimpan data hasil sequencing.

Pertama-tama, load library SeqIO dari BioPython:

In [2]:
from Bio import SeqIO
from pathlib import Path
# jika BioPython belum terinstall silahkan install dulu dengan mengetik pada terminal:
# conda install -c conda-forge biopython

_**Trivia :** Salah satu developer BioPython, dan kontributor untuk parser ABI sanger sequencing adalah orang Indonesia. Coba cari tahu siapa dia!_

### Pengaturan folder input dan output
Kita akan mengatur lokasi input dan output dari analisis notebook ini dengan menggunakan fungsi [`pathlib`](https://docs.python.org/3/library/pathlib.html) dari Python.

In [3]:
# Set up paths
data_dir = Path('data')
# Jika output dari data_dir.is_dir() adalah False, sesuaikan value dari data_dir dengan lokasi yang benar
assert data_dir.is_dir(), f"Folder {data_dir} tidak ditemukan, sesuaikan value dari data_dir dengan lokasi yang benar!"

# Set up output directory
output_dir = Path('results/02.1')
output_dir.mkdir(parents=True, exist_ok=True)

# contoh penggunaan pathlib
contoh_path = data_dir / "1st_BASE_3766078_S1_F.ab1" # menambahkan child dir atau file dengan notasi "/"
print(contoh_path, contoh_path.is_file()) # Melakukan pengecekan apakah path yang diberikan berupa file atau bukan

data/1st_BASE_3766078_S1_F.ab1 True


### ABI file 
_ABI trace file_ adalah hasil bacaan dari Sanger Sequencing dengan _capillary electrophoresis_. File ini merupakan raw data yang berisi _peak_ kromatogram dan juga _PHRED quality scores_ yang digunakan untuk _base calling_.

In [4]:
# Parse abi file dengan BioPython, output berupa sequence id
for record in SeqIO.parse(data_dir / "1st_BASE_3766078_S1_F.ab1", "abi"):
    print(record.id)

3766078_S1_F


In [5]:
# print sequence hasil bacaan
print("Panjang sequence = " + str(len(record.seq)) + " bp") # print panjang sekuen berapa
print(record.seq)

Panjang sequence = 674 bp
CCTTTACTTATCTTAGGGGCATGATCAGGAATAGTAGGTACTGCTCTTAGTTTAATCATTCGAGCCGAATTAGGGCAACCCGGTAGGTTAATTGGAGATGATCAAATTTATAATGTTATTGTCACAGCCCACGCCTTTATTATAATTTTTTTTATGGTAATACCAATTATAATTGGAGGTTTCGGAAACTGATTAGTTCCCTTGATATTGGGGGCCCCAGATATAGCCTTCCCACGAATAAATAATATAAGATTTTGGTTACTACCCCCAGCTCTCACACTTCTTTTATCAAGAGGTCTAGTAGAAAGAGGAGTTGGGACCGGATGAACCGTTTATCCCCCACTATCTGCTGGAATCGCACACGCAGGGGCTTCAGTAGATATGGGTATTTTTTCTCTACACCTAGCCGGAGCTTCATCTATCTTAGGAGCTGTAAATTTTATTACAACCGTAATTAATATACGATCCAACGGAATAACTATAGACCGTATACCTCTATTCGTGTGGGCTGTTTTTATTACAGCAATTTTATTACTTTTATCTTTACCTGTATTAGCAGGAGCTATTACAATGCTACTTACAGACCGTAATTTAAATACCTCTTTTTTTGACCCGGCTGGGGGTGGAGATCCTGTTTTATATCAACACTTATTTTGATTTTTTGGTCACCTGGA


In [6]:
# print PHRED score dari setiap nukleotida
print(record.letter_annotations)

{'phred_quality': [16, 20, 16, 20, 10, 12, 9, 30, 25, 17, 18, 31, 40, 40, 28, 31, 44, 45, 46, 36, 28, 36, 29, 27, 36, 36, 28, 51, 58, 58, 26, 58, 51, 61, 61, 58, 58, 58, 51, 46, 46, 58, 61, 58, 58, 61, 58, 61, 58, 58, 58, 38, 36, 46, 51, 58, 61, 58, 61, 61, 58, 46, 46, 58, 61, 61, 58, 58, 61, 61, 61, 58, 61, 61, 58, 61, 61, 58, 58, 61, 58, 58, 51, 51, 58, 58, 61, 58, 61, 61, 58, 58, 61, 61, 58, 58, 58, 58, 58, 58, 58, 58, 61, 61, 61, 61, 61, 58, 58, 61, 61, 61, 61, 61, 61, 61, 58, 58, 58, 61, 61, 58, 61, 61, 61, 58, 61, 61, 58, 58, 61, 58, 61, 61, 58, 58, 58, 58, 58, 58, 58, 61, 61, 61, 61, 61, 61, 61, 61, 61, 61, 58, 28, 51, 51, 58, 58, 61, 58, 58, 58, 51, 51, 58, 51, 58, 51, 58, 58, 58, 58, 58, 58, 58, 58, 58, 61, 51, 51, 51, 51, 51, 51, 58, 51, 51, 61, 58, 51, 58, 51, 58, 58, 61, 58, 58, 58, 58, 58, 61, 61, 58, 51, 46, 46, 58, 58, 51, 51, 51, 58, 61, 58, 51, 58, 61, 61, 58, 51, 58, 58, 58, 61, 58, 51, 58, 58, 58, 58, 58, 58, 61, 61, 58, 51, 58, 58, 61, 61, 61, 58, 58, 58, 58, 58, 58

#### Diskusi
Pada contoh di atas, kita dapat melihat bahwa setiap nukleotida hasil bacaan dari Sanger sequencing memiliki Phred score masing-masing
* Apa itu _base calling_ dan _Phred quality score_? _**hint:** wikipedia_
* Berapa nilai Phred quality yang menunjukkan akurasi 99.9999%?
* Perhatikan nilai Phred pada awal dan akhir sequence (lihat visualisasinya di Benchling)! Apa yang terjadi? 

### FASTQ
FASTQ files memiliki format yang mirip dengan file FASTA. Meskipun demikian, FASTQ file tidak hanya berisi informasi sequence, dia juga menyimpan informasi kualitas hasil sequencing (PHRED).
Script berikut akan menghasilkan file baru dengan format fastq dari _trace file_ yang kita baca:

In [7]:
SeqIO.write(record, output_dir / f"{record.id}.fastq", "fastq-sanger")

1

Silahkan buka file FASTQ yang dihasilkan pada folder anda (ada di panel sebelah kiri) dan perhatikan strukturnya.
#### Diskusi
* Dimana perbedaan struktur format FASTA dan FASTQ?
* Pada file tersebut, informasi kualitas bacaan sequencing berada pada bagian bawah setelah data sequence. Apa maksud dari karakter tersebut? 
* Kenapa format kualitas di encode dalam karakter ASCII, bukan berupa angka seperti PHRED? _**Hint :** ASCII adalah karakter yang ada pada keyboard anda_

### Quality Trimming & FASTA

In [8]:
# Parse abi file using BioPython, quality trimming with Mott’s algorithm
for record_trim in SeqIO.parse(data_dir / "1st_BASE_3766078_S1_F.ab1", "abi-trim"):
    print(record_trim.id)

3766078_S1_F


In [9]:
# print sequence hasil bacaan
print("Panjang sequence = " + str(len(record_trim.seq)) + " bp") # print panjang sekuen berapa

print(record_trim.seq)

Panjang sequence = 672 bp
CTTTACTTATCTTAGGGGCATGATCAGGAATAGTAGGTACTGCTCTTAGTTTAATCATTCGAGCCGAATTAGGGCAACCCGGTAGGTTAATTGGAGATGATCAAATTTATAATGTTATTGTCACAGCCCACGCCTTTATTATAATTTTTTTTATGGTAATACCAATTATAATTGGAGGTTTCGGAAACTGATTAGTTCCCTTGATATTGGGGGCCCCAGATATAGCCTTCCCACGAATAAATAATATAAGATTTTGGTTACTACCCCCAGCTCTCACACTTCTTTTATCAAGAGGTCTAGTAGAAAGAGGAGTTGGGACCGGATGAACCGTTTATCCCCCACTATCTGCTGGAATCGCACACGCAGGGGCTTCAGTAGATATGGGTATTTTTTCTCTACACCTAGCCGGAGCTTCATCTATCTTAGGAGCTGTAAATTTTATTACAACCGTAATTAATATACGATCCAACGGAATAACTATAGACCGTATACCTCTATTCGTGTGGGCTGTTTTTATTACAGCAATTTTATTACTTTTATCTTTACCTGTATTAGCAGGAGCTATTACAATGCTACTTACAGACCGTAATTTAAATACCTCTTTTTTTGACCCGGCTGGGGGTGGAGATCCTGTTTTATATCAACACTTATTTTGATTTTTTGGTCACCTGG


* Apakah panjang sequence setelah dilakukan trimming sama?
* Mengapa hasil raw data dari sanger sequencing perlu dilakukan quality control dan trimming?
* Coba cari tahu siapa author dari Mott’s algorithm!

In [10]:
### FASTA
SeqIO.write(record_trim, output_dir / f"{record_trim.id}.fasta", "fasta")

1

## <mark>Aktivitas<mark>
* <mark>Dengan menggunakan template script diatas, baca trace file abi yang merupakan pasangan dari sekuen sebelumnya (hasil bacaan reverse primer) yaitu di `data/1st_BASE_3766079_S1_R.ab1`.<mark>
* <mark>Buatlah file FASTQ dan FASTA dari sekuen tersebut!<mark>

In [14]:
# Ubahlah kode berikut untuk menghasilkan file fastq dan fasta dari 1st_BASE_3766079_S1_R.ab1:

for record_trim in SeqIO.parse(data_dir / "1st_BASE_3766079_S1_R.ab1", "abi-trim"): #gunakan input_dir
    print(record_trim.id)
    
SeqIO.write(record_trim, output_dir / f"{record_trim.id}.fasta", "fasta") #gunakan output_dir
# ingat, ada dua file/format yang perlu dihasilkan

3766079_S1_R


1

### Consensus Sequence
Selanjutnya kita akan membuat consensus sequence dari pasangan data forward dan reverse dengan menggunakan tools dari _EMBOSS_, yaitu _merger_

In [15]:
# jika EMBOSS belum terinstall, silahkan install terlebih dahulu dengan mengetik pada terminal:
# conda install -c bioconda emboss
! merger {output_dir}/3766078_S1_F.fasta {output_dir}/3766079_S1_R.fasta -sreverse2 -outseq {output_dir}/merged_S1.fasta -outfile {output_dir}/merged_S1.merger
f = open(output_dir / "merged_S1.merger", "r")
f.read().splitlines()

Merge two overlapping sequences


['########################################',
 '# Program: merger',
 '# Rundate: Fri 10 Mar 2023 21:34:59',
 '# Commandline: merger',
 '#    [-asequence] results/02.1/3766078_S1_F.fasta',
 '#    [-bsequence] results/02.1/3766079_S1_R.fasta',
 '#    -sreverse2',
 '#    -outseq results/02.1/merged_S1.fasta',
 '#    -outfile results/02.1/merged_S1.merger',
 '# Align_format: simple',
 '# Report_file: results/02.1/merged_S1.merger',
 '########################################',
 '',
 '#',
 '# Aligned_sequences: 2',
 '# 1: 3766078_S1_F',
 '# 2: 3766079_S1_R',
 '# Matrix: EDNAFULL',
 '# Gap_penalty: 50.0',
 '# Extend_penalty: 5.0',
 '#',
 '# Length: 701',
 '# Identity:     640/701 (91.3%)',
 '# Similarity:   640/701 (91.3%)',
 '# Gaps:          52/701 ( 7.4%)',
 '# Score: 3064.0',
 '# ',
 '#',
 '',
 '3766078_S1_F       1 -----------------------------ctttacttatcttaggggcat     21',
 '                                                  ..|...|||||||||||||||',
 '3766079_S1_R     678 tcaaccaaaacataaag

#### Diskusi
* <mark>Apa itu EMBOSS?<mark>
* <mark>Algoritma apa yang digunakan oleh EMBOSS - merger?<mark>
* <mark>Mengapa salah satu sekuens harus di reverse sebelum menggunakan merger?<mark>

### Pensejajaran sekuens dengan database NCBI (BLAST)
* <mark>Coba cari tahu spesies apa yang diperoleh dari hasil sequencing dengan NCBI BLAST (https://blast.ncbi.nlm.nih.gov) _**hint :** merged_S1.fasta_<mark>

_**Trivia :** Kamu juga dapat melakukan BLAST request ke NCBI melalui BioPython, namun hal tersebut tidak akan kita bahas dalam praktikum ini._

#### Klik link di bawah untuk kembali ke Modul Utama:
### [BIC30007 - _Sequence Alignment Fundamentals, Algorithm, and Application_](http://ugm.id/BIC30007practical02)