# DNA Sequencing with Machine Learning

## Introduction

Genom adalah kumpulan lengkap DNA dalam suatu organisme. Semua spesies hidup memiliki genom, tetapi ukurannya sangat berbeda. Genom manusia, misalnya, disusun menjadi 23 kromosom, yang sedikit mirip dengan ensiklopedia yang disusun menjadi 23 jilid. Dan jika Anda menghitung semua karakter (pasangan basa DNA individu), akan ada lebih dari 6 miliar di setiap genom manusia. Jadi ini kompilasi yang sangat besar.

Genom manusia memiliki sekitar 6 miliar karakter atau huruf. Jika menurut Anda genom (urutan DNA lengkap) seperti sebuah buku, itu adalah buku tentang 6 miliar huruf "A", "C", "G" dan "T". Sekarang, setiap orang memiliki genom yang unik. Namun demikian, para ilmuwan menemukan sebagian besar genom manusia mirip satu sama lain.

Sebagai ilmu berbasis data, genomik secara ekstensif menggunakan pembelajaran mesin untuk menangkap ketergantungan dalam data dan menyimpulkan hipotesis biologis baru. Meskipun demikian, kemampuan untuk mengekstrak wawasan baru dari volume data genomik yang meningkat secara eksponensial membutuhkan model pembelajaran mesin yang lebih kuat. Dengan memanfaatkan kumpulan data besar secara efisien, pembelajaran mendalam telah merekonstruksi bidang-bidang seperti visi komputer dan pemrosesan bahasa alami. Ini telah menjadi metode preferensi untuk banyak tugas pemodelan genomik, termasuk memprediksi pengaruh variasi genetik pada mekanisme pengaturan gen seperti penerimaan dan penyambungan DNA.

Jadi pada artikel ini, kita akan memahami bagaimana menginterpretasikan struktur DNA dan bagaimana algoritma pembelajaran mesin dapat digunakan untuk membangun model prediksi pada data sekuens DNA.

## Bagaimana Urutan DNA direpresentasikan ?

<img src="DoubleHelix.gif" style="display: block;
  margin-left: auto;
  margin-right: auto;
  width: 50%;" alt="DNA dalam diagram Double Helix">
<p style="display: block;
  margin-left: auto;
  margin-right: auto;
  width: 50%;">DNA dalam diagram Double Helix</p>

Heliks ganda adalah representasi kimiawi yang benar dari DNA. Tapi DNA itu spesial. Ini adalah nukleotida yang terbuat dari empat jenis basa nitrogen: Adenin (A), Timin (T), Guanin (G), dan Cytosine (C). Kami selalu memanggil mereka A, C, G dan T.

Keempat bahan kimia ini terhubung bersama melalui ikatan hidrogen dalam urutan apa pun yang memungkinkan membuat rantai, dan ini menghasilkan satu utas heliks ganda DNA. Dan utas kedua dari heliks ganda menyeimbangkan yang pertama. Jadi jika Anda memiliki A di utas pertama, Anda harus memiliki T di utas kedua.

Selanjutnya, C dan G selalu seimbang satu sama lain. Jadi, setelah Anda mengidentifikasi satu utas heliks, Anda selalu dapat mengeja yang lainnya.

<img src="Sequence.webp" style="display: block;
  margin-left: auto;
  margin-right: auto;
  width: 50%;">

Urutan, atau urutan, dari basa-basa ini, menentukan instruksi biologis apa yang terkandung dalam untaian DNA. 
Misalnya :
* ATCGTT mungkin menginstruksikan untuk mata biru
* ATCGCT mungkin menginstruksikan untuk cokelat.

## Handling data DNA dengan <b>Biopython</b>

Berikut adalah contoh singkat cara bekerja dengan urutan DNA dalam format fasta menggunakan Biopython. Objek sequence akan berisi atribut seperti id dan sequence serta panjang sequence yang dapat Anda kerjakan secara langsung.

Kami akan menggunakan Bio.SeqIO dari Biopython untuk mem-parsing data urutan DNA (fasta). Ini menyediakan antarmuka seragam sederhana untuk memasukkan dan mengeluarkan berbagai macam format file urutan.

In [1]:
from Bio import SeqIO
for sequence in SeqIO.parse('dataset/example_dna.fa', "fasta"):
    print(sequence.id)
    print(sequence.seq)
    print(len(sequence))

ENST00000435737.5
ATGTTTCGCATCACCAACATTGAGTTTCTTCCCGAATACCGACAAAAGGAGTCCAGGGAATTTCTTTCAGTGTCACGGACTGTGCAGCAAGTGATAAACCTGGTTTATACAACATCTGCCTTCTCCAAATTTTATGAGCAGTCTGTTGTTGCAGATGTCAGCAACAACAAAGGCGGCCTCCTTGTCCACTTTTGGATTGTTTTTGTCATGCCACGTGCCAAAGGCCACATCTTCTGTGAAGACTGTGTTGCCGCCATCTTGAAGGACTCCATCCAGACAAGCATCATAAACCGGACCTCTGTGGGGAGCTTGCAGGGACTGGCTGTGGACATGGACTCTGTGGTACTAAATGAAGTCCTGGGGCTGACTCTCATTGTCTGGATTGACTGA
390
ENST00000419127.5
ATGTTTCGCATCACCAACATTGAGTTTCTTCCCGAATACCGACAAAAGGAGTCCAGGGAATTTCTTTCAGTGTCACGGACTGTGCAGCAAGTGATAAACCTGGTTTATACAACATCTGCCTTCTCCAAATTTTATGAGCAGTCTGTTGTTGCAGATGTCAGCAACAACAAAGGCGGCCTCCTTGTCCACTTTTGGATTGTTTTTGTCATGCCACGTGCCAAAGGCCACATCTTCTGTGAAGACTGTGTTGCCGCCATCTTGAAGGACTCCATCCAGACAAGCATCATAAACCGGACCTCTGTGGGGAGCTTGCAGGGACTGGCTGTGGACATGGACTCTGTGGTACTAAATGACAAAGGCTGCTCTCAGTACTTCTATGCAGAGCATCTGTCTCTCCACTACCCGCTGGAGATTTCTGCAGCCTCAGGGAGGCTGATGTGTCACTTCAAGCTGGTGGCCATAGTGGGCTACCTGATTCGTCTCTCAATCAAGTCCATCCAAATCGAAGCCGACAACTGTGTCACTGACTCCCTGACCATTTACGACTCCCTTTTGCCCATCCGGAGCAG

Sehingga menghasilkan sequence ID, sequence dan panjang sequence.