# Өгөгдлийн сангаас ижил төстэй дарааллуудыг хайх(Searching Similar Sequence in Databases)

## 1. Introduction 

**Биологийн судалгаанд ямар ч мэдээллэгүй байх ДНХ эсвэл уургийн дараалалтай элбэг тааралддаг (жнь ДНХ-ийн дараалал тогтоох төслүүддээс ирдэг)**

### 1.1 Тооцооллын хүндрэл

**Дарааллаар зэрэгцүүлэлтийн Dynamic Programm (DP) алгоритмуудыг цөөн удаа ажиллуулахад үр дүнтэй гэж болох ч олон  удаа (сая сая удаа) ажилуулах шаардлагатай үед тохиромжгүй болдог.**

• **Оролт:** Өгөгдсөн дараалал, Дарааллын жагсаалт, Орлуулах матриц, Зөрүүний торгуул (тогтмол байхаар)

• **Гаралт:** Өгөгдсөн дараалалын тухайн ӨС (ls) дахь хамгийн сайн локал зэрэгцүүлэлт болон дараалал

**Практикт эдгээр харьцуулалтыг хийхэд ӨС нь ихэвчлэн том хэмжээтэй, хэдэн сая дараалал агуулсан байдаг**

In [2]:
def align_query(query, ls, sm, g):
    bestScore = -1
    bestSeq = None
    bestAl = None
    for seq in ls:
        al = smith_Waterman(query, seq, sm, g)=
        if al[2] > bestScore :
            bestScore = al [2]
            bestSeq = seq
            bestAl = al
    bestAlin = recover_align_local(bestAl[0], bestAl[1] , query ,bestSeq )
    return bestAlin , bestScore

### 1.2 Хьюристик хандлагатай алгоритмууд

**Тооцооллын хүндрэлийн асуудлыг ерөнхийдөө Dynamic Programming(DP) алгоритмаас 100 дахин хурдан байж болох хьюристик хандлагатай зарим алгоритм (программ)-ыг хөгжүүлэн шийддэг.**

- Жишээ нь: Урьдчилсан боловсруулалттай буюу хайлт хийхэд тохируулсан бүтэцтэй мэдээллийг бүрдүүлэх боловсруулалтыг эхлээд бэлтгэдэг

- Биоинформатикийн нийгэмлэгээс хэд хэдэн хьюристик алгоритмуудыг санал болгосон.
    - FASTA: Хамгийн алдартай нь, Биоинформатикийн эхэн үед гарч ирсэн
    - BLAST (Basic Local Alignment Search Tool) програм
        - NCBI эсвэл EBI зэрэг үндсэн судалгааны хүрээлэнгүүдийг хамарсан олон сервер
        - Нээлттэй ашиглах боломжтой, маш өргөн хэрэглэгддэг.

- Дутагдалтай тал:
    - Алгоритмын зорилго сулардаг, ө.х эдгээр алгоритмууд нь хамгийн сайн шийдлийг (зэрэгцүүлэлт) олох баталгаа болохгүй.
    - Ялангуяа дарааллын ижил төстэй байдал бага үед асуудал үүсч болно,
    - Өгөгдсөн өгөгдлийн санд ижил төстэй байдлын өндөр түвшний дараалал байхгүй.
    
    ![image.png](attachment:image.png)

## 2. Basic Local Alignment Search Tool - BLAST

**BLAST алгоритм: Өгөгдсөн дараалал болон сонгосон ӨС-ийн дарааллуудын хооронд сайн зэрэгцүүлэлт олох зорилготой.**

![image.png](attachment:image.png)

1. Зэрэгцүүлэлтийн чанарыг бүдгэрүүлж болзошгүй нөлөө багатай бүсүүдийг өгөгдсөн дарааллаас хасна;
2. Өгөгдсөн дараалал дээрх **𝑤** урттай бүх **үг (word)** -ийг гарган авна;
3. Дээрх үг бүрийн хувьд **𝑤** урттай бүх хөрш үгийн жагсаалт байгуулна (BLOSUM62, PAM);
    • Зэрэгцүүлэлтийн оноо нь 𝑇-ээс их
4. ӨС-ийн дараалал бүр дээр уг үгсийг хайна.
    • **𝑤** уртаар таарч байгаа (hits);
5. Бүх hit-ийг хоёр тийш нь өргөтгөнө;
6. Хамгийн өндөр оноотой зэрэгцүүлэлтүүдийг сонгоно (high-scoring pairs-HSPs).

BLAST - аар ӨС хайлт хийж үзэх:  https://www.ncbi.nlm.nih.gov/BLAST

### Зэрэгцүүлэлтийн үнэмшил  (Significance of the Alignments)

**Зэрэгцүүлэлтийн оролт ба дараалалын ижил төсөө нь статистикийн хувьд бодитой уу? Ө.х энэ ижил төстэй байдал нь санамсаргүй тохиолдлоор үүсэх магадлал хэр байх вэ?**

## 3. Энгийн жишээ - MyBlast

### 3.1 Implementing Our Own BLAST

1. Мөр бүртээ дараалал агуулсан текст файлаас ӨС-г ачаална.
2. Урьдчилан боловсруулалт хийнэ.
    - Түлхүүрүүд нь дараалал дээр байж болох 𝑤 урттай бүх үг, утга нь тухайн үгний илэрч байгаа байрлал байх dictionary үүсгэнэ (hashing).
    - Орлуулах матрицыг ашиглахгүй. Харин ижил/ялгаатайн оноо (1/0)-г авч үзнэ. Энд зай тооцохгүй. Тиймээс зөвхөн төгс hit-үүдыг авч үзнэ, ө.х босго оноо 𝑤-тэй тэнцүү.
3. Дарааллаас оролттой тохирох үгүүдийн бүх илрэлийг хайна
    - Үр дүн нь hit-үүдийн жагсаалт (оролт дах индекс, дараалалд илрэх индекс).
4. Өмнөх функцээр олсон hit-үүдийг өргөтгөнө
    - Hit-ийг хоёр тийш сунгаж, онооны өсөлтөд оруулсан хувь нэмэр нь өргөтгөлийн байрлалын тал хувиас их буюу тэнцүү байх болно гэдгийг харгалзан процессийг хялбаршуулсан.
    - Үр дүн нь дараах талбаруудтай хослол хэлбэртэй: оролт дахь зэрэгцүүэлтийн эхлэл индекс, дараалал дээрх зэрэгцүүлэлтийн эхлэл индекс, зэрэгцүүлгийн хэмжээ, оноо (жнь ижил байгаа тэмдэгтүүдийн тоо).
5. ӨС-ийн бүх дараалалтай асуулгыг харьцуулахын тулд өмнөх функцуудыг ажиллуулна.

In [6]:
def read_database(filename):
    f = open(filename)
    db = []
    for line in f:
        db.append(line.rstrip())
    f.close()
    return db

# Dictionary үүсгэх, Оролт дээрх үгүүдийг тодорхойлох
def build_map(query, w):
    res = {}
    for i in range(len(query)-w+1):
        subseq = query[i:i+w]
        if subseq in res:
            res[subseq].append(i)
        else:
            res[subseq] = [i]
    return res

def get_hits(seq, m, w):
    res = []  # list of tuples
    for i in range(len(seq)-w+1):
        subseq = seq[i:i+w]
        if subseq in m:
            l = m[subseq]
            for ind in l:
                res.append((ind,i))
    return res

# Hit-ийг өргөтгөх
def extends_hit (seq, hit, query, w):
    stq, sts = hit[0], hit[1]
    ## move forward
    matfw = 0       
    k=0
    bestk = 0
    while 2*matfw >= k and stq+w+k < len(query) and sts+w+k < len(seq):
        if query[stq+w+k] == seq[sts+w+k]: 
            matfw+=1
            bestk = k+1
        k += 1
    size = w + bestk
    ## move backwards
    k = 0
    matbw = 0   
    bestk = 0
    while 2*matbw >= k and stq > k and sts > k:
        if query[stq-k-1] == seq[sts-k-1]: 
            matbw+=1
            bestk = k+1
        k+=1       
    size += bestk
    
    return (stq-bestk, sts-bestk, size, w+matfw+matbw)

# Хамгийн сайн оноо ба зэрэгцүүлэлт
def hit_best_score(seq, query, m, w):
    hits = get_hits(seq, m, w)
    bestScore = -1.0
    best = ()
    for h in hits:
        ext = extends_hit(seq, h, query, w)
        score = ext[3]
        if score > bestScore or (score== bestScore and ext[2] < best[2]):
            bestScore = score
            best = ext
    return best

def best_alignment (db, query, w):
    m = build_map(query, w)
    bestScore = -1.0
    res = (0,0,0,0,0)
    for k in range(0,len(db)):
        bestSeq = hit_best_score(db[k], query, m, w)
        if bestSeq != ():
            score = bestSeq[3]  
            if score > bestScore or (score== bestScore and bestSeq[2] < res[2]):
                bestScore = score
                res = bestSeq[0], bestSeq[1], bestSeq[2], bestSeq[3], k
    if bestScore < 0: return ()
    else: return res
    
db = read_database("files/seqBlast.txt")
query = "gacgcctcgcgctcgcgcgctgaggcaaaaaaaaaaaaaaaaaaaatcggatagctagctgagcgctcgatagcgcgttcgctgcatcgcgtatagcgctgaagctcccggcgagctgtctgtaaatcggatctcatctcgctctatcct"
r = best_alignment(db, query, 11)
print(r)

query2 = "cgacgacgacgacgaatgatg"
r = best_alignment(db, query2, 11)
print(r)

(1, 38, 149, 108, 3)
(0, 0, 21, 21, 4)


## 4. BioPython хэрэглэх (Using BLAST Throught BioPython)

**Модуль: Bio.Blast.NCBIWWW**

- Цөм функц – qblast. Параметерууд:
    - string Program : Хэрэглэх программ (“blastn”, “blastp”, “blastx”, “tblastn” or “tblastx”)
    - string Database : ӨС (“nr”, “nt” or “swissprot”)
    - string Query : Оролтын дараалал(FASTA эсвэл NCBI-аас заасан форматтай дараалал)
    - Optional parameters: Гаралтын төрөл (xml г.м), E-ийн босго, Орлуулгын матриц, Зай-торгууль г.м

In [8]:
from Bio.Blast import NCBIWWW 
from Bio import SeqIO

record = SeqIO.read(open("files/example_blast.fasta"), format="fasta") 
result_handle = NCBIWWW.qblast("blastn", "nt", record.format("fasta"))

save_file = open("./my_blast.xml", "w")
save_file.write(result_handle.read()) 
save_file.close() 
result_handle.close()

### BLAST THROUGH BIOPYTHON BlastRecord class

**BlastRecord ангийн объект нь BLAST хайлтын үр дүнгээс олж болох бүх мэдээлэл, мөн процесст ашигласан параметрүүдийг агуулдаг.**

- Гурван түвшний шаталсан зохион байгуулалттай.
    - BlastRecord-ийн түвшин: alignments жагсаалт, мөн хайлтанд ашигласан matrix (орлуулах матриц), gap_penalties, database ерөнхий параметрүүд.
    - Alignment түвшин: hsps (HSP-ийн багц, өөр өөр HSP-ээр нэг дараалал дээр өөр өөр байршил олдоно), мөн title, accession, hit_id, hit_def, length.
    - HSP түвшин: expect, score, query_start, sbjct_start, align_length, sbjct локал зэрэгцүүлэлтийн мэдээллүүд, Мөн match (E утга), нормчилсон оноо, зэрэгцүүлэлт эхэлсэн оролт дээрх индекс, зэрэгцүүлэлт эхлэх дараалал дээрх индекс, HSP урт, HSP зэрэгцүүлэлтийн дэд хэсгүүд (оролтын болон тухайн дарааллын 2-ын ижил төстэй).

In [11]:
from Bio.Blast import NCBIXML 

result_handle = open("./my_blast.xml")
blast_records = NCBIXML.parse(result_handle)

e_value_threshold = 0.001
for blast_record in blast_records:
    for alignment in blast_record.alignments:
        for hsp in alignment.hsps:
            if hsp.expect < e_value_threshold:
                print('****Alignment****')
                print('sequence: ', alignment.title)
                print('length: ', alignment.length)
                print('e value: ', hsp.expect)
                print(hsp.query[0:75] + '...')
                print(hsp.match[0:75] + '...')
                print(hsp.sbjct[0:75] + '...')

****Alignment****
sequence:  gi|1219041180|ref|XM_021875076.1| PREDICTED: Chenopodium quinoa cold-regulated 413 plasma membrane protein 2-like (LOC110697660), mRNA
length:  1173
e value:  4.57597e-117
ACAGAAAATGGGGAGAGAAATGAAGTACTTGGCCATGAAAACTGATCAATTGGCCGTGGCTAATATGATCGATTC...
|| ||||||||| |||| | |||| ||  |||| |||| | |||| ||| | |||| ||| ||| ||||| | ||...
ACCGAAAATGGGCAGAGGAGTGAATTATATGGCAATGACACCTGAGCAACTAGCCGCGGCCAATTTGATCAACTC...
****Alignment****
sequence:  gi|1226796956|ref|XM_021992092.1| PREDICTED: Spinacia oleracea cold-regulated 413 plasma membrane protein 2-like (LOC110787470), mRNA
length:  672
e value:  2.88775e-113
AAAATGGGGAGAGAAATGAAGTACTTGGCCATGAAAACTGATCAATTGGCCGTGGCTAATATGATCGATTCCGAT...
|||||||| |||  |||| | || ||||| |||||||| || ||||| |||| ||| ||| ||||||||||||||...
AAAATGGGTAGACGAATGGATTATTTGGCGATGAAAACCGAGCAATTAGCCGCGGCCAATTTGATCGATTCCGAT...
****Alignment****
sequence:  gi|731339628|ref|XM_010682658.1| PREDICTED: Beta vulgaris subsp. vulgaris cold-regulated 413 plas