# Hirschberg algoritam 

Hirschberg algoritam je varijanta Needleman-Wunsch algoritma samo sa boljom (linearnom) prostornom slozenoscu i rekonstrukcijom putanje. Da bismo omogucili i rekonstrukciju putanje, a da ostanemo u linearnoj prostornij slozenosti, zrtvovacemo vremensku slozenost, ali samo uz povecanje za konstantan faktor (udvostrucena vremenska slozenost u odnosu na standardni Needleman-Wunsch algoritam). Ovaj algoritam se oslanja na Needleman-Wunsch algoritam koji u linearnoj prostornoj slozenosti izracunava skor najboljeg poravnanja, tj. vraca poslednji red matrice skorova koja sadrzi skorove poravnanja citavih sekvenci. 

<u>Osnovna ideja Hirschberg-ovog algoritma</u>:

<img src="assets/hirschberg.png" width="550"> 

Alogoritam se zasniva na *Divide-and-Conquer* principu koji prilikom podele osnovnog problema (trazenje optimalne putanje od cvora u gornjem levom cosku do cvora u donjem desnom cosku u grafu poravnanja) ujedno pamti cvorove kroz koje prolazi optimalna putanja. Osnovna ideja algoritma je da u svakom koraku pronalazimo srednji cvor na optimalnoj putanji - cvor koji se nalazi u preseku srednje vrste (kolone) i optimalne putanje, i da zatim svedemo problem na dva manja podproblema - pronalazenje optimalne putanje od pocetnog do srednjeg cvora i od srednjeg cvora do krajnjeg. Pamteci sredisnje cvorove algoritam ima mogucnost da pored optimalnog skora vrati i optimalnu putanju, tj. poravnanje sekvenci koje daje optimalni skor. Potrebno je samo jos definisati na koji nacin se pronalazi srednji cvor, a da ostanemo u trazenom vremenskom i prostornom okviru. 

<img src="assets/hirschberg_step.png" width="1150"> 

Srednji cvor optimalne putanje nalazimo tako sto za svaki **i-ti** cvor iz srednje vrste (kolone) izracunamo skor tzv. **i-te putanje** - putanje od polaznog cvora (u gornjem levom cosku) do krajnjeg cvora (u donjem desnom cosku) takvu da sece srednju vrstu (kolonu) u **i-tom** cvoru. **Trazeni srednji cvor je upravo onaj i-ti cvor srednje vrste (kolone) cija i-ta putanja ima najveci skor.** To je tako zato sto racunanajuci skor i-te putanje mi zapravo uzimamo u obzir sve moguce putanje koje prolaze kroz i-ti cvor u srednjoj vrsti (koloni), i uzimamo najbolju, a zatim od svih i-tih putanja uzimamo onu koja je najbolja, sto onda mora odgovarati najboljoj putanji od polaznog do krajnjeg cvora.

<u>Stablo dekompozicije problema na potprobleme</u>: 

<img src="assets/hirschberg_decomposition_tree.png" width="450" align="left"> 

Funkcija **needleman_wunsch_last_line** radi sve isto sto i funkcija **needleman_wunsch_score** sa proslog casa, samo umesto najboljeg skora (poslednji element u poslednjem redu matrice skorova) vraca citav poslednji red matrice skorova. Jos jedna razlika je u tome sto cemo sada sve kombinacije uparivanja razlicitih aminokiselina bodovati istim skorom **missmatch_penalty** a sva uparivanja istih aminokiselina skorom **match_score**. Ovo je pojednostavljenje u odnosu na koriscenje BLOSSUM matrice skorova koje je pokazano na prethodnom casu.

In [1]:
import copy

In [2]:
def needleman_wunsch_last_line(seq1, seq2, match_score, missmatch_penalty, gap_penalty):
    n = len(seq1) + 1
    m = len(seq2) + 1
    
    S = [[0 for j in range(m)] for i in range(2)]   
    
    for j in range(1, m):
        S[0][j] = S[0][j-1] + gap_penalty
        
    for i in range(1, n):
        S[1][0] = S[0][0] + gap_penalty         
        
        for j in range(1, m):
            from_top = S[0][j] + gap_penalty
            from_left = S[1][j-1] + gap_penalty
            from_diagonal = S[0][j-1] + (match_score if seq1[i-1] == seq2[j-1] else missmatch_penalty)
                
            S[1][j] = max(from_top, from_left, from_diagonal)
             
        S[0] = copy.copy(S[1])                 
        
    return S[0]

In [3]:
gap_penalty = -2
missmatch_penalty = -1
match_score = 2

seq1 = 'AGTACGCA'
seq2 = 'TATGC'

last_line = needleman_wunsch_last_line(seq1, seq2, match_score, missmatch_penalty, gap_penalty)

print('Last line: ', last_line)

Last line:  [-16, -12, -8, -7, -3, 1]


Trebace nam i osnovni Needleman-Wunsch algoritam koji se koristi za bazni slucaj kada se jedna sekvenca poredi sa jednim karakterom, a tada i osnovna verzija algoritma radi u linearnoj prostornoj (a i vremenskoj) slozenosti u odnosu na polazne duzine sekvenci. Pomocna funkcija **backtracking_alignment** rekonstruise putanju (tj. poravnanje) koja odgovara izracunatom optimalnom poravnanju (maksimalni skor).

In [4]:
def needleman_wunsch(seq1, seq2, match_score, missmatch_penalty, gap_penalty):
    n = len(seq1) + 1
    m = len(seq2) + 1
    
    S = [[0 for j in range(m)] for i in range(n)]
    BACKTRACK = [[None for j in range(m)] for i in range(n)]
    
    for i in range(1, n):
        S[i][0] = S[i-1][0] + gap_penalty
        BACKTRACK[i][0] = (i-1, 0)
        
    for j in range(1, m):
        S[0][j] = S[0][j-1] + gap_penalty
        BACKTRACK[0][j] = (0, j-1)
        
    for i in range(1, n):
        for j in range(1, m):
            from_top = S[i-1][j] + gap_penalty
            from_left = S[i][j-1] + gap_penalty
            from_diagonal = S[i-1][j-1] + (match_score if seq1[i-1] == seq2[j-1] else missmatch_penalty)
                
            S[i][j] = max(from_top, from_left, from_diagonal)
            
            if S[i][j] == from_top:
                BACKTRACK[i][j] = (i-1, j)
            elif S[i][j] == from_left:
                BACKTRACK[i][j] = (i, j-1)
            else:
                BACKTRACK[i][j] = (i-1, j-1)
                
    i = n - 1
    j = m - 1
    
    score = S[n-1][m-1]
    seq1_align, seq2_align = backtracking_alignment(BACKTRACK, n, m, seq1, seq2)
    
    return (score, seq1_align, seq2_align)           

In [5]:
def backtracking_alignment(BACKTRACK, n, m, seq1, seq2):
    i = n - 1
    j = m - 1
    
    seq1_align = ''
    seq2_align = ''
    
    while BACKTRACK[i][j] != None:
        if BACKTRACK[i][j] == (i-1, j):
            seq1_align = seq1[i-1] + seq1_align
            seq2_align = '-' + seq2_align
            
        elif BACKTRACK[i][j] == (i, j-1):
            seq1_align = '-' + seq1_align
            seq2_align = seq2[j-1] + seq2_align
            
        else:
            seq1_align = seq1[i-1] + seq1_align
            seq2_align = seq2[j-1] + seq2_align
            
        (i, j) = BACKTRACK[i][j]
        
    return (seq1_align, seq2_align)    

Funkcija **hirschberg** odredjuje poravnanje niski **seq1** i **seq2** koristeci *Divide-and-Conquer* tehniku i Needleman-Wunsch algoritam za resavanje problema manje dimenzije.

In [6]:
def hirschberg(seq1, seq2, match_score, missmatch_penalty, gap_penalty):
    n = len(seq1)
    m = len(seq2)
    
    #izlasci iz rekurzije su kada je jedna niska prazna (tada se poravnanje sastoji samo od insercija/delecija)
    #bazni slucaj je takodje kada je jedna od niski duzine 1, jer tada nemamo sta da delimo na pola
    if n == 0:
        seq1_align = '-' * m 
        seq2_align = seq2
        
    elif m == 0:
        seq1_align = seq1
        seq2_align = '-' * n 
    
    elif n == 1 or m == 1:
        (_, seq1_align, seq2_align) = needleman_wunsch(seq1, seq2, match_score, missmatch_penalty, gap_penalty)
        
    else:
        x_mid = n // 2
    
        last_line_L = needleman_wunsch_last_line(seq1[:x_mid], seq2, match_score, missmatch_penalty, gap_penalty)
        last_line_R = needleman_wunsch_last_line(seq1[x_mid:][::-1], seq2[::-1], match_score, missmatch_penalty, gap_penalty)
        last_line_R.reverse()        
        
        max_score = float('-inf')
        y_mid = None
    
        for j in range(m):
            score = last_line_L[j] + last_line_R[j]
            
            if score > max_score:
                max_score = score
                y_mid = j
            
        (seq1_align_L, seq2_align_L) = hirschberg(seq1[:x_mid], seq2[:y_mid], match_score, missmatch_penalty, gap_penalty)
        (seq1_align_R, seq2_align_R) = hirschberg(seq1[x_mid:], seq2[y_mid:], match_score, missmatch_penalty, gap_penalty)
    
        seq1_align = seq1_align_L + seq1_align_R
        seq2_align = seq2_align_L + seq2_align_R
    
    return (seq1_align, seq2_align)

In [7]:
gap_penalty = -2
missmatch_penalty = -1
match_score = 2

seq1 = 'AGTACGCA'
seq2 = 'TATGC'

(seq1_align, seq2_align) = hirschberg(seq1, seq2, match_score, missmatch_penalty, gap_penalty)

print('Alignment:')
print(seq1_align)
print(seq2_align)

Alignment:
AGTACGCA
--TATGC-


# Smith-Waterman algoritam 

Rastojanja koja smo do sada razmatrali trazila su **globalno poravnanje** - pokusavaju da poravnaju sekvence u celosti. Nekada su pozeljnija poravnanja koja nisu ona sa najvecim *globalnim* skorom, vec da imamo duze regione sekvenci koje se u potpunosti podudaraju, dok se na drugim delovima mogu potpuno razlikovati. Tada govorimo o **lokalnom poravnanju**.

Kog globalnog poravnanja nam je bilo vaznije da imamo sto veci broj match-eva, potencijalno sa velikim broje insercija i delecija izmedju svaka dva match-a, dok nam je ovde vazno da imamo sto veci broj susednih match-eva. Zato kod lokalnog poravnanja necemo kaznjavati pocetne i krajnje insercije tj. delecije.

<u>Rekurzivno resenje problema:</u>

$S[i, 0] = 0, \hspace{0.3cm} \forall i$

$S[0, j] = 0, \hspace{0.3cm} \forall j$

$S[i, j] = max \begin{cases} 
                    S[i-1, j] + gap\_penalty \\ 
                    S[i, j-1] + gap\_penalty \\ 
                    S[i-1, j-1] + match\_score (seq1[i], seq2[j]) \\
                    0
               \end{cases}$

In [8]:
def smith_waterman(seq1, seq2, match_score, missmatch_penalty, gap_penalty):
    n = len(seq1) + 1
    m = len(seq2) + 1
    
    S = [[0 for j in range(m)] for i in range(n)]
    BACKTRACK = [[None for j in range(m)] for i in range(n)]
    
    for i in range(1, n):
        #S[i][0] ostavljamo da bude 0 
        BACKTRACK[i][0] = (i-1, 0) 
        
    for j in range(1, m):
        #S[0][j] ostavljamo da bude 0 
        BACKTRACK[0][j] = (0, j-1)
        
    for i in range(1, n):
        for j in range(1, m):
            from_top = S[i-1][j] + gap_penalty
            from_left = S[i][j-1] + gap_penalty
            from_diagonal = S[i-1][j-1] + (match_score if seq1[i-1] == seq2[j-1] else missmatch_penalty)
                
            S[i][j] = max(from_top, from_left, from_diagonal, 0)    
            
            if S[i][j] == from_top:
                BACKTRACK[i][j] = (i-1, j)
            elif S[i][j] == from_left:
                BACKTRACK[i][j] = (i, j-1)
            else:
                BACKTRACK[i][j] = (i-1, j-1)        #NAPOMENA:ovde podpada i slucaj kada je S[i][j] = 0, ali 
                                                    #nam u tom slucaju nije bitno odakle smo dosli do cvora (i, j) 
                                                    #jer prilikom rekonstrukcije putanje kada naidjemo na 
                                                    #S[i][j] = 0 tu zaustavljamo backtracking!
                            
    #pronalazimo poziciju max vrednost u matrici S (skor najboljeg lokalnog poravnanja) 
    #odakle zapocinjemo putanju (tj. poravnanje) koja odgovara izracunatom skoru
    max_score = float('-inf')
    max_score_pos = None
    
    for i in range(n):
        for j in range(m):
            if S[i][j] > max_score:
                max_score = S[i][j]
                max_score_pos = (i, j)
                
    (max_i, max_j) = max_score_pos
    
    score = S[max_i][max_j]
    (seq1_align, seq2_align) = backtracking_alignment_sw(BACKTRACK, S, max_i, max_j, seq1, seq2)
        
    return (score, seq1_align, seq2_align)

In [9]:
def backtracking_alignment_sw(BACKTRACK, S, i, j, seq1, seq2):
    seq1_align = ''
    seq2_align = ''
    
    while BACKTRACK[i][j] != None and S[i][j] != 0:
        if BACKTRACK[i][j] == (i-1, j):
            seq1_align = seq1[i-1] + seq1_align
            seq2_align = '-' + seq2_align
            
        elif BACKTRACK[i][j] == (i, j-1):
            seq1_align = '-' + seq1_align
            seq2_align = seq2[j-1] + seq2_align
            
        else:
            seq1_align = seq1[i-1] + seq1_align
            seq2_align = seq2[j-1] + seq2_align
            
        (i, j) = BACKTRACK[i][j]
        
    #seq1_align = seq1[:i] + seq1_align + seq1[max_i:] 
    #seq2_align = ('-' * i) + seq2_align + ('-' * (n - 1 - max_i))    
        
    return (seq1_align, seq2_align)    

In [10]:
gap_penalty = -2
missmatch_penalty = -1
match_score = 2

seq1 = 'AGTCGTGATCGTTGTA'
seq2 = 'GTATGAA'

In [11]:
(score, seq1_align, seq2_align) = smith_waterman(seq1, seq2, match_score, missmatch_penalty, gap_penalty)

print('Score: ', score)
print('Alignment:')
print(seq1_align)
print(seq2_align)

Score:  7
Alignment:
GTCGTGA
GTA-TGA


In [12]:
(seq1_align, seq2_align) = hirschberg(seq1, seq2, match_score, missmatch_penalty, gap_penalty)

print('Alignment:')
print(seq1_align)
print(seq2_align)

Alignment:
AGTCGTGATCGTTGTA
----GT-A----TGAA


# Affine gap penalty alignment

Do sada smo insercije i delecije kaznjavali fiksno. Iako smo kod lokalnog poravnanja dozvolili besplatnim taksi voznjama da se insercije i delecije sa pocetka i sa kraja ne kaznjavaju, i dalje bi se sve one koje se desavaju u unutrasnjosti podniski koje poravnavamo kaznjavale na isti nacin, nevezano od toga gde su se pojavile. Iz bioloske perspektive pozeljno je manje kaznjavati insercije i delecije koje se pojavljuju uzastopno, u odnosu na to kada se pojavljuju pojedinacno, **zato sto niz uzastopnih insercija i delecija cesto predstavlja jedan isti evolutivni dogadjaj, dok pojedinacne insercije i delecije razlicite evolutivne dogadjaje**. Ovo ima smisla jer bismo time ukazali na to koje su niske evolutivno vise slicne, odnosno razlicite.

Afina kazna za praznine (insercije i delecije) podrazumeva sledeci nacin kaznjavanja:
- **sigma** - kazna za otvaranje praznine (tj. novog niza praznina)
- **epsilon** - kazna za prosirenje praznine (tj. za svaku sledecu uzastopnu prazninu) 

Pri tome, da bismo postigli efekat manjeg kaznjavanja uzastopnih praznina u odnosu na pojedinacne, potrebno je da vazi **sigma > epsilon**.

Pravimo graf 3-slojni graf takav da: 
- donji sloj koji ima samo grane koje odgovaraju insercijama (grane na dole) 
- srednji sloj koji ima samo grane koje odgovaraju poravnaju istih ili razlicitih simbola (dijagonalne grane) 
- gornji sloj koji ima samo grane koje odgovaraju delecijama (grane u desno) 

Osim grana izmedju cvorova u okviru istog sloja imamo i grane izmedju cvorova iz donjeg sloja u srednji sloj, iz srednjeg sloja u donji i u gornji sloj, i iz gornjeg sloja u srednji sloj. Te grane postoje samo izmedju cvorova koji imaju susedne/iste koordinate u okviru razlicitih slojeva. Npr. iz cvora (1, 1) u srednjem sloju mozemo stici do cvora (1, 2) u donjem sloju i do cvora (2, 1) u gornjem sloju (pomeramo se sa koordinatama za jednu poziciju dole, odnosno u desno). Ukoliko se vracamo iz donjeg ili gornjeg sloja, tada prelazimo u cvor sa istom koordinatom. **Ove grane odgovaraju otvaranju i zatvaranju niza praznina - niza insercija ili niza delecija.** 


<img src="assets/affine_gap_alignment.png" width="750">  

Formule za izracunavanje matrica S_LOWER, S_MIDDLE i S_UPPER koje pridruzujemo slojevima grafa:

$\begin{cases}
    S\_MIDDLE [0, 0] = 0 \\
    S\_MIDDLE [i, 0] = \infty, \hspace{2.3cm} \forall i > 1 \\
    S\_MIDDLE [0, j] = \infty, \hspace{2.3cm} \forall j > 1
\end{cases}$

$\begin{cases}
    S\_LOWER [i, 0] = \sigma + (i-1) \cdot \epsilon, \hspace{0.3cm} \forall i > 1 \\
    S\_LOWER [0, j] = \infty, \hspace{2.4cm} \forall j
\end{cases}$

$\begin{cases}
    S\_UPPER [0, j] = \sigma + (j-1) \cdot \epsilon, \hspace{0.4cm} \forall j > 1 \\
    S\_UPPER [i, 0] = \infty, \hspace{2.5cm} \forall i 
\end{cases}$

$S\_LOWER [i, j] = max \begin{cases} 
                    S\_LOWER[i-1, j] + \epsilon \\ 
                    S\_MIDDLE[i-1, j] + \sigma 
               \end{cases}$

$S\_UPPER [i, j] = max \begin{cases} 
                    S\_UPPER[i, j-1] + \epsilon \\ 
                    S\_MIDDLE[i, j-1] + \sigma 
               \end{cases}$
               
$S\_MIDDLE [i, j] = max \begin{cases} 
                    S\_LOWER[i, j] \\
                    S\_UPPER[i, j] \\
                    S\_MIDDLE[i-1, j + match\_score (seq1[i], seq2[j])  
               \end{cases}$               
               
Vrstu po vrstu racunamo paralelno vrednosti ove 3 matrice, i to u sledecem redosledu: prvo racunamo tekucu vrstu za S_LOWER i S_UPPER jer one zavise samo od njihove prethodne vrste i prethodne vrste iz S_MIDDLE, a na kraju racunamo za S_MIDDLE jer njena tekuca vrsta zavise od nejne prethodne vrste i od tekucih vrsta S_LOWER i S_UPPER.                

In [13]:
def affine_gap_alignment(seq1, seq2, match_score, missmatch_penalty, epsilon, sigma):
    n = len(seq1) + 1
    m = len(seq2) + 1
    
    S_LOWER = [[0 for j in range(m)] for i in range(n)]
    S_MIDDLE = [[0 for j in range(m)] for i in range(n)]
    S_UPPER = [[0 for j in range(m)] for i in range(n)]
    BACKTRACK = [[None for j in range(m)] for i in range(n)]
    
    #kako kretanje kroz 3-slojni graf polazimo iz cvora sa koordinatama (0, 0) u srednjem sloju, 
    #i grana koje prelaskom u donji ili gornji sloj prelaze u cvor sa jednom koordinatom uvecanom
    #u odnosu na polazni cvor, to znaci da u cvorove u donjem sloju sa prvom koordinatom 0 i u 
    #cvorove u gornjem sloju sa drugom koordinatom 0 nikada ne mozemo da dodjemo; takodje, polazeci
    #iz cvora sa koordinatama (0, 0) i krecuci se dijagonalnim granama na srednjem sloju, nikada 
    #necemo moci da dodjemo do cvorova sa koordinatama (0, j) i (i, 0), za i, j > 0
    
    for j in range(m):
        S_LOWER[0][j] = float('-inf')
        
    for i in range(n):
        S_UPPER[i][0] = float('-inf')
        
    for j in range(1, m):
        S_MIDDLE[0][j] = float('-inf')
        
    for i in range(1, n):
        S_MIDDLE[i][0] = float('-inf')
        
    #posebno racunamo putanje za cvorove u 1.koloni na donjem sloju i cvorove u 1.vrsti na gornjem sloju, 
    #jer do njih mozemo stici samo pomocu 1 grane --> jednoznacno odredjena putanja     
        
    for i in range(1, n):
        S_LOWER[i][0] = sigma + (i-1) * epsilon
        BACKTRACK[i][0] = (i-1, 0)
        
    for j in range(1, m):
        S_UPPER[0][j] = sigma + (j-1) * epsilon
        BACKTRACK[0][j] = (0, j-1)
        
    #opsti slucaj    
        
    for i in range(1, n):
        for j in range(1, m):
            S_LOWER[i][j] = max(S_LOWER[i-1][j] + epsilon, 
                                S_MIDDLE[i-1][j] + sigma)
            
            S_UPPER[i][j] = max(S_UPPER[i][j-1] + epsilon, 
                                S_MIDDLE[i][j-1] + sigma)
            
            S_MIDDLE[i][j] = max(S_LOWER[i][j], 
                                 S_UPPER[i][j], 
                                 S_MIDDLE[i-1][j-1] + (match_score if seq1[i-1] == seq2[j-1] else missmatch_penalty))
            
            if S_MIDDLE[i][j] == S_LOWER[i][j]:
                BACKTRACK[i][j] = (i-1, j)
            elif S_MIDDLE[i][j] == S_UPPER[i][j]:
                BACKTRACK[i][j] = (i, j-1)
            else:
                BACKTRACK[i][j] = (i-1, j-1)
     
    #print(S_MIDDLE)
    #print(S_UPPER)
    #print(S_LOWER)
        
    #zavisi da li smo zavrsili sa insercijom, poravnjanjem karaktera ili delecijom    
    score = max(S_LOWER[n-1][m-1], S_MIDDLE[n-1][m-1], S_UPPER[n-1][m-1])
    (seq1_align, seq2_align) = backtracking_alignment(BACKTRACK, n, m, seq1, seq2)
    
    return (score, seq1_align, seq2_align)

In [14]:
sigma = -10
epsilon = -2
match_score = 5
missmatch_penalty = -1

seq1 = 'AACGCT'
seq2 = 'ACT'

(score, seq1_align, seq2_align) = affine_gap_alignment(seq1, seq2, match_score, missmatch_penalty, epsilon, sigma)

print('Score: ', score)
print('Alignment:')
print(seq1_align)
print(seq2_align)

Score:  1
Alignment:
AACGCT
A---CT
