Darvinova teorija evolucije kaze da sva ziva bica imaju zajednickog pretka i da je svaki od njih adaptacijom na razlicite promene klimatskih uslova razvio svoj organizam onako kako izgleda danas. Carls Darvin je vodeci se tim proncipom klasifikovao sve biljne i zivotinjske vrste u jedno veliko evolutivo stablo - stablo zivota. Disciplina koja se bavi rekonstrukcijom evolutivnih stabala naziva se **filogeneza**. 

**Filogenetska stabla** ili **evolutivna stabla** su stabla koja u listovima imaju postojece vrste, dok se u unutrasnjim cvorovima nalaze zajednicki preci koji su izumrli. Osim za klasifikaciju zivih bica, evolutivna stabla se koriste za odredjivanje porekla novih virusa koji su nastali mutacijom vec postojecih.

<img src="assets/rooted_and_unrooted_phylogenetic_tree.png" width="1000"> 

# Rekonstrukcija stabla na osnovu rastojanja

Kada su nam poznate genomske sekvence organizama mozemo odrediti evolutivno rastojanje tih organizama tako sto cemo (visestruko) poravnati sekvence i izracunati na koliko pozicija se razlikuju. Na taj nacin formiramo **matricu rastojanja D** takvu da se na polju **$D[i][j]$** nalazi rastojanje $i$-te i $j$-te sekvence, tj. $i$-te i $j$-te vrste. Matrica rastojanja je simetricna i na dijagonali ima nule.

Potrebno je konstruisati evolutivno stablo koje ce da odgovara datoj matrici rastojanja - takvo da duzina najkraceg puta od lista $i$ do lista $j$ bude jednaka rastojanju $D[i][j]$. Da bi za datu matricu rastojanja bilo moguce konstruisati odgovarajuce evolutivno stablo, matrica mora biti **aditivna**: 

$$D[i][j] + D[k][l]  \leq  max \begin{cases} D[i][k] + D[j][l] \\
                                             D[i][l] + D[j][k] 
                               \end{cases}
\hspace{1cm} \forall i, j, l, k$$

Moze postojati vise evolutivnih stabala koji odgovaraju datoj matrici rastojanja, medjutim od svih njih mi biramo tzv. prosto binarno stablo koje nema unutrasnje cvorove stepena 2 (to su unutrasnji cvorovi koji nemaju grananje). **Postoji tacno jedno prosto binarno stablo koje odgovaram aditivnoj matrici rastojanja.**

Izvescemo sada jednu jednakost koja ce nam kasnije biti potrebna prilikom konstrukcije stabla. Dok sa velikim $D$ oznacavamo rastojanja izmedju $i$-te i $j$-te sekvence, odnosno $i$-tog i $j$-og lista evolutivnog stabla koje zelimo da izgradimo, sa malim $d$ cemo oznacavati matricu rastojanja izmedju svih cvorova u stablu. Tada vazi da je $d[i][j] = D[i][j]$ ako su $i$ i $j$ listovi stabla, i to su nam poznate vrednosti, dok je za unutrasnje cvorove to potrebno da odredimo.

<img src="assets/counting_distances_for_internal_nodes.png" width="500"> 

Pretpostavimo da su $i$ i $j$ listovi koji trebaju da budu susedni u evolutivnom stavlu, $m$ njihov zajednicki direktni predak, i $k$ proizvoljan list razlicit od $i$ i $j$. Tada vaze sledece jednakosti:

$$d[i][j] = d[i][m] + d[m][j]$$    
$$d[i][k] = d[i][m] + d[m][k]$$   
$$d[j][k] = d[j][m] + d[m][k]$$    

Rastojanja $d[i][j] = D[i][j]$, $d[i][k] = D[i][k]$ i $d[j][k] = D[j][k]$ su nam poznata zato sto su to rastojanja izmedju listova. Zelimo da znajuci samo rastojanja izmedju listova odredimo rastojanja listova $i$, $j$, $k$ od unutrasnjeg cvora $m$. 

$d[i][k] + d[j][k] = d[i][m] + d[m][k] + d[j][m] + d[m][k] = d[i][j] + 2d[m][k]$ 

$2 d[m][k] = d[i][k] + d[j][k] - d[i][j] = D[i][k] + D[j][k] - D[i][j]$ 

$d[m][k] = \frac{1}{2} (D[i][k] + D[j][k] - D[i][j])$

Odavde, lako mozemo da izracunamo rastojanja $d[i][m]$ i $d[j][m]$:

$d[i][m] = d[i][k] - d[m][k]$

$d[j][m] = d[j][k] - d[m][k]$

Pravimo klasu **Graph** koju cemo koristiti za predstavljanje i izgradnju filogenetskog stabla.

In [3]:
class Graph:
    #konstruktorska funkcija (metod)
    def __init__(self, adjacency_list):
        self.adjacency_list = adjacency_list
        
    #metod koji vraca stringovsku reprezentaciju grafa    
    def __str__(self):
        return f'{self.adjacency_list}'
    
    #metod koji vraca listu suseda cvora v u grafu
    def get_neighbors(self, v):
        return self.adjacency_list[v]
    
    #metod koji dodaje u graf suseda cvora node sa oznakom neighbor na udaljenosti distance
    def add_neighbor(self, node, neighbor, distance):
        self.adjacency_list[node].append((neighbor, distance))
        
        if neighbor not in self.adjacency_list:
            self.adjacency_list[neighbor] = []
            
        self.adjacency_list[neighbor].append((node, distance))
        
    #metod koji uklanja iz grafa suseda cvora node sa oznakom neighbor na udaljenosti distance    
    def remove_neighbor(self, node, neighbor, distance):
        self.adjacency_list[node].remove((neighbor, distance))
        self.adjacency_list[neighbor].remove((node, distance))    
       
    #metod koji vraca duzinu grane izmedju susednih cvorova node_i i node_j
    def distance_between_nodes(self, node_i, node_j):
        node_i_neighbors = self.get_neighbors(node_i)
    
        for (w, weight) in node_i_neighbors:
            if w == node_j:
                return weight
        
        return None  
    
    #metod koji dodaje novi cvor izmedju cvorova node_i i node_j 
    #koji se nalazi na rastojanju distance_i od cvora node_i
    def add_new_node_between_nodes(self, node_i, node_j, distance_i):
        new_node = '{}+{}'.format(node_i, node_j)
    
        distance_ij = self.distance_between_nodes(node_i, node_j)
        distance_j = distance_ij - distance_i
    
        self.remove_neighbor(node_i, node_j, distance_ij)
        self.add_neighbor(node_i, new_node, distance_i)
        self.add_neighbor(node_j, new_node, distance_j)
    
        return new_node
    
    #metod koji pronalazi put izmedju cvorova source i destination u grafu (DFS obilazak)
    def find_path(self, source, destination):     
        stack = [source]
        visited = set([source])
    
        while len(stack) > 0:
            v = stack[-1]
        
            if v == destination:
                return stack
        
            has_neighbors = False
        
            for (w, weight) in self.get_neighbors(v):
                if w not in visited:
                    has_neighbors = True
                    stack.append(w)
                    visited.add(w)
                    break
        
            if not has_neighbors:
                stack.pop()
            
        print('Path not found')
        return []
    
    #metod koji dodaje novi unutrasnji cvor ili vraca vec postojeci unutrasnji cvor na putu izmedju 
    #cvorova source i distance koji se nalazi na rastojanju distance_from_source od cvora source
    def add_node_on_path(self, source, destination, distance_from_source):
        path = self.find_path(source, destination)
    
        i = 0
        j = 1
        node_i = path[i]
        node_j = path[j]
        
        current_distance = self.distance_between_nodes(node_i, node_j)
    
        while current_distance < distance_from_source:
            i += 1
            j += 1
            node_i = path[i]
            node_j = path[j]
        
            current_distance += self.distance_between_nodes(node_i, node_j)
        
        if current_distance == distance_from_source:
            return node_j
        else:
            distance_j = current_distance - distance_from_source
            return self.add_new_node_between_nodes(node_j, node_i, distance_j)

In [4]:
G = Graph({
    'a' : [('b', 3)],
    'b' : [('a', 3), ('c', 2), ('d', 1)],
    'c' : [('b', 2)],
    'd' : [('b', 1)]
}) 

print(G.get_neighbors('b'))

[('a', 3), ('c', 2), ('d', 1)]


In [5]:
G = Graph({
    'a' : [('b', 3)],
    'b' : [('a', 3), ('c', 2), ('d', 1)],
    'c' : [('b', 2)],
    'd' : [('b', 1)]
}) 

G.add_neighbor('c', 'd', 4)

print(G)

{'a': [('b', 3)], 'b': [('a', 3), ('c', 2), ('d', 1)], 'c': [('b', 2), ('d', 4)], 'd': [('b', 1), ('c', 4)]}


In [6]:
G = Graph({
    'a' : [('b', 3)],
    'b' : [('a', 3), ('c', 2), ('d', 1)],
    'c' : [('b', 2)],
    'd' : [('b', 1)]
}) 

G.remove_neighbor('b', 'c', 2)

print(G)

{'a': [('b', 3)], 'b': [('a', 3), ('d', 1)], 'c': [], 'd': [('b', 1)]}


In [7]:
G = Graph({
    'a' : [('b', 3)],
    'b' : [('a', 3), ('c', 2), ('d', 1)],
    'c' : [('b', 2)],
    'd' : [('b', 1)]
}) 

print(G.distance_between_nodes('a', 'b'))

3


In [8]:
G = Graph({
    'a' : [('b', 3)],
    'b' : [('a', 3), ('c', 2), ('d', 1)],
    'c' : [('b', 2)],
    'd' : [('b', 1)]
}) 

G.add_new_node_between_nodes('a', 'b', 1)

print(G)

{'a': [('a+b', 1)], 'b': [('c', 2), ('d', 1), ('a+b', 2)], 'c': [('b', 2)], 'd': [('b', 1)], 'a+b': [('a', 1), ('b', 2)]}


In [9]:
G = Graph({
    'a' : [('b', 3)],
    'b' : [('a', 3), ('c', 2), ('d', 1)],
    'c' : [('b', 2)],
    'd' : [('b', 1)]
}) 

print(G.find_path('a', 'c'))

['a', 'b', 'c']


In [10]:
G = Graph({
    'a' : [('b', 3)],
    'b' : [('a', 3), ('c', 2), ('d', 1)],
    'c' : [('b', 2)],
    'd' : [('b', 1)]
}) 

G.add_node_on_path('a', 'c', 4)

print(G)

{'a': [('b', 3)], 'b': [('a', 3), ('d', 1), ('c+b', 1)], 'c': [('c+b', 1)], 'd': [('b', 1)], 'c+b': [('c', 1), ('b', 1)]}


# Aditivna filogenija

Algoritam aditivne filogenije se zasniva na izracunavanju duzina tzv. **spoljnih grana** - grana koje povezuju listova sa nekim unutrasnjim cvorom, a zatim se izgradjuje stablo dodavanjem jednog po jednog lista u do tad konstruisano stablo tako sto se na odgvarajucem mestu doda novi unutrasnji cvor za koji se kaci nova spoljna grana koja odgovara listu koji dodajemo.

Pokazali smo kako se moze izracunati rastojanje lista od unutrasnjeg cvora, ali pod pretpostavkom da nam je poznato koji je njegov susedni list. Medjutim, ukoliko za fiksirani list $j$ posmatramo vrednost izraza $\frac{1}{2} (D[i][j] + D[k][j] - D[i][k])$ za sve moguce izbore listova za $i$ i $k$, ona ce biti minimalna onda kada za $i$ ili $k$ izaberemo bas onaj list koji treba da bude susedan listu $j$. Tada duzinu spoljasnje grane koja odgovara cvoru $j$ oznacavamo sa $limb\_length(j)$ i racunamo je na sledeci nacin: 

$$limb\_lenght(j) = \min\limits_{i, k} \frac{1}{2}(D[i][j] + D[k][j] - D[i][k])$$

In [1]:
def limb_length(D, n, j):
    min_length = float('inf')
    min_i = None
    min_j = None

    for i in range(n):
        for k in range(n):
            if i!=j and k!=j:
                length = (D[i][j] + D[k][j] - D[i][k]) / 2
                
                if length < min_length:
                    min_length = length
                    min_i = i
                    min_k = k
                    
    return (min_i, min_k, min_length)

In [2]:
D = [[ 0, 13, 21, 22],
     [13,  0, 12, 13], 
     [21, 12,  0, 13], 
     [22, 13, 13,  0]]
i = 0
j = 1
k = 3

(min_i, min_k, length) = limb_length(D, 3, j)

print('i = {}, k = {}, length = {}'.format(min_i, min_k, length))

Skica algoritma **Additive philogeny**: 
- Izaberemo proizvoljan list $j$ 
- Izracunamo duzinu njegove spoljne grane $limb\_length(j)$ 
- Oduzmemo $limb\_length(j)$ od rastojanja od lista $j$ do svih drugih listova u matrici $D$, i na taj nacin dobijamo tzv. ogoljenu matricu rastojanja $D^{bald}$ u kojoj od lista $j$ vodi ogoljena grana (duzine 0) do njegovog direkrnog pretka 
- Uklanjamo $j$-ti red i $j$-tu kolonu i na taj nacin formiramo matricu rastojanja $D^{trimmed}$ u kojoj nema cvora $j$ 
- Rekurzivno konstruisemo stablo nad ovako izmenjenom matricom $D^{trimmed}$ koja je za jedan manje dimenzije od polazne matrice $D$ 
- Identifikujemo granu u do tad formiranom stablu koju treba da presecemo novim unutrasnjim cvorom za koji cemo zakaciti list $j$, tj. njegovu spoljnu granu duzine $limb\_length(j)$
- Ponavljamo rekurzivni korak sve do baznog slucaja kada dobijemo matricu rastojanja $D$ dimenzije $2 \times 2$

**NAPOMENA**: Mi cemo za list $j$ u svakom koraku uzimati onaj koji odgovara poslednjem redu/koloni u matrici $D$ kako ne bismo morali da vrsimo operaciju trim-ovanja matrice za $j$-ti red i kolonu (vremenski skupa operacija), vec cemo samo smanjujuci opseg indeksa posmatrati podmatricu matrice $D^{bald}$ bez poslednjeg reda i kolone. 

<img src="assets/additive_philogeny_example.png" width="700">

Funkcija **additive_philogeny** konstruise filogenetsko stablo koje odgovara matrici rastojanja **D** dimenzije **n** $\times$ **n** primenom *algoritma aditivne filogenije*.

In [11]:
def additive_philogeny(D, n):
    if n == 2:
        return Graph({0 : [(1, D[0][1])],
                      1 : [(0, D[0][1])]
                      })
    
    #za list j biramo onaj kome u matrici D odgovaraju poslednja vrsta i poslednja kolona 
    j = n-1
    
    (i, k, limb_length_j) = limb_length(D, n, j)
    
    for v in range(n-1):
        D[v][j] -= limb_length_j
        D[j][v] -= limb_length_j
        
    distance_i = D[i][j]       #ovo je udaljenost lista j = n-1 od lista i u ogoljenoj matrici D, ta vrednost ce
                               #nam biti potrebna kada se vratimo iz rekurzije da znamo na kojoj udaljenosti od
                               #lista i na putanji od lista i do lista k treba da umetremo unutrasnji cvor m i za
                               #njega da zakacimo list j = n-1
            
    tree = additive_philogeny(D, n-1)
    
    #NAPOMENA: cvor j = n-1 umecemo na putu izmedju cvorova i i k, i to nije potrebno da racunamo ponovo,
    #jer su to upravo oni i i k za koje se prilikom izracunavanja limb_length(j) dostize minimum!
    
    m = tree.add_node_on_path(i, k, distance_i)
    tree.add_neighbor(m, j, limb_length_j)
    
    return tree

In [12]:
D = [[ 0, 13, 21, 22],
     [13,  0, 12, 13], 
     [21, 12,  0, 13], 
     [22, 13, 13,  0]]
n = 4

tree = additive_philogeny(D, n)
print(tree)

{0: [('1+0', 11.0)], 1: [('1+0', 2.0)], '1+0': [(1, 2.0), (0, 11.0), ('2+1+0', 4.0)], 2: [('2+1+0', 6.0)], '2+1+0': [(2, 6.0), ('1+0', 4.0), (3, 7.0)], 3: [('2+1+0', 7.0)]}
