# Klasa Graph

Klasa **Graph** sa prethodnog casa (tj. njen deo) koju cemo koristiti i sada za predstavljanje i izgradnju filogenetskog stabla.

In [1]:
class Graph:
    #konstruktorska funkcija (metod)
    def __init__(self, adjacency_list):
        self.adjacency_list = adjacency_list
        
    #metod koji vraca stringovsku reprezentaciju grafa    
    def __str__(self):
        return f'{self.adjacency_list}'
    
    #metod koji dodaje novi cvor u graf
    def add_node(self, v):
        if v not in self.adjacency_list:
            self.adjacency_list[v] = []
    
    #metod koji vraca listu suseda cvora v u grafu
    def get_neighbors(self, v):
        return self.adjacency_list[v]
    
    #metod koji dodaje u graf suseda cvora node sa oznakom neighbor na udaljenosti distance
    def add_neighbor(self, node, neighbor, distance, undirected=True):
        self.adjacency_list[node].append((neighbor, distance))
        
        if undirected:
            if neighbor not in self.adjacency_list:
                self.adjacency_list[neighbor] = []
              
            self.adjacency_list[neighbor].append((node, distance))
        
    #metod koji uklanja iz grafa suseda cvora node sa oznakom neighbor na udaljenosti distance    
    def remove_neighbor(self, node, neighbor, distance, undirected=True):
        self.adjacency_list[node].remove((neighbor, distance))
        
        if undirected:
            self.adjacency_list[neighbor].remove((node, distance))    

# Ultrametricna evolutivna stabla - UPGMA algoritam

Prethodni algoritam je na osnovu matrice rastojanja izgradjivao nekorensko evolutivno stablo. U prakticnim primenama je pozeljno da evolutivno stablo ima vremensku komponentu, odnosno da modeluje i informaciju o tome kada se koje razdvajanje vrsta dogodilo. To modelujemo korenim evolutivnim stablom kod koga svaki unutrasnji cvor predstavlja jednu **specijaciju** - evolutivni dogadjaj kada se jedna vrsta deli na dve.

**Ultrametricna stabla** su korenska tezinska stabla koja imaju osobinu da je udaljenost korena od bilo kog lista jednaka. Ovakva stabla su nam pogodna za predstavljanje vremenske komponente u evolutivnom stablu, gde ce se u listovima nalaziti postojece vrste, unutrasnji cvorovi ce predstavljati zajednickog pretka a tezine grana odgovarati vremenu proteklom od razdvajanja vrsta. Prema tome, tezina puta od unutrasnjeg cvora do njegovih potomaka u listovima predstavljaju vreme od trenutka specijacije do danas.

Jedan od nacina za izgradnju ultrametricnih stabala je **UPGMA algoritam**. UPGMA algoritam predstavlja heuristicku metodu za hijerarhijsko klasterovanje.

<img src="assets/hierarchical_clustering.png" width="450"> 

Skica **UPGMA algoritma**: <br/>
- Na pocetku su klasteri jednoclani i sadrze samo po jedan list koji odgovara jednoj postojecoj vrsti 
- Spajaju se dva najbliza klastera C1 i C2 na osnovu prosecnog rastojanja izmedju svih parova elemenata iz oba klastera. $$distance(C1, C2) = \frac{1}{|C1||C2|}\sum\limits_{\substack{i \in C1, j \in C2}} D[i][j]$$ Spajanje klastera modelujemo formiranjem novog unutrasnjeg cvora ciji su direktni potomci cvorovi pridruzeni klasterima C1 i C2. Tezine grana odredjujemo tako da udaljenost unutrasnjeg cvora od listova koji odgovaraju elementima novog klastera bude $\frac{1}{2} distance(C1, C2)$. 
- Ponavljamo postupak spajanja klastera sve dok ne dodjemo do jednog klastera koji sadrzi sve listove.

<img src="assets/UPGMA_example.png" width="600">

**Ovo je heuristicki pristup koji kreira ultrametricno evolutivno stablo, i moze se primeniti i nad neaditivnom matricom rastojanja. Medjutim, dobijeno evolutivno stablo ne mora da odgovara aditivnoj matrici rastojanja (neaditivnoj sigurno nece da odgovara!).** 

Pomocna klasa za reprezentaciju klastera UPGMA algoritma.

In [2]:
class Cluster:
    #konstruktorska funkcija (metod)
    def __init__(self, elements=[], age = 0):          
        self.age = age                                 #starost klastera predstavlja vreme proteklo od specijacije
        self.elements = elements                       #zajednickog pretka svih elemenata klastera do danas
        
    #metod koji vraca stringovsku reprezentaciju klastera    
    def __str__(self):
        return f'{self.elements}:{self.age}'
        
    #metod koji izracunava udaljenost datog klastera u
    #odnosu na drugi klaster prema matrici rastojanja D
    def distance(self, other_cluster, D):
        total_distance = 0
        for e_i in self.elements:
            for e_j in other_cluster.elements:
                d_ij = D[e_i][e_j]
                total_distance += d_ij
                
        return total_distance / (len(self.elements) * len(other_cluster.elements))
    
    #metod koji vrsi spajanje datog klastera sa drugim klasterom u novi klaster 
    def merge(self, other_cluster, D):
        new_cluster_elements = self.elements + other_cluster.elements
        new_cluster_age = self.distance(other_cluster, D) / 2
        
        return Cluster(new_cluster_elements, new_cluster_age)

In [3]:
C1 = Cluster([1, 2])
C2 = Cluster([3])
C3 = Cluster([])

print(C1)
print(C2)
print(C3)

[1, 2]:0
[3]:0
[]:0


In [4]:
D = [[0, 3, 4, 3],
     [3, 0, 4, 5],
     [4, 4, 0, 2],
     [3, 5, 2, 0]]

c1 = Cluster([0, 1])
c2 = Cluster([2, 3])

print(c1.distance(c2, D))

4.0


In [5]:
D = [[0, 3, 4, 3],
     [3, 0, 4, 5],
     [4, 4, 0, 2],
     [3, 5, 2, 0]]

c1 = Cluster([0, 1])
c2 = Cluster([2, 3])

print(c1.merge(c2, D))

[0, 1, 2, 3]:2.0


Funkcija **two_closest_clusters** pronalazi dva klastera iz liste klastera **clusters** koji su na najmanjoj udaljenosti prema matrici rastojanja **D**.

In [6]:
def two_closest_clusters(clusters, D):
    min_ci = None
    min_cj = None
    min_distance = float('inf')
        
    for c_i in clusters:
        for c_j in clusters:
            if c_i != c_j:
                current_distance = c_i.distance(c_j, D)
                if current_distance < min_distance:
                    min_distance = current_distance
                    min_ci = c_i
                    min_cj = c_j
                        
    return min_ci, min_cj

In [7]:
D = [[0, 3, 4, 3],
     [3, 0, 4, 5],
     [4, 4, 0, 2],
     [3, 5, 2, 0]]

c1 = Cluster([0, 1])
c2 = Cluster([2])
c3 = Cluster([3])

min_ci, min_cj = two_closest_clusters([c1, c2, c3], D)
print(min_ci)
print(min_cj)

[2]:0
[3]:0


Funkcija **UPGMA** konstruise filogenetsko stablo koje odgovara matrici rastojanja **D** dimenzije **n** $\times$ **n** primenom *UPGMA algoritma*.

In [8]:
def UPGMA(D, n):
    clusters = [Cluster([i], 0) for i in range(n)]
    adjacency_list = dict([(i, []) for i in range(n)])
    tree = Graph(adjacency_list)
    
    while len(clusters) > 1:
        c_i, c_j= two_closest_clusters(clusters, D)
        c_new = c_i.merge(c_j, D)
        
        tree.add_node(str(c_new))
        tree.add_neighbor(str(c_new), str(c_i), distance=c_new.age - c_i.age, undirected=False)
        tree.add_neighbor(str(c_new), str(c_j), distance=c_new.age - c_j.age, undirected=False)
            
        clusters.remove(c_i)
        clusters.remove(c_j)
        clusters.append(c_new)
            
    root = clusters[0]
    return tree, root

In [9]:
D = [[0, 3, 4, 3],
     [3, 0, 4, 5],
     [4, 4, 0, 2],
     [3, 5, 2, 0]]
n = 4

(tree, root) = UPGMA(D, n)

print('Root = ',root)
for node in tree.adjacency_list:
    print(node)
    print('Neighbors: ', tree.adjacency_list[node])

Root =  [2, 3, 0, 1]:2.0
0
Neighbors:  []
1
Neighbors:  []
2
Neighbors:  []
3
Neighbors:  []
[2, 3]:1.0
Neighbors:  [('[2]:0', 1.0), ('[3]:0', 1.0)]
[0, 1]:1.5
Neighbors:  [('[0]:0', 1.5), ('[1]:0', 1.5)]
[2, 3, 0, 1]:2.0
Neighbors:  [('[2, 3]:1.0', 1.0), ('[0, 1]:1.5', 0.5)]


Primer sa proslog casa (aditivna filogenija):

In [10]:
D = [[ 0, 13, 21, 22],
     [13,  0, 12, 13], 
     [21, 12,  0, 13], 
     [22, 13, 13,  0]]
n = 4

(tree, root) = UPGMA(D, n)

print('Root = ',root)
for node in tree.adjacency_list:
    print(node)
    print('Neighbors: ', tree.adjacency_list[node])

Root =  [0, 3, 1, 2]:9.333333333333334
0
Neighbors:  []
1
Neighbors:  []
2
Neighbors:  []
3
Neighbors:  []
[1, 2]:6.0
Neighbors:  [('[1]:0', 6.0), ('[2]:0', 6.0)]
[3, 1, 2]:6.5
Neighbors:  [('[3]:0', 6.5), ('[1, 2]:6.0', 0.5)]
[0, 3, 1, 2]:9.333333333333334
Neighbors:  [('[0]:0', 9.333333333333334), ('[3, 1, 2]:6.5', 2.833333333333334)]


# Neighbor-Joining algoritam

Kod UPGMA algoritma smo potencijalno dobijali evolutivno stablo koje ne odgovara matrici rastojanja zato sto implicitno pretpostavljali nesto sto ne mora da vazi: <br/>
- da minimalna vrednost u matrici rastojanja odgovara susednim listovima <br/>
- da je udaljenost danasnjih vrsta od njihovog zajednickog pretka jednaka, tj. da su se vrste odvojile u isto vremenskom trenutku, sto ne mora da bude slucaj (mozda se jedna vrsta odvojila i njihov zajedniciki predak nastavio da zivi, pa se tek kasnije odvojila druga vrsta)

Kod Neighbor-Joining algoritma ne pravimo ovakve pretpostavke. Algoritam se moze primeniti i na neaditivne matrice i daje uvek evolutivno stablo koje odgovara matrici rastojanja. Prethodne dve pogresne pretpostavke zamenjujemo sledecim pretpostavkama: 
- da su listovi susedni ne zakljucujemo direktno na osnovu matrice rastojanja D, vec na osnovu tzv. neighbor-joining matrice D* koja se definise na sledeci nacin: $$D^{*}[i][j] = (n-2)D[i][j] - total\_distance(D, i) - total\_distance(D, j)$$ gde je $total\_distance(D, i)$ suma rastojanja lista $i$ od svih ostalih listova. Neighbor-Joining teorema kaze da ako je matrica D aditivna, onda minimalni element matrice D* odgovara susednim listovima u evolutivnom stablu. <br/>
- rastojanja postojecih vrsta od direktnog prekta, odnosno duzine spoljnih grana, racunamo sledecom formulom: $$limb\_lenght(i) = \frac{1}{2}(D[i][j] + \Delta_{i, j})$$ $$limb\_lenght(j) = \frac{1}{2}(D[i][j] - \Delta_{i, j})$$ gde je $$\Delta_{i, j} = \frac{total\_distance(D, i) - total\_distance(D, j)}{n-2}$$Ova formula za izracunavanje $limb\_lenght$-a je ekvivalentna sledecoj formuli: $$limb\_lenght(i) = \frac{1}{n-2}\sum\limits_{k\neq i, j} \frac{1}{2}(D[i][j] + D[i][k] - D[j][k])$$ gde je $j$ susedni list za $i$. Ovo rastojanje se za aditivne matrice svodi na rastojanje koje smo imali kod **algoritma aditivne filogenije**, jer tamo imamo aditivnu matricu kod koje vazi da su rastojanja $\frac{1}{2}(D[i][j] + D[i][k] - D[j][k])$ jednaka za sve razlicite $k$-ove, dok kod neaditivnih matrica ovo rastojanje odgovara proseku svih rastojanja $\frac{1}{2}(D[i][j] + D[i][k] - D[j][k])$ po svim $k$-ovima.

**Neighbor-Joining algoritam je hibrid aditivne filogenije i UPGMA algoritma - formira nekoreno evolutivno stablo kao kod aditivne filogenije, ali vrsi formiranje stabla na slican nacin kao UPGMA tako sto izbacuje po 2 cvora (klastera) i zamenjuje ih 1 novim cvorom (neighbor joining), dok smo kod aditivne filogenije izbacivali 1 list i zamenjivali ga 1 unutrasnjim cvorom.**

Pomocna klasa <code>DMap</code> ce nam sluziti za reprezentaciju matrice udaljenosti kao <code>dict</code> objekat. Struktura 2D mape (recnika) nam je pogodnija nego struktura matrice zato sto se iz mape (recnika) jednostavnije izbacuju elementi i jednostavno se ubacuju elementi. Pri tom, elementima 2D mape pristupamo na isti nacin kao elementima matrice sa D_map\[ i \]\[ j \]. 

In [11]:
class DMap:
    #konstruktorska funkcija (metod) koja pravi 2D mapu na osnovu matrice D
    def __init__(self, D):
        self.D = D
        self.D_map = {}
        self.n = len(D)
        
        for i in range(self.n):
            self.D_map[i] = {}
            for j in range(self.n):
                self.D_map[i][j] = D[i][j]
              
    #metod koji vraca stringovsku reprezentaciju 'mape rastojanja' 
    def __str__(self):
        return f'{self.D_map}'
    
    #metod koji racuna ukupna udaljenost čvora i od svih ostalih čvorova
    def total_distance(self, i):
        dist = 0
        for j in self.D_map:
            dist += self.D_map[i][j]
            
        return dist
    
    #metod koji pravi 'mapu rastojanja' D* za datu 'mapu rastojanja' D (self)
    def create_D_star(self):
        D_star_map = {}
        
        for i in self.D_map:
            D_star_map[i] = {}
            for j in self.D_map[i]:
                if i != j:
                    D_star_map[i][j] = (self.n - 2) * self.D_map[i][j] - self.total_distance(i) - self.total_distance(j)
                else:
                    D_star_map[i][j] = 0
                
        return D_star_map
    
    #metod koji pronalazi cvorove koji se nalaze na minimalnom rastojanju 
    #u odnosu na'mapu rastojanja' D* za datu 'mapu rastojanja' D (self)
    def minimal_pair_D_star(self):
        D_star_map = self.create_D_star()
        
        min_i = None
        min_j = None
        min_distance = float('inf')
        
        for i in D_star_map:
            for j in D_star_map:
                if i != j:
                    current_distance = D_star_map[i][j]
                    if current_distance < min_distance:
                        min_i = i
                        min_j = j
                        
        return min_i, min_j
    
    #metod koji u datu 'mapu rastojanja' (self) dodaje vrednosti za novi cvor m koji nastaje spajanjem cvorova i i j
    def add_node(self, m, i, j):
        self.D_map[m] = {}
        
        for k in self.D_map:
            if k != i and k != j:
                if k != m:
                    self.D_map[k][m] = 0.5 * (self.D_map[k][i] + self.D_map[k][j] - self.D_map[i][j])
                    self.D_map[m][k] = self.D_map[k][m]
                else:
                    self.D_map[m][k] = 0
    
    #metod koji izbacuje iz date 'mape rastojanja' (self) vrednosti koje odgovaraju cvoru i
    def remove_node(self, i):
        del self.D_map[i]
        
        for j in self.D_map:
            if j != i and i in self.D_map[j]:
                del self.D_map[j][i]

In [12]:
D = [[ 0, 13, 21, 22],
     [13,  0, 12, 13], 
     [21, 12,  0, 13], 
     [22, 13, 13,  0]]

D_map = DMap(D)

In [13]:
print(D_map)

{0: {0: 0, 1: 13, 2: 21, 3: 22}, 1: {0: 13, 1: 0, 2: 12, 3: 13}, 2: {0: 21, 1: 12, 2: 0, 3: 13}, 3: {0: 22, 1: 13, 2: 13, 3: 0}}


In [14]:
print(D_map.total_distance(0))

56


In [15]:
D_map_star = D_map.create_D_star()
print(D_map_star)

{0: {0: 0, 1: -68, 2: -60, 3: -60}, 1: {0: -68, 1: 0, 2: -60, 3: -60}, 2: {0: -60, 1: -60, 2: 0, 3: -68}, 3: {0: -60, 1: -60, 2: -68, 3: 0}}


In [16]:
print(D_map.minimal_pair_D_star())

(3, 2)


In [17]:
D_map.add_node('0+1', 0, 1)
print(D_map)

{0: {0: 0, 1: 13, 2: 21, 3: 22}, 1: {0: 13, 1: 0, 2: 12, 3: 13}, 2: {0: 21, 1: 12, 2: 0, 3: 13, '0+1': 10.0}, 3: {0: 22, 1: 13, 2: 13, 3: 0, '0+1': 11.0}, '0+1': {2: 10.0, 3: 11.0, '0+1': 0}}


In [18]:
D_map.remove_node(2)
print(D_map)

{0: {0: 0, 1: 13, 3: 22}, 1: {0: 13, 1: 0, 3: 13}, 3: {0: 22, 1: 13, 3: 0, '0+1': 11.0}, '0+1': {3: 11.0, '0+1': 0}}


Skica **Neighbor-joining algoritma**: 
- Konstruisemo matricu $D^{*}$ na osnovu matrice $D$ 
- Nadjemo minimalni element $D^{*}[i][j]$ 
- Spajamo cvorove $i$ i $j$ zajednickim unutrasnjim cvorom $m$ i dodjeljujemo tezine granama $limb\_length(i)$ i $limb\_lenght(j)$ 
- Azuriramo matricu $D$ tako sto iz nje uklanjamo $i$-tu i $j$-tu vrstu i kolonu, a dodajemo $m$-tu vrstu i kolonu sa vrednostima $$D[k][m] = \frac{1}{2}(D[i][k] + D[j][k] - D[i][j]) = D[m][k]$$
- Ponavljamo rekurzivni korak sve do baznog slucaja kada dobijemo matricu rastojanja $D$ dimenzije $2 \times 2$

<img src="assets/neighbor_joining_example.png" width="600">

In [19]:
def neighbor_joining(D_map, n):
    if n == 2:
        [i, j] = list((D_map.D_map.keys()))
        return Graph({
            i: [(j, D_map.D_map[i][j])],
            j: [(i, D_map.D_map[j][i])]
        })
        
    i, j = D_map.minimal_pair_D_star()
    delta = (D_map.total_distance(i) - D_map.total_distance(j)) / (n - 2)
    limb_length_i = 0.5 * (D_map.D_map[i][j] + delta)
    limb_length_j = 0.5 * (D_map.D_map[i][j] - delta)
        
    m = '{}+{}'.format(i, j)
    D_map.add_node(m, i, j)
    D_map.remove_node(i)
    D_map.remove_node(j)
        
    tree = neighbor_joining(D_map, n - 1)
    tree.add_neighbor(m, i, limb_length_i)
    tree.add_neighbor(m, j, limb_length_j)
        
    return tree

In [20]:
D = [[0, 13, 21, 22],
    [13, 0, 12, 13],
    [21, 12, 0, 13],
    [22, 13, 13, 0]]

D_map = DMap(D)
print(neighbor_joining(D_map, n))

{0: [('3+2+1', 11.0)], '3+2+1': [(0, 11.0), ('3+2', 4.0), (1, 2.0)], '3+2': [('3+2+1', 4.0), (3, 7.0), (2, 6.0)], 1: [('3+2+1', 2.0)], 3: [('3+2', 7.0)], 2: [('3+2', 6.0)]}
