In [24]:
import numpy as np
from ete3 import Tree

In [25]:
#Distance matrix

def read_mtrx(filename):
    f = open(filename,'r')
    num_species = int(f.readline())

    dict_mat = {}
    mat = np.zeros((num_species,num_species))
    
    for i in range(0,num_species):
        line = f.readline()
        nums_in_line = line.split()
        dict_mat[nums_in_line[0]] = i
        for j in range(1,num_species +1):
            mat[i,j-1] = nums_in_line[j]
    f.close()
    return dict_mat, mat 

In [26]:
species_dict, dist = read_mtrx("C:\\Users\\awila\\Downloads\\example_slide4.phy")
print(species_dict)
print(dist)

{'A': 0, 'B': 1, 'C': 2, 'D': 3, 'E': 4}
[[0.   0.23 0.16 0.2  0.17]
 [0.23 0.   0.23 0.17 0.24]
 [0.16 0.23 0.   0.2  0.11]
 [0.2  0.17 0.2  0.   0.21]
 [0.17 0.24 0.11 0.21 0.  ]]


In [27]:
list(species_dict.keys())

['A', 'B', 'C', 'D', 'E']

In [28]:
ntree = "("
species = list(species_dict.keys())
for i in range(len(species)-1):
    ntree += str(species[i]) + ","
ntree += str(species[len(species)-1])+")"
print(ntree)

(A,B,C,D,E)


In [29]:
t2 =  Tree("(A,B,C,D,E);", format=1)
print(t2)


   /-A
  |
  |--B
  |
--|--C
  |
  |--D
  |
   \-E


In [30]:
from Bio import Phylo
from io import StringIO
tree = Phylo.read(StringIO("(A, B, C, D, E)"), "newick")
print(tree)

Tree(rooted=False, weight=1.0)
    Clade()
        Clade(name='A')
        Clade(name='B')
        Clade(name='C')
        Clade(name='D')
        Clade(name='E')


In [31]:
t1 = Phylo.read(StringIO(ntree), "newick")
print(t1)

Tree(rooted=False, weight=1.0)
    Clade()
        Clade(name='A')
        Clade(name='B')
        Clade(name='C')
        Clade(name='D')
        Clade(name='E')


In [32]:
#NJ algorithm

dist.shape[0]

5

In [16]:
new_N = np.full([5,5], None)
new_N

array([[None, None, None, None, None],
       [None, None, None, None, None],
       [None, None, None, None, None],
       [None, None, None, None, None],
       [None, None, None, None, None]], dtype=object)

In [17]:
ris = []
for i in range(5):
    ri = 0
    for j in range(5):
        ri +=dist[i,j]
    ris.append(ri/3)
ris

[0.25333333333333335, 0.29, 0.23333333333333336, 0.26, 0.24333333333333332]

In [18]:
rjs = []
for j in range(5):
    rj = 0
    for i in range(5):
        rj +=dist[i,j]
    rjs.appehttp://localhost:8889/notebooks/OneDrive/Documents/GitHub/AiB_projects/Project5/P5.ipynb#nd(rj/3)
rjs

[0.25333333333333335, 0.29, 0.23333333333333336, 0.26, 0.24333333333333332]

In [19]:
minN = dist[0,0]+ris[0]+rjs[0]
mini = 0
minj = 0
for i in range(5):
    for j in range(5):
        nij = dist[i,j]+ris[i]+rjs[j]
        new_N[i,j]=nij
        if nij<minN : 
            minN = nij
            mini = i
            minj = j
print(new_N)
print(mini,minj,minN)

[[0.5066666666666667 0.7733333333333334 0.6466666666666667
  0.7133333333333334 0.6666666666666666]
 [0.7733333333333334 0.58 0.7533333333333334 0.72 0.7733333333333333]
 [0.6466666666666667 0.7533333333333334 0.46666666666666673
  0.6933333333333334 0.5866666666666667]
 [0.7133333333333334 0.72 0.6933333333333334 0.52 0.7133333333333333]
 [0.6666666666666667 0.7733333333333332 0.5866666666666667
  0.7133333333333334 0.48666666666666664]]
2 2 0.46666666666666673


In [20]:
def step1(dist):
    S = dist.shape[0]
    new_N = np.full([S,S], None)
    ris = []
    for i in range(S):
        ri = 0
        for j in range(S):
            ri +=dist[i,j]
        ris.append(ri/(S-2))
    
    rjs = []
    for j in range(5):
        rj = 0
        for i in range(5):
            rj +=dist[i,j]
        rjs.append(rj/3)
        
    minN = dist[0,0]+ris[0]+rjs[0]
    mini = 0
    minj = 0
    for i in range(5):
        for j in range(5):
            nij = dist[i,j]+ris[i]+rjs[j]
            new_N[i,j]=nij
            if nij<minN : 
                minN = nij
                mini = i
                minj = j
    return(mini,minj,minN)

In [21]:
step1(dist)

(2, 2, 0.46666666666666673)

In [22]:
#Step 2

t1 = Phylo.read(StringIO(ntree), "newick")
print(t1)

Tree(rooted=False, weight=1.0)
    Clade()
        Clade(name='A')
        Clade(name='B')
        Clade(name='C')
        Clade(name='D')
        Clade(name='E')


In [23]:
outgroup = [{"name": taxon_name} for taxon_name in ("C", "D", "E")]
t1=t1.root_with_outgroup(*outgroup)
print(t1)

None


In [37]:
# Explicitly create and add the taxon to the taxon set
import dendropy
taxon_1 = dendropy.Taxon(label="6")
t1.taxon_set.add_taxon(taxon_1)

# Create a new node and assign a taxon OBJECT to it (not a label)
n = dendropy.Node(taxon=taxon_1, label='6')

# Now this works
print t1.find_node_with_taxon_label("6")

ModuleNotFoundError: No module named 'dendropy'