## Enoncé:
Le but de ce TP est de programmer la méthode d’alignement globale par 
programmation dynamique en phython et de déduire l’arbre phylogénique par la 
méthode UPGMA.

Soient les séquences nucléiques à aligner suivantes :
Seq1 : ACCCGATGACCGGGCCTTGTAAACT
Seq2 : ACGCTACCTGTCGTATTGTAAT
Seq 3 : ACGATGACAGGGCTTGTAACT
Seq 4 : TTCATGACCGGCTTATACTTAT
Seq 5 : TTCGCTACCTGATCGTACGGTATAT

1. Donner l’alignement optimal avec sub=-1, Id=2 et GAP=2.

2. déduire l’arbre phylogénétique en se basant sur la méthode UPGMA

3. En utilisant l’algorithme claustal (https://www.ebi.ac.uk/Tools/msa/clustalo/), 
déterminer l’alignement global.

4. En déduire l’arbre phylogénétique et comparer les résultats avec les résultats 
obtenus en 2

# 1. La méthode d’alignement globale par programmation dynamique

Nous travaillrons dans cette première partie avec l'algorithme de Needleman-Wunsch, Nous créons une fonction alignement_globale_par_programmation_dynamique pour aligner nos 5 séquences deux par deux: sequence1 et sequence2. Nous utiliserons sub=-1, qui est le coût de changer un caractère en un autre et Id=2 pour deux caracteres identiques et GAP=-2. on calcule et nous construisons enfin l'alignement. Pour une itération donnée, on a i et j. On regarde d'où provient le score calculé en (i, j) dans matrix et on reconstruit l'alignement dans sequence_alignement. 

In [92]:
import pandas as pd
import numpy as np


pt ={'id': +2, 'sub': -1, 'GAP': -2}



def id(a, b):
    if a == b:
        return pt['id']
    elif a == '-' or b == '-':
        return pt['GAP']
    else:
        return pt['sub']






def alignement_globale_par_programmation_dynamique(s1, s2):
    m, n = len(s1), len(s2)
    matrix = np.zeros((m+1, n+1))

    #Initialization
    for i in range(m+1):
        matrix[i][0] = pt['GAP'] * i
    for j in range(n+1):
        matrix[0][j] = pt['GAP'] * j

    #Fill
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            diag = matrix[i-1][j-1] + id(s1[i-1], s2[j-1])
            delete = matrix[i-1][j] + pt['GAP']
            insert = matrix[i][j-1] + pt['GAP']
            matrix[i][j] = max(diag, delete, insert)

    #print('Matrix = \n%s\n' % matrix)
    align1, align2 = '', ''
    i,j = m,n



    #Traceback
    while i > 0 and j > 0:
        score_current = matrix[i][j]
        score_diag = matrix[i-1][j-1]
        score_left = matrix[i][j-1]
        score_up = matrix[i-1][j]

        if score_current == score_diag + id(s1[i-1], s2[j-1]):
            a1,a2 = s1[i-1],s2[j-1]
            i,j = i-1,j-1
        elif score_current == score_up + pt['GAP']:
            a1,a2 = s1[i-1],'-'
            i -= 1
        elif score_current == score_left + pt['GAP']:
            a1,a2 = '-',s2[j-1]
            j -= 1
        align1 += a1
        align2 += a2


    while i > 0:
        a1,a2 = s1[i-1],'-'
        align1 += a1
        align2 += a2
        i -= 1

    while j > 0:
        a1,a2 = '-',s2[j-1]
        align1 += a1
        align2 += a2
        j -= 1

    align1 = align1[::-1]
    align2 = align2[::-1]
    seqN = len(align1)
    sym = ''
    seq_score = 0
    identity = 0
    for i in range(seqN):
        a1 = align1[i]
        a2 = align2[i]
        if a1 == a2:
            sym += a1
            identity += 1
            seq_score += id(a1, a2)

        else: 
            seq_score += id(a1, a2)
            sym += ' '

    identity = identity/seqN * 100

    print('Ressemblance = %2.1f pourcent' % identity)
    print('Score = %d\n'% seq_score)

    print(align1)
    print(sym)
    print(align2)

    
# Visualisation:    
#--------------------------------------------------------------------------------------
print("verification : sequence 1 avec elle meme : \n")
seq1 ='ACCCGATGACCGGGCCTTGTAAACT'  
seq2 = "ACCCGATGACCGGGCCTTGTAAACT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n-----------------------------------------------------------------------------")
#--------------------------------------------------------------------------------------
print("sequence 1 et 2 : \n")
seq1 ='ACCCGATGACCGGGCCTTGTAAACT'  
seq2 = "ACGCTACCTGTCGTATTGTAAT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n------------------------------------")
#--------------------------------------
print("sequence 1 et 3 : \n")
seq1 ='ACCCGATGACCGGGCCTTGTAAACT'  
seq2 = "ACGATGACAGGGCTTGTAACT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n------------------------------------")
#--------------------------------------
print("sequence 1 et 4 : \n")
seq1 ='ACCCGATGACCGGGCCTTGTAAACT'  
seq2 = "TTCATGACCGGCTTATACTTAT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n------------------------------------")
#--------------------------------------
print("sequence 1 et 5 : \n")
seq1 ='ACCCGATGACCGGGCCTTGTAAACT'  
seq2 = "TTCGCTACCTGATCGTACGGTATAT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n-----------------------------------------------------------------------------")
#--------------------------------------------------------------------------------------
print("sequence 2 et 3 : \n")
seq1 ='ACGCTACCTGTCGTATTGTAAT'  
seq2 = "ACGATGACAGGGCTTGTAACT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n------------------------------------")
#--------------------------------------
print("sequence 2 et 4 : \n")
seq1 ='ACGCTACCTGTCGTATTGTAAT'  
seq2 = "TTCATGACCGGCTTATACTTAT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n------------------------------------")
#--------------------------------------
print("sequence 2 et 5 : \n")
seq1 ='ACGCTACCTGTCGTATTGTAAT'  
seq2 = "TTCGCTACCTGATCGTACGGTATAT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n-----------------------------------------------------------------------------")
#--------------------------------------------------------------------------------------
print("sequence 3 et 4 : \n")
seq1 ='ACGATGACAGGGCTTGTAACT'  
seq2 = "TTCATGACCGGCTTATACTTAT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n------------------------------------")
#--------------------------------------
print("sequence 3 et 5 : \n")
seq1 ='ACGATGACAGGGCTTGTAACT'  
seq2 = "TTCGCTACCTGATCGTACGGTATAT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n-----------------------------------------------------------------------------")
#--------------------------------------------------------------------------------------
print("sequence 4 et 5 : \n")
seq1 ='TTCATGACCGGCTTATACTTAT'  
seq2 = "TTCGCTACCTGATCGTACGGTATAT"
alignement_globale_par_programmation_dynamique(seq1, seq2)
print("\n-----------------------------------------------------------------------------\n")
#--------------------------------------------------------------------------------------
print ("l alligniement optimale : \n sequence 1 et 3 : Ressemblance = 80.0 pourcent,Score = 31 ")

verification : sequence 1 avec elle meme : 

Ressemblance = 100.0 pourcent
Score = 50

ACCCGATGACCGGGCCTTGTAAACT
ACCCGATGACCGGGCCTTGTAAACT
ACCCGATGACCGGGCCTTGTAAACT

-----------------------------------------------------------------------------
sequence 1 et 2 : 

Ressemblance = 59.3 pourcent
Score = 14

ACCCGATGACC-G-GGCCTTGTAAACT
A  CG T ACC G  G  TTGT AA T
A--CGCT-ACCTGTCGTATTGT-AA-T

------------------------------------
sequence 1 et 3 : 

Ressemblance = 80.0 pourcent
Score = 31

ACCCGATGACCGGGCCTTGTAAACT
A  CGATGAC GGG CTTGT AACT
A--CGATGACAGGG-CTTGT-AACT

------------------------------------
sequence 1 et 4 : 

Ressemblance = 57.7 pourcent
Score = 14

ACCCGATGACCGGGCCTTGTA-AACT
   C ATGACC GG CTT TA    T
-TTC-ATGACC-GG-CTTATACTTAT

------------------------------------
sequence 1 et 5 : 

Ressemblance = 50.0 pourcent
Score = 8

-ACCCGA--TGACCGGGCCTTGTAAACT
  C C A  TGA C G  C  GTA A T
TTCGCTACCTGATC-GTAC-GGTATA-T

--------------------------------------------------------------------

# 2. L’arbre phylogénétique en se basant sur la méthode UPGMA

D'abord remplir un tableau de distances: Lire une séquence dans le fichier, Calculer les distances entre cette séquence et toutes les séquences du fichier, Ranger les valeurs de ces distances dans un tableau. Répéter le processus précédent avec la séquence suivante du fichier. À partir des 05 sequences, et de leur tableau de coûts tels que calculé dans la première phase, on retourne deux chaines destinées à être affichées une au dessus de l'autre pour visualiser les différences puis implémente l'algorithme UPGMA et on affiche a chaque itteration le resultat de l'arbre phylogénétique pour arriver au resultat final : (('Seq2', 'Seq5'), ('Seq4', ('Seq1', 'Seq3'))).

In [62]:
def outline(char, same=True):
    return char if same else "*{}*".format(char)
    
def insertion_cost(base):
    return 2
    
def substitution_cost(base1, base2):
    return -1 if base1 != base2 else 0


def gap_cost(base1, base2):
    return -2 

    
    
    
# initialisation de la structure
def init_costs(len1, len2):
    """
    Initialise un tableau de len1 + 1 listes
    de chacune len2 + 1 éléments 
    initialisés à 0
    """
    return [ [ 0 for j in range(len2 + 1)] for i in range(len1 + 1)]
    
def phase1(adn1, adn2):
    """
    Première phase de Needleman et Wunsch itératif
    Élabore itérativement le tableau des coûts 
      par un parcours en diagonale
    On obtient un tableau de taille 
      [len(adn1) + 1] x [len(adn2) + 1]
    Renvoie le tableau en valeur
    """
    # initialisations
    len1 = len(adn1)
    len2 = len(adn2)
    # le tableau est initialisé à zéro
    costs = init_costs(len1, len2)

    # le parcours en diagonale - cf ci-dessus
    for c in range(len1 + len2 + 1):
        for i in range(c + 1):
            # on déduit j de c et i
            j = c - i
            # on ne considère que ceux qui tombent dans le rectangle 
            if 0 <= i <= len1 and 0 <= j <= len2:
                if i == 0 and j == 0:  # le coin en haut a gauche
                    costs[i][j] = 0
                elif j == 0:           # sur un bord : insertion 
                    costs[i][j] = costs[i-1][j] + insertion_cost(adn1[i-1])
                elif i == 0:           # l'autre bord : insertion
                    costs[i][j] = costs[i][j-1] + insertion_cost(adn2[j-1])
                else:                  # au milieu
                    costs[i][j] = min(
                        # substitution
                        costs[i-1][j-1] + substitution_cost(adn1[i-1], adn2[j-1]),
                        # insertion
                        costs[i][j-1] + insertion_cost(adn2[j-1]),
                       # insertion
                        costs[i-1][j] + insertion_cost(adn1[i-1]))
    # on renvoie le résultat
    return costs


def phase2(adn1, adn2, costs):
    """
    À partir des 05 sequences, et de leur tableau de coûts tels que
    calculé dans la première phase, on retourne deux chaines destinées 
    à être affichées une au dessus de l'autre pour visualiser les différences
    
    Les insertions sont remplacées par le caractère -, et les substitutions
    sont affichées entourées du caractère * 
    """
    i = len(adn1)
    j = len(adn2)
    # les résultats, mais sous forme de listes de chaines, et à l'envers
    r1 = []
    r2 = []
    ### le parcours à proprement parler
    # on ne s'arrête que quand i==0 ET j==0
    while i > 0 or j > 0:
        # la valeur courante
        c = costs[i][j]
        # si on est au bord, les formules en i-1 ou j-1 
        # ne vont pas faire ce qu'on veut, il faut traiter 
        # ces cas à part
        if i == 0:                  # bord = insertion
            r1.append("-")
            j -= 1
            r2.append(adn2[j])
        elif j == 0:                # bord = insertion
            i -= 1
            r1.append(adn1[i])
            r2.append("-")
        # dans le milieu du tableau on regarde de quelle direction nous vient le minimum
        elif c == costs[i-1][j-1] + substitution_cost(adn1[i-1], adn2[j-1]):  # substitution
            # s'agit-t-il d'une vraie substitution ? 
            same = adn1[i-1] == adn2[j-1]
            i -= 1
            r1.append(outline(adn1[i], same))
            j -= 1
            r2.append(outline(adn2[j], same))
        elif c == costs[i][j-1] + insertion_cost(adn2[j-1]):    # insertion
            r1.append('-')
            j -= 1
            r2.append(adn2[j])
        elif c == costs[i-1][j] + insertion_cost(adn1[i-1]):    # insertion
            i -= 1
            r1.append(adn1[i])
            r2.append('-')
    # à ce stade il nous reste à retourner les listes, et les transformer en chaines
    s1 = "".join(r1[::-1])
    s2 = "".join(r2[::-1])
    return s1, s2
    # à ce stade il nous reste à retourner les listes, et les transformer en chaines
    s1 = "".join(reversed(r1))
    s2 = "".join(reversed(r2))
    return s1, s2



# et donc du coup on peut définir 
def distance(adn1, adn2):
    return phase1(adn1, adn2)[-1][-1]


def needleman_wunsch(adn1, adn2):
    # on calcule les coûts avec la phase1
    costs = phase1(adn1, adn2)
    # on calcule la distance
    d = costs[-1][-1]
    # on passe à la phase 2
    s1, s2 = phase2(adn1, adn2, costs)
    # on affiche le résultat
    print("distance = " + str(d))
    print(s1)
    print(s2)


    
def all_distances(filename):
    """
    Lire le fichier d'entrée, qui doit contenir une séquence ADN par ligne
    
    Retourne en valeur:
    * une liste des séquences d'entrée
    * un dictionnaire indexé sur les couples d'indices, et qui contient la distance associée
      à ce couple d'entrées
    """
    # on commence par lire le fichier et ranger toutes les entrées dans un seul tableau
    adns = []
    distances = {}
    entry = open(filename,'r')
    for line in entry:
      adns.append(line.strip())
    entry.close()
    for i, adn1 in enumerate(adns):
        for j in range(i):
            distances[ (i, j)] = distance(adns[i], adns[j])
    return adns, distances


def get_distance(d, i, j):
    return 0 if i == j \
        else d[(i, j)] if i > j \
        else d[(j, i)]

# on affiche sur 4 caractères
space = 4*" "
formatr = "{:4}"
formatl = "{:<4}"

# on affiche un tableau propre
def pretty_distances(filename):
    adns, distances = all_distances(filename)
    for line in adns:
      print(line)
    l = len(adns)
    print("")
    # première ligne
    print(space + "".join([ formatr.format(i) for i in range(l)]))
    # pour chaque ligne
    for i in range(l):
        print(formatl.format(i) 
              + "".join([formatr.format(get_distance(distances, i, j)) 
                                   for j in range(l)]))

pretty_distances("data-sequence.txt")

#-----------------------------------------------------------------------------

# initialisation de la structure

def get_distance(distances, sp1, sp2):
    """
    Cherche la distance entre les sequences sp1 et sp2 
    dans la table distances
    """
    if (sp1, sp2) in distances:
        return distances[ (sp1, sp2) ]
    # sinon il doit y être dans l'autre sens
    else:
        return distances[ (sp2, sp1) ]
    # En principe, si notre algorithme est correct on n'a pas 
    # besoin de considérer d'autre cas comme sp1 == sp2 


def minimal_couple(distances, sequence):
    """
    Recherche parmi tous les couples de sequence x sequence
    avec sp1 != sp2 
    celui qui correspond à la distance minimale dans distances
    
    Retourne le couple en question - et pas la distance 
    car on n'en a pas besoin
    """
    ### initialisations
    # le couple résultat
    couple = None
    # la valeur minimale rencontrée jusqu'ici
    minimum = None
    # on balaie tous les couples
    for sp1 in sequence:
        for sp2 in sequence:
            # on ne considère que les couples qui sont dans `distances`
            # de cette façon
            # (*) on évite le cas où sp1 == sp2, et
            # (*) on ne traite qu'une fois chaque paire
            if (sp1, sp2) not in distances:
                continue
            # si minimum est None, on traite notre premier couple
            if minimum is None:
                minimum = get_distance(distances, sp1, sp2)
                couple = sp1, sp2
            # sinon, on mémorise ce couple si sa distance est 
            # inférieure au minimum courant
            else:
                candidate = get_distance(distances, sp1, sp2)
                if candidate < minimum:
                    minimum = candidate
                    couple = sp1, sp2
    # on n'oublie pas de retourner le résultat
    return couple


def UPGMA(filename, verbose=False):
    """
    Lire un fichier contenant sur chaque ligne 
    une sequence
    
    Calcule le tableau des distances, 
    puis implémente l'algorithme UPGMA
    
    Renvoie l'arbre de filiation sous forme d'un tuple 
    de tuples
    """
    native_sequence = {}
    # lire le fichier
    entry = open(filename,'r')
    for line in entry:
      # on coupe la ligne pour trouver le nom et la séquence
      name, adn = line.split()
      # on mémorise dans native_sequence
      native_sequence[name] = adn
    entry.close()
    # on calcule le tableau des distances
    distances = {}
    # essentiellement comme on l'a fait dans la séquence passée
    for sp1, adn1 in native_sequence.items():
        for sp2, adn2 in native_sequence.items():
            # on ignore les couples diagonaux
            if sp1 == sp2:
                continue
            if (sp2, sp1) in distances:
                continue
            distances[sp1, sp2] = distance(adn1, adn2)
    # la liste des clés de départ
    sequence = list(native_sequence.keys())
    if verbose:
        print(str(10*'+') + ' Initial distances')
        print(distances )
    while len(sequence) > 1:
        closer1, closer2 = minimal_couple(distances, sequence)
        sequence.remove(closer1)
        sequence.remove(closer2)
        new_sequence = closer1, closer2
        for sp in sequence:
            distances[ (sp, new_sequence) ] = \
              (get_distance(distances, closer1, sp) + \
               get_distance(distances, closer2, sp)) / 2
        # pour le tour suivant
        sequence.append(new_sequence)
        if verbose:
            print(str(10*'=') + " sequence = " + str(sequence))
            print(distances)
    return sequence[0]


resCourt = UPGMA("data-named-sequence.txt")
print("---------------------------------------------------------------------------------------------\n")
print("Déduction de l’arbre phylogénétique en se basant sur la méthode UPGMA:\n")
print(resCourt)
resLong = UPGMA("data-named-sequence.txt", True)
print("---------------------------------------------------------------------------------------------\n")
print("Résultat final:")
print(resLong)

ACCCGATGACCGGGCCTTGTAAACT
ACGCTACCTGTCGTATTGTAAT
ACGATGACAGGGCTTGTAACT
TTCATGACCGGCTTATACTTAT
TTCGCTACCTGATCGTACGGTATAT

       0   1   2   3   4
0      0  15   9  16  18
1     15   0  12  12   9
2      9  12   0  13  18
3     16  12  13   0  13
4     18   9  18  13   0
---------------------------------------------------------------------------------------------

Déduction de l’arbre phylogénétique en se basant sur la méthode UPGMA:

(('Seq1', 'Seq3'), ('Seq4', ('Seq2', 'Seq5')))
++++++++++ Initial distances
{('Seq1', 'Seq2'): 15, ('Seq1', 'Seq3'): 9, ('Seq1', 'Seq4'): 16, ('Seq1', 'Seq5'): 18, ('Seq2', 'Seq3'): 12, ('Seq2', 'Seq4'): 12, ('Seq2', 'Seq5'): 9, ('Seq3', 'Seq4'): 13, ('Seq3', 'Seq5'): 18, ('Seq4', 'Seq5'): 13}
{('Seq1', 'Seq2'): 15, ('Seq1', 'Seq3'): 9, ('Seq1', 'Seq4'): 16, ('Seq1', 'Seq5'): 18, ('Seq2', 'Seq3'): 12, ('Seq2', 'Seq4'): 12, ('Seq2', 'Seq5'): 9, ('Seq3', 'Seq4'): 13, ('Seq3', 'Seq5'): 18, ('Seq4', 'Seq5'): 13, ('Seq2', ('Seq1', 'Seq3')): 13.5, ('Seq4', ('Seq

# 3. Algorithme clausta: alignement global et arbre phylogénétique

3. 1. convertions des séquences en fichier fasta:
deux méthode soit en ligne ou avec la bibliotheque genopy

In [84]:
pip install genopy

Collecting genopyNote: you may need to restart the kernel to use updated packages.

  Downloading genopy-0.0.2-py2.py3-none-any.whl (32 kB)
Collecting ipfshttpclient
  Downloading ipfshttpclient-0.7.0-py3-none-any.whl (82 kB)
Collecting multiaddr>=0.0.7
  Downloading multiaddr-0.0.9-py2.py3-none-any.whl (16 kB)
Collecting varint
  Downloading varint-1.0.2.tar.gz (1.9 kB)
Collecting base58
  Downloading base58-2.1.0-py3-none-any.whl (5.6 kB)
Collecting netaddr
  Downloading netaddr-0.8.0-py2.py3-none-any.whl (1.9 MB)
Building wheels for collected packages: varint
  Building wheel for varint (setup.py): started
  Building wheel for varint (setup.py): finished with status 'done'
  Created wheel for varint: filename=varint-1.0.2-py3-none-any.whl size=1984 sha256=5299129528eb87c5cc0a55aa9a09d092eaf71344f3ad121d4a3425d2157401db
  Stored in directory: c:\users\kebir\appdata\local\pip\cache\wheels\cc\a8\a4\4d9e9807c27585dc974fc0e86a3e4345649d71f8a35906d1a8
Successfully built varint
Installing 

In [87]:
import genopy as gp
sr1 = "ACCCGATGACCGGGCCTTGTAAACT"
sr2 = "ACGCTACCTGTCGTATTGTAAT"
sr3 = "ACGATGACAGGGCTTGTAACT"
sr4 = "TTCATGACCGGCTTATACTTAT"
sr5 = "TTCGCTACCTGATCGTACGGTATAT"
mkfasx("Séquences_TP3.fasta", sr1, sr2, sr3, sr4, sr5)

 


3. 2. alignement global et arbre phylogénétique

In [71]:
clustalomega_cline = ClustalOmegaCommandline(infile = in_file, outfile = out_file, outfmt = 'phylip', verbose = True, auto = False)

In [72]:
from Bio.Align.Applications import ClustalOmegaCommandline 
# define input file
in_file = "Séquences_TP3.fasta"

# define output file (I have tried just adding .phylip or no .format)
out_file = "out_filename.phylip"

# get the command for Clustal Omega
# what I tried and what should work: outfmt = phylip
clustalomega_cline = ClustalOmegaCommandline(infile = in_file, outfile = out_file, verbose = True, auto = False)

# print the executable command
print(clustalomega_cline)

# The commandline will prompt you at this point to enter the line calling to your file, it should have this format:
# ./clustal-omega-1.2.3-macosx -i in_filename.fasta -o in_filename.phylip --auto -v

clustalo -i Séquences_TP3.fasta -o out_filename.phylip -v


In [78]:
# Import Clustal Omega wrapper
from Bio.Align.Applications import ClustalOmegaCommandline

# Define input file
in_file = "C:/Users/kebir/Séquences_TP3.fasta"

# Define output file
out_file = "00000.fasta"

# Get the command for Clustal Omega
clustalomega_cline = ClustalOmegaCommandline(infile=in_file, outfile=out_file, verbose=True, auto=True)

# Print the executable command
print(clustalomega_cline)

clustalo -i C:/Users/kebir/Séquences_TP3.fasta -o 00000.fasta --auto -v


3. 3. Comparaison des resultats : resultats tres proche.