# Mini-projet: Alignement de séquences

<br>

### TOURE Momar Faly
### SELVACHANDRAN Nagulan

<br>


## 2. Le problème d'alignement de séquences

### 2.2 Alignement de deux mots

# Question 1

![aaaa](images/1.a.jpg)
![bbbb](images/1.b.jpg)

# Question 2

Si x est de longueur **n**, et y est de longueur **m**, alors la longueur maximale d'un alignement de (x,y) est **n+m**.
<br>
**Exemple:**
x = ATG et y = AT ,  $\bar{x}$ = ATG-- et $\bar{y}$ ,  ($\bar{x}$,$\bar{y}$) est un alignement de (x,y)

## 3 Algorithmes pour l'alignement de séquences

### 3.1 Méthode naïve par énumération

# Question 3

Étant donné x un mot de longueur **n**, en ajoutant **k** gaps, on peut obtenir **$\binom{n+k}{n}$** mots $\bar{x}$


# Question 4

Soit (x,y) avec x de longueur **n** et y de longueur **m** en supposant que **m$\leq$n**. 
<br>
<br>
En ajoutant **k** gaps à x, comme la longueur de $\bar{x}$ doit être égale à celle de $\bar{y}$, on a le nombre de gaps de $\bar{y}$ qui doit être égal à **n+k-m**
<br>
On aura **$\binom{n}{n+k-m}$** façons d'insérer ces gaps dans y.
<br>
Sachant qu'il y a **$\binom{n+k}{n}$** façons d'avoir $\bar{x}$, et que pour chaque $\bar{x}$, on a **$\binom{n}{n+k-m}$** façons d'avoir $\bar{y}$, on aura au total **$\binom{n+k}{n}$** x **$\binom{n}{n+k-m}$** alignements possibles
<br>
<br>
Si kle nombre de gaps n'est pas fixé on a au total:  $\sum_{k=0}^{m} {\binom{n+k}{n} . \binom{n}{n+k-m}}$

Pour |x|=15 et |y|=10, le nombre de gaps maximal qu'on peut insérer dans x est 10.
<br>
Calculons le nombre d'alignements possibles selon le nombre k de gaps:
<br>
<br>
Pour k=0 on a: 1 x  3003 = 3003<br>
Pour k=1 on a: 16 x 5005 = 80080<br>
Pour k=2 on a: 136 x 6435 = 875160<br>
Pour k=3 on a: 816 x 6435 = 5250960<br>
Pour k=4 on a: 3876 x 5005 = 19399380<br>
Pour k=5 on a: 15504 x 3003 = 46558512<br>
Pour k=6 on a: 54264 x 1365 = 74070360<br>
Pour k=7 on a: 170544 x  455 = 77597520<br>
Pour k=8 on a: 490314 x 105 = 51482970 <br>
Pour k=9 on a: 1307504 x 15 = 19612560 <br>
Pour k=10 on a: 3268760 x 1 = 3268760<br>
<br>
<br>
Au total, on a: **298 199 265 alignements possibles**.

# Question 5

La complexité serait factorielle O(n!). Pour trouver l'alignement, elle serait doublement exponentielle

# Question 6

L'algorithme stockerait toutes les valeurs des distances d'éditions pour ensuite les comparer, il y aura donc  $\sum_{k=0}^{m} {\binom{n+k}{n} . \binom{n}{n+k-m}}$. 

In [1]:
# Variables glolabes: 
global x, y, n, m
Cdel=2
Cins=2

import time

In [2]:
def lireFichier(fichier):
    """
    string-> void
    initialise les valeurs de x,y,n et m
    """
    global x, y, n, m
    x=[]
    y=[]
    f = open("Instances_genome/"+fichier,"r")

    contenu = f.readlines()
    
    # On lit les longueurs des mots sans le caractère '\n'
    n= int(contenu[0].rstrip('\n'))
    m=int(contenu[1].rstrip('\n'))
    
    # On stocke lit les mots x et y et on les stocke dans des listes
    for el in contenu[2]:
        if el!=' ' and el!='\n' :
            x.append(el)
    
    for el in contenu[3]:
        if el!=' ' and el!='\n':
            y.append(el)
    
    f.close()



# Tâche A

In [3]:
def Csub(a,b):
    """
    char*char -> int
    renvoie le coût de substitution 
    """
    if(a==b):
        return 0
    if((a=='A' and b=='T') or (a=='T' and b=='A') or (a=='G' and b=='C') or (a=='C' and b=='G')):
        return 3
    return 4


def DIST_NAIF(x,y):
    """
    list[char]*list[char] -> int
    retourne la distance d'édition entre deux mots
    """
    
    return DIST_NAIF_REC(x,y,0,0,0,float('inf'))


def DIST_NAIF_REC(x,y,i,j,c,dist):
    if(i==len(x) and j==len(y)):
        if(c<dist):
            dist=c
    
    else:
        if(i<len(x) and j<len(y)):
            dist=DIST_NAIF_REC(x,y,i+1,j+1,c+Csub(x[i],y[j]),dist)
        
        
        if (i<len(x)):
                dist=DIST_NAIF_REC(x,y,i+1,j,c+Cdel,dist)
        
        if(j<len(y)):
                dist=DIST_NAIF_REC(x,y,i,j+1,c+Cins,dist)
    

    return dist

In [4]:
lireFichier("Inst_0000010_44.adn")
start_time = time.time()
print(DIST_NAIF(x,y)," temps mis:",time.time()-start_time,"secondes")


lireFichier("Inst_0000010_7.adn")
start_time = time.time()
print(DIST_NAIF(x,y)," temps mis:",time.time()-start_time,"secondes")

lireFichier("Inst_0000010_8.adn")
start_time = time.time()
print(DIST_NAIF(x,y)," temps mis:",time.time()-start_time,"secondes")

(10, ' temps mis:', 0.05928397178649902, 'secondes')
(8, ' temps mis:', 8.212905883789062, 'secondes')
(2, ' temps mis:', 3.2711760997772217, 'secondes')


On évalue jusqu'à quelle taille d'instance on peut résoudre les instances fournies en moins d'une minute

In [5]:
""""

L'exécution pour le tracé de ce graphe prend beaucou trop de temps.
La sortie en image est juste au-dessous:

import matplotlib.pyplot as plt
import numpy as np
import os

end_time=0
X=[]
Y=[]
for root, dirs, files in os.walk("Instances_genome"):
    for filename in sorted(files):
        if(end_time)>60:
            break
        lireFichier(filename)
        start_time = time.time()
        (DIST_NAIF(x,y))
        end_time = time.time()-start_time
        X.append(end_time)
        Y.append(n)
    

plt.plot (np.array(X),np.array(Y))
plt.ylabel('taille des instances')
plt.xlabel('temps mis en secondes')
plt.show()"""

'"\n\nL\'ex\xc3\xa9cution pour le trac\xc3\xa9 de ce graphe prend beaucou trop de temps.\nLa sortie en image est juste au-dessous:\n\nimport matplotlib.pyplot as plt\nimport numpy as np\nimport os\n\nend_time=0\nX=[]\nY=[]\nfor root, dirs, files in os.walk("Instances_genome"):\n    for filename in sorted(files):\n        if(end_time)>60:\n            break\n        lireFichier(filename)\n        start_time = time.time()\n        (DIST_NAIF(x,y))\n        end_time = time.time()-start_time\n        X.append(end_time)\n        Y.append(n)\n    \n\nplt.plot (np.array(X),np.array(Y))\nplt.ylabel(\'taille des instances\')\nplt.xlabel(\'temps mis en secondes\')\nplt.show()'

![](images/graphe1.png)

On peut voir avec la courbe qu'on peut résoudre en moins d'une minute jusqu'à certaines instances de taille 12.

![](images/capture.png)

En exécutant top dans le terminal, on voit qu'elle utilise **89,628 MiB**, soit **1,3%** de la mémoire totale: **6983,8 MiB**

### 3.2 Programmation dynamique

#### 3.2.1 Calcul de la distance d'édition par programmation dynamique

# Question 7

Soit ($\bar{u}$,$\bar{v}$) un alignement de (x,y) de longueur **l**.
<br>
Si $\bar{u}_{l}$ = - , alors  $\bar{v}_{l}$ est dans {A,T,G,C}
<br>
Si $\bar{v}_{l}$ = - , alors  $\bar{u}_{l}$ est dans {A,T,G,C}
<br>
Si $\bar{u}_{l}$ $\neq$ -  et $\bar{v}_{l}$ $\neq$ -, alors  $\bar{v}_{l}$ et  $\bar{u}_{l}$ sont dans {A,T,G,C}

# Question 8

![](images/3.jpg)

# Question 9

![](images/4.jpg)

# Question 10

Si **i=0** et **j=0**, il y a pas d'alignements possibles, donc **D(0,0) n'est pas défini** 

# Question 11

![](images/5.jpg)

# Question 12

![](images/6.jpg)

# Question 13

L'alogrithme Dist_1 rempli un tableau à deux dimensions de taille **nxm**. Sa complexité spaciale est donc $\theta{(nm)}$.

# Question 14

La compltexité temporelle de l'algorithme DIST_1 est $\theta{(nm)}$ à chaque tour de boucle, il effectue au plus 4 accès à la liste T. Cet accès se fait en temps constant ($\theta{(1)}$). D'où la complexité $\theta{(nm)}$ de l'algorithme.

#### 3.2.2 Calcul d'un alignement optimal par programmation dynamique

# Question 15

![](images/7.jpg)

# Question 16

![](images/8.jpg)

# Question 17

La complexité de SOL_1 est $\mathcal{O}(n+m)$ puisque c'est dans le pire des cas qu'on parcoure le tableau uniquement sans mouvement diagonale.

# Question 18

La complexité de SOL_1 est $\mathcal{O}(n+m)$ et celle de DIST_1 est $\mathcal{O}(nm)$.D'où la combinaison est en $\mathcal{O}(nm)$

# Tâche B

In [6]:
global T

In [7]:
def DIST_1(x,y):
    """
    List[char]*List[char] - > int
    Retourne la distance d'édition 
    """
    # on initialise  le tableau
    global T
    T=[[0 for j in range(len(y)+1)] for i in range (len(x)+1)]
    
    for i in range(len(x)+1):
        for j in range(len(y)+1):
            # première case du tableau
            if (i==0 and j==0):
                T[i][j]=0
            #première ligne du tableau
            elif i==0:
                T[0][j]=j*Cins
            
            #première colonne
            elif j==0:
                T[i][0]=i*Cdel
            # Pour toutes les autres cases du tableau
            else:
            
            #on fait x[i-1] au lieu de x[i] car le tableau T est toujours en avance de 1
                T[i][j]=min(T[i-1][j-1]+Csub(x[i-1],y[j-1]),T[i-1][j]+Cdel,T[i][j-1]+Cins)
    
    return T[i][j]

In [8]:
lireFichier("Inst_0000010_44.adn")
start_time = time.time()
print(DIST_1(x,y)," temps mis:",time.time()-start_time,"secondes")


lireFichier("Inst_0000010_7.adn")
start_time = time.time()
print(DIST_1(x,y)," temps mis:",time.time()-start_time,"secondes")

lireFichier("Inst_0000010_8.adn")
start_time = time.time()
print(DIST_1(x,y)," temps mis:",time.time()-start_time,"secondes")


(10, ' temps mis:', 0.00030612945556640625, 'secondes')
(8, ' temps mis:', 0.0004551410675048828, 'secondes')
(2, ' temps mis:', 0.0002951622009277344, 'secondes')


On peut remarquer que là où il nous a fallu **10.63 secondes** pour Inst_0000010_7.adn avec DIST_NAIF, il ne nous faut que **0.0003 secondes** avec DIST_1.

In [9]:
# bibliothèque pour implémenter des listes doublement chaînées
#On pourra utiliser appendleft qui a une complexité de O(1)
from pyllist import dllist

In [10]:


def SOL_1(x,y,T):
    """
    List[char]*List[char]*List[List[int]] -> (List[char],List[char])
    Retourne un alignement minimal
    """
    
    # on initialise i et j aux indices du dernier élément du tableau
    i=len(T)-1
    j=len(T[0])-1
    
    #l'alignement minimal    
    newX=dllist() 
    newY=dllist() 
    
    while(i!=0 and j!=0):
        
        #on remonte diagonalement
        if (T[i][j]==T[i-1][j-1]+Csub(x[i-1],y[j-1])):  #on fait x[i-1] au lieu de x[i] car le tableau T est toujours en avance de 1
            
            newX.appendleft(x[i-1])                     
            newY.appendleft(y[j-1])
            i=i-1
            j=j-1

        #on remonte verticalement
        elif (T[i][j]==T[i-1][j]+Cdel):
            newX.appendleft(x[i-1])
            newY.appendleft('-')
            i=i-1
        
        #on remonte horizontalement
        elif (T[i][j]==T[i][j-1]+Cins):
            newX.appendleft('-')
            newY.appendleft(y[i-1])
            j=j-1
        
    return (newX,newY)

In [11]:
global T
lireFichier("Inst_0000010_44.adn")
DIST_1(x,y)
print(SOL_1(x,y,T))


lireFichier("Inst_0000010_7.adn")
DIST_1(x,y)
print(SOL_1(x,y,T))

lireFichier("Inst_0000010_8.adn")
DIST_1(x,y)
print(SOL_1(x,y,T))

(dllist(['T', 'A', 'T', 'A', 'T', 'G', 'A', 'G', 'T', 'C']), dllist(['T', 'A', 'T', '-', 'T', '-', '-', '-', 'T', '-']))
(dllist(['T', 'G', 'G', 'G', 'T', 'G', 'C', 'T', 'A', 'T']), dllist(['G', 'G', 'G', 'G', 'T', 'T', 'C', 'T', 'A', 'T']))
(dllist(['A', 'A', 'C', 'T', 'G', 'T', 'C', 'T', 'T', 'T']), dllist(['A', 'A', 'C', 'T', 'G', 'T', '-', 'T', 'T', 'T']))


In [12]:
def PROG_DYN(x,y):
    """
    List[char]*List[char] -> (int,List[char]*List[char])
    retourne d(x,y) et un alignement correspondant
    """
    return (DIST_1(x,y),SOL_1(x,y,T))
    

In [None]:
lireFichier("Inst_0000010_44.adn")
start_time = time.time()
print(PROG_DYN(x,y))
print("temps mis:",time.time()-start_time,"secondes")


lireFichier("Inst_0000010_7.adn")
start_time = time.time()
print(PROG_DYN(x,y))
print("temps mis:",time.time()-start_time,"secondes")


lireFichier("Inst_0100000_8.adn")
start_time = time.time()
print(PROG_DYN(x,y))
print("temps mis:",time.time()-start_time,"secondes")

(10, (dllist(['T', 'A', 'T', 'A', 'T', 'G', 'A', 'G', 'T', 'C']), dllist(['T', 'A', 'T', '-', 'T', '-', '-', '-', 'T', '-'])))
('temps mis:', 0.00047707557678222656, 'secondes')
(8, (dllist(['T', 'G', 'G', 'G', 'T', 'G', 'C', 'T', 'A', 'T']), dllist(['G', 'G', 'G', 'G', 'T', 'T', 'C', 'T', 'A', 'T'])))
('temps mis:', 0.00032210350036621094, 'secondes')


### Tracé de la courbe de PROG_DYN(x,y) en fonction du temps

In [None]:
"""import matplotlib.pyplot as plt
import numpy as np
import os

end_time=0
X=[]
Y=[]
for root, dirs, files in os.walk("Instances_genome"):
    for filename in sorted(files):
        if(end_time)>60:
            break
        lireFichier(filename)
        start_time = time.time()
        (PROG_DYN(x,y))
        end_time = time.time()-start_time
        X.append(end_time)
        Y.append(n)
    
print(X)
print(Y)
plt.plot (np.array(X),np.array(Y))
plt.ylabel('taille des instances')
plt.xlabel('temps mis en secondes')
plt.show()"""

![](images/TACHEB.png)

Les résultats correspondes bien vu que: Pour n =20000 on a m = 17799 et donc n*m= 355980000 microS= 356 secondes

![](images/TACHEBMEMOIRE.png)

# Question 19

Dans le calcul des distances d'édition dans la question 15, on remarque qu'on a seulement besoin des valeurs de la ligne précédente et des valeurs sur la ligne sur laquelle on se trouve. 

# Question 20

![](images/10.jpeg)

In [4]:
def DIST_2(x,y):
    """
    List[char]*List[char] - > int
    Retourne la distance d'édition 
    """
    # on initialise  le tableau
    global T
    T=[[0 for j in range(len(y)+1)] for i in range (2)]
    
    for i in range(len(x)+1):
        for j in range(len(y)+1):
            # première case du tableau
            if (i==0 and j==0):
                T[i%2][j]=0
            #première ligne du tableau
            elif i==0:
                T[0][j]=j*Cins
            
            #première colonne
            elif j==0:
                T[i%2][0]=i*Cdel
            # Pour toutes les autres cases du tableau
            else:
            
            #on fait x[i-1] au lieu de x[i] car le tableau T est toujours en avance de 1
                T[i%2][j]=min(T[(i-1)%2][j-1]+Csub(x[i-1],y[j-1]),T[(i-1)%2][j]+Cdel,T[i%2][j-1]+Cins)
    
    return T[i%2][j]

In [413]:
lireFichier("Inst_0000010_44.adn")
start_time = time.time()
print(DIST_2(x,y)," temps mis:",time.time()-start_time,"secondes")


lireFichier("Inst_0000010_7.adn")
start_time = time.time()
print(DIST_2(x,y)," temps mis:",time.time()-start_time,"secondes")

lireFichier("Inst_0000010_8.adn")
start_time = time.time()
print(DIST_2(x,y)," temps mis:",time.time()-start_time,"secondes")


(10, ' temps mis:', 0.0002579689025878906, 'secondes')
(8, ' temps mis:', 0.00038504600524902344, 'secondes')
(2, ' temps mis:', 0.0002701282501220703, 'secondes')


![](images/TACHEC.png)

On voit que dist2 est plus performant.

![](images/TACHECMEMOIRE.png)

On voit qu'au début du programme, elle utilise déjà 1,48 Gigas

# Question 21

![](images/11.jpeg)

# Question 22

![](images/12.jpeg)

# Question 23

# Question 24

![](images/14.jpeg)

# Question 25


![](images/13.jpeg)

In [165]:
def aligne_lettre_mot(x,y):
    i=0
    for i in range(len(y)):
        if (x[0] == y[i]):
            break;
    return (mots_gaps(i)+[x[0]]+mots_gaps(len(y)-i-1),y)

In [166]:
def mots_gaps(k):
    return ['-']*k

In [167]:
x=['T']
y=['A','T','C']
print(aligne_lettre_mot(x,y))

(['-', 'T', '-'], ['A', 'T', 'C'])


In [427]:
def SOL_2(x,y):
    
    # On introduit les listes doublement chaînées pour avoir une complexité de concaténation = O(1)
  
    
    if(len(y)==0):
        return (x,mots_gaps(len(x)))
    elif(len(x)==0):
        return (mots_gaps(len(y)),y)
    
    
    
    elif(len(x)==1 and len(y)==1):  
        
        return (dllist(x),dllist(y))
    
    elif(len(x)==1):
        return aligne_lettre_mot(x,y)
    
    
     
    else:
        AlX1= x[0:len(x)//2]
        
        AlX2= x[len(x)//2:]
        AlY1 = y[0:coupure(x,y)]
        AlY2= y[coupure(x,y):]
        
        
        a=SOL_2(AlX1,AlY1)
        b=SOL_2(AlX2,AlY2)
        return (dllist(a[0])+dllist(b[0]),dllist(a[1])+dllist(b[1]))
        
        

In [428]:


def coupure(x,y):
    """
    List[char]*List[char]*List[List[int]] -> int)
    Retourne la coupure j*
    """
    # on initialise  le tableau
    global T
    T=[[0 for j in range(len(y)+1)] for i in range (2)]
    I=[0]*(len(y)+1) 
    
    for i in range(len(x)//2,len(x)+1):
        for j in range(len(y)+1):
            
            
            
            # on utilise ces variables temporaires pour pouvoir retrouver les valeurs initiales de i et j
            p=i
            q=j
           
            while( p!=len(x)//2):
                
                # On calcule la distance D pour les lignes p et p-1
                DIST_2(x[:p],y)
                
                #on remonte verticalement
                if (T[p%2][q]==T[(p-1)%2][q]+Cdel):
                    
                    p=p-1
                    

                #on remonte horizontalement
                elif (T[p%2][q]==T[p%2][(q-1)]+Cins):
                    q=q-1
                   
                
                
                
                #on remonte diagonalement
                elif (T[p%2][q]==T[(p-1)%2][(q-1)]+Csub(x[p-1],y[q-1])):

                    p=p-1
                    q=q-1
                    
                    

            # on ajoute à la liste I la valeur de j (càd q) trouvé           
            I[j] = q
    return I[j]

In [429]:
lireFichier("Inst_0000010_8.adn")
print(SOL_2(x,y))

(dllist(['A', 'A', 'C', 'T', 'G', 'T', 'C', 'T', 'T', 'T']), dllist(['A', 'A', 'C', 'T', 'G', 'T', '-', 'T', 'T', 'T']))


In [430]:
lireFichier("Inst_0000010_44.adn")
start_time = time.time()
print(SOL_2(x,y)," temps mis:",time.time()-start_time,"secondes")


lireFichier("Inst_0000010_7.adn")
start_time = time.time()
print(SOL_2(x,y)," temps mis:",time.time()-start_time,"secondes")

lireFichier("Inst_0000010_8.adn")
start_time = time.time()
print(SOL_2(x,y)," temps mis:",time.time()-start_time,"secondes")

((dllist(['T', 'A', 'T', 'A', 'T', 'G', 'A', 'G', 'T', 'C']), dllist(['T', 'A', 'T', '-', 'T', '-', '-', '-', 'T', '-'])), ' temps mis:', 0.010593891143798828, 'secondes')
((dllist(['T', 'G', 'G', 'G', '-', 'T', '-', 'G', 'C', 'T', 'A', 'T']), dllist(['-', 'G', 'G', 'G', 'G', 'T', 'T', '-', 'C', 'T', 'A', 'T'])), ' temps mis:', 0.03449702262878418, 'secondes')
((dllist(['A', 'A', 'C', 'T', 'G', 'T', 'C', 'T', 'T', 'T']), dllist(['A', 'A', 'C', 'T', 'G', 'T', '-', 'T', 'T', 'T'])), ' temps mis:', 0.02656698226928711, 'secondes')


# Question 26

La fonction coupure utilise un tableau T à deux lignes et à m (longueur de y) colonnes et un tableau I à une ligne et m colonnes. Donc au total **3 x m** . D'où la complexité de $\theta{(m)}$

# Question 27

La fonction SOL_2 démarre avec deux listes de longueur n et m. Et pour chaque tableau, on effectue un appel récursif sur les deux moitiés du tableau, et ainsi de suite.
On remarque que pour un tableau de longueur n, on a occuple les espaces mémoires suivants: n + 2 * n/2 + 2 * n/4 +....+ 1= n + 2 x n/2 x $\frac{1-(\frac{1}{2})^(log(n))}{\frac{1}{2}}$ = n (3 - $(\frac{1}{2})^{log(n)})$ . Le nombre d'opérations pour les deux mots est: n (3 - $(\frac{1}{2})^{log(n)})$ + m (3 - $(\frac{1}{2})^{log(m)})$

# Question 28

Pour la boucle i, elle la fait au total n/2; pour la boucle j, elle la fait m fois et dans la boucle while, elle fait au pire (j+i-len(x)/2) tours de boucles dans lesquelles elle fait appelle à DIST_2 qui a O(nm) en complexité. Donc la compléxité est:O(m²n²)

 # Tâche D

![](images/TACHED.png)

# Question 29

On remarque qu'effectivement en améliorant la complexité mémoire, on a perdu en complexité en temps, puisque dans le temps imparti, il ne va que jusqu'à n=100