# TME 7 : Projet Detection de motifs


## Recheche de pattern (motifs) en utilisant les suffix trees

Nous allons utiliser l'algorithme suffix-tree pour la recherche rapide et efficace de motifs. Un suffix-tree est construit à partir d'un jeu de séquences, ensuite nous pouvons rechercher le motif en temps O(k) où k est la longueur du motif.

#### Binome 1 : K Murali Sharane

#### Binome 2 : Legendre--Despas Jeanne

1\. Nous allons réutiliser les fonctions du TME6 pour générer ``t`` séquences artificielles de taille ``n``, et implanter dans chaque séquence un motif de taille ``k`` à des positions aléatoires avec ``v`` substitutions choisies aléatoirement. Cependant, les ``t`` séquences artificielles initiales (sans implantation) ainsi que le motif initial (sans variation/mutation) doivent être générés une seule fois. Ensuite, selon chaque question, nous introduisons des différentes variations au motif initial et les implantons dans les séquences afin de générer des nouveau jeux de données. 

In [28]:
import random
import numpy as np

nuc = ('A', 'C', 'G', 'T')

k=8   # taille de motif
v=0   # nb de positions variables dans le motif
t=5   # nb de sequences
n=100 # longueur des sequence


1.1\. Generer les séquences artificielles initiales et implanter un motif (sans variation, v=0)

In [29]:
def generateRandomSequence(n, upper=True):
    """
    Génère une séquence nucléotidique aléatoire 
    entrée n : longueur de la sequence
    entrée upper : bool, si True les nucléotides seront en majuscule, False minuscule
    sortie sequence : une séquence nucléotidique aléatoire 
    """
    sequence = ""
    
    for i in range(n):
        if (upper) : 
            sequence += random.choice(nuc).upper()
        else : 
            sequence += random.choice(nuc).lower()
    
    return sequence

def modifierMotif(motif, nbpos,  upper=True):
    """
    Modifie nbpos positions d'un motif aléatoirement 
    entrée motif: motif à modifier
    entrée nbpos: nombre de positions
    entrée upper : bool, si True les nucléotides modifiés seront majuscule, False minuscule
    sortie motifM: motif modifié
    """
    motifM = list(motif)
    positions = []
    
    for i in range(nbpos) : 
        pos = random.choice(range(len(motif)))
        while (pos in positions) :
            pos = random.choice(range(len(motif)))
        positions.append(pos)
    
    
    for pos in positions :
        
        nvNuc = random.choice(nuc)
        while (nvNuc.upper() == motifM[pos].upper()) :
            nvNuc = random.choice(nuc)
        
        if (upper) :
            motifM[pos] = nvNuc.upper()
        else : 
            motifM[pos] = nvNuc.lower()
        
    
    return "".join(motifM)



def implantMotif(sequences, motif, k, v, t, n):
    """
    Génère des séquences aléatoires et implante des motifs (un motif par séquence)
    entrée k: taille du motif
    entrée v: nombre de variations (si v==0 implante un motif sans variations)
    entrée t : nombre de séquences 
    entrée n : longueur des séquences
    sortie DNAOrig : matrice de dimension t x n-k avec les sequences aléatoires
    sortie DNAMot: matrice de dimension t x n avec les sequences aléatoires et les motifs implantés
    sortie motifFix: motif sans variations
    REMARQUE : La taille totale des séquences plus motif doit être égal à n, pensez à générer de séquence aléatoire de taille n-k pour pouvoir implanter un motif de taille k
    Cette fonction permet de soit générer les séquences et le motif, soit juste implanter de motif (avec ou sans variations) à des séquences et motif existantes (passé en paramètre)
    """
    #Génération des séquences aléatoires (matrice)
    DNAOrig = [generateRandomSequence(n-k) for i in range(t)]
    DNAMotif = []
    
    #Génération des differents motifs avec une variation à chaque motif
    motifFix = generateRandomSequence(k, False)
    motifsModif = [modifierMotif(motifFix,v) for i in range(t-1)] #Liste des motifs qui varient
    
    #Implantation des motifs à des position aléatoire
    for i,seq in enumerate(DNAOrig):
        
        #On choisi une position au hasard
        pos = random.choice(range( len(seq) + 1 ))
        if (i==0):
            DNAMotif.append(seq[:pos] + motifFix + seq[pos:])
        else : 
             DNAMotif.append(seq[:pos] + motifsModif[i-1] + seq[pos:])

    return DNAOrig, DNAMotif, motifFix.upper()


adnOri, adn, fix_motif = implantMotif(None, '', k, 0, t, n) #générer les séquences et le motif sans variation

print("Les t =", t,"séquence originale de longueur n-k =", n-k)
for i,seq in enumerate(adnOri): 
    print(seq)
    
print("\nLes t =", t,"séquence longueur n =", n, "implantées avec le motif", fix_motif ,"de longueur k =", k)
for i,seq in enumerate(adn): 
    print(seq)

adn  = [s.upper() for s in adn]
#print (adn)

Les t = 5 séquence originale de longueur n-k = 92
GTCGGTCTGGGCTTTACTAGGTAGGTGATTGTAAATGGGCGTACACACCGTGCGGTAGTTGAGACCGAGCGACAATAGTTCACATCGAGTAG
CGCGTCAGGATTAATAATACAAGGTCTTGAAACCATTGAGAACGATCGCTACACTAGGACTCGTTCGTGCCGGATGTCTCGGTCTAGAGTTG
GTCTCTGAGAAATTCGAGCATGCCCCCTTCGGTAGACCTTGTAGACGACGTTAATGCGGCTGCATTTACGAACCCGGACCCGAATTTTGGAA
TAGCCACCTGCGGATTTCTGAAACAAATATCACTGGCTCTTCCGATTCACACTCCTGGGGGGCTAGGGAGGTAGGTCTTTTCGATTAGCACC
GGTGACGATTATCTTTAGCAGTCAACGGCTCCTTCTTTGATCGCGGTCTAACCATCAAACCACGTGGCCCGCTCCATGTTGAGCTAGTGGCC

Les t = 5 séquence longueur n = 100 implantées avec le motif CCCGACTT de longueur k = 8
GTCGGTCTGGGCTTTACTAGGTAGGTGATTGTAAATGGGCGTACACACCGTGCGGTAGTTGAGACCGAcccgacttGCGACAATAGTTCACATCGAGTAG
CGCGTCAGGATTAATAATACAAGGTCTTGAAACCATTGAGAACGATCGCcccgacttTACACTAGGACTCGTTCGTGCCGGATGTCTCGGTCTAGAGTTG
GTCTCTGAGAAATTCGAGCATGCCCCCTTCcccgacttGGTAGACCTTGTAGACGACGTTAATGCGGCTGCATTTACGAACCCGGACCCGAATTTTGGAA
TAGCCACCTGCGGATTTCTGAAACAAcccgacttATATCACTGGCTCTTCCGATTCACACTCCTGGGGGGCTAGGGAGGTAGGTCTTTTCGAT

2\. Définissez une fonction ``construct_tree`` pour construire un suffix tree à partir des séquences artificielles (après implantation) en utilisant le python package suffix-trees trouvable ici: https://pypi.org/project/suffix-trees/. Tester si votre fonction est capable de trouver le motif sans variation implanté.

In [30]:
!pip3 install suffix_trees

[33mDEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621[0m
[33mDEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621[0m


In [31]:
from suffix_trees import STree

st = STree.STree("abcdefghab")
print("Position de abc dans abcdefghab :")
print(st.find("abc")) # 0
print("\nPosition de ab dans abcdefghab :")
print(st.find_all("ab")) # [0, 8]

def construct_tree(sequences):
    """
    construire un abre de suffixe
    entrée1 sequences : matrice de dimension txn avec les sequences
    sortie1 st : arbre de suffixe
    REMARQUE: Vous devez concatener toutes les sequences de la matrice avant d'appeller la fonction STree
    """
    seqConcat = "".join(sequences)
    return STree.STree(seqConcat)

print("\nLes séquences implantées : ")
for seq in adn :
    print(seq)

tree = construct_tree(adn)

print("\nLes positions du motif", fix_motif, "implanté dans les séquences")
print(tree.find_all(fix_motif))


Position de abc dans abcdefghab :
0

Position de ab dans abcdefghab :
{0, 8}

Les séquences implantées : 
GTCGGTCTGGGCTTTACTAGGTAGGTGATTGTAAATGGGCGTACACACCGTGCGGTAGTTGAGACCGACCCGACTTGCGACAATAGTTCACATCGAGTAG
CGCGTCAGGATTAATAATACAAGGTCTTGAAACCATTGAGAACGATCGCCCCGACTTTACACTAGGACTCGTTCGTGCCGGATGTCTCGGTCTAGAGTTG
GTCTCTGAGAAATTCGAGCATGCCCCCTTCCCCGACTTGGTAGACCTTGTAGACGACGTTAATGCGGCTGCATTTACGAACCCGGACCCGAATTTTGGAA
TAGCCACCTGCGGATTTCTGAAACAACCCGACTTATATCACTGGCTCTTCCGATTCACACTCCTGGGGGGCTAGGGAGGTAGGTCTTTTCGATTAGCACC
GGTGACGATTATCTTTAGCAGTCAACGGCTCCTTCTTTGATCGCGGTCTAACCATCAAACCCCGACTTCACGTGGCCCGCTCCATGTTGAGCTAGTGGCC

Les positions du motif CCCGACTT implanté dans les séquences
{68, 326, 230, 460, 149}


<font color = blue>
    Nous retrouvons bien les positions des motifs (sans variations) implantés dans nos séquences
</font>

3\. Avant de chercher les motifs, implémentez ou réutilisez les fonctions pour générer tous les motifs (k-mer) possibles de taille k, en éliminant les motifs peu complexe pour éviter les calculs inutiles.

In [32]:
import re

In [33]:
#Fonction modifiée du TME précédent pour être utilisée avec des listes.
def removeLowComplexe(motifs, reLow = 5):
    """
    Eleve les motifs peu complexe 
    entrée motifs: list de motifs
    sortie validMotif: liste de motifs filtré
    """
    validMotif = []
    
    for motif in motifs : 
        
        k = str(len(motif))
        reLow_fois_même_lettre = '([ACTG]*A){'+ str(reLow) +'}|([ACTG]*C){'+ str(reLow) +'}|([ACTG]*T){'+ str(reLow) +'}|([ACTG]*G){'+ str(reLow) +'}|'
        deux_lettres_repetee = '([ACTG]*AC){3}|([ATCG]*AT){3}|([ATCG]*AG){3}|([ATCG]*TA){3}|([ATCG]*TG){3}|([ATCG]*TC){3}|([ATCG]*CG){3}|([ATCG]*CA){3}|([ATCG]*CT){3}|([ATCG]*GA){3}|([ATCG]*GT){3}|([ATCG]*GC){3}|'
        uniquement_deux_lettres = '[AC]{'+k+'}|[AT]{'+k+'}|[AG]{'+k+'}|[TG]{'+k+'}|[TC]{'+k+'}|[GC]{'+k+'}'
        
        p = re.compile(reLow_fois_même_lettre + deux_lettres_repetee + uniquement_deux_lettres)
        m = p.match(motif.upper())
        if not m:
            validMotif.append(motif);
            
    return validMotif

In [34]:
from itertools import product

#Genere tous les K-mers de taille K ayant de AAA... à TTT...
allkmers = product(nuc, repeat=k)
kmers = ["".join(k) for k in list(allkmers)] #Liste de tous les motifs de taille k possibles
print("Nombre de motifs de taille",k,":",len(kmers))

#Enlever les motifs peu complexe
#Tous les motifs avec trois fois deux lettres répétées, avec reLow fois la même lettre et avec uniquement deux lettres
kmersValid = removeLowComplexe(kmers, 6)
print("Nombre de motifs de taille",k,"'complexes' :",len(kmersValid))

Nombre de motifs de taille 8 : 65536
Nombre de motifs de taille 8 'complexes' : 61944


4\. **Exact matching:** Définissez la fonction ``exact_match`` qui cherche dans le suffix tree tous les motifs possibles (k-mers), générés à la question precedent. La fonction renvoie un dictionnaire qui contient les motifs (clés) et leurs nombre d'occurrence (valeurs). Ce dictionnaire doit être trié par nombre d'occurrences. 

Ensuite, trouvez et affichez les 10 motifs plus fréquents dans notre jeu de données artificiels.

In [35]:
from collections import OrderedDict

In [36]:
def exact_match(kmersV, stree):
    """
    Cherche dans le suffix tree tous les motifs possibles
    entrée1 kmersV: Liste de Kmers à chercher
    entrée2 stree: suffix tree
    sortie1 motif_occur_sorted: dictionnaire qui contient les motifs (clés) et leurs nombre d'occurrences (values).
    """
    motif_occur = {}
    
    for kmer in kmersV :
        motif_occur[kmer] = len(stree.find_all(kmer))
    
    return dict(sorted(motif_occur.items(), key=lambda x: x[1], reverse = True))

st = construct_tree(adn)
motif_occur = exact_match(kmersValid, st)

print("Le motif implanté :",fix_motif)
print("Les 10 meilleurs motifs trouvés :")
for i, (clef, valeur) in enumerate(motif_occur.items()):
    print("   ",clef,valeur)
    if i == 10 :
        break

Le motif implanté : CCCGACTT
Les 10 meilleurs motifs trouvés :
    CCCGACTT 5
    CCCCGACT 3
    ACCCGACT 2
    AGGTAGGT 2
    CCGACTTG 2
    AAACCATT 1
    AAACCCCG 1
    AAATGGGC 1
    AAATTCGA 1
    AACCATCA 1
    AACCATTG 1


5\. Avez-vous réussi à trouver votre motif initial implanté en séquences? l'algorithme était-il rapide? Faites attention aux valeurs élevées des variable k, t, et n par rapport aux TMEs précédants. Quelle est la complexité de chaque recherche de motif? 

<font color = blue>
    Oui, nous avons réussi à retrouver notre motif initial. Il arrive en première position des motifs les plus fréquent avec un score de 5. La compléxité pour construire le suffix Tree dans les modules fournis par python est linéaire soit 𝑂(|genome|). Soit k la taille des motifs recherchés et n le nombre de k-mer que l'on recherche. On effectue n tour de boucle avec à chaque fois au plus 4 comparaisons par noeud (pour les 4 nucléotides). Nous parcourons au maximum k noeuds pour la taille du motif. La complexité de la recherche est dont en 𝑂(n * 4 * |motif|) soit 𝑂(nk). C'est une compléxité linéaire par rapport à la taille des motifs et par rapport au nombre de motifs recherché. Pour chaque recherche de motif, la compléxité est en 𝑂(|motif|) Cet algorithme est rapide.
</font>

6\. Introduisez deux variation (v=2) au motif initial. Pour cela avant chaque implantation, créer d'abord un motif varié (avec v substitutions choisies aléatoirement) à partir du motif initial et puis implantez-le dans une séquence. Repetez pour chaque séquence dans le jeu de données. Il suffit de mettre ``v`` égal ``2`` et réutiliser les fonctions définies à la question 1.

In [37]:
v=2
adnOri, adn,  fix_motif = implantMotif(adnOri, fix_motif, k, v, t, n)

print("Les t =", t,"séquence originale de longueur n-k =", n-k)
for i,seq in enumerate(adnOri): 
    print(seq)

print("\nLes t =", t,"séquence longueur n =", n, "implantées avec le motif", fix_motif ,"de longueur k =", k, "présentant", v, "variations.")
for i,seq in enumerate(adn): 
    print(seq)
    
adn  = [s.upper() for s in adn]

Les t = 5 séquence originale de longueur n-k = 92
CGTGAAATGTGTCGGAAACCGGCCCAGACCGTATCGTGTGGGAAAGAGGAGAACAGAGATTGTCGATTGTTGTGCGAACAGGCCATCTAGTT
TATTGCCTTCGTTAAGTGATCCTGCAGCATCAAGAATTAAACAGTAGCTGTCCCGGGTCATCAGCCGCGGACTGAGGGTTTAGATAACCCCT
TTGAACTCCATTCTTTGGTGCGAGGGCTATCCGTCATGAGTGTGATTGGTATGATAATGAACCTAGGCAGTTCGTGATGGACAGTCCCCTAC
CGGTACATCAGGTCGAGGGCGCAGATCTCGGCAAGAGACACCATAATTTTCGCATTCATATGACGACTCACGCGCTCGGCTGGTAGCCTTGG
TTACTCGTCCAACTCGATCCCCTTCAGTATACTGTCATGAAAGTTTCCCGCGGTACCTCACCATCGACCAACTACGCCACGCCCGTCGATCG

Les t = 5 séquence longueur n = 100 implantées avec le motif ATGACTTA de longueur k = 8 présentant 2 variations.
CGTGAAATGTGTCGGAAACCGGCCCAGACCGTATCGTGTGGGAAAGAGGAGAACAGAGATTGTCGATTGTTGTGCGAACAGGCCATCTAatgacttaGTT
TATTGCCTTCGTTAAGTGATCCTGCAGCATatgaAttCCAAGAATTAAACAGTAGCTGTCCCGGGTCATCAGCCGCGGACTGAGGGTTTAGATAACCCCT
TTGAACTCCATTCTTTGGTGCGAGGGCTATCCGTCATGAGTGTGATTGGTATGATAATGAACCTAGGCAGTTCGTGATGGAatAaTttaCAGTCCCCTAC
CGGTACATCAGGTCGAGGGCGCAGATCTCGGCAAGAGACACCATAATTTTCGCATTCGtgaAttaATA

7\. Construisez le suffix tree à nouveau à partir des nouvelles séquences en utilisant le python package suffix-trees.

In [38]:
st = construct_tree(adn)

8\. **Inexact matching:** 

Définissez fonction ``inexact_match`` qui cherche tous les motifs possibles (k-mers) générés à la question 2 dans le nouveau suffix tree donné (construit à partir des nouvelles séquences qui incluent le motif qui varie), et renvoie un dictionnaire qui contient les motifs (keys) et les listes de toutes leurs variations (values). Il faut que vous utilisiez la technique *seed* pour trouver le motif variable. 

Ensuite afficher les top motifs (les sequence consensus) de meilleurs scores.
Pour calculer les scores utiliser les fonctions précédentes. Par exemple, le score d'une matrice de fréquence est la somme de max de chaque colonne.

In [39]:
def hamdist(str1, str2):
    """
    Calcul la distance de hamming entre deux chaînes de caractères
    entrée str1: chaîne de caractères
    entrée str2: chaîne de caractères
    sortie distance: distance de hamming
    """
    distance = 0
    
    for i in range(len(str1)) :
        if (str1[i].upper() != str2[i].upper()) :
            distance += 1

    return distance

In [40]:
#Renvoie un dictionnaire au lieu d'une liste de motif

def inexact_match_V2(kmersV, sequences, stree, v):
    """
    cherche de motif variables dans un suffix tree
    entrée1 kmersV: liste de motifs à chercher
    entrée2 sequences: matrice de dimension txn avec les sequences
    entrée3 stree: suffix Tree
    entrée4 v: nombre de variations dans le motifs
    sortie1 motif_match: dictionnaire clé=sequence consensus des motifs; value= dictionnaire avec le motif en clef et le nombre de d'occurence de chaque motif en value.
    """
    seqConcat = "".join(sequences)
    nbSeed = v + 1
    k = len(kmersV[0])
    lenSeed = k//nbSeed
    motif_match = {}
    
    
    for i, kmer in enumerate(kmersV) : 
        
        listeIndices = []
        allCandidates = {}
    
        for i in range(v): #i numero de la "seed", du sous-mot
            
            seed = kmer[i*lenSeed:i*lenSeed + lenSeed] #Sous-mot
            
            candidateIndex = stree.find_all(seed) #Toutes les occcurences du sous mots
            
            for index in candidateIndex : #On parcourt les occurences du sous mots
                
                #On extrait le mot candidat en fonction du numero de la "seed"
                
                candidateText = seqConcat[index-i*lenSeed : index+k-i*lenSeed]
                
                #Le mot candidat doit être de la bonne taille et avoir le bon nombre de variation
                if (len(candidateText) == k and hamdist(kmer,candidateText)<=v) :
                    
                    if index-i*lenSeed not in listeIndices :
                        
                        #On met à jour la liste d'indice pour ne pas avoir de repetition
                        listeIndices.append(index-i*lenSeed)
                        
                        #Le même mot a déjà été trouvé autre part
                        if candidateText in allCandidates : 
                            allCandidates[candidateText] += 1
                        else : 
                            allCandidates[candidateText] = 1
                            
        motif_match[kmer] = allCandidates

   
    return motif_match

#Test
seqTest = "banananabanbnaabanbna"
st = construct_tree([seqTest])
k=6
motif_match = inexact_match_V2(['banbna'], [seqTest], st, 1)
print(motif_match)

{'banbna': {'banana': 1, 'banbna': 2}}


In [41]:
def inexact_match(kmersV, sequences, stree, v):
    """
    cherche de motif variables dans un suffix tree
    entrée1 kmersV: liste de motifs à chercher
    entrée2 sequences: matrice de dimension txn avec les sequences
    entrée3 stree: suffix Tree
    entrée4 v: nombre de variations dans le motifs
    sortie1 motif_match: dictionnaire clé=sequence consensus des motifs; value= list de motifs.
    """
    seqConcat = "".join(sequences)
    nbSeed = v + 1
    k = len(kmersV[0])
    lenSeed = k//nbSeed
    motif_match = {}
    
    
    for i, kmer in enumerate(kmersV) : 
        if i%500 == 0 :
            print(i)
        listeIndices = []
        allCandidates = []
        
        
        for i in range(nbSeed): #i numero de la "seed", du sous-mot
            seed = kmer[i*lenSeed:i*lenSeed + lenSeed] #Sous-mot
            candidateIndex = stree.find_all(seed) #Toutes les occcurences du sous mots
            
            for index in candidateIndex : #On parcourt les occurences du sous mots
                
                #On extrait le mot candidat en fonction du numero de la "seed"
                
                candidateText = seqConcat[index-i*lenSeed : index+k-i*lenSeed]
                
                #Le mot candidat doit être de la bonne taille et avoir le bon nombre de variation
                if (len(candidateText) == k and hamdist(kmer,candidateText)<=v) :
                
                    if index-i*lenSeed not in listeIndices :
                        
                        #On met à jour la liste d'indice pour ne pas avoir de repetition
                        listeIndices.append(index-i*lenSeed)
                        
                        #Le même mot a déjà été trouvé autre part
                        allCandidates.append(candidateText)
                  
        motif_match[kmer] = allCandidates

   
    return motif_match


#Test
seqTest = "banananabanbnaabanbna"
st = construct_tree([seqTest])
k=6
motif_match = inexact_match(['banbna'], [seqTest], st, 1)
print(motif_match)
#{'banbna': ['banana', 'banbna', 'banbna']}

0
{'banbna': ['banana', 'banbna', 'banbna']}


In [42]:
#Construire matrice de fréquence
def profile(motifs, k, nuc):
    """
    Construire une matrice de fréquence
    entrée motifs: liste de motifs
    entrée k: taille du motif
    entrée nuc: alphabet
    sortie matriceFreq: le matrice de fréquence
    """
    q = len(nuc) #Hauteur de la matrice
    #Matruce de hauteur q (une ligne pour chaque nucléotide) et de longueur k (une colonne pour chaque position du motif)
    matriceFreq = np.zeros((q, k))
    
    #On parcourt tous les motifs
    for motif in motifs:
        
        #On parcourt tous les nucléotides du motif
        for i,n in enumerate(motif):
            for j in range(q) : #On test quel nucléotide à la position i
                if (n == nuc[j].upper() or n == nuc[j].lower()) :
                    matriceFreq[j][i] += 1 #On incrémente le compteur de nucléotide pour la position i
                    break
                    
    return matriceFreq

def getScore(MF, k):
    """
    Renvoie le score de MF, la somme des max de chaque colonne
    entrée P: matrice de fréquence
    entrée k: taille du motif
    sortie sc: score
    """
    return np.sum(np.max(MF, axis = 0))

In [43]:
def printTopMotifsScore(motif_match, top):
    """
    Affiche les Top Motifs ayant les meilleurs scores 
    entrée motif_match : dictionnaire clé = sequence consensus des motifs et value = list de motifs
    entrée top: la valeur à consider pour l'affichage
    sortie None
    """
    dico = {clef:len(valeur) for (clef, valeur) in motif_match.items()}
    liste = sorted(dico.items(), key=lambda x: x[1], reverse = True)[:top*2]
    
    dicoScore = {}
    for i, (seqCons, occ) in enumerate(liste):
        #Calcul du score de la matrice de fréquence
        MF = profile(motif_match[seqCons], len(seqCons), nuc)
        score = getScore(MF, len(seqCons))
        dicoScore[(seqCons, occ)] = score
        
    
    #Affichage
    listeScore = sorted(dicoScore.items(), key=lambda x: x[1], reverse = True)
    for i,((seqCons, occ), score) in enumerate(listeScore) :
        print(seqCons, "avec",occ,"occurences et un score de", score)
        if i == top :
            break
    return

In [44]:
st = construct_tree(adn)
motif_match = inexact_match(kmersValid, adn, st, v)
top = 30
print("Motif implanté :", fix_motif)
printTopMotifsScore(motif_match, top)

0
500
1000
1500
2000
2500
3000
3500
4000


KeyboardInterrupt: 

In [20]:
print("Motif implanté :", fix_motif)
printTopMotifsScore(motif_match, 10)

Motif implanté : AGTTTTTA
ATGAAACG avec 12 occurences et un score de 73.0
CGCTTTTA avec 12 occurences et un score de 73.0
CTTATAAA avec 11 occurences et un score de 68.0
TTATAAAG avec 11 occurences et un score de 68.0
CGCATATA avec 11 occurences et un score de 67.0
AAGCTACG avec 11 occurences et un score de 66.0
AATGAAAC avec 10 occurences et un score de 62.0
ATATAGAG avec 10 occurences et un score de 62.0
TATAAAGC avec 10 occurences et un score de 62.0
ACTATGTA avec 10 occurences et un score de 61.0
CGAAACTA avec 10 occurences et un score de 61.0


In [21]:
motif_match["AGGCAAAC"]#La meilleure séquence consensus trouvé pour ces séquences aléatoires

['AGGCAAAG', 'AGGCAACG']

9\. Créez le motif logo à partir des séquences du meilleur motif variable que vous venez de trouver. Vous pouvez utilizer ce site: https://weblogo.berkeley.edu/logo.cgi. Affichez votre logo ci-dessous.

Motif LOGO:
<img src="logo_1.png">

10\. Avez-vous réussi à trouver votre motif initial implanté en séquences? l'algorithme était-il rapide? Quelle est la complexité de l'algorithme?


    - Le motif sans variations implanté est retrouvé dans la liste des motifs de la 8e séquence consensus. Cependant on retrouve beaucoup de positions en commun avec notre motif dans les autres séquences consensus trouvées. 

    - La complexité de la construction de l'arbre est toujours en 𝑂(|genome|). 

    - Soit un motif de taille k avec v variations. On obtiendra v+1 seed de longueur k/(v+1). On fait un tour de boucle pour rechercher chaque seed, soit v+1 tour de boucle.  
    - Pour chaque tour de boucle, on cherche alors toutes les occurences de la seed dans notre génome. On parcourt au maxiumum autant de noeud que le longueur de sous mot (soit k/v+1) avec au pire 4 comparaisons par noeud (pour chacun de nucléotides). Cela nous donne une complexité de 𝑂(4 * k/(v+1)) pour la recherche de chaque seed dans l'arbre. On parcourt ensuite tous les motifs correspondant trouvés pour tester leur longueur et leur correspondance avec notre motif initial.  Le nombre d’occurence de notre seed est au maximum de |genome|/nombre de seed soit |genome| / (v + 1). On a donc une complexité de 𝑂( 4 * k/(v+1) * |genome| / (v + 1) ) pour une seed. Soit 𝑂((k * |genome|) / (v + 1)). 
    - Sachant qu'on a v+1 seed pour un motif, donc v + 1 tours de boucle. On arrive à un compléxité de 𝑂(k * |genome|) avec k la longueur de motif pour le recherche d'un motif avec v variations. Cependant le compléxité moyenne est inférieur car il est rare que le seed que l'on recherche se répéte tous le long du génome à l'indentique.
    - Enfin on, si on recherche n motifs, on arrive à une compléxité de 𝑂( n * k * genome ). C'est une relation linéaire entre le nombre de motif à chercher, la taille du génome et la longueur de motifs.


11\. Tester l'algorithme  suffix tree sur vos données de chipSeq. N'oubliez pas de chercher les motifs dans le brin complémentaire et faire un merge de résultats. Puis générér le LOGO du motif trouvé.

In [45]:
def readFasta(genome):
    sequence = []
    file = open(genome, "r")
    sequences = []
    seq = ""
    for s in file:
        if s[0] != ">":
            seq += s.strip().upper()
        else:
            sequences.append(seq)
            seq = ""
    return sequences[1:]

In [46]:
def reversecompl(seq):
    """Renvoie le brin complémentaire d’une séquence.
    entrée : sequence de nucléotides (brin sens)
    sortie : sequence de nucléotides (brin complementaire)
    >>> reversecompl('AACGTGGCA')
    'TGCCACGTT'
    """
    compl = {'A': 'T', 'C': 'G', 'G': 'C', 'T':'A', 'a': 't', 'c': 'g', 'g': 'c', 't':'a'}
    nvSeq = ""
    for i in range(len(seq)-1,-1,-1) :
        nvSeq = nvSeq + compl[seq[i]]
    
    return nvSeq

In [47]:
genome = "../Sequence_by_Peaks_1.fasta"
sequences = readFasta(genome)
sequencesCompl = [reversecompl(seq) for seq in sequences]
st_fasta = construct_tree(sequences + sequencesCompl)

In [48]:
# Test de l'agorithme suffix tree avec exact-match
motif_exact_match_fasta = exact_match(kmersValid, st_fasta)

In [49]:
print("Les 10 meilleurs motifs trouvés :")
for i, (clef, valeur) in enumerate(motif_exact_match_fasta.items()):
    print("   ",clef,valeur)
    if i == 10 :
        break

Les 10 meilleurs motifs trouvés :
    CAGCAAAA 29
    TTTTGCTG 29
    ATTTTTGC 16
    GCAAAAAT 16
    CAGCAATA 15
    TATTGCTG 15
    AGCAATAA 13
    ATTATTGC 13
    GCAATAAT 13
    TTATTGCT 13
    AATGATAA 12


<font color = blue>
    Le meilleur motif exact trouvé est CAGCAAAA (et sont reverse complément TTTTGCTG), il correspond exactement à la séquence consensus qui fixe le facteur de transcription Amt1. Avec deux fois moins d'occurence, il est suivit de la séquence GCAAAAAT (et son reverse complément ATTTTTGC) qui correspond à notre séquence décallé de deux nucléotides. En troisième position, on retrouve la séquence CAGCAATA (et son reverse complément TATTGCTG) qui correspond à la séquence consensus CAGCAAAA avec une variation au nucléotides n°7. Les séquences (et leur reverse complément) en qui suivent correspondent aux même motif avec une variation mais décaller de 1 ou deux nucléotides.
</font>

In [53]:
# Test de l'algorithme suffix tree avec inexact-match
# Nous trouvons des variations de 1 nucléotide dans les résultats précédent.
# Nous testons donc notre algorithme inexact-match avec 1 variation
motif_inexact_match_fasta = inexact_match(kmersValid, sequences + sequencesCompl, st_fasta, 1)

0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
6000
6500
7000
7500
8000
8500
9000
9500
10000
10500
11000
11500
12000
12500
13000
13500
14000
14500
15000
15500
16000
16500
17000
17500
18000
18500
19000
19500
20000
20500
21000
21500
22000
22500
23000
23500
24000
24500
25000
25500
26000
26500
27000
27500
28000
28500
29000
29500
30000
30500
31000
31500
32000
32500
33000
33500
34000
34500
35000
35500
36000
36500
37000
37500
38000
38500
39000
39500
40000
40500
41000
41500
42000
42500
43000
43500
44000
44500
45000
45500
46000
46500
47000
47500
48000
48500
49000
49500
50000
50500
51000
51500
52000
52500
53000
53500
54000
54500
55000
55500
56000
56500
57000
57500
58000
58500
59000
59500
60000
60500
61000
61500


In [54]:
top = 20
print("Les", top,"meilleures séquences consensus")
printTopMotifsScore(motif_inexact_match_fasta, top)

Les 20 meilleures séquences consensus
AATGATAA avec 117 occurences et un score de 831.0
ATTTCATT avec 117 occurences et un score de 828.0
TTATCATT avec 116 occurences et un score de 824.0
AATGAAAT avec 116 occurences et un score de 821.0
ATTTTTGC avec 115 occurences et un score de 821.0
CAATTTTT avec 115 occurences et un score de 811.0
AAAAATTG avec 114 occurences et un score de 804.0
GCAAAAAT avec 112 occurences et un score de 800.0
AATTTTTG avec 111 occurences et un score de 784.0
CAGCAAAA avec 107 occurences et un score de 778.0
TTTTGCTG avec 107 occurences et un score de 778.0
AGCAATAA avec 109 occurences et un score de 776.0
CAAAAATT avec 109 occurences et un score de 770.0
TTATTGCT avec 108 occurences et un score de 769.0
ATTTTGCT avec 108 occurences et un score de 768.0
AGCAAAAT avec 107 occurences et un score de 761.0
ATATTTTG avec 108 occurences et un score de 760.0
TAATGATA avec 107 occurences et un score de 758.0
CAAAATAT avec 107 occurences et un score de 753.0
TATCATTA ave

<font color = blue>
    La séquence consensus trouvé en 10ème position (soit 5ème position lorsqu'on groupe les séquences avec leur complémentaire) correspond à notre motif avec 107 occurences et un scrore de 778 pour une variation de 1 nucléotide. On retrouve également notre motif en 8e position décallé de 2 nucléotides (GCAAAAAT).
</font>

In [56]:
liste = motif_inexact_match_fasta["CAGCAAAA"]
dicoMotifOcc = {}

for mot in liste :
    if mot in dicoMotifOcc :
        dicoMotifOcc[mot] += 1
    else :
        dicoMotifOcc[mot] = 1

print(dicoMotifOcc)

{'CAGCACAA': 7, 'CAGCAAAA': 29, 'CAGCCAAA': 4, 'CAGCAATA': 15, 'CAGCAAAC': 2, 'CAGCATAA': 3, 'CAGCTAAA': 9, 'CAGCAACA': 2, 'CAGCAGAA': 1, 'CAGCGAAA': 1, 'GAGCAAAA': 2, 'CACCAAAA': 5, 'TAGCAAAA': 3, 'CAGAAAAA': 2, 'AAGCAAAA': 6, 'CAACAAAA': 7, 'CGGCAAAA': 1, 'CATCAAAA': 3, 'CAGTAAAA': 1, 'CTGCAAAA': 2, 'CCGCAAAA': 1, 'CAGGAAAA': 1}


Motif LOGO:
<img src="logo_2.png">

<font color = blue>
    On remarque sur le logo que les positions 2, 4 et 8 sont les plus conservé avec respectivement les nucléotides A, C et A.  
    Les positions les moins conservés sont les position 3, 5 et 7 avec respectivement plutôt un A à la place du G et deux T à la place des A.
</font>