# TME 7 : Projet Detection de motifs


## Recheche de pattern (motifs) en utilisant les suffix trees

Nous allons utiliser l'algorithme suffix-tree pour la recherche rapide et efficace de motifs. Un suffix-tree est construit √† partir d'un jeu de s√©quences, ensuite nous pouvons rechercher le motif en temps O(k) o√π k est la longueur du motif.

#### Binome 1 : K Murali Sharane

#### Binome 2 : Legendre--Despas Jeanne

1\. Nous allons r√©utiliser les fonctions du TME6 pour g√©n√©rer ``t`` s√©quences artificielles de taille ``n``, et implanter dans chaque s√©quence un motif de taille ``k`` √† des positions al√©atoires avec ``v`` substitutions choisies al√©atoirement. Cependant, les ``t`` s√©quences artificielles initiales (sans implantation) ainsi que le motif initial (sans variation/mutation) doivent √™tre g√©n√©r√©s une seule fois. Ensuite, selon chaque question, nous introduisons des diff√©rentes variations au motif initial et les implantons dans les s√©quences afin de g√©n√©rer des nouveau jeux de donn√©es. 

In [28]:
import random
import numpy as np

nuc = ('A', 'C', 'G', 'T')

k=8   # taille de motif
v=0   # nb de positions variables dans le motif
t=5   # nb de sequences
n=100 # longueur des sequence


1.1\. Generer les s√©quences artificielles initiales et implanter un motif (sans variation, v=0)

In [29]:
def generateRandomSequence(n, upper=True):
    """
    G√©n√®re une s√©quence nucl√©otidique al√©atoire 
    entr√©e n : longueur de la sequence
    entr√©e upper : bool, si True les nucl√©otides seront en majuscule, False minuscule
    sortie sequence : une s√©quence nucl√©otidique al√©atoire 
    """
    sequence = ""
    
    for i in range(n):
        if (upper) : 
            sequence += random.choice(nuc).upper()
        else : 
            sequence += random.choice(nuc).lower()
    
    return sequence

def modifierMotif(motif, nbpos,  upper=True):
    """
    Modifie nbpos positions d'un motif al√©atoirement 
    entr√©e motif: motif √† modifier
    entr√©e nbpos: nombre de positions
    entr√©e upper : bool, si True les nucl√©otides modifi√©s seront majuscule, False minuscule
    sortie motifM: motif modifi√©
    """
    motifM = list(motif)
    positions = []
    
    for i in range(nbpos) : 
        pos = random.choice(range(len(motif)))
        while (pos in positions) :
            pos = random.choice(range(len(motif)))
        positions.append(pos)
    
    
    for pos in positions :
        
        nvNuc = random.choice(nuc)
        while (nvNuc.upper() == motifM[pos].upper()) :
            nvNuc = random.choice(nuc)
        
        if (upper) :
            motifM[pos] = nvNuc.upper()
        else : 
            motifM[pos] = nvNuc.lower()
        
    
    return "".join(motifM)



def implantMotif(sequences, motif, k, v, t, n):
    """
    G√©n√®re des s√©quences al√©atoires et implante des motifs (un motif par s√©quence)
    entr√©e k: taille du motif
    entr√©e v: nombre de variations (si v==0 implante un motif sans variations)
    entr√©e t : nombre de s√©quences 
    entr√©e n : longueur des s√©quences
    sortie DNAOrig : matrice de dimension t x n-k avec les sequences al√©atoires
    sortie DNAMot: matrice de dimension t x n avec les sequences al√©atoires et les motifs implant√©s
    sortie motifFix: motif sans variations
    REMARQUE : La taille totale des s√©quences plus motif doit √™tre √©gal √† n, pensez √† g√©n√©rer de s√©quence al√©atoire de taille n-k pour pouvoir implanter un motif de taille k
    Cette fonction permet de soit g√©n√©rer les s√©quences et le motif, soit juste implanter de motif (avec ou sans variations) √† des s√©quences et motif existantes (pass√© en param√®tre)
    """
    #G√©n√©ration des s√©quences al√©atoires (matrice)
    DNAOrig = [generateRandomSequence(n-k) for i in range(t)]
    DNAMotif = []
    
    #G√©n√©ration des differents motifs avec une variation √† chaque motif
    motifFix = generateRandomSequence(k, False)
    motifsModif = [modifierMotif(motifFix,v) for i in range(t-1)] #Liste des motifs qui varient
    
    #Implantation des motifs √† des position al√©atoire
    for i,seq in enumerate(DNAOrig):
        
        #On choisi une position au hasard
        pos = random.choice(range( len(seq) + 1 ))
        if (i==0):
            DNAMotif.append(seq[:pos] + motifFix + seq[pos:])
        else : 
             DNAMotif.append(seq[:pos] + motifsModif[i-1] + seq[pos:])

    return DNAOrig, DNAMotif, motifFix.upper()


adnOri, adn, fix_motif = implantMotif(None, '', k, 0, t, n) #g√©n√©rer les s√©quences et le motif sans variation

print("Les t =", t,"s√©quence originale de longueur n-k =", n-k)
for i,seq in enumerate(adnOri): 
    print(seq)
    
print("\nLes t =", t,"s√©quence longueur n =", n, "implant√©es avec le motif", fix_motif ,"de longueur k =", k)
for i,seq in enumerate(adn): 
    print(seq)

adn  = [s.upper() for s in adn]
#print (adn)

Les t = 5 s√©quence originale de longueur n-k = 92
GTCGGTCTGGGCTTTACTAGGTAGGTGATTGTAAATGGGCGTACACACCGTGCGGTAGTTGAGACCGAGCGACAATAGTTCACATCGAGTAG
CGCGTCAGGATTAATAATACAAGGTCTTGAAACCATTGAGAACGATCGCTACACTAGGACTCGTTCGTGCCGGATGTCTCGGTCTAGAGTTG
GTCTCTGAGAAATTCGAGCATGCCCCCTTCGGTAGACCTTGTAGACGACGTTAATGCGGCTGCATTTACGAACCCGGACCCGAATTTTGGAA
TAGCCACCTGCGGATTTCTGAAACAAATATCACTGGCTCTTCCGATTCACACTCCTGGGGGGCTAGGGAGGTAGGTCTTTTCGATTAGCACC
GGTGACGATTATCTTTAGCAGTCAACGGCTCCTTCTTTGATCGCGGTCTAACCATCAAACCACGTGGCCCGCTCCATGTTGAGCTAGTGGCC

Les t = 5 s√©quence longueur n = 100 implant√©es avec le motif CCCGACTT de longueur k = 8
GTCGGTCTGGGCTTTACTAGGTAGGTGATTGTAAATGGGCGTACACACCGTGCGGTAGTTGAGACCGAcccgacttGCGACAATAGTTCACATCGAGTAG
CGCGTCAGGATTAATAATACAAGGTCTTGAAACCATTGAGAACGATCGCcccgacttTACACTAGGACTCGTTCGTGCCGGATGTCTCGGTCTAGAGTTG
GTCTCTGAGAAATTCGAGCATGCCCCCTTCcccgacttGGTAGACCTTGTAGACGACGTTAATGCGGCTGCATTTACGAACCCGGACCCGAATTTTGGAA
TAGCCACCTGCGGATTTCTGAAACAAcccgacttATATCACTGGCTCTTCCGATTCACACTCCTGGGGGGCTAGGGAGGTAGGTCTTTTC

2\. D√©finissez une fonction ``construct_tree`` pour construire un suffix tree √† partir des s√©quences artificielles (apr√®s implantation) en utilisant le python package suffix-trees trouvable ici: https://pypi.org/project/suffix-trees/. Tester si votre fonction est capable de trouver le motif sans variation implant√©.

In [30]:
!pip3 install suffix_trees

[33mDEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621[0m
[33mDEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621[0m


In [31]:
from suffix_trees import STree

st = STree.STree("abcdefghab")
print("Position de abc dans abcdefghab :")
print(st.find("abc")) # 0
print("\nPosition de ab dans abcdefghab :")
print(st.find_all("ab")) # [0, 8]

def construct_tree(sequences):
    """
    construire un abre de suffixe
    entr√©e1 sequences : matrice de dimension txn avec les sequences
    sortie1 st : arbre de suffixe
    REMARQUE: Vous devez concatener toutes les sequences de la matrice avant d'appeller la fonction STree
    """
    seqConcat = "".join(sequences)
    return STree.STree(seqConcat)

print("\nLes s√©quences implant√©es : ")
for seq in adn :
    print(seq)

tree = construct_tree(adn)

print("\nLes positions du motif", fix_motif, "implant√© dans les s√©quences")
print(tree.find_all(fix_motif))


Position de abc dans abcdefghab :
0

Position de ab dans abcdefghab :
{0, 8}

Les s√©quences implant√©es : 
GTCGGTCTGGGCTTTACTAGGTAGGTGATTGTAAATGGGCGTACACACCGTGCGGTAGTTGAGACCGACCCGACTTGCGACAATAGTTCACATCGAGTAG
CGCGTCAGGATTAATAATACAAGGTCTTGAAACCATTGAGAACGATCGCCCCGACTTTACACTAGGACTCGTTCGTGCCGGATGTCTCGGTCTAGAGTTG
GTCTCTGAGAAATTCGAGCATGCCCCCTTCCCCGACTTGGTAGACCTTGTAGACGACGTTAATGCGGCTGCATTTACGAACCCGGACCCGAATTTTGGAA
TAGCCACCTGCGGATTTCTGAAACAACCCGACTTATATCACTGGCTCTTCCGATTCACACTCCTGGGGGGCTAGGGAGGTAGGTCTTTTCGATTAGCACC
GGTGACGATTATCTTTAGCAGTCAACGGCTCCTTCTTTGATCGCGGTCTAACCATCAAACCCCGACTTCACGTGGCCCGCTCCATGTTGAGCTAGTGGCC

Les positions du motif CCCGACTT implant√© dans les s√©quences
{68, 326, 230, 460, 149}


<font color = blue>
    Nous retrouvons bien les positions des motifs (sans variations) implant√©s dans nos s√©quences
</font>

3\. Avant de chercher les motifs, impl√©mentez ou r√©utilisez les fonctions pour g√©n√©rer tous les motifs (k-mer) possibles de taille k, en √©liminant les motifs peu complexe pour √©viter les calculs inutiles.

In [32]:
import re

In [33]:
#Fonction modifi√©e du TME pr√©c√©dent pour √™tre utilis√©e avec des listes.
def removeLowComplexe(motifs, reLow = 5):
    """
    Eleve les motifs peu complexe 
    entr√©e motifs: list de motifs
    sortie validMotif: liste de motifs filtr√©
    """
    validMotif = []
    
    for motif in motifs : 
        
        k = str(len(motif))
        reLow_fois_m√™me_lettre = '([ACTG]*A){'+ str(reLow) +'}|([ACTG]*C){'+ str(reLow) +'}|([ACTG]*T){'+ str(reLow) +'}|([ACTG]*G){'+ str(reLow) +'}|'
        deux_lettres_repetee = '([ACTG]*AC){3}|([ATCG]*AT){3}|([ATCG]*AG){3}|([ATCG]*TA){3}|([ATCG]*TG){3}|([ATCG]*TC){3}|([ATCG]*CG){3}|([ATCG]*CA){3}|([ATCG]*CT){3}|([ATCG]*GA){3}|([ATCG]*GT){3}|([ATCG]*GC){3}|'
        uniquement_deux_lettres = '[AC]{'+k+'}|[AT]{'+k+'}|[AG]{'+k+'}|[TG]{'+k+'}|[TC]{'+k+'}|[GC]{'+k+'}'
        
        p = re.compile(reLow_fois_m√™me_lettre + deux_lettres_repetee + uniquement_deux_lettres)
        m = p.match(motif.upper())
        if not m:
            validMotif.append(motif);
            
    return validMotif

In [34]:
from itertools import product

#Genere tous les K-mers de taille K ayant de AAA... √† TTT...
allkmers = product(nuc, repeat=k)
kmers = ["".join(k) for k in list(allkmers)] #Liste de tous les motifs de taille k possibles
print("Nombre de motifs de taille",k,":",len(kmers))

#Enlever les motifs peu complexe
#Tous les motifs avec trois fois deux lettres r√©p√©t√©es, avec reLow fois la m√™me lettre et avec uniquement deux lettres
kmersValid = removeLowComplexe(kmers, 6)
print("Nombre de motifs de taille",k,"'complexes' :",len(kmersValid))

Nombre de motifs de taille 8 : 65536
Nombre de motifs de taille 8 'complexes' : 61944


4\. **Exact matching:** D√©finissez la fonction ``exact_match`` qui cherche dans le suffix tree tous les motifs possibles (k-mers), g√©n√©r√©s √† la question precedent. La fonction renvoie un dictionnaire qui contient les motifs (cl√©s) et leurs nombre d'occurrence (valeurs). Ce dictionnaire doit √™tre tri√© par nombre d'occurrences. 

Ensuite, trouvez et affichez les 10 motifs plus fr√©quents dans notre jeu de donn√©es artificiels.

In [35]:
from collections import OrderedDict

In [36]:
def exact_match(kmersV, stree):
    """
    Cherche dans le suffix tree tous les motifs possibles
    entr√©e1 kmersV: Liste de Kmers √† chercher
    entr√©e2 stree: suffix tree
    sortie1 motif_occur_sorted: dictionnaire qui contient les motifs (cl√©s) et leurs nombre d'occurrences (values).
    """
    motif_occur = {}
    
    for kmer in kmersV :
        motif_occur[kmer] = len(stree.find_all(kmer))
    
    return dict(sorted(motif_occur.items(), key=lambda x: x[1], reverse = True))

st = construct_tree(adn)
motif_occur = exact_match(kmersValid, st)

print("Le motif implant√© :",fix_motif)
print("Les 10 meilleurs motifs trouv√©s :")
for i, (clef, valeur) in enumerate(motif_occur.items()):
    print("   ",clef,valeur)
    if i == 10 :
        break

Le motif implant√© : CCCGACTT
Les 10 meilleurs motifs trouv√©s :
    CCCGACTT 5
    CCCCGACT 3
    ACCCGACT 2
    AGGTAGGT 2
    CCGACTTG 2
    AAACCATT 1
    AAACCCCG 1
    AAATGGGC 1
    AAATTCGA 1
    AACCATCA 1
    AACCATTG 1


5\. Avez-vous r√©ussi √† trouver votre motif initial implant√© en s√©quences? l'algorithme √©tait-il rapide? Faites attention aux valeurs √©lev√©es des variable k, t, et n par rapport aux TMEs pr√©c√©dants. Quelle est la complexit√© de chaque recherche de motif? 

<font color = blue>
    Oui, nous avons r√©ussi √† retrouver notre motif initial. Il arrive en premi√®re position des motifs les plus fr√©quent avec un score de 5. La compl√©xit√© pour construire le suffix Tree dans les modules fournis par python est lin√©aire soit ùëÇ(|genome|). Soit k la taille des motifs recherch√©s et n le nombre de k-mer que l'on recherche. On effectue n tour de boucle avec √† chaque fois au plus 4 comparaisons par noeud (pour les 4 nucl√©otides). Nous parcourons au maximum k noeuds pour la taille du motif. La complexit√© de la recherche est dont en ùëÇ(n * 4 * |motif|) soit ùëÇ(nk). C'est une compl√©xit√© lin√©aire par rapport √† la taille des motifs et par rapport au nombre de motifs recherch√©. Pour chaque recherche de motif, la compl√©xit√© est en ùëÇ(|motif|) Cet algorithme est rapide.
</font>

6\. Introduisez deux variation (v=2) au motif initial. Pour cela avant chaque implantation, cr√©er d'abord un motif vari√© (avec v substitutions choisies al√©atoirement) √† partir du motif initial et puis implantez-le dans une s√©quence. Repetez pour chaque s√©quence dans le jeu de donn√©es. Il suffit de mettre ``v`` √©gal ``2`` et r√©utiliser les fonctions d√©finies √† la question 1.

In [37]:
v=2
adnOri, adn,  fix_motif = implantMotif(adnOri, fix_motif, k, v, t, n)

print("Les t =", t,"s√©quence originale de longueur n-k =", n-k)
for i,seq in enumerate(adnOri): 
    print(seq)

print("\nLes t =", t,"s√©quence longueur n =", n, "implant√©es avec le motif", fix_motif ,"de longueur k =", k, "pr√©sentant", v, "variations.")
for i,seq in enumerate(adn): 
    print(seq)
    
adn  = [s.upper() for s in adn]

Les t = 5 s√©quence originale de longueur n-k = 92
CGTGAAATGTGTCGGAAACCGGCCCAGACCGTATCGTGTGGGAAAGAGGAGAACAGAGATTGTCGATTGTTGTGCGAACAGGCCATCTAGTT
TATTGCCTTCGTTAAGTGATCCTGCAGCATCAAGAATTAAACAGTAGCTGTCCCGGGTCATCAGCCGCGGACTGAGGGTTTAGATAACCCCT
TTGAACTCCATTCTTTGGTGCGAGGGCTATCCGTCATGAGTGTGATTGGTATGATAATGAACCTAGGCAGTTCGTGATGGACAGTCCCCTAC
CGGTACATCAGGTCGAGGGCGCAGATCTCGGCAAGAGACACCATAATTTTCGCATTCATATGACGACTCACGCGCTCGGCTGGTAGCCTTGG
TTACTCGTCCAACTCGATCCCCTTCAGTATACTGTCATGAAAGTTTCCCGCGGTACCTCACCATCGACCAACTACGCCACGCCCGTCGATCG

Les t = 5 s√©quence longueur n = 100 implant√©es avec le motif ATGACTTA de longueur k = 8 pr√©sentant 2 variations.
CGTGAAATGTGTCGGAAACCGGCCCAGACCGTATCGTGTGGGAAAGAGGAGAACAGAGATTGTCGATTGTTGTGCGAACAGGCCATCTAatgacttaGTT
TATTGCCTTCGTTAAGTGATCCTGCAGCATatgaAttCCAAGAATTAAACAGTAGCTGTCCCGGGTCATCAGCCGCGGACTGAGGGTTTAGATAACCCCT
TTGAACTCCATTCTTTGGTGCGAGGGCTATCCGTCATGAGTGTGATTGGTATGATAATGAACCTAGGCAGTTCGTGATGGAatAaTttaCAGTCCCCTAC
CGGTACATCAGGTCGAGGGCGCAGATCTCGGCAAGAGACACCATAATTTTCGCATTCGtgaAtt

7\. Construisez le suffix tree √† nouveau √† partir des nouvelles s√©quences en utilisant le python package suffix-trees.

In [38]:
st = construct_tree(adn)

8\. **Inexact matching:** 

D√©finissez fonction ``inexact_match`` qui cherche tous les motifs possibles (k-mers) g√©n√©r√©s √† la question 2 dans le nouveau suffix tree donn√© (construit √† partir des nouvelles s√©quences qui incluent le motif qui varie), et renvoie un dictionnaire qui contient les motifs (keys) et les listes de toutes leurs variations (values). Il faut que vous utilisiez la technique *seed* pour trouver le motif variable. 

Ensuite afficher les top motifs (les sequence consensus) de meilleurs scores.
Pour calculer les scores utiliser les fonctions pr√©c√©dentes. Par exemple, le score d'une matrice de fr√©quence est la somme de max de chaque colonne.

In [39]:
def hamdist(str1, str2):
    """
    Calcul la distance de hamming entre deux cha√Ænes de caract√®res
    entr√©e str1: cha√Æne de caract√®res
    entr√©e str2: cha√Æne de caract√®res
    sortie distance: distance de hamming
    """
    distance = 0
    
    for i in range(len(str1)) :
        if (str1[i].upper() != str2[i].upper()) :
            distance += 1

    return distance

In [40]:
#Renvoie un dictionnaire au lieu d'une liste de motif

def inexact_match_V2(kmersV, sequences, stree, v):
    """
    cherche de motif variables dans un suffix tree
    entr√©e1 kmersV: liste de motifs √† chercher
    entr√©e2 sequences: matrice de dimension txn avec les sequences
    entr√©e3 stree: suffix Tree
    entr√©e4 v: nombre de variations dans le motifs
    sortie1 motif_match: dictionnaire cl√©=sequence consensus des motifs; value= dictionnaire avec le motif en clef et le nombre de d'occurence de chaque motif en value.
    """
    seqConcat = "".join(sequences)
    nbSeed = v + 1
    k = len(kmersV[0])
    lenSeed = k//nbSeed
    motif_match = {}
    
    
    for i, kmer in enumerate(kmersV) : 
        
        listeIndices = []
        allCandidates = {}
    
        for i in range(v): #i numero de la "seed", du sous-mot
            
            seed = kmer[i*lenSeed:i*lenSeed + lenSeed] #Sous-mot
            
            candidateIndex = stree.find_all(seed) #Toutes les occcurences du sous mots
            
            for index in candidateIndex : #On parcourt les occurences du sous mots
                
                #On extrait le mot candidat en fonction du numero de la "seed"
                
                candidateText = seqConcat[index-i*lenSeed : index+k-i*lenSeed]
                
                #Le mot candidat doit √™tre de la bonne taille et avoir le bon nombre de variation
                if (len(candidateText) == k and hamdist(kmer,candidateText)<=v) :
                    
                    if index-i*lenSeed not in listeIndices :
                        
                        #On met √† jour la liste d'indice pour ne pas avoir de repetition
                        listeIndices.append(index-i*lenSeed)
                        
                        #Le m√™me mot a d√©j√† √©t√© trouv√© autre part
                        if candidateText in allCandidates : 
                            allCandidates[candidateText] += 1
                        else : 
                            allCandidates[candidateText] = 1
                            
        motif_match[kmer] = allCandidates

   
    return motif_match

#Test
seqTest = "banananabanbnaabanbna"
st = construct_tree([seqTest])
k=6
motif_match = inexact_match_V2(['banbna'], [seqTest], st, 1)
print(motif_match)

{'banbna': {'banana': 1, 'banbna': 2}}


In [41]:
def inexact_match(kmersV, sequences, stree, v):
    """
    cherche de motif variables dans un suffix tree
    entr√©e1 kmersV: liste de motifs √† chercher
    entr√©e2 sequences: matrice de dimension txn avec les sequences
    entr√©e3 stree: suffix Tree
    entr√©e4 v: nombre de variations dans le motifs
    sortie1 motif_match: dictionnaire cl√©=sequence consensus des motifs; value= list de motifs.
    """
    seqConcat = "".join(sequences)
    nbSeed = v + 1
    k = len(kmersV[0])
    lenSeed = k//nbSeed
    motif_match = {}
    
    
    for i, kmer in enumerate(kmersV) : 
        if i%500 == 0 :
            print(i)
        listeIndices = []
        allCandidates = []
        
        
        for i in range(nbSeed): #i numero de la "seed", du sous-mot
            seed = kmer[i*lenSeed:i*lenSeed + lenSeed] #Sous-mot
            candidateIndex = stree.find_all(seed) #Toutes les occcurences du sous mots
            
            for index in candidateIndex : #On parcourt les occurences du sous mots
                
                #On extrait le mot candidat en fonction du numero de la "seed"
                
                candidateText = seqConcat[index-i*lenSeed : index+k-i*lenSeed]
                
                #Le mot candidat doit √™tre de la bonne taille et avoir le bon nombre de variation
                if (len(candidateText) == k and hamdist(kmer,candidateText)<=v) :
                
                    if index-i*lenSeed not in listeIndices :
                        
                        #On met √† jour la liste d'indice pour ne pas avoir de repetition
                        listeIndices.append(index-i*lenSeed)
                        
                        #Le m√™me mot a d√©j√† √©t√© trouv√© autre part
                        allCandidates.append(candidateText)
                  
        motif_match[kmer] = allCandidates

   
    return motif_match


#Test
seqTest = "banananabanbnaabanbna"
st = construct_tree([seqTest])
k=6
motif_match = inexact_match(['banbna'], [seqTest], st, 1)
print(motif_match)
#{'banbna': ['banana', 'banbna', 'banbna']}

0
{'banbna': ['banana', 'banbna', 'banbna']}


In [42]:
#Construire matrice de fr√©quence
def profile(motifs, k, nuc):
    """
    Construire une matrice de fr√©quence
    entr√©e motifs: liste de motifs
    entr√©e k: taille du motif
    entr√©e nuc: alphabet
    sortie matriceFreq: le matrice de fr√©quence
    """
    q = len(nuc) #Hauteur de la matrice
    #Matruce de hauteur q (une ligne pour chaque nucl√©otide) et de longueur k (une colonne pour chaque position du motif)
    matriceFreq = np.zeros((q, k))
    
    #On parcourt tous les motifs
    for motif in motifs:
        
        #On parcourt tous les nucl√©otides du motif
        for i,n in enumerate(motif):
            for j in range(q) : #On test quel nucl√©otide √† la position i
                if (n == nuc[j].upper() or n == nuc[j].lower()) :
                    matriceFreq[j][i] += 1 #On incr√©mente le compteur de nucl√©otide pour la position i
                    break
                    
    return matriceFreq

def getScore(MF, k):
    """
    Renvoie le score de MF, la somme des max de chaque colonne
    entr√©e P: matrice de fr√©quence
    entr√©e k: taille du motif
    sortie sc: score
    """
    return np.sum(np.max(MF, axis = 0))

In [43]:
def printTopMotifsScore(motif_match, top):
    """
    Affiche les Top Motifs ayant les meilleurs scores 
    entr√©e motif_match : dictionnaire cl√© = sequence consensus des motifs et value = list de motifs
    entr√©e top: la valeur √† consider pour l'affichage
    sortie None
    """
    dico = {clef:len(valeur) for (clef, valeur) in motif_match.items()}
    liste = sorted(dico.items(), key=lambda x: x[1], reverse = True)[:top*2]
    
    dicoScore = {}
    for i, (seqCons, occ) in enumerate(liste):
        #Calcul du score de la matrice de fr√©quence
        MF = profile(motif_match[seqCons], len(seqCons), nuc)
        score = getScore(MF, len(seqCons))
        dicoScore[(seqCons, occ)] = score
        
    
    #Affichage
    listeScore = sorted(dicoScore.items(), key=lambda x: x[1], reverse = True)
    for i,((seqCons, occ), score) in enumerate(listeScore) :
        print(seqCons, "avec",occ,"occurences et un score de", score)
        if i == top :
            break
    return

In [44]:
st = construct_tree(adn)
motif_match = inexact_match(kmersValid, adn, st, v)
top = 30
print("Motif implant√© :", fix_motif)
printTopMotifsScore(motif_match, top)

0
500
1000
1500
2000
2500
3000
3500
4000


KeyboardInterrupt: 

In [20]:
print("Motif implant√© :", fix_motif)
printTopMotifsScore(motif_match, 10)

Motif implant√© : AGTTTTTA
ATGAAACG avec 12 occurences et un score de 73.0
CGCTTTTA avec 12 occurences et un score de 73.0
CTTATAAA avec 11 occurences et un score de 68.0
TTATAAAG avec 11 occurences et un score de 68.0
CGCATATA avec 11 occurences et un score de 67.0
AAGCTACG avec 11 occurences et un score de 66.0
AATGAAAC avec 10 occurences et un score de 62.0
ATATAGAG avec 10 occurences et un score de 62.0
TATAAAGC avec 10 occurences et un score de 62.0
ACTATGTA avec 10 occurences et un score de 61.0
CGAAACTA avec 10 occurences et un score de 61.0


In [21]:
motif_match["AGGCAAAC"]#La meilleure s√©quence consensus trouv√© pour ces s√©quences al√©atoires

['AGGCAAAG', 'AGGCAACG']

9\. Cr√©ez le motif logo √† partir des s√©quences du meilleur motif variable que vous venez de trouver. Vous pouvez utilizer ce site: https://weblogo.berkeley.edu/logo.cgi. Affichez votre logo ci-dessous.

Motif LOGO:
<img src="logo_1.png">

10\. Avez-vous r√©ussi √† trouver votre motif initial implant√© en s√©quences? l'algorithme √©tait-il rapide? Quelle est la complexit√© de l'algorithme?


    - Le motif sans variations implant√© est retrouv√© dans la liste des motifs de la 8e s√©quence consensus. Cependant on retrouve beaucoup de positions en commun avec notre motif dans les autres s√©quences consensus trouv√©es. 

    - La complexit√© de la construction de l'arbre est toujours en ùëÇ(|genome|). 

    - Soit un motif de taille k avec v variations. On obtiendra v+1 seed de longueur k/(v+1). On fait un tour de boucle pour rechercher chaque seed, soit v+1 tour de boucle.  
    - Pour chaque tour de boucle, on cherche alors toutes les occurences de la seed dans notre g√©nome. On parcourt au maxiumum autant de noeud que le longueur de sous mot (soit k/v+1) avec au pire 4 comparaisons par noeud (pour chacun de nucl√©otides). Cela nous donne une complexit√© de ùëÇ(4 * k/(v+1)) pour la recherche de chaque seed dans l'arbre. On parcourt ensuite tous les motifs correspondant trouv√©s pour tester leur longueur et leur correspondance avec notre motif initial.  Le nombre d‚Äôoccurence de notre seed est au maximum de |genome|/nombre de seed soit |genome| / (v + 1). On a donc une complexit√© de ùëÇ( 4 * k/(v+1) * |genome| / (v + 1) ) pour une seed. Soit ùëÇ((k * |genome|) / (v + 1)). 
    - Sachant qu'on a v+1 seed pour un motif, donc v + 1 tours de boucle. On arrive √† un compl√©xit√© de ùëÇ(k * |genome|) avec k la longueur de motif pour le recherche d'un motif avec v variations. Cependant le compl√©xit√© moyenne est inf√©rieur car il est rare que le seed que l'on recherche se r√©p√©te tous le long du g√©nome √† l'indentique.
    - Enfin on, si on recherche n motifs, on arrive √† une compl√©xit√© de ùëÇ( n * k * genome ). C'est une relation lin√©aire entre le nombre de motif √† chercher, la taille du g√©nome et la longueur de motifs.


11\. Tester l'algorithme¬† suffix tree sur vos donn√©es de chipSeq. N'oubliez pas de chercher les motifs dans le brin compl√©mentaire et faire un merge de r√©sultats. Puis g√©n√©r√©r le LOGO du motif trouv√©.

In [45]:
def readFasta(genome):
    sequence = []
    file = open(genome, "r")
    sequences = []
    seq = ""
    for s in file:
        if s[0] != ">":
            seq += s.strip().upper()
        else:
            sequences.append(seq)
            seq = ""
    return sequences[1:]

In [46]:
def reversecompl(seq):
    """Renvoie le brin compl√©mentaire d‚Äôune s√©quence.
    entr√©e : sequence de nucl√©otides (brin sens)
    sortie : sequence de nucl√©otides (brin complementaire)
    >>> reversecompl('AACGTGGCA')
    'TGCCACGTT'
    """
    compl = {'A': 'T', 'C': 'G', 'G': 'C', 'T':'A', 'a': 't', 'c': 'g', 'g': 'c', 't':'a'}
    nvSeq = ""
    for i in range(len(seq)-1,-1,-1) :
        nvSeq = nvSeq + compl[seq[i]]
    
    return nvSeq

In [47]:
genome = "../Sequence_by_Peaks_1.fasta"
sequences = readFasta(genome)
sequencesCompl = [reversecompl(seq) for seq in sequences]
st_fasta = construct_tree(sequences + sequencesCompl)

In [48]:
# Test de l'agorithme suffix tree avec exact-match
motif_exact_match_fasta = exact_match(kmersValid, st_fasta)

In [49]:
print("Les 10 meilleurs motifs trouv√©s :")
for i, (clef, valeur) in enumerate(motif_exact_match_fasta.items()):
    print("   ",clef,valeur)
    if i == 10 :
        break

Les 10 meilleurs motifs trouv√©s :
    CAGCAAAA 29
    TTTTGCTG 29
    ATTTTTGC 16
    GCAAAAAT 16
    CAGCAATA 15
    TATTGCTG 15
    AGCAATAA 13
    ATTATTGC 13
    GCAATAAT 13
    TTATTGCT 13
    AATGATAA 12


<font color = blue>
    Le meilleur motif exact trouv√© est CAGCAAAA (et sont reverse compl√©ment TTTTGCTG), il correspond exactement √† la s√©quence consensus qui fixe le facteur de transcription Amt1. Avec deux fois moins d'occurence, il est suivit de la s√©quence GCAAAAAT (et son reverse compl√©ment ATTTTTGC) qui correspond √† notre s√©quence d√©call√© de deux nucl√©otides. En troisi√®me position, on retrouve la s√©quence CAGCAATA (et son reverse compl√©ment TATTGCTG) qui correspond √† la s√©quence consensus CAGCAAAA avec une variation au nucl√©otides n¬∞7. Les s√©quences (et leur reverse compl√©ment) en qui suivent correspondent aux m√™me motif avec une variation mais d√©caller de 1 ou deux nucl√©otides.
</font>

In [53]:
# Test de l'algorithme suffix tree avec inexact-match
# Nous trouvons des variations de 1 nucl√©otide dans les r√©sultats pr√©c√©dent.
# Nous testons donc notre algorithme inexact-match avec 1 variation
motif_inexact_match_fasta = inexact_match(kmersValid, sequences + sequencesCompl, st_fasta, 1)

0
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
5500
6000
6500
7000
7500
8000
8500
9000
9500
10000
10500
11000
11500
12000
12500
13000
13500
14000
14500
15000
15500
16000
16500
17000
17500
18000
18500
19000
19500
20000
20500
21000
21500
22000
22500
23000
23500
24000
24500
25000
25500
26000
26500
27000
27500
28000
28500
29000
29500
30000
30500
31000
31500
32000
32500
33000
33500
34000
34500
35000
35500
36000
36500
37000
37500
38000
38500
39000
39500
40000
40500
41000
41500
42000
42500
43000
43500
44000
44500
45000
45500
46000
46500
47000
47500
48000
48500
49000
49500
50000
50500
51000
51500
52000
52500
53000
53500
54000
54500
55000
55500
56000
56500
57000
57500
58000
58500
59000
59500
60000
60500
61000
61500


In [54]:
top = 20
print("Les", top,"meilleures s√©quences consensus")
printTopMotifsScore(motif_inexact_match_fasta, top)

Les 20 meilleures s√©quences consensus
AATGATAA avec 117 occurences et un score de 831.0
ATTTCATT avec 117 occurences et un score de 828.0
TTATCATT avec 116 occurences et un score de 824.0
AATGAAAT avec 116 occurences et un score de 821.0
ATTTTTGC avec 115 occurences et un score de 821.0
CAATTTTT avec 115 occurences et un score de 811.0
AAAAATTG avec 114 occurences et un score de 804.0
GCAAAAAT avec 112 occurences et un score de 800.0
AATTTTTG avec 111 occurences et un score de 784.0
CAGCAAAA avec 107 occurences et un score de 778.0
TTTTGCTG avec 107 occurences et un score de 778.0
AGCAATAA avec 109 occurences et un score de 776.0
CAAAAATT avec 109 occurences et un score de 770.0
TTATTGCT avec 108 occurences et un score de 769.0
ATTTTGCT avec 108 occurences et un score de 768.0
AGCAAAAT avec 107 occurences et un score de 761.0
ATATTTTG avec 108 occurences et un score de 760.0
TAATGATA avec 107 occurences et un score de 758.0
CAAAATAT avec 107 occurences et un score de 753.0
TATCATTA av

<font color = blue>
    La s√©quence consensus trouv√© en 10√®me position (soit 5√®me position lorsqu'on groupe les s√©quences avec leur compl√©mentaire) correspond √† notre motif avec 107 occurences et un scrore de 778 pour une variation de 1 nucl√©otide. On retrouve √©galement notre motif en 8e position d√©call√© de 2 nucl√©otides (GCAAAAAT).
</font>

In [56]:
liste = motif_inexact_match_fasta["CAGCAAAA"]
dicoMotifOcc = {}

for mot in liste :
    if mot in dicoMotifOcc :
        dicoMotifOcc[mot] += 1
    else :
        dicoMotifOcc[mot] = 1

print(dicoMotifOcc)

{'CAGCACAA': 7, 'CAGCAAAA': 29, 'CAGCCAAA': 4, 'CAGCAATA': 15, 'CAGCAAAC': 2, 'CAGCATAA': 3, 'CAGCTAAA': 9, 'CAGCAACA': 2, 'CAGCAGAA': 1, 'CAGCGAAA': 1, 'GAGCAAAA': 2, 'CACCAAAA': 5, 'TAGCAAAA': 3, 'CAGAAAAA': 2, 'AAGCAAAA': 6, 'CAACAAAA': 7, 'CGGCAAAA': 1, 'CATCAAAA': 3, 'CAGTAAAA': 1, 'CTGCAAAA': 2, 'CCGCAAAA': 1, 'CAGGAAAA': 1}


Motif LOGO:
<img src="logo_2.png">

<font color = blue>
    On remarque sur le logo que les positions 2, 4 et 8 sont les plus conserv√© avec respectivement les nucl√©otides A, C et A.  
    Les positions les moins conserv√©s sont les position 3, 5 et 7 avec respectivement plut√¥t un A √† la place du G et deux T √† la place des A.
</font>