# TME 7 : Projet Detection de motifs


## Recheche de pattern (motifs) en utilisant les suffix trees

Nous allons utiliser l'algorithme suffix-tree pour la recherche rapide et éfficace de motifs. Un suffix-tree est construit à partir d'un jeux de séquences, ensuite nous pouvons rechercher le motif en temps O(k) où k est la longueur du motif.

1\. Nous allons réutiliser les fonctions du TME6 pour générer ``t`` séquences artificielles de taille ``n``, et implanter dans chaque séquence un motif de taille ``k`` à des positions aléatoires avec ``v`` substitutions choisies aléatoirement. Cependant, les ``t`` séquences artificielles initiales (sans implantation) ainsi que le motif initial (sans variation/mutation) doivent être générées une seule fois. Ensuite, selon chaque question, nous introduisons des différentes variation au motif initial et les implantons dans les séquences afin de générer des nouveau jeux de données. 

In [1]:
import random
import numpy as np

nuc = ('A', 'C', 'G', 'T')

k=8 #taille de motif
v=0 #nb de positions variables dans le motif
t=5 #nb de sequences
n=100 #longuer des sequence


1.1\. Generer les séquences artificielles initiales et implanter un motif (sans variation, v=0)

In [2]:
def generateRandomSequence(n, upper=True):
    """
    Génère une séquence nucléotidique aléatoire 
    entrée n : longueur de la sequence
    entrée upper : bool, si True les nucléotides seront en majuscule, False minuscule
    sortie sequence : une séquence nucléotidique aléatoire 
    """
    nucList = [nuc[random.randint(0,3)].upper() if upper else nuc[random.randint(0,3)].lower() for i in range(n)]
    sequence = "".join(nucList)
    return sequence

def modifierMotif(motif, nbpos,  upper=True):
    """
    Modifie nbpos positions d'un motif aléatoirement 
    entrée motif: motif à modifier
    entrée nbpos: nombre de positions
    entrée upper : bool, si True les nucléotides modifiés seront majuscule, False minuscule
    sortie motifM: motif modifié
    """
    motifM = motif
    posToModified = random.sample(range(len(motif)), nbpos)
    for pos in posToModified:
        newNuc = random.choice(nuc)
        while newNuc == motif[pos]:
            newNuc = random.choice(nuc)
        motifM = motifM[0:pos] + newNuc + motifM[pos+1:]
    return motifM


def implantMotif(sequences, motif, k, v, t, n):
    """
    Génère des séquences aléatoires et implante des motifs (un motif par séquence)
    entrée sequences: matrice de (n-k)*t initiale
    entrée motif: motif sans variation à implémenter
    entrée k: taille du motif
    entrée v: nombre de variations (si v==0 implante un motif sans variations)
    entrée t : nombre de séquences 
    entrée n : longueur des séquences
    sortie DNAOrig : matrice de dimension t x n-k avec les sequences aléatoires
    sortie DNAMot: matrice de dimension t x n avec les sequences aléatoires et les motifs implantés
    sortie motifFix: motif sans variations
    REMARQUE : La taille totale des séquences plus motif doit être égal à n, pensez à générer de séquence aléatoire de taille n-k pour pouvoir implanter un motif de taille k
    Cette fonction permet de soit générer les séquences et le motif, soit juste implanter de motif (avec ou sans variations) à des séquences et motif existantes (passé en paramètre)
    """
    # DNAOrig = []
    # DNAMot = []
    if(sequences):
        DNAOrig = sequences[:]
    else:
        DNAOrig = [generateRandomSequence(n-k) for i in range(t)]
    if(len(motif) == 0):
        motif = generateRandomSequence(k)
    modifiedMotifs = [modifierMotif(motif, v) for i in range(t)]
    posToInsert = [random.randint(0, n-k) for i in range(t)]
    DNAMot = [DNAOrig[i][:posToInsert[i]] + modifiedMotifs[i] + DNAOrig[i][posToInsert[i]:] for i in range(t)]
    # print(posToInsert)
    return DNAOrig, DNAMot, motif

fix_motif = 'GTGAATGA'
# # fix_motif = ''
# adnOri = ['GATTTCCTCGGTAGTCCTCTATTGAAGATACTGGCGGAGTTTCACGAACCAACCCCCTCAACGCTGCGTTTGCGGACACGAATACCGCCACA', 'CGGAAGGTTTAACAGCGACCAGAGGAAAGCTAGCTTAGCCTTCCCTTTCCCCGTTCGCGTCGCTCCAGTATTGAATCAGACTATGAGTTTGA', 'AGGTCTAACTTTAAGCAGATGGGGGAGTTCTGCGAGTGCTTTCCACGCCTCAATTGCTTCCATTTCAATTACAATAGACGACTTCGATCCCT', 'AAGCTGCAGCGCCGCATCATGTGTCATTCCGTTATTCTGGTGGAGGCATCCGCCGCATATAACGGTCGATGAGCCGCTTAACACTCGTTTAG', 'TTATCTAAAATTTTGCAAACAAGCCGTATGTATGAATGTCAAAACTACTCCAACCTAGCCTACCCTGAAGCCGTAAAGTCAATTTCACGCTG']
# # adnOri = None
# adnOri, adn, fix_motif = implantMotif(adnOri, fix_motif, k, 0, t, n) #générer les séquences et le motif sans variation
# print (adnOri)
# # print (adn)


# adn  = [s.upper() for s in adn]
# print (adn)
# print (fix_motif)

2\. Définissez une fonction ``construct_tree`` pour construire un suffix tree à partir des séquences artificielles (après implantation) en utilisant le python package suffix-trees trouvable ici: https://pypi.org/project/suffix-trees/. Tester si votre fonction est capable de trouver le motif sans variation implanté.

In [3]:
#!pip install suffix-trees

In [4]:
from suffix_trees import STree

# st = STree.STree("abcdefghab")
# print(st.find("abc")) # 0
# print(st.find_all("ab")) # [0, 8]

def construct_tree(sequences):
    """
    construire un abre de suffixe
    entrée1 sequences : matrice de dimension txn avec les sequences
    sortie1 st : arbre de suffixe
    REMARK: Vous devez concatener toutes les sequences de la matrice avant d'appeller la fonction STree
    """
    return STree.STree(sequences)

# tree = construct_tree(adn)
# print(tree.find_all(fix_motif))



3\. Avant de chercher les motifs, implémentez ou reutilisez les fonctions pour générer tous les motifs (k-mer) possibles de taille k, en éliminant les motifs peu complexe pour éviter les calculs inutiles.

In [5]:
                
from itertools import product

def kmerList(allKmers):
    return ["".join(nucTuple) for nucTuple in allKmers]

def isCountN(seq, repeatMax = 5):
    repeatDict = {nu: 0 for nu in nuc}
    for nu in seq:
        repeatDict[nu] += 1
        if repeatDict[nu] >= repeatMax:
            return True
    return False

def isRepeatN(seq, repeatMax = 4):
    repeats = {nu*repeatMax for nu in nuc}
    for rep in repeats:
        if seq.find(rep) != -1:
            return True
    return False

def checkRepeat2(seq, repeat2Max = 5):
    repeat2s = {(n1+n2)*(repeat2Max//2)+n1*(repeat2Max % 2) for n1 in nuc for n2 in nuc if n1!=n2}
    for repeat2 in repeat2s:
        if seq.find(repeat2) != -1:
            return True
    return False

def nucLessThanNb(seq, nb = 3):
    return len({nuc for nuc in seq}) < nb

def removeLowComplexe(kmers):
    return [kmer for kmer in kmers if not checkRepeat2(kmer, 4) and not isRepeatN(kmer) and not isCountN(kmer) and not nucLessThanNb(kmer)]

#Genere tous les K-mers de taille K ayant de AAA... à TTT...
allkmers = product(nuc, repeat=k)
kmers = kmerList(allkmers)

#Enlever les motifs peu complexe
print (len(kmers))
kmersValid = removeLowComplexe(kmers)
print (len(kmersValid))
# # print(kmersValid)

65536
45672


4\. **Exact matching:** Définissez la fonction ``exact_match`` qui cherche dans le suffix tree tous les motifs possibles (k-mers), générés à la question precedent. La fonction renvoie un dictionnaire qui contient les motifs (clés) et leurs nombre d'occurrence (valeurs). Ce dictionnaire doit être trié par nombre d'occurrences. 

Ensuite, trouvez et affichez les 10 motifs plus fréquents dans notre jeux de données artificiels.

In [6]:
def exact_match(kmersV: list, stree: STree):
    """
    Cherche dans le suffix tree tous les motifs possibles
    entrée1 kmersV: Liste de Kmers à chercher
    entrée2 stree: suffix tree
    sortie1 motif_occur_sorted: dictionnaire qui contient les motifs (clés) et leurs nombre d'occurrences (values).
    """
    return {kmer:len(stree.find_all(kmer)) for kmer in kmersV if len(stree.find_all(kmer)) > 0}

def sortDictMotifToList(motifDict : dict, reverse = True) -> list:
    return sorted(motifDict.items(), key=lambda item:item[1], reverse=reverse)

# st = construct_tree(adn)
# motif_occur = exact_match(kmersValid, st)
# print(len(motif_occur))

# sortedMotifsTrouves = sortDictMotifToList(motif_occur)[:10]
# print(sortedMotifsTrouves[:10])
# print(fix_motif == sortedMotifsTrouves[0][0])




5\. Avez-vous réussi à trouver votre motif initial implanté en séquences? l'algorithme était-il rapide? Faites attention aux valeurs élevées des variable k, t, et n par rapport aux TMEs précedants. Quelle est la complexité de chaque recherche de motif? 

# reponse:
Oui, nous avons trouvé le motif initial implanté. L'algorithme est rapide, qui fait moins de 1 seconde.<br/>
La complexité : dans chaque recherche de motif, on fait appel à la méthode `find_all`. Dans le pire des cas, chaque caractère constitue une arête, et au total il y a k arête où k est la taille du motif. Donc la complexité est de `O(k)` pour chaque recherche de motif.


6\. Introduisez deux variation (v=2) au motif initial. Pour cela avant de chaque implantation, créez d'abord un motif varié (avec v substitutions choisies aléatoirement) à partir du motif initial et puis implantez-le dans une séquence. Repetez pour chaque sequence dans le Jeux de donnée. Il suffit de mettre ``v`` égal ``2`` et réutiliser les fonctions définies à la question 1.

In [7]:
# v=2
# adnOri, adn,  fix_motif = implantMotif(adnOri, fix_motif, k, v, t, n)
# adn  = [s.upper() for s in adn]
# print('Fixed motif: ', fix_motif)


7\. Construisez le suffix tree à nouveau à partir des nouvelles séquences en utilisant le python package suffix-trees.

In [8]:
# st = construct_tree(adn)

In [9]:
def readFasta(genome):
    sequence = []
    file = open(genome, "r")
    sequences = []
    seq = ""
    for s in file:
        if s[0] != ">":
            seq += s.strip().upper()
        else:
            sequences.append(seq)
            seq = ""
    return sequences[1:]
genome = "Sequence_by_Peaks_2.fasta"
sequences = readFasta(genome)
# print(sequences)


In [10]:
dictMotif = exact_match(kmersValid, construct_tree(sequences))      

In [11]:
sortDictMotifToList(dictMotif, reverse = True)

[('CTGATTGG', 12),
 ('CTCATTGG', 10),
 ('TCATTGGT', 10),
 ('TCTGATTG', 10),
 ('TGATTGGT', 9),
 ('TTCTAGAA', 9),
 ('AAGCTTCT', 8),
 ('ATTGGTCC', 8),
 ('CATTGGTC', 8),
 ('CTTCTTCA', 8),
 ('TGACCAAT', 8),
 ('TGTACTGT', 8),
 ('ATTGGCTG', 7),
 ('ATTGGTTC', 7),
 ('CCAATCAA', 7),
 ('CCAATCAT', 7),
 ('TGATTGGC', 7),
 ('TTCATTGG', 7),
 ('TTCCCACT', 7),
 ('TTTCTGAA', 7),
 ('AACTTCGA', 6),
 ('ACAGCTAT', 6),
 ('ACCAATCA', 6),
 ('ACCAATGA', 6),
 ('AGAAGCTT', 6),
 ('AGCTTCTA', 6),
 ('AGTTGTAC', 6),
 ('ATCACCGA', 6),
 ('CAACCAAT', 6),
 ('CAGAAGCA', 6),
 ('CATCCGAT', 6),
 ('CTTATTGG', 6),
 ('CTTCTAGA', 6),
 ('GAAGTGAA', 6),
 ('GCGATGAG', 6),
 ('TCATTGGC', 6),
 ('TCCAATCA', 6),
 ('TCCTCGAG', 6),
 ('TGAACAGA', 6),
 ('TTGGTCCA', 6),
 ('AAAGTGGG', 5),
 ('AATTGTAG', 5),
 ('ACCATACA', 5),
 ('ACTACTGA', 5),
 ('AGAAACCC', 5),
 ('AGAAATTT', 5),
 ('AGAAGCTA', 5),
 ('AGCCAATA', 5),
 ('AGCTCATC', 5),
 ('AGGAAAGT', 5),
 ('AGTGGTTC', 5),
 ('ATACGTAA', 5),
 ('ATCCCATC', 5),
 ('ATCCGATA', 5),
 ('CACCTTCT', 5),
 ('CAG

8\. **Inexact matching:** 

Définissez fonction ``inexact_match`` qui cherche tous les motifs possibles (k-mers) générés à la question 2 dans le nouveau suffix tree donné (construit à partir des nouvelle séquences qui incluent le motif varié), et renvoie un dictionnaire qui contient les motifs (keys) et les listes de toutes leurs variations (values). Il faut que vous utilisiez la technique *seed* pour trouver le motif variable. 

Ensuite afficher les top motifs (les sequence consensus) de meilleurs scores.
Pour calculer les scores utilisér les fonctions precedents. par exemple, le score d'une matrice de fréquence est la somme de max de chaque colonne.



In [12]:
def hamdist(str1, str2):
    """
    Calcul la distance de hamming entre deux chaînes de caractères
    entrée str1: chaîne de caractères
    entrée str2: chaîne de caractères
    sortie distance: distance de hamming
    """
    assert(len(str1) == len(str2))
    return sum([1 if str1[i]!=str2[i] else 0 for i in range(len(str1))])

def inexact_match(kmersV, sequences, stree, v, autoConstructTree = True):
    """
    cherche de motif variables dans un suffix tree
    entrée1 kmersV: liste de motifs à chercher
    entrée2 sequences: matrice de dimension txn avec les sequences
    entrée3 stree: suffix Tree
    entrée4 v: nombre de variations dans le motifs
    sortie1 motif_match: dictionnaire clé=sequence consensus des motifs; value= list de motifs.
    """
    motif_match = {}
    if(stree == None or autoConstructTree):
        stree = construct_tree(sequences)
    text = " ".join(sequences)
    repeat2 = set()
    for motif in kmersV:
        # print(motif)
        nbSeed = v+1
        k = len(motif)
        lenSeed = k//nbSeed
        allCandidates = list()
        startIndexSet = set()
        for i in range(nbSeed):
            seed = motif[i*lenSeed: i*lenSeed+lenSeed]
            # indexCandidates = sorted(stree.find_all(seed))
            indexCandidates = stree.find_all(seed)
            for index in indexCandidates:
                startIndex = index-i*lenSeed
                if index-i*lenSeed in startIndexSet:
                    continue
                textCandidate = text[startIndex: startIndex+k]
                if " " in textCandidate:
                    continue
                # if isRepeatN(textCandidate) or textCandidate in repeat2:
                #     continue
                # if checkRepeat2(textCandidate):
                #     repeat2.add(textCandidate)
                #     continue
                try:
                    if len(textCandidate) == k and hamdist(motif, textCandidate) <= v:
                        allCandidates.append((textCandidate, index))
                        startIndexSet.add(startIndex)
                except :
                    continue
        if len(allCandidates) > 0:
            motif_match[motif] = allCandidates
    return motif_match


# #Test
# seqTest = "banananabanbnaabanbna"
# st = construct_tree([seqTest])
# k=6
# motif_match = inexact_match(['banbna'], [seqTest], st, 1)
# #{'banbna': ['banana', 'banbna', 'banbna']}
# print(motif_match)




In [13]:
top = 10
# motif_match = inexact_match(kmersValid, adn, st, v)
# print(motif_match)



In [18]:
def printTopMotifsScore(motif_match, top=50):
    """
    Affiche les Top Motifs ayant les meiux scores 
    entrée motif_match: dictionnaire clé=sequence consensus des motifs; value= list de motifs
    entrée top: la valeur à consider pour l'affichage
    sortie None
    """
    print(sortDictMotifToList({motif:len(indexes) for (motif, indexes) in motif_match.items()}, reverse=True)[:top])

def printTopMotifsScore2(motif_match, top=50):
    """
    Affiche les Top Motifs ayant les meiux scores 
    entrée motif_match: dictionnaire clé=sequence consensus des motifs; value= list de motifs
    entrée top: la valeur à consider pour l'affichage
    sortie None
    """
    l = sortDictMotifToList({motif:len(indexes) for (motif, indexes) in motif_match.items()}, reverse=True)[:top]
    for i in range(top):
        print(l[i][0])
# printTopMotifsScore(motif_match, top)
# print(fix_motif, len(motif_match[fix_motif]))


9\. Créez le motif logo à partir des séquences du meilleur motif variable que vouz venez de trouver. Vous pouvez utilizer ce site: https://weblogo.berkeley.edu/logo.cgi. Affichez votre logo ci-dessous.

Motif LOGO:
<img src="./logo_1.png"><br/>

10\. Avez-vous réussi à trouver votre motif initial implanté en séquences? l'algorithme était-il rapide? Quelle est la complexité de l'algorithme?

# Réponse:
Cela dépend de la chance. Même si le motif est toujours dans le dictionnaire, il n'a toujours pas la plus grande fréquence. Or, on observe qu'il peut y avoir des motifs aléatoires, qui ont une fréquence plus grande.<br/>
L'algorithme est assez rapide (sur notre ordinateur cela fait environ 15 secondes).<br/>
<br/>
### Complexité :
trouver les textes candidats : O(k)<br/>
nombre de motifs : O(4^k)
au total : `O(k*4^k)`


11\. Tester l'algorithme  suffix tree sur vos données de chipSeq. N'oubliez pas de chercher les motifs dans le brin complémentaire et faire un merge de résultats. Puis générér le LOGO du motif trouvé.

In [15]:
def readFasta(genome):
    sequence = []
    file = open(genome, "r")
    sequences = []
    seq = ""
    for s in file:
        if s[0] != ">":
            seq += s.strip().upper()
        else:
            sequences.append(seq)
            seq = ""
    return sequences[1:]
genome = "Sequence_by_Peaks_2.fasta"
sequences = readFasta(genome)
# print(sequences)
# construire le reverse complémentaire
def reversecompl(seq):
    """Renvoie le brin complémentaire d’une séquence.
    entrée : sequence de nucléotides (brin sens)
    sortie : sequence de nucléotides (brin complementaire)
    >>> reversecompl('AACGTGGCA')
    'TGCCACGTT'
    """
    compl = {'A': 'T', 'C': 'G', 'G': 'C', 'T':'A','a': 't', 'c': 'g', 'g': 'c', 't':'a'}
    
    l = list(seq)
    for i in range(len(seq)) : 
        l[i] = compl[seq[i]]
    l.reverse()
    return ''.join(l)

revSeq = [reversecompl(seq) for seq in sequences]

In [16]:
# print(len(kmersValid), len(sequences))
motif_match_fasta = inexact_match(kmersValid, revSeq, None, v, autoConstructTree=True)

In [21]:
printTopMotifsScore2(motif_match_fasta, 20)
printTopMotifsScore(motif_match_fasta, 20)

CCAATCAG
ACCAATGA
CAATCAGA
CCAATGAG
ACCAATCA
TTCTAGAA
ACAGTACA
AGAAGCTT
ATTGGTCA
GACCAATG
GGACCAAT
TGAAGAAG
AGTGGGAA
ATGATTGG
CAGCCAAT
CCAATGAA
GAACCAAT
GCCAATCA
TTCAGAAA
TTGATTGG
[('CCAATCAG', 12), ('ACCAATGA', 10), ('CAATCAGA', 10), ('CCAATGAG', 10), ('ACCAATCA', 9), ('TTCTAGAA', 9), ('ACAGTACA', 8), ('AGAAGCTT', 8), ('ATTGGTCA', 8), ('GACCAATG', 8), ('GGACCAAT', 8), ('TGAAGAAG', 8), ('AGTGGGAA', 7), ('ATGATTGG', 7), ('CAGCCAAT', 7), ('CCAATGAA', 7), ('GAACCAAT', 7), ('GCCAATCA', 7), ('TTCAGAAA', 7), ('TTGATTGG', 7)]


Motif LOGO:
<img src="logo_2.png">

## remarque:
Même si on implante un motif pour chaque séquence, il est possible que ce motif n'ait pas la plus grande fréquence et que le logo de motif ne représente pas la motif implanté.

In [42]:
fix_motif = 'GTGAATGA'
testDnaOrig, testDnaMot, fix_motif = implantMotif(sequences, fix_motif, len(fix_motif), 2, len(sequences), len(sequences[0]))
testKmerValide = removeLowComplexe(kmerList(product(nuc, repeat=len(fix_motif))))
testIM = inexact_match(testKmerValide, testDnaMot, None, 2, True)
printTopMotifsScore(testIM)
