# TME 8 : Mini-projet Detection de motifs


## Localisation de pattern (motifs) dans le genome

Nous allons implémenter plusieurs algorithmes afin de localiser un motif d'intérêt dans un génome.

### A -  Boyer Moore Algorithm 
1\. Nous allons réutiliser les fonctions des TME précédents pour générer une séquence artificielle de taille ``n``, et implanter un motif de taille ``k`` dans une position aléatoire de la séquence. Vous pouvez aussi faire varier ``v`` positions pour permettre certaines mutations.

In [1]:
import random
import numpy as np

nuc = ('A', 'C', 'G', 'T')

n = 100 #longueur des sequence
k = 8 #longueur du motif
t = 5 #nombre de séquences
v = 2 #nombre de variations

In [2]:
def generateRandomSequence(n, upper=True):
    """
    Génère une séquence nucléotidique aléatoire 
    entrée n : longueur de la sequence
    entrée upper : bool, si True les nucléotides seront en majuscule, False minuscule
    sortie sequence : une séquence nucléotidique aléatoire 
    """
    sequence = ""
    
    for i in range(n):
        if (upper) : 
            sequence += random.choice(nuc).upper()
        else : 
            sequence += random.choice(nuc).lower()
    
    return sequence

def modifierMotif(motif, nbpos,  upper=True):
    """
    Modifie nbpos positions d'un motif aléatoirement 
    entrée motif: motif à modifier
    entrée nbpos: nombre de positions
    entrée upper : bool, si True les nucléotides modifiés seront majuscule, False minuscule
    sortie motifM: motif modifié
    """
    #Cas erreur : bpos trop important par rapport à la taille du motif
    if (nbpos > len(motif)) : 
        return;
    
    motifM = list(motif)
    
    #On génère une liste de positions différentes aléatoirement
    positions = []
    for i in range(nbpos) : 
        pos = random.choice(range(len(motif)))
        while (pos in positions) :
            pos = random.choice(range(len(motif)))
        positions.append(pos)
    
    #On modifie les positions
    for pos in positions :
        nvNuc = random.choice(nuc)
        while (nvNuc.upper() == motifM[pos].upper()) :
            nvNuc = random.choice(nuc)
        
        if (upper) :
            motifM[pos] = nvNuc.upper()
        else : 
            motifM[pos] = nvNuc.lower()
        
    
    return "".join(motifM)


def implantMotif(sequences, motif, k, v, t, n):
    """
    Génère des séquences aléatoires et implante des motifs (un motif par séquence)
    entrée k: taille du motif
    entrée v: nombre de variations (si v==0 implante un motif sans variations)
    entrée t : nombre de séquences 
    entrée n : longueur des séquences
    sortie DNAOrig : matrice de dimension t x n-k avec les sequences aléatoires
    sortie DNAMot: matrice de dimension t x n avec les sequences aléatoires et les motifs implantés
    sortie motifFix: motif sans variations
    REMARQUE : La taille totale des séquences plus motif doit être égal à n, pensez à générer de séquence aléatoire de taille n-k pour pouvoir implanter un motif de taille k
    Cette fonction permet de soit générer les séquences et le motif, soit juste implanter de motif (avec ou sans variations) à des séquences et motif existantes (passé en paramètre)
    """

    #Génération des t séquences aléatoires de taille n-k
    DNAOrig = [generateRandomSequence(n-k) for i in range(t)]
    DNAMot = []
    
    #Génération des differents motifs avec une variation à chaque motif
    if (len(motif) == 0):
        motif = generateRandomSequence(k, False) #Le premier motif est le motif original
    motifsModif = [modifierMotif(motif,v) for i in range(t-1)] #Liste des t-1 motifs avec v variations
    
    #Implantation des motifs à des positions aléatoires
    for i,seq in enumerate(DNAOrig):
        
        #On choisi une position au hasard
        pos = random.choice(range( len(seq) + 1 ))
        if (i==0):
            DNAMot.append(seq[:pos] + motif + seq[pos:])
        else : 
            DNAMot.append(seq[:pos] + motifsModif[i-1] + seq[pos:])


    return DNAOrig, DNAMot, motif


adnOri, adn, fix_motif = implantMotif(None, '', k, 0, t, n) #générer les séquences et le motif sans variation

print("Les",t,"séquence(s) de longueur n-k =",n-k,"non implantées\n")
for i,seq in enumerate(adnOri) :
    print("Séquence",i+1,":",seq)
print (adnOri)

print("\nLes",t,"séquence(s) de longueur n =",n,"implantée(s) avec avec un motif de longueur",k,"comportant",v,"variation(s) :\n")
for i,seq in enumerate(adn) :
    print("Séquence",i+1,":",seq)

adn  = [s.upper() for s in adn]
fix_motif = fix_motif.upper()
print("\nLes",t,"séquence(s) de longueur n =",n,"implantée(s) avec avec un motif de longueur",k,"comportant",v,"variation(s) :\n")
for i,seq in enumerate(adn) :
    print("Séquence",i+1,":",seq)
    
print("\nLe motif fix implanté : ")
print (fix_motif)

Les 5 séquence(s) de longueur n-k = 92 non implantées

Séquence 1 : CGCCCTAATAAAATAAGCAGTGCGAAACGTTCCATACAGGGGCGTATTGCTAATCTGTGTCTTTAGCCGCGCGACCCGTCAGGCCTCCCACG
Séquence 2 : ACCATAAGGGCAAGGCTTACTTATACAGAGGGGGCTGGGGTTGAAGTAGCGGGTTAATGTAGTCCCCGTCGAAGATTTTACGCGATGTGTTC
Séquence 3 : GAACGCAAGTGACGCCTTGTGCGATCACACAATCCGCTCACGGCATAACAAATATCGGTAGTGTTATGCTCATCTTGTGATCTCGTTGACGT
Séquence 4 : GTCCCAGGTATCGTCAAGACGCTCATACCCGTAGGAAGTCTGCACAATAACGCGTGGGGCAGCCAAGGCGTGCGGACGATTATACCCGGAAG
Séquence 5 : AAAGGTAGGTGAACCGTTAGCAGTAACTCGGGGGGTCGTAAGCCGGGATGGTGTGGCTAACTCGCGGCTCGACCTTTACTTGGCCCCTTAGC
['CGCCCTAATAAAATAAGCAGTGCGAAACGTTCCATACAGGGGCGTATTGCTAATCTGTGTCTTTAGCCGCGCGACCCGTCAGGCCTCCCACG', 'ACCATAAGGGCAAGGCTTACTTATACAGAGGGGGCTGGGGTTGAAGTAGCGGGTTAATGTAGTCCCCGTCGAAGATTTTACGCGATGTGTTC', 'GAACGCAAGTGACGCCTTGTGCGATCACACAATCCGCTCACGGCATAACAAATATCGGTAGTGTTATGCTCATCTTGTGATCTCGTTGACGT', 'GTCCCAGGTATCGTCAAGACGCTCATACCCGTAGGAAGTCTGCACAATAACGCGTGGGGCAGCCAAGGCGTGCGGACGATTATACCCGGAAG', 'AAAGGTAGGTGAACCGTTAGCAGTAACTC

2\. Boyer Moore est une combinaison de deux approches : bad character et good Suffix. Nous allons commencer par la première approche. Définissez une fonction ``badCharacter`` pour construire la badTable d'un motif. Vous pouvez l'implémenter comme dictionnaire, voir un exemple dans les slides de cours.


In [3]:
def badCharacter(motif):
    '''
    Construire la badTable d'un motif
    entrée motif : le motif à chercher
    sortie badMatchTable: un dictionnaire ou la clé est un nucléotide du motif et la valeur le nombre de positions à décaler pour avoir un match
    '''
  
    badMatchTable = {}
    
    for i,nuc in enumerate(motif) : #On parcourt toutes les lettres du motifs
        
        if (i==len(motif)-1 and nuc not in badMatchTable) : #Si le dernier nucléotide n'est pas déja dans le motif
            badMatchTable[nuc] = len(motif)
        else :
            badMatchTable[nuc] = max(1,len(motif)-i-1) #Calcule avec la dernière occurence du nucléotide, 1 pour le dernier nucléotide si une autre occurence

    return badMatchTable

print("La bad match table du motif TATGTG :", badCharacter("TATGTG")) #{'T': 1, 'A': 4, 'G': 1}
print("La bad match table du motif GTTGTTAA :", badCharacter("GTTGTTAA")) #{'G': 4, 'T': 2, 'A': 1}

La bad match table du motif TATGTG : {'T': 1, 'A': 4, 'G': 1}
La bad match table du motif GTTGTTAA : {'G': 4, 'T': 2, 'A': 1}


3\. Développer la version de l'algorithme Boyer Moore qui utilise "bad character" la règle de caractère incorrect.

In [4]:
import sys
def BoyerMooreBC(genome, motif):
    '''
    Implémente l'algorithme Boyer Moore en utilisant uniquement la regle de bad Character
    entrée genome : chaine de caractères representant le genome
    entrée motif : le motif à chercher
    sortie postition : position du motif dans le texte (-1) si il n'est pas trouvé  
    '''
    position = -1
    pos = 0
    
    
    #cpt de comparaisons
    cpt = 0
    
    #Création de la bad match table
    bmt = badCharacter(motif)
    
    #On parcourt le génome
    while pos < len(genome) - len(motif):
        cpt += 1
        
        #On compte le nombre de match
        match = 0
        for k in range(len(motif)-1, -1, -1) :
            
            if motif[k] == genome[pos+k] :
                match += 1
            else :
                break
        
        #Cas 1 : On a trouvé le motif
        if match == len(motif) :
            position = pos
            break
            
        #Cas 2 : On a pas trouvé le motif
        else :
             #On cherche le dernier nucléotide qui diffère dans la Bad Match Table
            if genome[pos + len(motif) - 1 - match] in bmt :
                pos += max(bmt[genome[pos + len(motif) - 1 - match]] - match, 1)

            else :
                pos += max(len(motif) - match, 1)
   
    return position, cpt
            
BoyerMooreBC("ABCABCAB", "CA") #2
       

(2, 2)

4\. Testez la version de l'exercice 3 sur les données artificielles généré dans 1, combien de comparaison inutile avez-vous évité avec cette version? 

In [5]:
adn_concat = "".join(adn)
pos, cpt = BoyerMooreBC(adn_concat, fix_motif)

print("Le motif", fix_motif, "a été trouvé à la position", pos, "avec", cpt, "comparaisons.")
print("Avec l'algorithme naïf, il aurait fallu comparer notre motif avec toutes les sous chaînes adn[k:k+len(motif)] pour k allant de 0 à",pos,"compris. Soit",pos+1, "comparaisons.")
print("Avec notre algorithme, nous avons évité", pos+1,"-",cpt,"=",pos+1-cpt,"comparaison inutiles.")


Le motif ATAACACT a été trouvé à la position 92 avec 28 comparaisons.
Avec l'algorithme naïf, il aurait fallu comparer notre motif avec toutes les sous chaînes adn[k:k+len(motif)] pour k allant de 0 à 92 compris. Soit 93 comparaisons.
Avec notre algorithme, nous avons évité 93 - 28 = 65 comparaison inutiles.


5\. Nous allons implémenter la règle de good suffixe. Pour cela, nous allons pré-processer le motif afin de trouver tous les suffixe de taille k que sont aussi de préfixe. Faire la fonction goodSuffix qui étant donnée un motif renvoie un dictionnaire ou les clés sont de suffixes et les valeurs sont la distance au préfixe le plus proche, voir un exemple ci-dessous.

In [6]:
def goodSuffix(motif):
    
    '''
    Construire la goodSuffix table d'un motif
    entrée motif : le motif à chercher
    sortie goodSuffixTable: un dictionnaire ou la clé est les suffixes d'un motif et la valeur le nombre de positions à décaler pour avoir un match
    '''

    goodSuffixTable = {}
    
    #On parcourt tous les suffix du motif en partant du plus court
    
    for k in range(len(motif)-1, 0, -1):
        #On recupère le suffix
        suffix = motif[k:]
        indexSuffix = k
        
        #On cherche le suffix du suffix qui a une occurence dans le reste du motif
        suffixtpr = suffix
        pos = motif[:k].rfind(suffixtpr)
        
        #On sort avec pos = -1 si aucun suffix du suffix n'est trouvé dans le reste du motif
        while (pos == -1) :
            
            suffixtpr = suffixtpr[1:]
            indexSuffix += 1
            
            #On cherche la dernière occurence du motif
            pos = motif[:k].rfind(suffixtpr)
        
        #Mettre à jour la table
        if (pos == -1) :
            goodSuffixTable[suffix] = len(motif)
        else :
            goodSuffixTable[suffix] = indexSuffix - pos
            
    return goodSuffixTable

gs = goodSuffix("ABABAB")
print (gs)

gs = goodSuffix("GTAGCGGCG")  #{'G': 2, 'CG': 3, 'GCG': 3, 'GGCG': 5, 'CGGCG': 5, 'GCGGCG': 8, 'AGCGGCG': 8, 'TAGCGGCG': 8}
print (gs)

gs = goodSuffix("GATGTTA")  #{{'A': 5, 'TA': 5, 'TTA': 5, 'GTTA': 5, 'TGTTA': 5, 'ATGTTA': 6}
print (gs) 


{'B': 2, 'AB': 2, 'BAB': 4, 'ABAB': 4, 'BABAB': 5}
{'G': 2, 'CG': 3, 'GCG': 3, 'GGCG': 5, 'CGGCG': 5, 'GCGGCG': 8, 'AGCGGCG': 8, 'TAGCGGCG': 8}
{'A': 5, 'TA': 5, 'TTA': 5, 'GTTA': 5, 'TGTTA': 5, 'ATGTTA': 6}


In [7]:
def goodSuffixV2(motif):
    
    '''
    Construire la goodSuffix table d'un motif
    entrée motif : le motif à chercher
    sortie goodSuffixTable: un dictionnaire ou la clé est les suffixes d'un motif et la valeur le nombre de positions à décaler pour avoir un match
    '''

    goodSuffixTable = {}
    
    #On parcourt tous les suffix du motif en partant du plus court
    
    for k in range(len(motif)-1, 0, -1):
        #On recupère le suffix
        suffix = motif[k:] #On commence par le plus petit suffix
        indexSuffix = k #L'indice du suffix
        
        #On cherche le suffix du suffix qui a une occurence dans le reste du motif
        #On commence par le plus grand suffix du suffix (soit le suffix lui-même)
        suffixtpr = suffix
        pos = motif[:len(motif)-1].rfind(suffixtpr) #Position d'une autre occurence du suffix
        
        #On sort avec pos = -1 si aucun suffix du suffix n'est trouvé dans le reste du motif
        while (pos == -1) :
            
            suffixtpr = suffixtpr[1:] #On diminue le suffix à chaque fois
            indexSuffix += 1
            
            #On cherche la dernière occurence du suffix dans le mot (en exluant le suffix lui-même)
            pos = motif[:len(motif)-1].rfind(suffixtpr)
        
        #Mettre à jour la table
        if (pos == -1) :
            goodSuffixTable[suffix] = len(motif)
        else :
            goodSuffixTable[suffix] = indexSuffix - pos
            
    return goodSuffixTable

gs = goodSuffixV2("ABABAB")
print (gs)

gs = goodSuffixV2("GTAGCGGCG")  #{'G': 2, 'CG': 3, 'GCG': 3, 'GGCG': 5, 'CGGCG': 5, 'GCGGCG': 8, 'AGCGGCG': 8, 'TAGCGGCG': 8}
print (gs)

gs = goodSuffixV2("GATGTTA")  #{{'A': 5, 'TA': 5, 'TTA': 5, 'GTTA': 5, 'TGTTA': 5, 'ATGTTA': 6}
print (gs) 

{'B': 2, 'AB': 2, 'BAB': 2, 'ABAB': 2, 'BABAB': 2}
{'G': 2, 'CG': 3, 'GCG': 3, 'GGCG': 3, 'CGGCG': 3, 'GCGGCG': 3, 'AGCGGCG': 3, 'TAGCGGCG': 3}
{'A': 5, 'TA': 5, 'TTA': 5, 'GTTA': 5, 'TGTTA': 5, 'ATGTTA': 5}


6\. Développer la version de l'algorithme Boyer Moore qui utilise les deux règles "bad character" et  "good suffixe". Avez-vous amélioré votre algorithme? 

In [8]:
import sys
def BoyerMoore(genome, motif):
    '''
    Implémente l'algorithme Boyer Moore en utilisant les règles de bad Character et good suffixe
    entrée genome : chaine de caractère représentant le génome
    entrée motif : le motif à chercher
    sortie position : position du motif dans le texte (-1) si il n'est pas trouvé 
    '''

    position = -1 #Position du motif dans le génome
    k = 0 #indice pour parcourir le génome
    
    #cpt de comparaisons
    cpt = 0
    
    #Création de la bad match table et good suffix table
    bmt = badCharacter(motif)
    gst = goodSuffixV2(motif)
    
    #On parcourt le génome
    while k < len(genome) - len(motif):
        cpt += 1 #Incrémentation du compteur de comparaisons
        
        #On compte le nombre de match
        match = 0
        for i in range(len(motif)-1, -1, -1) :
            
            if motif[i] == genome[k+i] :
                match += 1
            else :
                break
                
        #On a trouvé le motif
        if match == len(motif) :
            position = k
            break
            
        #On calcule la déplacement
        else :
            decBC = -1 #Déplacament avec la règle du bad caracter
            if genome[k + len(motif) - 1 - match] in bmt :
                decBC = max(bmt[genome[k + len(motif) - 1 - match]] - match, 1)
            else :
                decBC += len(motif) - match
                
            decGS = -1 #Déplacement avec la règle du good suffix
            if motif[len(motif) - match :] in gst :
                decGS = max(gst[motif[len(motif) - match :]], 1)
            k += max(decBC, decGS)
            
    return position, cpt

text = "CGTGCCTACTTACTTACTTACTTACGCGAA"
motif = "CTTACTTAC"
s = BoyerMoore(text, motif)
print(s) #12


text = "GTTATAGCTGATCGCGGCGTAGCGGCGAA"
motif = "GTAGCGGCG"
s = BoyerMoore(text, motif)#18
print(s)


(8, 3)
(18, 5)


In [9]:
pos, cpt = BoyerMoore(adn_concat, fix_motif)

print("Le motif", fix_motif, "a été trouvé à la position", pos, "avec", cpt, "comparaisons.")

Le motif ATAACACT a été trouvé à la position 92 avec 25 comparaisons.


Oui, nous avons amélioré notre algorithme, nous effectuons moins de comparaison

7\. Tester l'algorithme **Boyer Moore Algorithm** sur vos données de chipSeq. Vous pouvez chercher de motifs trouvés par les algorithms développé précédemment. Chercher toutes les occurences des motifs d'interets et comparer.
N'oubliez pas de chercher les motifs dans le brin complémentaire et faire un merge de résultats.

In [10]:
def readFasta(genome):
    sequence = []
    file = open(genome, "r")
    sequences = []
    seq = ""
    for s in file:
        if s[0] != ">":
            seq += s.strip().upper()
        else:
            sequences.append(seq)
            seq = ""
    return sequences[1:]

def chercheMotifBoyerMoore(genome, motif):
    """
    Chercher toutes les occurences d'un motif d'interet avec l'algo boyer Moore
    entrée genome : sequence nucleotidique
    entrée motif : motif à chercher 
    sortie nb : nombre d'occurence du motif dans le genome 
    """
    nb = 0
    k = 0
    while (k < len(genome)) :
        (pos, count) = BoyerMoore(genome[k:], motif)
        if pos == -1 :
            break
        else :
            nb += 1
            k += pos + 1

    return nb


In [11]:
def reversecompl(seq):
    """Renvoie le brin complémentaire d’une séquence.
    entrée : sequence de nucléotides (brin sens)
    sortie : sequence de nucléotides (brin complementaire)
    >>> reversecompl('AACGTGGCA')
    'TGCCACGTT'
    """
    compl = {'A': 'T', 'C': 'G', 'G': 'C', 'T':'A', 'a': 't', 'c': 'g', 'g': 'c', 't':'a'}
    nvSeq = ""
    for i in range(len(seq)-1,-1,-1) :
        nvSeq = nvSeq + compl[seq[i]]
    
    return nvSeq

In [12]:
genome = "../Sequence_by_Peaks_1.fasta"
sequencesSens = readFasta(genome)
sequencesCompl = [reversecompl(seq) for seq in sequencesSens]
sequences = sequencesSens + sequencesCompl
sequencesConcat = "".join(sequences)

In [16]:
res1 = chercheMotifBoyerMoore(sequencesConcat, 'CAGCAAAA')
res2 = chercheMotifBoyerMoore(sequencesConcat, 'CAGCAATA')
res3 = chercheMotifBoyerMoore(sequencesConcat, 'CTCATTGG')
res4 = chercheMotifBoyerMoore(sequencesConcat, 'TGACCC')
res5 = chercheMotifBoyerMoore(sequencesConcat, 'TTTGCTCA')
res6 = chercheMotifBoyerMoore(sequencesConcat, 'CGGATCCG')


In [17]:
print("Il y a",res1,"occurences du motif CAGCAAAA")
print("Il y a",res2,"occurences du motif CAGCAATA")
print(res3)
print(res4)
print(res5)
print(res6)


Il y a 29 occurences du motif CAGCAAAA
Il y a 15 occurences du motif CAGCAATA
0
2
2
0


### B -  Index of fixed length words
8\. Faire une fonction pour indexer les positions d'occurrences de tous les mots de taille k dans un texte, la fonction doit renvoyer un dictionnaire ou les clés sont les mots et les valeurs les positions dans le texte.

In [119]:
def indexTable(k, texte):
    """
    Indexer les positions d'occurrences de tous les mots de taille k dans un texte
    entrée k : taille du motif
    entrée texte : chaine de caractère représentant le génome
    sortie indexes : dictionnaire ou les clés sont les mots et les valeurs les positions dans le texte.
    """
    indexes  = {};
    
    for i in range(len(texte)-k+1) :
        if texte[i:i+k] in indexes :
            indexes[texte[i:i+k]].append(i)
        else :
            indexes[texte[i:i+k]] = [i]
    
    return indexes

inds = indexTable(2, "abcdabda") #{'ab': [0, 4], 'bc': [1], 'cd': [2], 'da': [3, 6], 'bd': [5]}
print (inds)


{'ab': [0, 4], 'bc': [1], 'cd': [2], 'da': [3, 6], 'bd': [5]}


9\. Faire une fonction pour chercher toutes les occurences d'un motif dans un genome utilisant la table des indexes de la question 8

In [120]:
def hamdist(str1, str2):
    """
    Calcul la distance de hamming entre deux chaînes de caractères
    entrée str1: chaîne de caractères
    entrée str2: chaîne de caractères
    sortie distance: distance de hamming
    """
    distance = 0
    
    for i in range(len(str1)) :
        if (str1[i].upper() != str2[i].upper()) :
            distance += 1

    return distance

In [121]:
def searchIndexTable(genome, indexTable, k, motif, v):
    """
    cherche les occurrences d'un motif dans un génome en permettant au maximum v variations 
    entrée indexTable : dictionnaire contenant les mots de taille k indexé sur le génome 
    entrée k : taille du motif 
    entrée motif : motif à chercher 
    entrée v : nombre de variations 
    sortie listMotif : liste de motifs dans le génome
    """
    
    #On récupère tous les sous parties de taille l de notre motif
    sous_parties = [motif[i:i+k] for i in range(len(motif)-k+1)]
    listMotif = []
    listPos = []
    for i, sp in enumerate(sous_parties):
        #Position de la sous-partie dans le motif
        positions = indexTable[sp]
        
        for pos in positions :
            #Le motif
            motifPot = genome[pos-i:pos+len(motif)-i]
            if hamdist(motif, motifPot) <= v :
                if pos-i not in listPos : 
                    listMotif.append(motifPot)
                    listPos.append(pos-i)

    return listMotif

    

10\. Tester l'algorithme **Index of fixed length** words sur vos données de chipSeq. N'oubliez pas de chercher les motifs dans le brin complémentaire et faire un merge de résultats. Puis générér le LOGO du motif trouvé

In [122]:
v = 1 #On autorise une variation
k = 8//(v+1)
indexTableChip = indexTable(k, sequencesConcat)
listeMotifVar = searchIndexTable(sequencesConcat, indexTableChip, k, 'CAGCAAAA', v)
dicoMotifOcc = {}

for mot in listeMotifVar :
    if mot in dicoMotifOcc :
        dicoMotifOcc[mot] += 1
    else :
        dicoMotifOcc[mot] = 1

print(dicoMotifOcc)


{'CAGCAATA': 15, 'CAGCACAA': 7, 'CAGCAAAA': 29, 'CAGCGAAA': 1, 'CAGCTAAA': 9, 'CAGCATAA': 3, 'CAGCAACA': 2, 'CAGCAGAA': 1, 'CAGCCAAA': 4, 'CAGCAAAC': 2, 'AAGCAAAA': 6, 'TAGCAAAA': 3, 'GAGCAAAA': 2, 'CGGCAAAA': 1, 'CTGCAAAA': 2, 'CCGCAAAA': 1, 'CAACAAAA': 7, 'CATCAAAA': 3, 'CACCAAAA': 5, 'CAGAAAAA': 2, 'CAGGAAAA': 1, 'CAGTAAAA': 1}


Motif LOGO:
<img src="logo_indexoffixedlength.png">

### C -  Matrice de fréquences
12\.Nous allons implémenter la recherche de motif par matrice de fréquence. Nous allons utiliser les matrices déjà fabriqué que vous pouvez telecharcher du site http://jaspar.genereg.net/
Une fois que vous avez chargé votre matrice de fréquence, vous devez la transformer en matrice de probabilité

In [123]:
import numpy as np

nuc = ['A', 'C', 'G', 'T']
q = 4
#La matrice de fréquence du facteur de transcription Amt1 n'est pas dans la base de données
#remplacer avec les donnees de la matrice que vous interesse.

matrice = np.array([[462.00,24.00,0.00,1000.00,0.00,7.00,90.00,600.00],
[86.00,16.00,22.00,0.00,1000.00,0.00,198.00,138.00],
[387.00,0.00,803.00,0.00,0.00,993.00,0.00,162.00],
[65.00,960.00,175.00,0.00,0.00,0.00,712.00,100.00]])


def normalise(M):
    """
    Normalise une matrice de frequence
    entrée M : matrice à normaliser
    sortie Mn : matrice normalisé
    """
    print(M)
    M = M + 1 #on utilise le pseudo-count
    #On divise chaque case par la somme des colonnes
    return M/np.sum(M, axis = 0)[0]

print(normalise(matrice))#ATGACGCA

[[ 462.   24.    0. 1000.    0.    7.   90.  600.]
 [  86.   16.   22.    0. 1000.    0.  198.  138.]
 [ 387.    0.  803.    0.    0.  993.    0.  162.]
 [  65.  960.  175.    0.    0.    0.  712.  100.]]
[[4.61155378e-01 2.49003984e-02 9.96015936e-04 9.97011952e-01
  9.96015936e-04 7.96812749e-03 9.06374502e-02 5.98605578e-01]
 [8.66533865e-02 1.69322709e-02 2.29083665e-02 9.96015936e-04
  9.97011952e-01 9.96015936e-04 1.98207171e-01 1.38446215e-01]
 [3.86454183e-01 9.96015936e-04 8.00796813e-01 9.96015936e-04
  9.96015936e-04 9.90039841e-01 9.96015936e-04 1.62350598e-01]
 [6.57370518e-02 9.57171315e-01 1.75298805e-01 9.96015936e-04
  9.96015936e-04 9.96015936e-04 7.10159363e-01 1.00597610e-01]]


12\. Déterminer les paramètres f(0)(b) du modèle nul, où 
\begin{equation}
f^{(0)}(b) = \frac 1L \sum_{i=0}^{L-1} \omega_i(b)\ ,
\end{equation}

In [124]:
def f0_calcule(PWM):
    """
    Calcule les probabilités du modèle null (probabilités indépendant de positions)
    entrée PWM : matrice de poids positions
    sortie f0 : modèle null, liste de probabilités du modèle null
    """
    f0 = [np.sum(PWM, axis = 1)[i]/len(PWM[0]) for i in range(len(PWM))]

    return f0

PWM = normalise(matrice)
f_0 = f0_calcule(PWM)
print (f_0)

[[ 462.   24.    0. 1000.    0.    7.   90.  600.]
 [  86.   16.   22.    0. 1000.    0.  198.  138.]
 [ 387.    0.  803.    0.    0.  993.    0.  162.]
 [  65.  960.  175.    0.    0.    0.  712.  100.]]
[0.2727838645418327, 0.18276892430278885, 0.292953187250996, 0.25149402390438247]


13\.Faites une fonction pour calculer log-rapport de vraisemblancee, d'une sequence de taille k.
\begin{equation}
\label{eq:ll}
\ell(b_0,...,b_{k-1}) = \log_2 \frac {P(b_0,...,b_{k-1} | \omega )
}{P^{(0)}(b_0,...,b_{k-1})}
= \sum_{i=0}^{k-1} \log_2 \frac {\omega_i(b_i)}{f^{(0)}(b_i)}\ .
\end{equation}

In [125]:
import math
def loglikehood(motif, PWM, f_0):
    """
    calcule le loglikehood d'une sequence 
    entrée seq : sequence de taille k
    entrée PWM : matrice de poids positions
    entrée f0 : modèle null
    """
    pos = 0; logLike = 1
    for n in motif: #On parcourt la séquence
        i = nuc.index(n)
        logLike += math.log2(PWM[i, pos]/f_0[i]) #On calcule la probabilité de chacune des positions du motifs
        pos +=1 

    return logLike

print (loglikehood('ATGACGCA', PWM, f_0))

12.461608454957178


14\.Tester l'algorithme sur vos données de chipSeq. Vous devez parcourir les séquences et extraire les motifs ayant  log-rapport de vraisemblance positive.
N'oubliez pas de chercher les motifs dans le brin complémentaire et faire un merge de résultats. Puis générér le LOGO du motif trouvé 

In [130]:
#Liste des motifs des séquences
motifs = [];
k = 8
for i in range(len(sequencesConcat)-k+1) :
    if sequencesConcat[i:i+k] not in motifs :
        motifs.append(sequencesConcat[i:i+k])
print(motifs)


['ATTTAGCT', 'TTTAGCTA', 'TTAGCTAT', 'TAGCTATT', 'AGCTATTT', 'GCTATTTT', 'CTATTTTT', 'TATTTTTG', 'ATTTTTGC', 'TTTTTGCA', 'TTTTGCAT', 'TTTGCATT', 'TTGCATTA', 'TGCATTAC', 'GCATTACA', 'CATTACAT', 'ATTACATT', 'TTACATTT', 'TACATTTA', 'ACATTTAA', 'CATTTAAC', 'ATTTAACT', 'TTTAACTT', 'TTAACTTC', 'TAACTTCT', 'AACTTCTA', 'ACTTCTAT', 'CTTCTATT', 'TTCTATTT', 'TCTATTTC', 'CTATTTCA', 'TATTTCAT', 'ATTTCATC', 'TTTCATCA', 'TTCATCAT', 'TCATCATT', 'CATCATTA', 'ATCATTAT', 'TCATTATT', 'CATTATTA', 'ATTATTAG', 'TTATTAGG', 'TATTAGGT', 'ATTAGGTT', 'TTAGGTTC', 'TAGGTTCA', 'AGGTTCAA', 'GGTTCAAT', 'GTTCAATT', 'TTCAATTA', 'TCAATTAA', 'CAATTAAT', 'AATTAATT', 'ATTAATTT', 'TTAATTTT', 'TAATTTTA', 'AATTTTAT', 'ATTTTATT', 'TTTTATTG', 'TTTATTGT', 'TTATTGTT', 'TATTGTTA', 'ATTGTTAC', 'TTGTTACA', 'TGTTACAA', 'GTTACAAC', 'TTACAACA', 'TACAACAT', 'ACAACATT', 'CAACATTA', 'AACATTAA', 'ACATTAAA', 'CATTAAAT', 'ATTAAATA', 'TTAAATAT', 'TAAATATG', 'AAATATGA', 'AATATGAG', 'ATATGAGA', 'TATGAGAA', 'ATGAGAAC', 'TGAGAACT', 'GAGAACTA', 'AG

In [139]:
motifsRetenus = [motif for motif in motifs if loglikehood(motif, PWM, f_0)>10]
print(motifsRetenus)

['CTGACGCA', 'ATTACGCA', 'GTGACGTC', 'ATGACGTC', 'GTGACGTA', 'GTGACGCA', 'GTGACGCG', 'CTGACGTA', 'ATTACGTA', 'ATGACGAA', 'GTGACGAA']


Motif LOGO:
<img src="logo_matrice.png">