# TME 8 : Mini-projet Detection de motifs


## Localisation de pattern (motifs) dans le genome

Nous allons implémenter plusieurs algorithmes afin de localiser un motif d'intérêt dans un génome.

### A -  Boyer Moore Algorithm 
1\. Nous allons réutiliser les fonctions de TME precedents pour générer une séquence artificiel de taille ``n``, et implanter un motif de taille ``k`` dans une position aléatoire de la séquence. Vous pouvez aussi faire varier ``v`` positions pour permettre certaines mutations


In [34]:
import random
import numpy as np

nuc = ('A', 'C', 'G', 'T')

n = 100 #longuer des sequence
k = 8 #longuer du motif
t = 5
v = 2

In [35]:
def generateRandomSequence(n, upper=True):
    """
    Génère une séquence nucléotidique aléatoire 
    entrée n : longueur de la sequence
    entrée upper : bool, si True les nucléotides seront en majuscule, False minuscule
    sortie sequence : une séquence nucléotidique aléatoire 
    """
    nucList = [
        nuc[random.randint(0, 3)].upper() if upper else nuc[random.randint(
            0, 3)].lower() for i in range(n)
    ]
    sequence = "".join(nucList)
    return sequence


def modifierMotif(motif, nbpos, upper=True):
    """
    Modifie nbpos positions d'un motif aléatoirement 
    entrée motif: motif à modifier
    entrée nbpos: nombre de positions
    entrée upper : bool, si True les nucléotides modifiés seront majuscule, False minuscule
    sortie motifM: motif modifié
    """
    motifM = motif
    posToModified = random.sample(range(len(motif)), nbpos)
    for pos in posToModified:
        newNuc = random.choice(nuc)
        while newNuc == motif[pos]:
            newNuc = random.choice(nuc)
        motifM = motifM[0:pos] + newNuc + motifM[pos + 1:]
    return motifM


def implantMotif(sequences, motif, k, v, t, n):
    """
    Génère des séquences aléatoires et implante des motifs (un motif par séquence)
    entrée sequences: matrice de (n-k)*t initiale
    entrée motif: motif sans variation à implémenter
    entrée k: taille du motif
    entrée v: nombre de variations (si v==0 implante un motif sans variations)
    entrée t : nombre de séquences 
    entrée n : longueur des séquences
    sortie DNAOrig : matrice de dimension t x n-k avec les sequences aléatoires
    sortie DNAMot: matrice de dimension t x n avec les sequences aléatoires et les motifs implantés
    sortie motifFix: motif sans variations
    REMARQUE : La taille totale des séquences plus motif doit être égal à n, pensez à générer de séquence aléatoire de taille n-k pour pouvoir implanter un motif de taille k
    Cette fonction permet de soit générer les séquences et le motif, soit juste implanter de motif (avec ou sans variations) à des séquences et motif existantes (passé en paramètre)
    """
    # DNAOrig = []
    # DNAMot = []
    if (sequences):
        DNAOrig = sequences[:]
    else:
        DNAOrig = [generateRandomSequence(n - k) for i in range(t)]
    if (len(motif) == 0):
        motif = generateRandomSequence(k)
    modifiedMotifs = [modifierMotif(motif, v) for i in range(t)]
    posToInsert = [random.randint(0, n - k) for i in range(t)]
    DNAMot = [
        DNAOrig[i][:posToInsert[i]] + modifiedMotifs[i] +
        DNAOrig[i][posToInsert[i]:] for i in range(t)
    ]
    # print(posToInsert)
    return DNAOrig, DNAMot, motif


adnOri = [
    'ACCTTAACAGAGCGAATGGCGGCGGTCGCAGTTACTCGAAGGACGCTCCTCATTGTACTGGATCTGGCTATGCTTTCTCCCAGGTTCTACCGCGATCCAC',
    'GTGTCAAGCACCCCCCTCGAGACTCCCGCAGTCCTCATTTGCGTCGGATGCGGGCGCCGCCATGCGAGTCATGAGAATCAGAAGAAGATCGGGGTTTAGA',
    'AAACATCCGCGCCTGTTTGCCGATATGGCACAATTAAATACCCCTTGCTCACCGCTCCATAGACAATGCTAATTTCCTCATTTGGTAACTTCTTCCCTAT',
    'GCAACTCTTTTGAACCAACCCACATGAATTAGCAGGTTTCTTCAATCGCGCTTATTTTCGGTTCGCCCCCAACATCCTCATTAAACGTACGTCGCCGCTT',
    'GTACCATCCTCATTCGTGTATTGCGCAGGTTGGGGGCCCGCCCTCCTTTGACCAGCACTACGGCCTGGTTTTCGCACCTTACTGTAAAATAAATAAAGCG'
]
adnOri, adn, fix_motif = implantMotif(
    adnOri, 'TCCTCATT', k, 0, t,
    n)  #générer les séquences et le motif sans variation
print(adnOri)
# print (adn)

adn = [s.upper() for s in adn]
print(adn)
print(fix_motif)


['ACCTTAACAGAGCGAATGGCGGCGGTCGCAGTTACTCGAAGGACGCTCCTCATTGTACTGGATCTGGCTATGCTTTCTCCCAGGTTCTACCGCGATCCAC', 'GTGTCAAGCACCCCCCTCGAGACTCCCGCAGTCCTCATTTGCGTCGGATGCGGGCGCCGCCATGCGAGTCATGAGAATCAGAAGAAGATCGGGGTTTAGA', 'AAACATCCGCGCCTGTTTGCCGATATGGCACAATTAAATACCCCTTGCTCACCGCTCCATAGACAATGCTAATTTCCTCATTTGGTAACTTCTTCCCTAT', 'GCAACTCTTTTGAACCAACCCACATGAATTAGCAGGTTTCTTCAATCGCGCTTATTTTCGGTTCGCCCCCAACATCCTCATTAAACGTACGTCGCCGCTT', 'GTACCATCCTCATTCGTGTATTGCGCAGGTTGGGGGCCCGCCCTCCTTTGACCAGCACTACGGCCTGGTTTTCGCACCTTACTGTAAAATAAATAAAGCG']
['ACCTTAACAGAGCGAATGGCGGCGGTCGCAGTTACTCCTCATTTCGAAGGACGCTCCTCATTGTACTGGATCTGGCTATGCTTTCTCCCAGGTTCTACCGCGATCCAC', 'GTGTCAAGCACCCCCCTCGAGACTCCCGCAGTCCTCATTTGCGTCGGATGCGGGCGCCGCCATGCGAGTCCTCATTTCATGAGAATCAGAAGAAGATCGGGGTTTAGA', 'AAACATCCGCGCCTGTTTGCCGATATGTCCTCATTGCACAATTAAATACCCCTTGCTCACCGCTCCATAGACAATGCTAATTTCCTCATTTGGTAACTTCTTCCCTAT', 'GCAACTCTTTTGAACCAACCCACATGAATTAGCAGGTTTCTTCAATCGTCCTCATTCGCTTATTTTCGGTTCGCCCCCAACATCCTCATTAAACGTACGTCGCCGCTT', 'GTACCATCCTCATTCGTGTATTGCGCAGG

2\. Boyer Moore est une combinaison de deux approches : bad character et good Suffix. Nous allons commencer par la première approche. Définissez une fonction ``badCharacter`` pour construire la badTable d'un motif. Vous pouvez l'implémenter comme dictionnaire, voir un exemple dans les slides de cours.


In [36]:
def badCharacter(motif):
    '''
    Construire la badTable d'un motif
    entrée motif : le motif à chercher
    sortie badMatchTable: un dictionnaire ou la clé est un nucléotide du motif et la valeur le nombre de positions à décaler pour avoir un match
    '''
    l = len(motif)
    return {motif[i]: max(1, l - 1 - i) for i in range(l)}


print(badCharacter("TATGTG"))  #{'T': 1, 'A': 4, 'G': 1}

print(badCharacter("GTTGTTAA"))  #{'A': 6, 'C': 1, 'G': 1, 'T': 7} // ???


{'T': 1, 'A': 4, 'G': 1}
{'G': 4, 'T': 2, 'A': 1}


3\. Développer la version de l'algorithme Boyer Moore qui utilise "bad character" la règle de caractère incorrect.

In [37]:
import sys


def BoyerMooreBC(genome, motif):
    '''
    Implemente l'agorithme Boyer Moore en utilisant uniquement la regle de bad Character
    entrée genome : chaine de caracter representant le genome
    entrée motif : le motif à chercher
    sortie postition : position du motif dans le texte (-1) si il n'est pas trouvé  
    '''
    # postition = -1
    l = len(motif)
    tmp_pos = len(motif) - 1
    badTab = badCharacter(motif)
    # print(badTab)
    find = False
    while (tmp_pos <= len(genome) - 1):
        for i in range(1, l + 1):
            currentCharGenome = genome[tmp_pos - (i-1)]
            # print(genome[tmp_pos+1-l:tmp_pos+1], tmp_pos, currentCharGenome)
            if (motif[-i] != currentCharGenome):
                if currentCharGenome in badTab:
                    tmp_pos += badTab[currentCharGenome]
                else:
                    tmp_pos += l
                break
            if (i == l):
                return tmp_pos + 1 - l
    return -1


BoyerMooreBC("ABCABCAB", "CA")  #2


2

4\. Testez la version de l'exercice 3 sur les données artificielles généré dans 1, combien de comparaison inutile avez-vous évité avec cette version? 

Reponse: À chaque saut, on évite (pas_de_saut - 1) comparaisons, en tournant le code suivant, on constate qu'on évite 133 comparaisons.

In [38]:
def BoyerMooreBCwithSave(genome, motif):
    '''
    Implemente l'agorithme Boyer Moore en utilisant uniquement la regle de bad Character
    entrée genome : chaine de caracter representant le genome
    entrée motif : le motif à chercher
    sortie postition : position du motif dans le texte (-1) si il n'est pas trouvé
    sortie saved : comparaisons inutiles évitées
    '''
    l = len(motif)
    tmp_pos = len(motif) - 1
    badTab = badCharacter(motif)
    save = 0
    while (tmp_pos <= len(genome) - 1):
        for i in range(1, l + 1):
            currentCharGenome = genome[tmp_pos - (i-1)]
            if (motif[-i] != currentCharGenome):
                if currentCharGenome in badTab:
                    tmp_pos += badTab[currentCharGenome]
                    save += badTab[currentCharGenome] -1
                else:
                    tmp_pos += l
                    save += l-1
                break
            if (i == l):
                return tmp_pos + 1 - l, save
    return -1, save

save1 = 0
for i in range(t):
    posi, savei = BoyerMooreBCwithSave(adn[i], fix_motif)
    print("position: " + str(posi) + ", comparaisons évitées: " + str(savei))
    save1 += savei
print("comparaisons évitées totalement: "+ str(save1))

position: -1, comparaisons évitées: 74
position: -1, comparaisons évitées: 85
position: 27, comparaisons évitées: 23
position: 48, comparaisons évitées: 37
position: 6, comparaisons évitées: 4
comparaisons évitées totalement: 223


5\. Nous allons implémenter la règle de good suffixe. Pour cela, nous allons pré-processer le motif afin de trouver tous les suffixe de taille k que sont aussi de préfixe. Faire la fonction goodSuffix qui étant donnée un motif renvoie un dictionnaire ou les clés sont de suffixes et les valeurs sont la distance au préfixe le plus proche, voir un exemple ci-dessous.

In [53]:
def goodSuffix(motif):
    '''
    Construire la goodSuffix table d'un motif
    entrée motif : le motif à chercher
    sortie goodSuffixTable: un dictionnaire ou la clé est les suffixes d'un motif et la valeur le nombre de positions à décaler pour avoir un match
    '''
    goodSuffixTable = dict()
    l = len(motif)
    for i in range(1, l):
        last_index = l - 1
        index_suffix_fix = l - i
        motif_to_add = motif[index_suffix_fix:]
        findArea = motif[:index_suffix_fix]
        index_suffix = l - i
        if len({char for char in motif_to_add}) == 1:
            goodSuffixTable[motif_to_add] = 1
        while index_suffix <= last_index:
            toFind = motif[index_suffix:]
            index_match = findArea.rfind(toFind)
            if index_match == -1:
                index_suffix += 1
                continue
            else:
                goodSuffixTable[motif_to_add] = index_suffix - index_match
                break
        if index_match == -1:
            goodSuffixTable[motif_to_add] = l
    return goodSuffixTable


#gs = goodSuffix("ABABAB")
gs = goodSuffix(
    "GTAGCGGCG"
)  #{'G': 2, 'CG': 3, 'GCG': 3, 'GGCG': 5, 'CGGCG': 5, 'GCGGCG': 8, 'AGCGGCG': 8, 'TAGCGGCG': 8}
print(gs)

gs = goodSuffix(
    "GATGTTA"
)  #{'G': 2, 'CG': 3, 'GCG': 3, 'GGCG': 5, 'CGGCG': 5, 'GCGGCG': 8, 'AGCGGCG': 8, 'TAGCGGCG': 8}
print(gs)


{'G': 2, 'CG': 3, 'GCG': 3, 'GGCG': 5, 'CGGCG': 5, 'GCGGCG': 8, 'AGCGGCG': 8, 'TAGCGGCG': 8}
{'A': 5, 'TA': 5, 'TTA': 5, 'GTTA': 5, 'TGTTA': 5, 'ATGTTA': 7}


6\. Développer la version de l'algorithme Boyer Moore qui utilise les deux règles "bad character" et  "good suffixe". Avez-vous amélioré votre algorithme? 

In [54]:
import sys


def BoyerMooreBC(genome, motif):
    '''
    Implemente l'agorithme Boyer Moore en utilisant uniquement la regle de bad Character
    entrée genome : chaine de caracter representant le genome
    entrée motif : le motif à chercher
    sortie postition : position du motif dans le texte (-1) si il n'est pas trouvé  
    '''
    # postition = -1
    l = len(motif)
    tmp_pos = len(motif) - 1
    badTab = badCharacter(motif)
    goodSuffixTab = goodSuffix(motif)
    # print(badTab)
    while (tmp_pos <= len(genome) - 1):
        for i in range(1, l + 1):
            currentCharGenome = genome[tmp_pos - (i - 1)]
            # print(genome[tmp_pos+1-l:tmp_pos+1], tmp_pos, currentCharGenome)
            if (motif[-i] != currentCharGenome):

                if (i > 1):
                    currentMatchChars = motif[l - (i - 1):]
                    goodTabSkip = goodSuffixTab[currentMatchChars]
                else:
                    goodTabSkip = 0

                if currentCharGenome in badTab:
                    badCharacterSkip = badTab[currentCharGenome]
                else:
                    badCharacterSkip = l

                if badCharacterSkip >= goodTabSkip:
                    tmp_pos += badCharacterSkip
                else:
                    tmp_pos += goodTabSkip
                break
            if (i == l):
                return tmp_pos + 1 - l
    return -1


text = "CGTGCCTACTTACTTACTTACTTACGCGAA"
motif = "CTTACTTAC"
s = BoyerMooreBC(text, motif)
print(s)  #12

text = "GTTATAGCTGATCGCGGCGTAGCGGCGAA"
motif = "GTAGCGGCG"
s = BoyerMooreBC(text, motif)  #18
print(s)


12
18


7\. Tester l'algorithme **Boyer Moore Algorithm** sur vos données de chipSeq. Vous pouvez chercher de motifs trouvés par les algorithms développé précédemment. Chercher toutes les occurences des motifs d'interets et comparer.
N'oubliez pas de chercher les motifs dans le brin complémentaire et faire un merge de résultats.

In [64]:
def readFasta(genome):
    sequence = []
    file = open(genome, "r")
    sequences = []
    seq = ""
    for s in file:
        if s[0] != ">":
            seq += s.strip().upper()
        else:
            sequences.append(seq)
            seq = ""
    return sequences[1:]
genome = "Sequence_by_Peaks_2.fasta"
sequences = readFasta(genome)
print(sequences[0])

def reversecompl(seq):
    """Renvoie le brin complémentaire d’une séquence.
    entrée : sequence de nucléotides (brin sens)
    sortie : sequence de nucléotides (brin complementaire)
    >>> reversecompl('AACGTGGCA')
    'TGCCACGTT'
    """
    compl = {'A': 'T', 'C': 'G', 'G': 'C', 'T':'A'}
    res = ''
    for index in range(len(seq)):
        res += compl[seq[index].upper()]
    return res[::-1]

def chercheMotifBoyerMoureSingle(genome, motif):
    """
    Chercher toutes les occurences d'ub motif d'interet avec l'algo boyer Moore
    entrée genome : sequence nucleotidique
    entrée motif : motif à chercher 
    sortie nb : nombre d'occurence du motif dans le genome 
    """
    #   for i in range(len(genome)):
    l = len(motif)
    tmp_pos = len(motif) - 1
    badTab = badCharacter(motif)
    goodSuffixTab = goodSuffix(motif)
    indexes_match = list()
    # for the whole sequence
    while (tmp_pos <= len(genome) - 1):
        
        # compare the motif with current letter
        for i in range(1, l + 1):
            currentCharGenome = genome[tmp_pos - (i - 1)]
            if (motif[l-i] != currentCharGenome):

                if (i > 1):
                    currentMatchChars = motif[l - (i - 1):]
                    goodTabSkip = goodSuffixTab[currentMatchChars]
                else:
                    goodTabSkip = 0

                if currentCharGenome in badTab:
                    badCharacterSkip = badTab[currentCharGenome]
                else:
                    badCharacterSkip = l-i+1

                if badCharacterSkip >= goodTabSkip:
                    tmp_pos += badCharacterSkip
                else:
                    tmp_pos += goodTabSkip
                break
            if (i == l):
                indexes_match.append(tmp_pos + 1 - l)
                tmp_pos += l
                break
    return len(indexes_match)

def chercheMotifBoyerMoure(genome, motif):
    """
    Chercher toutes les occurences d'ub motif d'interet avec l'algo boyer Moore
    entrée genome : sequence nucleotidique
    entrée motif : motif à chercher 
    sortie nb : nombre d'occurence du motif dans le genome 
    """
    return chercheMotifBoyerMoureSingle(genome, motif) + chercheMotifBoyerMoureSingle(reversecompl(genome), motif)

print(chercheMotifBoyerMoure(sequences[2], "AATTTCTA"))

TTACACGGCATAAATATTTACAACACATTTGATATACGTTTATCCGTATATGCAGGATTTAAAAAAGATCATATGACTGTCAACCGTACAAAACATCATTGGGAATTCACTCCTTACTATCCTTCCCATCTGGCCAATCACAGCAGAGAACAAGTTTTACCCTTGGATGTGTTGGGACTGGTCGAGAAGGGCACCCCTCGTATCGCTAACTTATTAGCCGGGTAAGTTGACTATAACTAACTCCTCACCACCCAATACATAGACTCTTTCTATTGTCGATCAAGAAGCATAAGTAGTCTGTAAAAATAGCAGCTACTTGTTGCTACTAGACCAGCATTGGGTTGATGTTAA
0


### B -  Index of fixed length words
8\. Faire une fonction pour indexer les positions d'occurrences de tous les mots de taille k dans un texte, la fonction doit renvoyer un dictionnaire ou les clés sont les mots et les valeurs les positions dans le texte.

In [60]:
def indexTable(k, texte):
    """
    Indexer les positions d'occurrences de tous les mots de taille k dans un texte
    entrée k : taille du motif
    entrée texte : chaine de caractère représentant le génome
    sortie indexes : dictionnaire ou les clés sont les mots et les valeurs les positions dans le texte.
    """
    indexes  = dict()
    l = len(texte)
    for i in range(l-k+1):
        mot = texte[i:i+k]
        if mot in indexes:
            indexes[mot].append(i)
        else: 
            indexes[mot] = list()
            indexes[mot].append(i)
    return indexes

inds = indexTable(2, "abcdabda") #{'ab': [0, 4], 'bc': [1], 'cd': [2], 'da': [3, 6], 'bd': [5]}
print (inds)

{'ab': [0, 4], 'bc': [1], 'cd': [2], 'da': [3, 6], 'bd': [5]}


9\. Faire une fonction pour chercher toutes les occurences d'un motif dans un genome utilisant la table des indexes de la question 8

In [None]:
def hamdist(str1, str2):
    """
    Calcul la distance de hamming entre deux chaînes de caractères
    entrée str1: chaîne de caractères
    entrée str2: chaîne de caractères
    sortie distance: distance de hamming
    """
    assert(len(str1) == len(str2))
    return sum([1 if str1[i]!=str2[i] else 0 for i in range(len(str1))])

def searchIndexTable(indexTable, k, motif, v):
  """
  cherche les occurrences d'un motif dans un génome en permettant au maximum v variations 
  entrée indexTable : dictionnaire contenant les mots de taille k indexé sur le génome 
  entrée k : taille du motif 
  entrée motif : motif à chercher 
  entrée v : nombre de variations 
  sortie listMotif : liste de motifs dans le génome
  """
  listMotif = []
  l = len(motif)
  # pour chaque mot de taille k
  for i in range(len(motif)-k+1):
        mot = motif[i:i+k]
        listIndexMot = indexTable[mot]
        for indexMot in listIndexMot:
              # motDansTexte
              pass

  return listMotif

    

10\. Tester l'algorithme **Index of fixed length** words sur vos données de chipSeq. N'oubliez pas de chercher les motifs dans le brin complémentaire et faire un merge de résultats. Puis générér le LOGO du motif trouvé

### C -  Matrice de fréquences
12\.Nous allons implémenter la recherche de motif par matrice de fréquence. Nous allons utiliser les matrices déjà fabriqué que vous pouvez telecharcher du site http://jaspar.genereg.net/
Une fois que vous avez chargé votre matrice de fréquence, vous devez la transformer en matrice de probabilité

In [81]:
import numpy as np

nuc = ['A', 'C', 'G', 'T']
q = 4

#remplacer avec les donnees de la matrice que vous interesse.

matrice = np.array([[462.00,24.00,0.00,1000.00,0.00,7.00,90.00,600.00],
[86.00,16.00,22.00,0.00,1000.00,0.00,198.00,138.00],
[387.00,0.00,803.00,0.00,0.00,993.00,0.00,162.00],
[65.00,960.00,175.00,0.00,0.00,0.00,712.00,100.00]])


def normalise(M):
    """
    Normalise une matrice de frequence
    entrée M : matrice à normaliser
    sortie Mn : matrice normalisé
    """
    q = 4
    k = len(M[0])
    M += np.ones((q, k))
    q = len(nuc)
    colSumList = np.sum(M, 0)
    colSum = colSumList[0]
    for i in range(1, len(colSumList)):
        assert(colSumList[i] == colSum)
    
    # print(PWM)
    return np.array([M[i, j]/colSum for i in range(q) for j in range(k)]).reshape(q, k)
normalised_matrix = normalise(matrice)
print(normalised_matrix)

[[4.61155378e-01 2.49003984e-02 9.96015936e-04 9.97011952e-01
  9.96015936e-04 7.96812749e-03 9.06374502e-02 5.98605578e-01]
 [8.66533865e-02 1.69322709e-02 2.29083665e-02 9.96015936e-04
  9.97011952e-01 9.96015936e-04 1.98207171e-01 1.38446215e-01]
 [3.86454183e-01 9.96015936e-04 8.00796813e-01 9.96015936e-04
  9.96015936e-04 9.90039841e-01 9.96015936e-04 1.62350598e-01]
 [6.57370518e-02 9.57171315e-01 1.75298805e-01 9.96015936e-04
  9.96015936e-04 9.96015936e-04 7.10159363e-01 1.00597610e-01]]


12\. Déterminer les paramètres f(0)(b) du modèle nul, où 
\begin{equation}
f^{(0)}(b) = \frac 1L \sum_{i=0}^{L-1} \omega_i(b)\ ,
\end{equation}

In [82]:
def f0_calcule(PWM):
	"""
	Calcule les probabilités du modèle null (probabilités indépendant de positions)
	entrée PWM : matrice de poids positions
	sortie f0 : modèle null, liste de probabilités du modèle null
	"""
	avgs = np.mean(PWM, axis=1)
	f0 = [i for i in avgs]
	return f0

f_0 = f0_calcule(normalised_matrix)
print (f_0)

[0.2727838645418327, 0.18276892430278885, 0.292953187250996, 0.25149402390438247]


13\.Faites une fonction pour calculer log-rapport de vraisemblancee, d'une sequence de taille k.
\begin{equation}
\label{eq:ll}
\ell(b_0,...,b_{k-1}) = \log_2 \frac {P(b_0,...,b_{k-1} | \omega )
}{P^{(0)}(b_0,...,b_{k-1})}
= \sum_{i=0}^{k-1} \log_2 \frac {\omega_i(b_i)}{f^{(0)}(b_i)}\ .
\end{equation}

In [92]:
def loglikehood(seq, PWM, f_0):
	"""
	calcule le loglikehood d'une sequence 
	entrée seq : sequence de taille k
	entrée PWM : matrice de poids positions
	entrée f0 : modèle null
	"""
	
	logLike = 0
	l = len(seq)
	ligneI = {nuc[i]:i for i in range(len(nuc))}
	matN = normalise(PWM)
	for col in range(l):
		nucl = seq[col]
		logLike+=np.log2(matN[ligneI[nucl], col]/f_0[ligneI[nucl]])
	return logLike

print(loglikehood("AAAAAAAA", matrice, f0_calcule(normalised_matrix)))

-19.01748391976125


14\.Tester l'algorithme sur vos données de chipSeq. Vous devez parcourir les séquences et extraire les motifs ayant  log-rapport de vraisemblance positive.
N'oubliez pas de chercher les motifs dans le brin complémentaire et faire un merge de résultats. Puis générér le LOGO du motif trouvé 