## Recherche naive par fenêtre glissante

In [41]:
def correspondance_motif(texte, motif,i):
    """Recherche la correspondance de motif dans texte
    à partir de la position i"""
    if i + len(motif) > len(texte):
        return False
    for j in range(0, len(motif)):
        if motif[j] != texte[i + j]:
            return False
    return True

def recherche_motif_naive(texte, motif):
    """Retourne la position où le motif a été trouvé par fenetre glissante
    ou -1 si le motif ne se trouve pas dans le texte
    Si n = len(texte) et m = len(motif), la complexité est en O((n-m)*m)"""
    for i in range(len(texte) - len(motif) + 1):
        if correspondance_motif(texte, motif,i):
            return i
    return -1

## Algorithme de Boyer-Moore

### Règle du mauvais caractère

In [42]:
def mauvais_caractere(motif, alphabet):
    """Retourne un dictionnaire avec pour chaque caractère de l'alphabet, le nombre de décalage 
    à partir de la fin du motif avant de trouver ce caractère
    On ne compte pas la dernière lettre du motif et le décalage vaut m = len(motif)"
    si on ne trouve pas le caractère"""
    m = len(motif)
    #mc = [0] * len(alphabet)  
    mc = {c : 0 for c in alphabet} #j préfère utiliser un dictionnaire
    for i in range(len(alphabet)):
        c = alphabet[i]
        k = 1
        while k < m and c != motif[m - 1 - k]:
            k = k + 1
        mc[i] = k
    return mc

In [43]:
mauvais_caractere('GCAGAGAG', 'ACGT')

{'A': 0, 'C': 0, 'G': 0, 'T': 0, 0: 1, 1: 6, 2: 2, 3: 8}

In [44]:
def correspondance_suffixe(motif, i, j):
    m = len(motif)
    if motif[j] != motif[i]:
        d = 1
        while  i + d < m and motif[j + d] == motif[i + d]:
            d += 1
        return i + d == m
    return False
        


def bon_suffixe(motif):
    m = len(motif)
    bs = [0] * m
    bs[m-1] = 1
    #second cas : recherche du plus long préfixe qui est aussi un suffixe
    p = m - 1
    while motif[p] == motif[m - 1 - p]:
        p = p - 1
    p =  p  + 1
    for i in range(m - 2, 0, -1):        
        j = i - 1        
        while j >= 0 and not correspondance_suffixe(motif, i, j):            
            j = j - 1   
        if j < 0:
            bs[i] = p
        else:
            bs[i] = i - j
    bs[0] = p
    return bs

In [45]:
bon_suffixe('GCAGAGAG')

[7, 7, 7, 2, 7, 4, 7, 1]

In [46]:
def boyer_moore(texte, motif, alphabet):
    #initialisation des longueurs
    n = len(texte)
    m = len(motif)
    #pré-traitement du motif
    bs = bon_suffixe(motif)
    mc = mauvais_caractere(motif, alphabet)
    print(bs, mc)
    #recherche du motif  dans le texte
    i = 0 #indice dans le texte
    while i <= n - m:
        j = m - 1  #on lit le motif de droite à gauche
        while j >= 0 and motif[j] == texte[i+j]:
            j = j - 1
        if j < 0:
            print(f"Motif trouvé en {i}")
            #décalage du motif
            i = i + bs[0]
        else:
            #décalage du motif
            i = i + max(bs[j], mc[texte[i+j]] + j - m + 1)
        

In [47]:
texte = "GCATCGCAGAGAGTATACAGTACG"
motif = "GCAGAGAG"
alphabet = "ACGT"
boyer_moore(texte, motif, alphabet)

[7, 7, 7, 2, 7, 4, 7, 1] {'A': 0, 'C': 0, 'G': 0, 'T': 0, 0: 1, 1: 6, 2: 2, 3: 8}
Motif trouvé en 5
