### Recherche naïve 

Pour réaliser une recherche naïve l'on doit décaler le motif d'un cran à chaque fois 

Une fois que le motif est dans une certaine position i, on doit comparer M[0..m-1] et T[i..i+m-1]. L'on réalise cette comparaison de gauche vers la droite du motif

- on fait varier j de 0 à m-1
- on s'arrête dès qu'il n'y a pas correspondance et on décale le motif à la position suivante.



In [11]:
def recherche_naive(motif: str, texte: str) -> list:
    """
    Renvoie les positions où le motif est trouvé dans le texte (algorithme naïf)
    """
    positions = []
    for i in range(len(texte) - len(motif) + 1):
        if texte[i:i+len(motif)] == motif:
            positions.append(i)
    return positions


### Algorithme de Boyer-Moore-Horspool

M glisse vers la droite mais la comparaison se fait de droite à gauche. Si un caractère ne correspond pas, on utilise des règles de décalage intelligentes pour sauter plusieurs positions.

La règle du mauvais caractère consiste en :
-  quand un caractère ne correspond pas, on regarde où il apparaît dans le motif, pour décider combien on peut décaler le motif.

La règle du bon suffixe: 
-   quand une fin du motif correspond, mais le début échoue, on saute à la prochaine occurrence de ce suffixe dans le motif.

Différents moyens de décalage :
- si motif trouvé l'on décale le motif d'un cran
- sinon le décalage se fait en fonction de la règle du mauvais 

In [10]:
def construire_table_mauvais_caractere(motif: str) -> dict:
    """
    Construit la table de décalage pour le mauvais caractère
    """
    table = {}
    for i in range(len(motif)):
        table[motif[i]] = i  # Dernière occurrence du caractère
    return table

def boyer_moore(motif: str, texte: str) -> list:
    """
    Recherche le motif dans le texte avec l'algorithme de Boyer-Moore (heuristique mauvais caractère)
    """
    positions = []
    table = construire_table_mauvais_caractere(motif)
    n = len(texte)
    m = len(motif)
    i = 0

    while i <= n - m:
        j = m - 1
        while j >= 0 and motif[j] == texte[i + j]:
            j -= 1
        if j < 0:
            positions.append(i)
            i += m  # ou on pourrait utiliser la règle du suffixe ici
        else:
            decalage = j - table.get(texte[i + j], -1)
            i += max(1, decalage)
    return positions


### Exemples : 

#### Exemple du mauvais caractère:

Motif = "EXEMPLE"

Texte = "....ABEMPLE..."

On compare "EXEMPLE" à "ABEMPLE" et ça échoue au B ≠ E.

Le caractère fautif B n’est pas dans le motif → on peut sauter tout le motif → décalage = m

Si le caractère fautif est dans le motif, on décale pour que la dernière occurrence de ce caractère dans le motif s’aligne avec le caractère fautif dans le texte.

#### Exemple du bon suffixe :

Motif = "TATA"

Texte = "...TATTATA..."

Quand on compare "TATA" à "TATT", on trouve que le suffixe "TA" correspond mais T ≠ A au début.

→ On cherche le prochain endroit dans le motif où "TA" apparaît pour ne pas repartir de zéro.

In [4]:
NO_CAR = 256 # Initialisation on suppose qu'il y a 256 caractères (ASCII)
def recherche(txt, motif):
    m = len(motif) # Longueur du motif
    n = len(txt) # Longueur du texte
    tab_car = [-1]*NO_CAR 
    for i in range(m): 
        tab_car[ord(motif[i])] = i # Donne le code ASCII du carcatère ainsi que sa dernière position
    decalage = 0
    res = [] # Liste des positions où le motif a été trouvé
    while(decalage <= n-m): # Compare le motif de droite à gauche
        j = m-1
        while j>=0 and motif[j] == txt[decalage+j]:
            j = j - 1
        if j<0: # Caractères correspondent
            res.append(decalage)
            if decalage+m<n : # Calcule le décalage 
                decalage = decalage + m-tab_car[ord(txt[decalage+m])]
            else :
                decalage = decalage + 1
        else:
            decalage = decalage + max(1, j-tab_car[ord(txt[decalage+j])])
    return res

In [5]:
chaine ="CAATGTCTGCACCAAGACGCCGGCAGGTGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGAGAGATAGTGAAAGATGGCTGGGCTGTGAAGGGAAGGAGTCGTGAAAGCGCGAACACGAGTGTGCGCAAGCGCAGCGCCTTAGTATGCTCCAGTGTAGAAGCTCCGGCGTCCCGTCTAACCGTACGCTGTCCCCGGTACATGGAGCTAATAGGCTTTACTGCCCAATATGACCCCGCGCCGCGACAAAACAATAACAGTTT"
recherche(chaine,"TGTC")

[3, 220]