[Accueil](../../../index.ipynb) > [Sommaire de Terminale](../../index.ipynb)

# Recherche textuelle : l'algorithme de Boyer Moore

La recherche d'un **motif** (pattern en anglais) dans une chaîne de caractère a de nombreuses applications concrètes :

- moteur de recherche
- recherche de séquences d'ADN
- anti-spam
- interception de communications (Echelon)
- ...

Comment savoir si une chaîne de caractère possède tel **motif**?

Essayons tout d'abord avec le premier algorithme qui vient à l'esprit (algorithme naïf).

## Algorithme naïf

Le motif _roseraie_ est-il présent dans la chaîne de caractère suivante : _Cueillez dès aujourd’hui les roses de la vie_ ?

Une approche naïve est la suivante:

|C|u|e|i|l|l|e|z| |d|è|s| |a|u|j|o|u|r|d|’|h|u|i| |l|e|s| |r|o|s|e|s| |d|e| |l|a| |v|i|e|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|r|o|s|e|r|a|i|e| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

C et r sont différents on décale alors le mot _roseraie_

|C|u|e|i|l|l|e|z| |d|è|s| |a|u|j|o|u|r|d|’|h|u|i| |l|e|s| |r|o|s|e|s| |d|e| |l|a| |v|i|e|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| |r|o|s|e|r|a|i|e| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

u et r ne correspondent pas,

on décale jusqu'à obtenir la première correspondance
 
|C|u|e|i|l|l|e|z| |d|è|s| |a|u|j|o|u|r|d|’|h|u|i| |l|e|s| |r|o|s|e|s| |d|e| |l|a| |v|i|e|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | | | | | | | | | | | | | |**r**|o|s|e|r|a|i|e| | | | | | | | | | | | | | | | | | |

ici il y a bien correspondance entre _r_ et _r_, il faut donc comparer la lettre suivante. _d_ et _o_ ne correspondent pas, on continue le décalage...

|C|u|e|i|l|l|e|z| |d|è|s| |a|u|j|o|u|r|d|’|h|u|i| |l|e|s| |r|o|s|e|s| |d|e| |l|a| |v|i|e|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | |**r**|**o**|**s**|**e**|r|a|i|e| | | | | | | |

ici c'est le _s_ et le _r_ qui ne correspondent pas.

### Implémentation de l'algorithme naïf

Voici le pseudo code de l'Algorithme 

```
recherche_naive (Text, Pattern)
    mettre dans n la longueur de Text
    mettre dans m la longueur de Pattern
    initialiser le résultat à une liste vide
    Pour j = 0 à n − m
        i <- 0;
        Tant que (Text[j+i] = Pattern[i] et i < m)
            i := i + 1
        Fin Tant que
        Si i = m
            ajouter j dans le résultat
        Fin de Si
    Fin Pour
    Retourner le résultat
```
**Ajoutez** des *assert* afin de tester votre fonction.

Par exemple:
- recherche_mot("ATACGAGGGGGGGGGGGGGGGGGATAC", "ATAC") doit retourner [0, 23]
- recherche_mot("AAAAAAAAAAAAAAAAAAAAAAAAAAA", "TGTC") retourne []

**Implémentez** la fonction *search* qui prend en paramètre :
- le texte *text*;
- le motif *pattern*.

et qui retourne
- la liste des index de *text* pour lesquels il y a correspondance;


### Coût de cet algorithme.

On appelle $M$ la longeur du motif et $T$ la longeur du texte.

Dans le pire des cas on doit décaler $(T-M)$ fois, puis faire jusqu'à $M$ comparaisons.
On obtient donc un coût $(T-M)xM$ que l'on approximera à **$TxM$** car souvent $T>>M$.

Ainsi :

- plus le texte est grand plus le coût augmente, ce qui est normal
- plus le motif est long, plus le coût augmente.


Ajouter un compteur de nombre de comparaisons et retourner cette valeur dans les deux cas.

Nous allons étudier maintentant un algorithme beaucoup plus efficace.

## Algorithme de Boyer-Moore

Pourquoi faire un algorithme plus rapide?

A cause de la taille des données à traiter : par exemple en bioinformatique, la recherche de [transcriptome](https://fr.wikipedia.org/wiki/Transcriptome) (plusieurs Mo) dans le génome humain (plusieurs Go).

### Un peu d'histoire

Cet algorithme a été développé en 1977 par 

- Robert S. Boyer 

![Robert Boyer](img/rsb.jpg "Robert S. Boyer")

- J Strother Moore

![J Strother Moore](img/jsm.jpg "J Strother Moore")

tous deux informaticiens à l'université du Texas.

<div class="alert alert-info">
    Nous allons utiliser une version simplifiée de l'algorithme de Boyer-Moore. Il s'agit de l'algorithme de Horspool publié en 1980.
</div>

## Principe sur un exemple

Nous allons tout d'abord expliquer le principe de l'algorithme sur un exemple de séquence d'ADN.

L'ADN est composé d'une séquence de 4 bases azotées:

- Adénine (A)
- Cytosine (C)
- Guanine (G)
- Thymine (T)

Soit la séquence suivante : _CAATGTCTGCACCAAGACGCCGGCAGGTGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAG_

Le motif _CGGCAG_ est-il présent dans la chaîne ?

**Dans cet algorithme on regarde tout d'abord la dernière lettre du motif, puis on remonte vers la gauche.**

|C|A|A|T|G|T|C|T|G|C|A|C|C|A|A|G|A|C|G|C|C|G|G|C|A|G|G|T|G|C|A|G|A|C|C|T|T|C|G|T|T|A|T|A|G|G|C|G|A|T|G|A|T|T|T|C|G|A|A|C|C|T|A|C|T|A|G|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
|C|G|G|C|A|**G**| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

- Y a t-il correspondance ? -> NON
  - La lettre _T_ est-elle présente dans notre motif -> NON
    - On saute donc de la longeur du motif (saut maximal)
    
|C|A|A|T|G|T|C|T|G|C|A|C|C|A|A|G|A|C|G|C|C|G|G|C|A|G|G|T|G|C|A|G|A|C|C|T|T|C|G|T|T|A|T|A|G|G|C|G|A|T|G|A|T|T|T|C|G|A|A|C|C|T|A|C|T|A|G|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | |C|G|G|C|A|**G**| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

- Y a t-il correspondance ? -> NON
  - La lettre _C_ est-elle présente dans notre motif -> OUI
    - On saute donc de 2 pour les faire correspondre


|C|A|A|T|G|T|C|T|G|C|A|C|C|A|A|G|A|C|G|C|C|G|G|C|A|G|G|T|G|C|A|G|A|C|C|T|T|C|G|T|T|A|T|A|G|G|C|G|A|T|G|A|T|T|T|C|G|A|A|C|C|T|A|C|T|A|G|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | | | |C|G|G|C|A|**G**| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

- Y a t-il correspondance ? -> NON
  - La lettre _A_ est-elle présente dans notre motif -> OUI
    - On saute donc de 1 pour les faire correspondre


|C|A|A|T|G|T|C|T|G|C|A|C|C|A|A|G|A|C|G|C|C|G|G|C|A|G|G|T|G|C|A|G|A|C|C|T|T|C|G|T|T|A|T|A|G|G|C|G|A|T|G|A|T|T|T|C|G|A|A|C|C|T|A|C|T|A|G|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | | | | |C|G|G|C|A|**G**| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

- Y a t-il correspondance ? -> NON
  - La lettre _A_ est-elle présente dans notre motif -> OUI
    - On saute donc de 1 pour les faire correspondre

|C|A|A|T|G|T|C|T|G|C|A|C|C|A|A|G|A|C|G|C|C|G|G|C|A|G|G|T|G|C|A|G|A|C|C|T|T|C|G|T|T|A|T|A|G|G|C|G|A|T|G|A|T|T|T|C|G|A|A|C|C|T|A|C|T|A|G|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | | | | | |C|G|G|C|**A**|**G**| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

- Y a t-il correspondance ? -> OUI
  - On décale sur la gauche
  - Y a t-il correspondance ? -> OUI
    - On décale sur la gauche
    - Y a t-il correspondance ? -> NON
      - La lettre _A_ est-elle présente dans notre motif -> OUI
        - On saute de 1

|C|A|A|T|G|T|C|T|G|C|A|C|C|A|A|G|A|C|G|C|C|G|G|C|A|G|G|T|G|C|A|G|A|C|C|T|T|C|G|T|T|A|T|A|G|G|C|G|A|T|G|A|T|T|T|C|G|A|A|C|C|T|A|C|T|A|G|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | | | | | | |C|G|G|C|A|G| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

- Y a t-il correspondance ? -> NON
  - La lettre _A_ est-elle présente dans notre motif -> OUI
    - On saute donc de 1 pour les faire correspondre

|C|A|A|T|G|T|C|T|G|C|A|C|C|A|A|G|A|C|G|C|C|G|G|C|A|G|G|T|G|C|A|G|A|C|C|T|T|C|G|T|T|A|T|A|G|G|C|G|A|T|G|A|T|T|T|C|G|A|A|C|C|T|A|C|T|A|G|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | | | | | | | |C|G|G|C|A|G| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |


**etc etc...**

|C|A|A|T|G|T|C|T|G|C|A|C|C|A|A|G|A|C|G|C|C|G|G|C|A|G|G|T|G|C|A|G|A|C|C|T|T|C|G|T|T|A|T|A|G|G|C|G|A|T|G|A|T|T|T|C|G|A|A|C|C|T|A|C|T|A|G|
|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|-|
| | | | | | | | | | | | | | | | | | | | |**C**|**G**|**G**|**C**|**A**|**G**| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

- Y a t-il correspondance ? -> OUI
  - On décale à gauche
  - Y a t-il correspondance ? -> OUI
    - On décale à gauche
    - ...
    
**Le motif est donc présent dans notre chaîne.**

[voir l'algorithme animé](https://people.ok.ubc.ca/ylucet/DS/BoyerMoore.html)

- Entrer le texte (Text) : _CAATGTCTGCACCAAGACGCCGGCAGGTGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAG_
- Entrer le motif (pattern) : _CGGCAG_
- Cliquer sur _Search_
  

## Principe synthétique

- Prétaitement du motif : réalisation de la table de sauts
- On bouche jusqu'à la fin de la chaine
  - On boucle sur le motif en partant de la fin tant qu'il y a correspondance
    - Si on arrive à la fin du motif, le motif existe
    - Sinon, on regarde dans la table des sauts si la lettre est présente
      - Si la lettre est présente on effectue le saut correspondant
      - Sinon, on effectue le saut maximal
 
Voir https://en.wikipedia.org/wiki/Boyer%E2%80%93Moore%E2%80%93Horspool_algorithm

### Prétraitement du motif

Le but est d'obtenir l'écart minimal entre une lettre du motif et la fin du motif (la dernière lettre est omise)
Pourquoi minimal ? car la même lettre peut apparaitre plusieurs fois.

Ainsi pour notre exemple:CGGCAG

On doit obtenir

|C|G|A|
|-|-|-|
|2|3|1|

**Implémentation en python**

In [4]:
#Commencez par écrire des assert

def pretraitement(motif):
    """
    Retourne le dictionnaire des sauts pour les différentes lettres du motif (on exclu la dernière lettre)"""
    pass



<div class="alert alert-info">
    L'implémentation de l'algorithme de Horspool est quasi identique à celle de l'algorithme naïf sauf que l'on décale selon la table des sauts si le caractère est présent, de la longueur du motif sinon et que l'on parcourt le motif de droite à gauche.
</div>

In [4]:
def cherche_motif(text, pattern):
    """
    Cherche un motif dans un texte
    Retourne Vrai si le motif est trouvé, faux sinon
    """
    t = len(text)
    p = len(pattern)
    # On crée la table des sauts
    jumps = pretraitement(pattern)
    # Si le motif est plus long que le texte on retourne False
    if p > t:
        return False
    
    # On commence à l'indice de la dernière lettre du motif
    i = p-1
    while i<t:
        ################################################################
        # /!\ /!\ /!\ implémenter le reste /!\ /!\ /!\
        pass
        ################################################################
    
    return False

### vérification
motif = 'CGGCAG'
texte = 'CAATGTCTGCACCAAGACGCCGGCAGGTGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAG'

table = pretraitement('CGGCAG')
print(table)
print(cherche_motif(texte, motif))

{'C': 2, 'G': 3, 'A': 1}
False


## Amélioration de la fonction

Ajouter un paramètre *mode* à votre fonction qui vaut 0 par défaut:

- par défaut votre fonction retourne True ou False
- avec le mode=1, votre fonction retourne une liste contenant les index du texte où le début du mot a été trouvé (une liste vide si aucune occurrence)


## Coût de cet algorithme

Ici le coût est beaucoup plus complexe à définir mais dans notre exemple il est évident qu'il est bien moindre que l'algorithme naïf.

Pour s'en convaincre, ajoutez un compteur de comparaisons.

Qui plus est, plus le motif est long plus l'algorithme est efficace.

## Exemple concret

Le meilleur des mondes est disponibles ici: https://www.gutenberg.org/cache/epub/60656/pg60656.txt

Comptez le nombre d'occurrences de 
- 'invasion'
- 'compositeur'
- ' nsi '


## webographie

- [Eduscol](https://cache.media.eduscol.education.fr/file/NSI/63/5/RA20_NSI_G_T_boyer-moore_1298635.pdf)
- [Algorithme de Boyer-Moore : Wikipedia](https://fr.wikipedia.org/wiki/Algorithme_de_Boyer-Moore)
- [Algorithme de Boyer-Moore-Horspool : Wikipedia](https://fr.wikipedia.org/wiki/Algorithme_de_Boyer-Moore-Horspool)


[Accueil](../../../index.ipynb) > [Sommaire de Terminale](../../index.ipynb)