# TD - Recherche textuelle

## Introduction

La plupart des applications comme celle sur laquelle vous lisez ces lignes, possèdent une fonction de recherche textuelle.

En général pour y accéder on utilise la combinaison de touches CTRL + F

Il est légitime en NSI de se demander comment cela fonctionne...

L'objectif de ce TD est de construire des algorithmes de recherche textuelle, d'en comprendre les principes et de les comparer...

Nous étudierons plus particulièrement l'algorithme de **Boyer-Moore**.

Tout comme la plupart des applications, Python possède sa propre méthode de recherche, ce script affiche la présence ou non d'une occurrence (mot) dans un texte (phrase) : 

In [18]:
phrase="Ceci n'est que la phrase qui nous sert d'exemple"
mot1="qui"
mot2="quiche"

print(mot1 in phrase)
print(mot2 in phrase)

True
False


Là encore, on peut se demander comment cela fonctionne...

## Une approche "naïve"

Les chaînes de caractères font parties des séquences, c'est à dire que chaque caractère est atteignable par son indice dans la chaîne.

Par exemple :

In [19]:
# affiche le 3ème caractère de la chaîne
print(phrase[2])
# affiche le dernier
print(phrase[-1])
# affiche la longueur de la chaîne 
print(len(phrase))

c
e
48


Pour savoir si un mot est dans une phrase, la méthode qui nous vient à l'esprit est la suivante:

On parcourt le texte d'indice en indice depuis le début du texte en vérifiant à chaque pas si les lettres du mot coïncident.


<pre>                      
x
Ceci n'est que la phrase qui nous sert d'exemple
qui

 x
Ceci n'est que la phrase qui nous sert d'exemple
 qui
 
  x
Ceci n'est que la phrase qui nous sert d'exemple
  qui
  
  ...
           oox
Ceci n'est que la phrase qui nous sert d'exemple
           qui
  ...

                         ooo
Ceci n'est que la phrase qui nous sert d'exemple
                         qui

</pre>

Fin de la recherche.


Voici une fonction qui renvoie si une occurrence est trouvée dans une phrase à partir d'un indice i.


In [20]:
def occurrence(mot,texte,i):
    """Vérifie si une sous-chaîne apparaît en position i dans une chaîne."""
    m = len(mot)
    p = 0
    while p < m and mot[p] == texte[i + p]:
        p += 1
    return p == m

In [21]:
occurrence("mot","ceci est un mot dans une phrase",1)

False

In [22]:
occurrence("mot","ceci est un mot dans une phrase",12)

True

### À faire 1 : 

*  Vérifier que occurrence(mot1, phrase, 2) renvoie Faux.

*  Pour quelle valeur de i occurrence(mot1, phrase, i) renvoie Vrai ?

***(double-cliquer dans la cellule pour ajouter vos réponses)***

### À faire 2 : 

* Écrire une fonction recherche qui prend en paramètres un mot et un texte et qui renvoie l'indice où apparaît le mot dans le texte et "occurrence non trouvée" si le mot n'est pas dans le texte. (On utilisera la fonction occurrence donnée plus haut)

* Appliquer cette fonction à la phrase2, qui représente une séquence d'un brin d'ADN, avec l'occurrence 'ACG'.(La fonction doit renvoyer 12)


In [23]:
phrase2="CAAGCGCACAAGACGCGGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGAGAGATAGTGAAAGATGGCTGGGCTGTGAAGGGAAGGAGTCGTGAAAGCGCGAACACGAGTGTGCGCAAGCGCAGCGCCTTAGTATGCTCCAGTGTAGAAGCTCCGGCGTCCCGTCTAACCGTACGCTGTCCCCGGTACATGGAGCTAATAGGCTTTACTGCCCAATATGACCCCGCGCCGCGACAAAACAATAACAGTTTGCTGTATGTTCCATGGTGGCCAATCCGTCTCTTTTCGACAGCACGGCCAATTCTCCTAGGAAGCCAGCTCAATTTCAACGAAGTCGGCTGTTGAACAGCGAGGTATGGCGTCGGTGGCTCTATTAGTGGTGAGCGAATTGAAATTCGGTGGCCTTACTTGTACCACAGCGATCCCTTCCCACCATTCTTATGCGTCGTCTGTTACCTGGCTTGGCAT"
mot3="ACG"
def recherche(mot,texte):
    for i in range(len(texte)-len(mot)+1):
        if occurrence(mot,texte,i):
            return i,True
    return False

In [24]:
recherche(mot3,phrase2)

(12, True)

### À faire 3 : 

Modifier la fonction recherche(en recherches...) pour que cette fois-ci elle renvoie la liste des indices où apparaît le mot dans le texte.

Pour phrase2 et mot3, vous devez obtenir : [12, 137, 205, 325, 360], ce qui signifie que le mot 'ACG' apparaît 5 fois. (aux indices indiqués dans la liste)

In [25]:
phrase2="CAAGCGCACAAGACGCGGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGAGAGATAGTGAAAGATGGCTGGGCTGTGAAGGGAAGGAGTCGTGAAAGCGCGAACACGAGTGTGCGCAAGCGCAGCGCCTTAGTATGCTCCAGTGTAGAAGCTCCGGCGTCCCGTCTAACCGTACGCTGTCCCCGGTACATGGAGCTAATAGGCTTTACTGCCCAATATGACCCCGCGCCGCGACAAAACAATAACAGTTTGCTGTATGTTCCATGGTGGCCAATCCGTCTCTTTTCGACAGCACGGCCAATTCTCCTAGGAAGCCAGCTCAATTTCAACGAAGTCGGCTGTTGAACAGCGAGGTATGGCGTCGGTGGCTCTATTAGTGGTGAGCGAATTGAAATTCGGTGGCCTTACTTGTACCACAGCGATCCCTTCCCACCATTCTTATGCGTCGTCTGTTACCTGGCTTGGCAT"
mot3="ACG"
def recherches(mot,texte):
    nb=0
    l=[]
    for i in range(len(texte)-len(mot)+1):
        if occurrence(mot,texte,i):
            nb+=1
            l.append(i)
    return l
    

In [26]:
recherche(mot3,phrase2)

(12, True)

### Avec un texte un peu plus long

Le fichier vh.txt contient le premier tome des misérables de Victor Hugo.

*Ce fichier est déjà chargé dans ce notebook.*

Le code ci-dessous mesure en seconde le temps d'exécution de 5 appels de la fonction recherches(mot,texte), pour le mot 'Valjean' et le texte 'tome1'.


### À faire 4 :

* Que signifie le 196  affiché ?

In [27]:
from timeit import default_timer as timer
with open('vh.txt','r') as vh:
    tome1 = vh.read()

d=timer()
for i in range(5):
    print(len(recherches('Valjean',tome1)))   
f=timer()
print(f-d)

196
196
196
196
196
4.754199999999997


## L'algorithme de Boyer - Moore - Horspool

Dans la méthode naïve, à chaque étape on se décale d'un cran vers la droite. C'est en "jouant" sur ce décalage que l'on peut améliorer la méthode.

Le principe de l'algorithme :

Soit à rechercher l'occurence CGGCTG dans la séquence ATAACAGGAGTAAATAACGGCTGGAGTAAATA.
 
On aligne et on **teste l'occurrence par la droite**:

<pre>
     x
CGGCT<font color=red>G</font>
ATAAC<font color=red>A</font>GGAGTAAATAACGGCTGGAGTAAATA
</pre>
Comme G et A ne correspondent pas et qu'il n'y a pas de A dans l'occurrence on décale l'occurence de 6 rangs( la longueur de l'occurence).

<pre>
           x
      CGGCT<font color=red>G</font>
ATAACAGGAGT<font color=red>A</font>AATAACGGCTGGAGTAAATA
</pre>

On est dans une situation similaire, et en deux étapes on obtient ce que la méthode naïve aurait fait en 12 étapes!


<pre>
                 x
            CGG<font color=red>C</font>T<font color=red>G</font>
ATAACAGGAGTAAATAA<font color=red>C</font>GGCTGGAGTAAATA
</pre>
Dans cette situation, le G et le C ne correspondent pas mais il y a un C dans l'occurrence, on décalera donc l'occurrence de 2 rangs (place du premier C depuis la fin de l'occurrence) 

On obtient donc :
<pre>
                  xo
              CGGC<font color=red>T</font><font color=green>G</font>
ATAACAGGAGTAAATAAC<font color=red>G</font><font color=green>G</font>CTGGAGTAAATA
</pre>
Cette fois-ci les G correspondent puis T et G ne correspondent pas, or il y a un G(avant le T) dans l'occurrence.

On décale donc de 3 rangs.

On obtient donc:



<pre>
                 oooooo
                 <font color=green>CGGCTG</font>
ATAACAGGAGTAAATAA<font color=green>CGGCTG</font>GAGTAAATA
</pre>
On trouve une correspondance complète.

Pour continuer la recherche il suffit de la relancer un rang plus loin...

En appliquant à chaque étape un décalage adapté, on accélère grandement le processus.

## Une première fonction

### À faire 4 :

* Que fait la fonction ci-dessous 
* Expliquer la valeur de de la clé 'a'

In [28]:
def dico(mot):
    dico={}
    m=len(mot)
    for i in range(m-1):
        dico[mot[i]]=m-1-i
    return dico

dico("Valjean")

{'V': 6, 'a': 1, 'l': 4, 'j': 3, 'e': 2}

Votre explication : prè calcul du décalage

## L'algorithme

Voici un algorithme qui réalise le processus décrit plus haut :

fonction boyer_moore(mot,texte):
* N $\longleftarrow$ longueur du texte
* n $\longleftarrow$longueur du mot
* positions $\longleftarrow$ [ ]
* decalages $\longleftarrow$ dico(mot)
* i $\longleftarrow$ n-1 (on commence à la fin du mot)
* Tant que i $<$ N:
  * lettre $\longleftarrow$ texte[i]
  * Si lettre = mot[-1] (correspondance des dernières lettres)
      * Si texte[i-n+1 : i+1] = mot ( s'il s'agit du mot)
          * positions $\longleftarrow$ i - n + 1 
  * Si lettre est une clé du dictionnaire decalages
      * i $\longleftarrow$ i + decalages[lettre]
  * Sinon
      * On décale i de la longueur du mot
       
* Renvoyer positions
       


### À faire 5 :

* Implémenter cette fonction en commentant les différentes parties.
* Appliquer le sur le texte de Victor Hugo avec le mot 'Valjean' pour vérifier son bon fonctionnement.
* Vérifier que la liste positions contient bien les positions du mot
* Faire afficher le temps d'exécution de 5 appels de la fonction boyer_moore. 
* Qu'en déduisez - vous ?



In [36]:
def boyer_moore (mot, texte):
    N=len(texte)
    n=len(mot)
    position=[]
    decalages=dico(mot)
    i=n-1
    while i<N:
        lettre=texte[i]
        if lettre==mot[-1]:
            if texte[i-n+1:i+1]==mot:
                position.append(i-n+1)
        if lettre in decalages:
            i=i+decalages[lettre]
        else:
            i=i+n
    return position
            
            
    
    
    

In [30]:
from timeit import default_timer as timer
with open('vh.txt','r') as vh:
    tome1 = vh.read()

d=timer()
for i in range(5):
    print(len(boyer_moore('Valjean',tome1)))   
f=timer()
print(f-d)

196
196
196
196
196
0.6437999989999952


 ### À faire 6 :
 
 
 * Reprendre la comparaison avec la recherche de l'occurence
     * 'Fantine'
     * 'Javert'
     * 'c’était le cierge à côté de la chandelle'
     * 'Marius'
     * 'e'

In [31]:
from timeit import default_timer as timer
with open('vh.txt','r') as vh:
    tome1 = vh.read()

d=timer()
for i in range(5):
    print(len(boyer_moore('Fantine',tome1)))   
f=timer()
print(f-d)
print("-------------------------")
for i in range(5):
    print(len(recherches('Fantine',tome1)))   
f=timer()
print(f-d)

189
189
189
189
189
0.5475000000000136
-------------------------
189
189
189
189
189
4.9524000000000115


In [32]:
from timeit import default_timer as timer
with open('vh.txt','r') as vh:
    tome1 = vh.read()

d=timer()
for i in range(5):
    print(len(boyer_moore('Javert',tome1)))   
f=timer()
print(f-d)
print("-------------------------")
for i in range(5):
    print(len(recherches('Javert',tome1)))   
f=timer()
print(f-d)

175
175
175
175
175
0.5198999999999927
-------------------------
175
175
175
175
175
4.977000000000004


In [33]:
from timeit import default_timer as timer
with open('vh.txt','r') as vh:
    tome1 = vh.read()

d=timer()
for i in range(5):
    print(len(boyer_moore('c’était le cierge à côté de la chandelle',tome1)))   
f=timer()
print(f-d)
print("-------------------------")
for i in range(5):
    print(len(recherches('c’était le cierge à côté de la chandelle',tome1)))   
f=timer()
print(f-d)

0
0
0
0
0
0.15319999999999823
-------------------------
0
0
0
0
0
4.5452999999999975


In [34]:
from timeit import default_timer as timer
with open('vh.txt','r') as vh:
    tome1 = vh.read()

d=timer()
for i in range(5):
    print(len(boyer_moore('Marius',tome1)))   
f=timer()
print(f-d)
print("-------------------------")
for i in range(5):
    print(len(recherches('Marius',tome1)))   
f=timer()
print(f-d)

0
0
0
0
0
0.5090999999999894
-------------------------
0
0
0
0
0
4.800799999999981


In [35]:
from timeit import default_timer as timer
with open('vh.txt','r') as vh:
    tome1 = vh.read()

d=timer()
for i in range(5):
    print(len(boyer_moore('e',tome1)))   
f=timer()
print(f-d)
print("-------------------------")
for i in range(5):
    print(len(recherches('e',tome1)))   
f=timer()
print(f-d)

76135
76135
76135
76135
76135
2.887599999999992
-------------------------
76135
76135
76135
76135
76135
7.623999999999995


# Conclusion

L’algorithme de Boyer-Moore fut inventé en 1977. Il peut être encore amélioré avec plusieurs
tables de saut, chacune correspondant au saut possible en fonction du caractère testé dans la
clé. Cet ajout de table présente un intérêt pour les recherches avec une clé de taille
importante.