# TD - Recherche textuelle



### Nom : 

## Introduction

La plupart des applications comme celle sur laquelle vous lisez ces lignes, possèdent une fonction de recherche textuelle.

En général pour y accèder on utilise la combinaison de touches CTRL + F

Il est légitime en NSI de se demander comment cela fonctionne...

L'objectif de ce TD est de construire des algorithmes de recherche textuelle, d'en comprendre les principes et de les comparer...

Nous étudierons plus particulièrement l'algorithme de **Boyer-Moore**.

Tout comme la plupart des applications, Python possède sa propre méthode de recherche, ce script affiche la présence ou non d'une occurence (mot) dans un texte (phrase) : 

In [None]:
phrase="Ceci n'est que la phrase qui nous sert d'exemple"
mot1="qui"
mot2="quiche"

print(mot1 in phrase)
print(mot2 in phrase)

Là encore, on peut se demander comment cela fonctionne...

## Une approche "naïve"

Les chaînes de caractères font parties des séquences, c'est à dire que chaque caractère est atteignable par son indice dans la chaîne.

Par exemple :

In [None]:
# affiche le 3ème caractère de la chaîne
print(phrase[2])
# affiche le dernier
print(phrase[-1])
# affiche la longueur de la chaîne 
print(len(phrase))

Pour savoir si un mot est dans une phrase, la méthode qui nous vient à l'esprit est la suivante:

On parcourt le texte d'indice en indice depuis le début du texte en vérifiant à chaque pas si les lettres du mot coïncident.


<pre>                      
x
Ceci n'est que la phrase qui nous sert d'exemple
qui

 x
Ceci n'est que la phrase qui nous sert d'exemple
 qui
 
  x
Ceci n'est que la phrase qui nous sert d'exemple
  qui
  
  ...
           oox
Ceci n'est que la phrase qui nous sert d'exemple
           qui
  ...

                         ooo
Ceci n'est que la phrase qui nous sert d'exemple
                         qui

</pre>

Fin de la recherche.


Voici une fonction qui renvoie si une occurence est trouvée dans une phrase à partir d'un indice i.


In [None]:
def occurence(mot,texte,i):
    """Vérifie si une sous-chaîne apparaît en position i dans une chaîne."""
    m = len(mot)
    p = 0
    while p < m and mot[p] == texte[i + p]:
        p += 1
    return p == m


### À faire 1 : 

*  Vérifier que occurence(mot1, phrase, 2) renvoie Faux.

*  Pour quelle valeur de i occurence(mot1, phrase, i) renvoie Vrai ?

***(double-cliquer dans la cellule pour ajouter vos réponses)***

### À faire 2 : 

* Écrire une fonction recherche qui prend en paramètres un mot et un texte et qui renvoie l'indice où apparaît le mot dans le texte et "occurence non trouvée" si le mot n'est pas dans le texte. (On utilisera la fonction occurence donnée plus haut)

* Appliquer cette fonction à la phrase2, qui représente une séquence d'un brin d'ADN, avec l'occurence 'CGGCAG'.(La fonction doit renvoyer 12)


In [None]:
phrase2="CAAGCGCACAAGACGCGGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGAGAGATAGTGAAAGATGGCTGGGCTGTGAAGGGAAGGAGTCGTGAAAGCGCGAACACGAGTGTGCGCAAGCGCAGCGCCTTAGTATGCTCCAGTGTAGAAGCTCCGGCGTCCCGTCTAACCGTACGCTGTCCCCGGTACATGGAGCTAATAGGCTTTACTGCCCAATATGACCCCGCGCCGCGACAAAACAATAACAGTTTGCTGTATGTTCCATGGTGGCCAATCCGTCTCTTTTCGACAGCACGGCCAATTCTCCTAGGAAGCCAGCTCAATTTCAACGAAGTCGGCTGTTGAACAGCGAGGTATGGCGTCGGTGGCTCTATTAGTGGTGAGCGAATTGAAATTCGGTGGCCTTACTTGTACCACAGCGATCCCTTCCCACCATTCTTATGCGTCGTCTGTTACCTGGCTTGGCAT"
mot3="ACG"
def recherche(mot,texte):
    

### À faire 3 : 

Modifier la fonction recherche(en recherches...) pour que cette fois-ci elle renvoie la liste des indices où apparaît le mot dans le texte.

Pour phrase2 et mot3, vous devez obtenir : [12, 137, 205, 325, 360], ce qui signifie que le mot 'ACG' apparaît 5 fois. (aux indices indiqués dans la liste)

In [None]:
def recherches(mot,texte):
    

### Avec un texte un peu plus long

Le fichier vh.txt contient le premier tome des misérables de Victor Hugo.

*Il faut le placer dans le même dossier que ce notebook.*

Le code ci-dessous mesure en seconde le temps d'exécution de 5 appels de la fonction recherches(mot,texte), pour le mot 'Valjean' et le texte 'tome1'.

Vous devriez trouver une valeur entre 1,10 et 1,13 ...

### À faire 4 :

* Que signifie le 196  affiché ?

In [None]:
from timeit import default_timer as timer
with open('vh.txt','r') as vh:
    tome1 = vh.read()

d=timer()
for i in range(5):
    print(len(recherches('Valjean',tome1)))   
f=timer()
print(f-d)

## L'algorithme de Boyer - Moore

Dans la méthode naïve, à chaque étape on se décale d'un cran vers la droite. C'est en "jouant" sur ce décalage que l'on peut améliorer la méthode.

Le principe de l'algorithme de Boyer-Moore:

Soit à rechercher l'occurence CGGCTG dans la séquence ATAACAGGAGTAAATAACGGCTGGAGTAAATA.
 
On aligne et on **teste l'occurence par la droite**:

<pre>
     x
CGGCTG
ATAACAGGAGTAAATAACGGCTGGAGTAAATA
</pre>
Comme G et A ne correspondent pas et qu'il n'y a pas de A dans l'occurence on décale l'occurence de 6 rangs( la longueur de l'occurence).

<pre>
           x
      CGGCTG
ATAACAGGAGTAAATAACGGCTGGAGTAAATA
</pre>

On est dans une situation similaire, et en deux étapes on obtient ce que la méthode naïve aurait fait en 12 étapes!


<pre>
                 x
            CGGCTG
ATAACAGGAGTAAATAACGGCTGGAGTAAATA
</pre>
Dans cette situation, le G et le C ne correspondent pas mais il y a un C dans l'occurence, on décalera donc l'occurence de 2 rangs (place du premier C depuis la fin de l'occurence) 

On obtient donc :
<pre>
                  xo
              CGGCTG
ATAACAGGAGTAAATAACGGCTGGAGTAAATA
</pre>
Cette fois-ci les G correspondent puis T et G ne correspondent pas, or il y a un G(avant le T) dans l'occurence.

On décale donc de 3 rangs.

On obtient donc:
<pre>
                 oooooo
                 CGGCTG
ATAACAGGAGTAAATAACGGCTGGAGTAAATA
</pre>
On trouve une correspondance complète.

Pour continuer la recherche il suffit de la relancer un rang plus loin...

En appliquant à chaque étape un décalage adapté, on accélère grandement le processus.

## Une première fonction

### À faire 4 :

* Que fait la fonction ci-dessous 
* Expliquer la valeur de de la clé 'a'

In [None]:
def dico(mot):
    dico={}
    m=len(mot)
    for i in range(m-1):
        dico[mot[i]]=m-1-i
    return dico

dico("Valjean")

Votre explication :

## L'algorithme

Voici l'algorithme qui réalise le processus décrit plus haut :

fonction boyer_moore(mot,texte):
* n $\longleftarrow$ longueur du texte
* m $\longleftarrow$longueur du mot
* positions $\longleftarrow$ [ ]
* decalage $\longleftarrow$ dico(mot)
* i $\longleftarrow$ 0
* Tant que i $\leq$ n - m:
  * Pour j allant de m - 1 à 0 par pas de (-1) :
      * Si texte[ i + j ] $\neq$ mot[ j ]:
          * Si texte[ i + j ] est une clé de decalage et que sa valeur est inférieure à j :
              * i $\longleftarrow$ i + decalage[ i + j ]
          * Sinon :
              * i $\longleftarrow$ i + j + 1
          * trouve $\longleftarrow$ False
          * break
          
      * Sinon :
          * trouve $\longleftarrow$ True
           
   * Si trouve est vrai :
       * on ajoute i à positions
       * i $\longleftarrow$ i + 1
       
* renvoyer positions
       


### À faire 5 :

* Implémenter cette fonction en commentant les différentes parties.
* Appliquer le sur le texte de Victor Hugo avec le mot 'Valjean' pour vérifier son bon fonctionnement.
* Faire afficher le temps d'exécution de 5 appels de la fonction boyer_moore. 
* Qu'en déduisez - vous ?



In [None]:
# votre programme
def boyer_moore (mot, texte):
    

 ### À faire 6 :
 
 * Reprendre la comparaison avec la recherche de l'occurence 'e'

In [None]:
# la recherche de 'e'

# Conclusion

L’algorithme de Boyer-Moore fut inventé en 1977. Il peut être encore amélioré avec plusieurs
tables de saut, chacune correspondant au saut possible en fonction du caractère testé dans la
clé. Cet ajout de table présente un intérêt pour les recherches avec une clé de taille
importante.