# Recherche textuelle

 Les algorithmes qui permettent de trouver une sous-chaine de caractères dans une chaine de caractères plus grande sont des "grands classiques" de l'algorithmique. On parle aussi de recherche d'un motif (sous-chaine) dans un texte. Voici un exemple :

Soit le texte suivant :

"Les sanglots longs des violons de l'automne blessent mon coeur d'une langueur monotone. Tout suffocant et blême, quand sonne l'heure, je me souviens des jours anciens et je pleure."

Question : le motif "vio" est-il présent dans le texte ci-dessus, si oui, en quelle(s) position(s) ? (la numérotation d'une chaine de caractères commence à zéro et les espaces sont considérés comme des caractères)

Réponse : on trouve le motif "vio" en position 23

Les algorithmes de recherche textuelle sont notamment utilisés en bioinformatique. 

## Bioinformatique

Comme son nom l'indique, la bioinformatique est issue de la rencontre de l'informatique et de la biologie : la récolte des données en biologie a connu une très forte augmentation ces 30 dernières années. Pour analyser cette grande quantité de données de manière efficace, les scientifiques ont de plus en plus recourt au traitement automatique de l'information, c'est-à-dire à l'informatique.

## Analyse de l'ADN

Comme vous le savez déjà, l'information génétique présente dans nos cellules est portée par les molécules d'ADN. Les molécules d'ADN sont, entre autres, composées de bases azotées ayant pour noms : Adénine (représenté par un A), Thymine (représenté par un T), Guanine (représenté par un G) et Cytosine (représenté par un C).

![image.png](attachment:image.png)

 L'information génétique est donc très souvent représentée par de très longues chaines de caractères, composées des caractères A, T, G et C. Exemple : CTATTCAGCAGTC...

Il est souvent nécessaire de détecter la présence de certains enchainements de bases azotées (dans la plupart des cas un triplet de bases azotées code pour 1 acide aminé et la combinaison d'acides aminés forme une protéine). Par exemple, on peut se poser la question suivante : trouve-t-on le triplet ACG dans le brin d'ADN suivant (et si oui, en quelle position ?): 

In [None]:
CAAGCGCACAAGACGCGGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGAGAGATAGTGAAAGATGGCTGGGCTGTGAAGGGAAGGAGTCGTGAAAGCGCGAACACGAGTGTGCGCAAGCGCAGCGCCTTAGTATGCTCCAGTGTAGAAGCTCCGGCGTCCCGTCTAACCGTACGCTGTCCCCGGTACATGGAGCTAATAGGCTTTACTGCCCAATATGACCCCGCGCCGCGACAAAACAATAACAGTTTGCTGTATGTTCCATGGTGGCCAATCCGTCTCTTTTCGACAGCACGGCCAATTCTCCTAGGAAGCCAGCTCAATTTCAACGAAGTCGGCTGTTGAACAGCGAGGTATGGCGTCGGTGGCTCTATTAGTGGTGAGCGAATTGAAATTCGGTGGCCTTACTTGTACCACAGCGATCCCTTCCCACCATTCTTATGCGTCGTCTGTTACCTGGCTTGGCAT

Nous allons commencer par le premier algorithme qui nous vient à l'esprit (on parle souvent d'algorithme "naïf") :

![nsi_term_algo_boyer_2.png](attachment:nsi_term_algo_boyer_2.png)


+ on place le motif recherché au même niveau que les 3 premiers caractères de notre chaine, le premier élément du motif ne correspond pas au premier élément de la chaine (A et C), on décale le motif d'un cran vers la droite.
+ le premier élément du motif correspond au premier élément de la chaine (A et A) mais pas le second (C et A), on décale d'un cran vers la droite
+ le premier élément du motif correspond au premier élément de la chaine (A et A) mais pas le second (C et G), on décale d'un cran vers la droite
+ le premier élément du motif ne correspond pas au premier élément de la chaine (A et G), on décale d'un cran vers la droite.
+ le premier élément du motif ne correspond pas au premier élément de la chaine (A et C), on décale d'un cran vers la droite.
+ ...... on continue le processus jusqu'au moment où les 3 éléments du motif correspondent avec les 3 éléments de la chaine situés au même niveau.


Cet algorithme naïf peut, selon les situations demander un très grand nombre de comparaisons, ce qui peut entraîner un très long temps de "calcul" avec des chaines très très longues. L'algorithme de Boyer-Moore permet de faire mieux en termes de comparaisons à effectuer 

## Algoritme de Boyer-Moore

 L'algorithme de Boyer-Moore se base sur les caractéristiques suivantes :

+ L'algorithme effectue un prétraitement du motif. Cela signifie que l'algorithme "connait" les caractères qui se trouvent dans le motif
+ on commence la comparaison motif-chaine par la droite du motif. Par exemple pour le motif CGGCAG, on compare d'abord le G, puis le A, puis C...on parcourt le motif de la droite vers la gauche
+ Dans la méthode naïve, les décalages du motif vers la droite se faisaient toujours d'un "cran" à la fois. L'intérêt de l'algorithme de Boyer-Moore, c'est qu'il permet, dans certaines situations, d'effectuer un décalage de plusieurs crans en une seule fois.

Examinons un exemple. Soit la chaine suivante : 

In [None]:
CAATGTCTGCACCAAGACGCCGGCAGGTGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGAGAGATAGTGAAAGATGGCTGGGCTGTGAAGGGAAGGAGTCGTGAAAGCGCGAACACGAGTGTGCGCAAGCGCAGCGCCTTAGTATGCTCCAGTGTAGAAGCTCCGGCGTCCCGTCTAACCGTACGCTGTCCCCGGTACATGGAGCTAATAGGCTTTACTGCCCAATATGACCCCGCGCCGCGACAAAACAATAACAGTTT

et le motif : CGGCAG

![nsi_term_algo_boyer_3.png](attachment:nsi_term_algo_boyer_3.png)

+ on commence la comparaison par la droite, G et T ne correspondent pas. Le prétraitement du motif nous permet de savoir qu'il n'y a pas de T dans ce dernier, on peut décaler le motif de 6 crans vers la droite.
+ G et C ne correspondent pas, en revanche, on trouve 2 C dans le motif. On effectue un décalage du motif de 2 crans vers la droite afin de faire correspondre le C de la chaine (encadré sur le schéma) et le C le plus à droite dans le motif.
+ G et A ne correspondent pas, il existe un A dans le motif, on effectue un décalage d'un cran.
+ G et A ne correspondent pas, il existe un A dans le motif, on effectue un décalage d'un cran.
+ G et G correspondent, A et A correspondent, mais C et A ne correspondent pas. À gauche du C, il n'y a plus de A, on peut donc effectuer un décalage de 4 crans.
+ G et C ne correspondent pas, on effectue un décalage de deux crans pour faire correspondre les C.
+ G et G correspondent, A et C ne correspondent pas, on effectue un décalage d'un cran
+ G et G correspondent, A et G ne correspondent pas, on effectue un décalage de 2 crans (faire correspondre les G)
+ G et A ne correspondent pas, on effectue un décalage d'un cran
+ toutes les lettres correspondent, on a trouvé le motif dans la chaine

In [7]:
from IPython.display import clear_output
import time

ADN="CAAGCGCACAAGACGCGGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGA"
motif="ACGCA"


def affiche_config(pos,point,etat):
    clear_output()
    for i in range(pos+point):
        print(" ",end="")
    print("!")
    for i in range(pos):
        print(" ",end="")
    print(motif)
    print(ADN)
    for i in range(pos+point):
        print(" ",end="")
    if etat:
        print("")
    else:
        print("X")
    print(pos)
    time.sleep(1)
        
def rechercheN(txt,motif):
    decalage=0
    ADN=list(txt)
    mot=list(motif)
    pointeur=0
    res=[]
    affiche_config(0,0,True)
    while (decalage<=(len(ADN)-len(motif))):
        if ADN[decalage+pointeur]==mot[pointeur]:
            affiche_config(decalage,pointeur,True)
            if pointeur==(len(mot)-1):
                res.append(decalage)      
                affiche_config(decalage,pointeur,True)
                decalage+=1
                pointeur=0
            else:
                pointeur+=1     
        else:
            affiche_config(decalage,pointeur,False)
            decalage+=1
            pointeur=0
    return(res)
            
a=rechercheN(ADN,motif)
print(a)        


                                                                              !
                                                                              ACGCA
CAAGCGCACAAGACGCGGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGA
                                                                              X
78
[]


### Question sur l'algorithme naif

ajouter, dans la fonction affiche_config(), la ligne de code nécessaire pour afficher le contenu de la variable decalage à chaque itération. (Attention, decalage est passé en paramètre !). 
+ Comment évolue le contenu de la variable decalage au cours de l'exécution du programme ?
+ A quoi correspond decalage ?
+ Remplacer le motif à rechercher par "ACGCA" puis exécuter le programme. L'évolution de decalage est-elle modifiée ?
+ A quoi correspond le point d'exclamation dans la représentation affichée ? Par quelle expression sa position est-elle calculée ?
+ A quelle situation correspond l'affichage de la lettre X sur la simulation ? Commenter la ligne de code qui permet cet affichage (dans l'algorithme, pas dans la fonction d'affichage) et préciser à quelle condition elle est exécutée.
+ à quoi correspond la variable res ? A quelle condition est-elle modififiée ? Commenter la ligne de code correspondant à cette modification.

In [6]:
NO_CAR = 256

def affiche_config_BM(pos,point,etat,m):
    clear_output()
    for i in range(pos+point):
        print(" ",end="")
    print("!")
    for i in range(pos):
        print(" ",end="")
    print(motif)
    print(ADN)
    for i in range(pos+point):
        print(" ",end="")
    if etat:
        print("")
    else:
        print("X")
    time.sleep(1)

def rechercheBM(txt, motif):
    m = len(motif)
    n = len(txt)
    tab_car = [-1]*NO_CAR
    for i in range(m):
        tab_car[ord(motif[i])] = i
    decalage = 0
    res = []
    
    while(decalage <= n-m):
        j = m-1
        affiche_config_BM(decalage,j,True,m)
        while j>=0 and motif[j] == txt[decalage+j]:
            j = j - 1
            affiche_config_BM(decalage,j,True,m)
        affiche_config_BM(decalage,j,False,m)
        if j<0:
            res.append(decalage)
            if decalage+m<n :
                decalage = decalage + m-tab_car[ord(txt[decalage+m])]
            else :
                decalage = decalage + 1
        else:
            decalage = decalage + max(1, j-tab_car[ord(txt[decalage+j])])
        
    return res

a=rechercheBM(ADN,motif)
print(a)

                                                                                 !
                                                                              ACGCA
CAAGCGCACAAGACGCGGCAGACCTTCGTTATAGGCGATGATTTCGAACCTACTAGTGGGTCTCTTAGGCCGAGCGGTTCCGA
                                                                                 X
[]


ajouter, dans la fonction affiche_config_BM(), la ligne de code nécessaire pour afficher le contenu de la variable decalage à chaque itération. (Attention, decalage est passé en paramètre !). 
+ Comment évolue le contenu de la variable decalage au cours de l'exécution du programme ?
+ A quoi correspond decalage ?
+ Remplacer le motif à rechercher par "ACGCA" puis exécuter le programme. L'évolution de decalage est-elle modifiée ?
+ Quelle est la plus grande variation de decalage au cours d'une itération?
+ Quelle(s) variable(s) permet(tent) de calculer la position du point d'exclamation  ?
+ Commenter les deux lignes de code qui font évoluer le point d'exclamation dans le sens inverse de celui observé dans l'algorithme naif. Quelles sont les 2 situations possibles après l'exécution de ces deux lignes de code?
+ à quoi correspond la variable res ? A quelle condition est-elle modififiée ? Commenter la ligne de code correspondant à cette modification.

In [8]:
La variable decalage s'incrémente de un à chaque fois qu'une boucle est éffectué.
Le décalage correspond à l'indice de la chaîne de charactères analysé
Non car il y a toujours autant de terme dans la chaîne de charactères analysé
La plus grande variation de decalage est de 78
Les variables decalage et m permettent de calculer la position du point d'exclamation
la variable res correspond à l'affichage, elle modifié à chaque boucle

SyntaxError: invalid syntax (174690820.py, line 1)