# TP informatique : application de l'algorithme de Boyer-Moore pour prédire la maladie de Huntington
## 1. Algorithme de Boyer-Moore
Voici pour rappel l'algorithme de **Boyer-Moore 1** qui transmet le premier rang à partir duquel le *motif* apparaît dans le *texte* (s'il est est présent dans le texte).

In [None]:
# Programme Boyer-Moore 1
def table(motif) :
    p=len(motif)
    tab=[{ } for l in range(p)]
    for j in range(p) :
        for k in range(j) :
            tab[j][motif[k]]=k
    return tab

def decalage(tab,j,lettre):
    if lettre in tab[j]:
        return j-tab[j][lettre]
    else:
        return j+1

def rechercheBM(motif,texte):
    tab=table(motif)
    p=len(motif)
    n=len(texte)
    i=0
    while i+p<=n:
        d=0
        for j in range(p-1,-1,-1):
            if texte[i+j]!=motif[j]:
                d=decalage(tab,j,texte[i+j])
                break # l'instruction break fait stopper l'exécution de la boucle for
        if d==0:
            return "le motif est présent en la position",i
        i=i+d
    return "Le motif n'est pas présent dans le brin d'adn"

print(rechercheBM("cgt","acgtgccacgtacgt"))

 <span style='color:blue'>**Question 1**</span> :
 exécuter le programme **Boyer-Moore 1** précédent, et expliquer dans la cellule texte suivante le résultat obtenu.

Compléter les lignes 29 et 30 du programme suivant pour qu'il renvoie cette fois-ci le nombre de fois qu'apparaît le motif **"cgt"** dans le texte **"acgtgccacgtacgt"** ainsi que les rangs associés. Plus précisément la ligne 34 (  **print(rechercheBM("cgt","acgtgccacgtacgt"))**  ) du programme **Boyer-Moore 2** devra afficher : **(3, [1, 8, 12])**.


In [None]:
# Programme Boyer-Moore 2
def table(motif) :
    p=len(motif)
    tab=[{ } for l in range(p)]
    for j in range(p) :
        for k in range(j) :
            tab[j][motif[k]]=k
    return tab

def decalage(tab,j,lettre):
    if lettre in tab[j]:
        return j-tab[j][lettre]
    else:
        return j+1

def rechercheBM(motif,texte):
    tab=table(motif)
    p=len(motif)
    n=len(texte)
    pos=[]
    i=0
    while i+p<=n:
        d=0
        for j in range(p-1,-1,-1):
            if texte[i+j]!=motif[j]:
                d=decalage(tab,j,texte[i+j])
                break # l'instruction break fait stopper l'exécution de la boucle for
        if d==0:
            pos=pos+...
            ...
        i=i+d
    return len(pos),pos

print(rechercheBM("cgt","acgtgccacgtacgt"))

 <span style='color:blue'>**Question 2**</span> :
que signifie d'ailleurs l'affichage : (3, [1, 8, 12]) ?

## 2. Application du programme précédent à la maladie de Huntington
### a) Quelques explications sur la transmission de la maladie
"*La transmission de la maladie de Huntington, maladie génétique, dépend d'informations “codées chimiquement” dans une substance appelée “acide déoxyribonucléique” ou ADN, dont sont constitués les gènes.*

*Les molécules d'ADN sont formées de chaînes de quatre éléments appelés bases, à savoir A (adédine), T (thymine), G (guanine) et C (cytosine).*

*La séquence des bases constitue un code déterminant le type de protéine produit par le gène et toute modification de cette séquence peut affecter le fonctionnement de la protéine codée.*

*La maladie de Huntington est due à une anomalie (mutation) d'un gène, appelé IT15 (ou gène Huntington), lequel, situé sur le chromosome 4, code pour une protéine, la huntingtine, dont les fonctions physiologiques sont encore mal connues mais on sait que cette protéine joue un rôle important dans le développement et la survie neuronale.*

*A l’état normal, cette protéine contient des répétitions d’un acide aminé, la glutamine ; répétitions CAG dont le nombre est inférieur ou égal à 26.*

*La mutation consiste en une expansion anormale d’une répétition de triplets CAG (codon correspondant à la glutamine) et rend toxique la protéine huntingtine mutée.*

*Ainsi, lorsqu'une personne a un gène huntingtin contenant un nombre de répétitions CAG supérieur ou égal à 40, celle-ci développera la maladie au cours de sa vie, et chacun de ses enfants aura un risque de 50% d'hériter du gène muté.
Entre 27 (inclus) et 39 (inclus) répétitions CAG, on parle de zone grise.*

***Qu'est-ce que la "zone grise" ?***

*La signification clinique des résultats d'un test devient plus compliquée lorsque le gène huntingtin a un nombre de répétitions CAG compris entre 27 (inclus) et 39 (inclus) ; zone souvent décrite comme étant « la zone grise ».*

*-Les allèles « intermédiaires » (de 27 à 35 répétitions CAG) :*

*Lorsqu'un individu possède un « allèle intermédiaire » - une copie du gène ayant un nombre de répétitions CAG compris entre 27 (inclus) et 35 (inclus) - il ne sera pas affecté par la maladie mais il présente un risque de transmettre un nombre plus important de répétitions à ses enfants.*

*-Les allèles « à pénétrance réduite » (de 36 à 39 répétitions CAG):*

*Parmi les personnes ayant un gène huntingtin contenant un nombre de répétitions compris entre 36 (inclus) et 39 (inclus) – « pénétrance réduite » - certaines développeront la maladie, d'autres non.*

*Malheureusement, il est impossible de prédire quelle personne avec un gène à « pénétrance réduite » développera ou non la maladie.*

*Si des symptômes se manifestent, ils ont tendance à apparaître plus tard dans la vie et sont généralement moins sévères*".

[Lien vers le site](https://www.huntington-inforum.fr/index.php/la-maladie-de-huntington/24-transmission-diagnostic/8-la-transmission-le-diagnostic)

### b) Lecture de gènes humains Huntington au format str
Dans le dossier **tp_boyer_moore** qui se trouve sur la plateforme Github, vous trouverez trois fichiers **sujet1.txt**, **sujet2.txt**, **sujet3.txt** et **sujet4.txt** qui correspondent à quatre gènes Huntington IT15 de quatre humains (ou sujets), **sujet1**, **sujet2**, **sujet3** et **sujet4**. Voici par exemple le contenu du fichier **sujet1.txt** ouvert avec le Bloc-Notes :

![image1](image1.png)

Source des séquences ADN des gènes : 
[Lien vers le site](http://acces.ens-lyon.fr/acces/thematiques/evolution/logiciels/anagene/telechargement-enseignants-maj-2018)


 <span style='color:blue'>**Question 3**</span> :
Tester le programme **Ouvrir** suivant, et expliquer son fonctionnement dans la cellule texte qui se trouve en dessous du programme **Ouvrir**. On précisera bien le rôle du slice **line[0:-1]**.

In [None]:
# Programme Ouvrir
file = open("sujet1.txt", "r")
lines = file.readlines()
file.close()
texte=""
for line in lines:
    texte=texte+line[0:-1]
print(texte)

Donner la réponse à la question 3, dans la cellule texte ci-après.

### c) Utilisation du programme de Boyer-Moore
 <span style='color:blue'>**Question 4**</span> :
en utilisant les programmes **Boyer-Moore 2** et **Ouvrir**, écrire en dessous le programme de **Boyer-Moore 3** qui vous permettra de dire quels sont les personnes parmi les sujets 1 à 4 qui seront successibles de contracter la maladie de Huntington dans les années à venir.

In [None]:
# Boyer-Moore 3
...

Donner la réponse à la question 4, dans la cellule texte ci-après.

## 3) Aspect historique, et mise en perspective
### a) Qui sont Boyer et Moore ?
Robert Stephen Boyer et J Strother Moore (La lettre J est son prénom et n'est pas une abréviation) ont inventé l'algorithme de recherche de chaînes de Boyer–Moore, un algorithme de recherche de chaînes particulièrement efficace, en 1977.


* Robert Stephen Boyer : professeur retraité d'informatique, de mathématiques et de philosophie à l'Université du Texas à Austin 

![image2](image2.jpg)

* J Strother Moore : professeur en informatique à l'université du Texas à Austin.

![image3](image3.jpg)

### b) 85 algorithmes de recherche textuelle
Voici un lien qui Recense plus de 85 algorithmes différents de recherche textuelle, les plus célèbres datant des années 1970, mais plus de la moitié ont moins de 10 ans : 

[Lien vers le site](http://monge.univ-mlv.fr/~lecroq/string/)