# Détection de motifs de familles protéiques par expressions régulières
BENOIT Gloria – DE GOEYSE Côme – MANY Vidhya

## 1. Introduction au projet
Le but de notre projet est de détecter l'**appartenance** d'une protéine à une famille à partir d'une **signature** retrouvée dans sa séquence. Pour cela nous allons utiliser les expressions régulières, ou regex (*regular expressions*), des outils permettant de filtrer des chaînes de caractères. On les considèrent comme des motifs et ils permettent de déterminer s'il y a une **correspondance** (*match*) pour ce motif à l'intérieur de chaînes de caractères, ligne par ligne dans un fichier. 
Leur utilisation n'est pas spécifique à Python, de nombreux autres programmes ont des bibliothèques dédiées aux expressions régulières comme Perl, R ou encore Unix. Pour les utiliser dans Python il faut importer le module re, de la même manière que tous les modules :

In [1]:
import re

## 2. Présentation du module *re*
Le module *re* contient différentes fonctions et méthodes. Afin d'illustrer les différentes applications de ce module, nous allons utiliser le texte suivant stocké dans l'objet *text* :



In [2]:
text = "Certains philosophes de l’Antiquité (Lucrèce, 98-54 avant notre ère, en\
particulier) ont approché le phénomène de l’évolution, mais ce n’est qu’à \
partir du XIXe siècle que des  théories proposent des explications \
scientifiques, c’est-à-dire réfutables ou démontrables. Jean-Baptiste de \
Lamarck a le premier formulé une théorie scientifique transformiste fondée sur \
deux principes complémentaires : complexification de l'organisme et \
diversification adaptative."

### 2.1. La fonction `search()`
La principale fonction du module *re* est la fonction `search()` qui analyse la chaîne pour trouver la position où l'expression régulière correspond. 
Elle a la syntaxe suivante : `search(motif, chaîne)`. 

Si le motif est trouvé dans la chaîne, elle renvoi un objet de type *SRE_Match*(considéré comme *True*), sinon elle ne renvoie rien (*False*). Cet objet décrit l'**étendue** de la correspondance (*span=*) et la partie **reconnue** (*match=*). 


In [3]:
re.search("philo", text)

<re.Match object; span=(9, 14), match='philo'>

### 2.2 Les fonctions `match()` et `fullmatch()`
La fonction `match()` détermine si le motif se situe au début de la chaîne.

La fonction `fullmatch()` détermine si le motif correspond exactement à la chaîne de caractères entière.

Ces deux fonctions peuvent être remplacées par la fonction `search()` et une combinaison de métacaractères, nous ne nous y intéresserons donc pas.

In [4]:
if (re.match("Certains", text)):
  print("Résultat de re.match")
  print(re.match("Certains", text))
  print("'Certains' se situe au début de la chaine de caractère.\n")
if (re.search("^Certains", text)):
  print("Résultat de re.search")
  print(re.match("Certains", text))
print("\nNous avons codé re.match avec re.search à l'aide du métacaractère ^ indiquant le début d'une chaine de caractère.")

Résultat de re.match
<re.Match object; span=(0, 8), match='Certains'>
'Certains' se situe au début de la chaine de caractère.

Résultat de re.search
<re.Match object; span=(0, 8), match='Certains'>

Nous avons codé re.match avec re.search à l'aide du métacaractère ^ indiquant le début d'une chaine de caractère.


### 2.3. La fonction `findall()`
La méthode `findall()` renvoie une liste des éléments en correspondance avec le motif recherché.

In [5]:
re.findall("le", text) # recherche du motif "le"

['le', 'le', 'le', 'le', 'le', 'le']

In [6]:
re.findall("[0-9][0-9]", text) # recherche d'un motif composé de deux chiffre 

['98', '54']

## 3. Production d'un motif
Pour composer notre motif, on utilise des caractères **normaux**, qui sont interprétés en tant que tel, et de **métacaractères**, qui ont une signification spécifique. On peut distinguer trois types de métacaractères :  

### 3.1. Métacaractères de **position**

  
| Métacaractère | Signification  | Motif | Chaîne  | Match |
|---------------|----------------|-------|---------|-------|
| \^             | Début de ligne | ^test$ | XtestY   | False     |
| \$             | Fin de ligne   |       | **test** | True    |

In [7]:
re.search("^Certains", text)

<re.Match object; span=(0, 8), match='Certains'>

### 3.2. Métacaractères de **contenu**
On a une combinaison de métacaratères et de caractères normaux :

| Métacaractère | Signification              | Motif              | Chaîne           | Match |
|---------------|----------------------------|--------------------|------------------|-------|
| \.            | N'importe quel caractère   | [ae].\[A-Z](12\|13) | Oui aTt 12x      | False |
| [abc]         | a, b ou c                  |                    | non EZ1328       | False |
| (ab\|cd\|ef)  | ab, cd ou ef               |                    | non**e8B12**full | True  |
| [A-Z]         | N'importe quelle majuscule |                    | **atX13**        | True  |
| [a-z]         | N'importe quelle minuscule | [0-9][a-z][^b]     | 8abc             | False |
| [0-9]         | N'importe quel chiffre     |                    | 17 ce            | False |
| [^xy]         | Tout sauf x ou y           |                    | xy1**9bc**x      | True  |

In [8]:
animaux = "Les chiens, les chats, les chevaux sont des animaux domestiques mais\
 aussi les porcs, les dromadaires, le paon blanc, la carpe Koï, le ver à soie.\
 La pie, bien que commune, n'est pas considéré comme un animal domestique."
re.findall(" p...", animaux)  # cherche tous les mots commençants par "p"
                              # (précédés d'un espace), et les 3 caractères 
                              # suivants.

[' porc', ' paon', ' pie,', ' pas ']

In [9]:
re.findall("[A-Z][a-z][^s]", animaux) # cherche une expression commençant par un lettre en majuscule
                                      # suivi d'une lettre en minuscule
                                      # suivi de n'importe quel caracartère (y compris les espaces) sauf le caratère "s"

['Koï', 'La ']

### 3.3. Métacaractères de **quantité**
Ces métacaratères s'appliquent au caractère ou expression précédente entre ( ) :

| Métacaractère | Signification               | Motif            | Chaîne              | Match |
|---------------|-----------------------------|------------------|---------------------|-------|
| *             | Autant de fois que possible | a*bc+d?          | xxaBc               | False |
| +             | Au moins une fois           |                  | 1**bccc**1          | True  |
| ?             | Une ou aucune fois          |                  | **aaaaaabccd**aaaa  | True  |
| {n}           | n fois                      | x{3}y{2,4}zA{5,} | **xxxyyyzAAAAA**    | True  |
| {n,m}         | De n à m fois (compris)     |                  | xXxyyzAA            | False |
| {n,}          | Au moins n fois             |                  | 1**xxxyyzAAAAAAA**2 | True  |

In [10]:
re.findall(" [a-z]*mm[a-z]*", animaux)  # cherche tous les mots précédés d'un
                                        # espace, composé uniquement de lettre, 
                                        # et contenant deux "m".

[' commune', ' comme']

In [11]:
re.findall("[a-z]*m{2,}.", animaux) # cherche une suite de lettre minuscule 
                                    # suivi du caractère "m" répété au moins deux fois
                                    # suivi de n'importe quel caratère.

['commu', 'comme']

### 3.4. D'autres métacaractères
Il est important de souligner quelques métacaractères spéciaux :  
&emsp; -\ : Échappement du métacaractère suivant  
&emsp; -\d : Remplace [0-9] (tous les chiffres)  
&emsp; -\w : Remplace [-09A-Za-z_] (tous les caractères alphanumériques)  
&emsp; -\s : Remplace [ \t\n\r\f] (tous les espaces blancs)

In [12]:
re.findall("\w*\.", animaux)  # On cherche ici tous les mots composés de lettres
                              # ou chiffres(\w), autant de fois que possible (*)
                              # suivi par un point (\.). Comme on veut ici le
                              # caractère '.', et pas le métacaratère, on
                              # utilise le '\' pour l'escape.

['soie.', 'domestique.']

Plus une expression régulière est **précise**, mieux elle marchera. En effet, les expressions régulières sont **avides** c’est-à-dire qu'elles cherchent à s'étendre le plus possible à gauche et à droite. Pour pallier cela il faut être précis et éviter d'utiliser des combinaisons de '*' et '.'. 

## 4. Base de données *PROSITE*

*PROSITE* est une base de données fournissant des informations sur les familles protéiques et les domaines protéiques. Les protéines ou domaines protéiques appartenant à une famille particulière partagent généralement des attributs fonctionnels et sont dérivés d'un ancêtre commun. L’étude des familles de séquences protéiques montre que certaines régions ont été mieux conservées que d'autres au cours de l'évolution. Ces régions sont généralement importantes pour la fonction d'une protéine et/ou pour le maintien de sa structure tridimensionnelle. Il est donc possible de dériver une **signature** ou un motif pour une famille ou un domaine de protéines, qui distingue ses membres de toutes les autres protéines non apparentées. Une signature protéique peut être utilisée pour attribuer une protéine nouvellement séquencée à une famille **spécifique** de protéines et ainsi formuler des hypothèses sur sa fonction. 

*PROSITE* contient actuellement des modèles et des profils spécifiques pour plus d'un millier de familles ou de domaines de protéines. Chacune de ces signatures est accompagnée d'une documentation fournissant des informations générales sur la structure et la fonction de ces protéines.

Les motifs des familles ou des domaines protéiques sont défini par une syntaxe **propre** à *PROSITE* : 
- Tous les résidus d’un motif sont séparé d’un tiret : ‘-’
- x :  représente n’importe quel résidus pour une position donné
- [  ] : une liste de résidus entre crochet représente les résidus accepté pour une position donné 
- { } : une liste de résidus entre crochet représente les résidus non acceptés pour une position donné 
- La répétition d’un résidus d’un motif peut être déterminée par une valeur numérique entre parenthèses. 

    Exemple : x(2) = x-x   &  x(2,4) = x,x ou x,x,x ou x,x,x,x
- < : le motif commence par N-terminal 
- \> : le motif fini par C-terminal 
- **.** : fin du motif 


## 5. Détection de motifs de familles protéiques

Les Regex sont des outils très intéressants en bio-informatique. En effet les protéines d'une même famille partagent des séquences similaires, conservées au cours de l'évolution, qui forment la signature d'une famille. Il est donc possible de déterminer l'**appartenance** d'une protéine à une **famille** à partir d'un **motif** retrouvée dans sa séquence.


Nous allons nous intéresser à la famille des **opsines**. Les opsines sont des RCPG (récepteurs couplés aux protéines G) se liant au rétinal. Elles sont impliquées dans la perception de la lumière au niveau de la rétine. La famille des opsines possède un motif spécifique correspondant au site de liaison au rétinal. La signature de la famille des opsines répertoriées sur *PROSITE* est la suivante :  
**[LIVMFWAC]-[PSGAC]-x-{G}-x-[SAC]-K-[STALIMR]-[GSACPNV]-[STACP]-x(2)-
[DENF]-[AP]-x(2)-[IY].**  
Nous allons partir de ce motif, le traduire en expression régulière pour utiliser *re* et rechercher notre motif dans différentes séquences afin de conclure sur leur appartenance à la famille des opsines.

In [13]:
%run demo.py

L'expression régulière correspondant au domaine spécifique de l'opsine, obtenue avec la fonction traduit_pro_re est la suivante :
"[LIVMFWAC][PSGAC]\w[^G]\w[SAC]K[STALIMR][GSACPNV][STACP]\w{2}[DENF][AP]\w{2}[IY]"
C'est une protéine de la famille des opsine.
Ce n'est pas une protéine de la famille des Aldo/keto reductase family signature 2.
Ce n'est pas une protéine de la famille des Aldo/keto reductase family signature 2.
Ce n'est pas une protéine de la famille des Aldo/keto reductase family signature 2.
Ce n'est pas une protéine de la famille des Aldo/keto reductase family signature 2.
Ce n'est pas une protéine de la famille des Aldo/keto reductase family signature 2.
Ce n'est pas une protéine de la famille des Aldo/keto reductase family signature 2.
Ce n'est pas une protéine de la famille des Aldo/keto reductase family signature 2.


La fonction **principale** du module est la fonction <code>traduit__pro_re</code>, qui traduit un motif *pro* (prosite) en *re* (regex).

La fonction utilise un **dictionnaire**, qui associe à un métacaractère *pro* son équivalent *re*. Par exemple, la clé <code>"x"</code> contient <code>r"\\\\w"</code>. En effet, il est nécéssaire d'échapper le slash pour obtenir "\w", d'où l'utilisation du format <code>r</code> et du double slash.

Ensuite, on parcourt le dictionnaire et on remplace au fur et à mesure les métacaratères. L'**ordre** de parcours du dictionnaire est important, puisque certains métacaractères sont à la fois présents en *re* et en *pro*, par exemple <code>{}</code>, qui correspond à l'exclusion de caractères en *pro*, et à une quantité de caractères en *re*.



## 6. Exploration

### 6.1. Correspondance à une famille aléatoire
Le module *Biopython* réalise des opérations similaires au module présent :
Nous avons écrit le code pour déterminer si une protéine fait partie de la famille des opsines selon le motif *PROSITE* de cette famille. Néanmoins les fonctions peuvent être utilisées pour **n'importe quelle** famille possédant un motif *PROSITE* spécifique. Ainsi nous avons crée la fonction `cherche_prosite(id_prot)` qui permet de récupérer le motif et le nom d'une famille à partir de son **numéro** *PROSITE*.  
Cette fonction, combinée avec le module *random*, nous permet de récupérer un motif au hasard. Cela peut être utile (bien que chronophage) si on possède une séquence inconnue et qu'on cherche à lui attribuer une famille.  
Nous avons aussi écrit le script de manière à ce qu'il fonctionne comme module dans le but d'optimiser la recherche d'un motif dans une séquence.  

In [14]:
import demo as REPRO
from random import randint

In [15]:
motif_pro = None
while motif_pro is None: # tant qu'on a pas trouvé un pattern
   motif_pro = REPRO.cherche_prosite(randint(1, 15000))
   # on cherche au hasard un pattern PROSITE

motif_re = REPRO.traduit__pro_re(motif_pro[0])
# on traduit le motif 

REPRO.dans_famille(REPRO.SEQ_OPSD_BOV, motif_re, motif_pro[1])
# on regarde si la séquence de la rhodopsine bovine est conforme à ce motif


L'URL https://prosite.expasy.org/PS04717.txt ne semble pas exister. Au moment de l'écriture, les ID existants étaient entre 1 et 60032 inclus,  sans être forcément consécutifs.
L'URL https://prosite.expasy.org/PS11276.txt ne semble pas exister. Au moment de l'écriture, les ID existants étaient entre 1 et 60032 inclus,  sans être forcément consécutifs.
Ce n'est pas une protéine de la famille des Zinc finger PHD-type signature.


### 6.2. Recherche dans *PROSITE* avec le module *Biopython*
Le module *Biopython* réalise des opérations similaires au module présent :

il utilise les regex pour extraire les informations utiles de la page *PROSITE*, et les stocke ensuite dans un objet de classe Bio.ExPASy.Prosite.Record.
Il est ainsi possible d'accéder aux différentes informations avec des méthodes et attributs associés.

In [16]:
from Bio import ExPASy
from Bio.ExPASy import Prosite

In [17]:
with ExPASy.get_prosite_raw("PS00211") as handle:
  # on ouvre l'entrée correspondant à PS00005
  record = Prosite.read(handle)
  # on stocke les données dans l'objet record

#on sort du bloc, handle est fermé

print(record.nr_positive)
# on peut maintenant réaliser des opérations sur handle
# ici, on affiche le nombre de bouts de séquence correspondant au pattern (4151)
# puis le nombre de protéines dont sont issues les séquences (3802)
# Si on voulait afficher les protéines absent de la base de donnée, appartenant 
# potentiellement à la famille, on ferait :
# record.dr_potential
print(f"Numéro d'accession : {record.accession}")
print(f"Nom de la protéine : {record.name}")
print(f"Motif : {record.pattern}")

(4151, 3802)
Numéro d'accession : PS00211
Nom de la protéine : ABC_TRANSPORTER_1
Motif : [LIVMFYC]-[SA]-[SAPGLVFYKQH]-G-[DENQMW]-[KRQASPCLIMFW]-[KRNQSTAVM]-[KRACLVM]-[LIVMFYPAN]-{PHY}-[LIVMFW]-[SAGCLIVP]-{FYWHP}-{KRHP}-[LIVMFYWSTA].


Ci-suit différents attributs associés au record *PROSITE* :

|Clé |valeur|
|----|------|
|dr_positive |(AC_NB, ENTRY_NAME) des membres de la famille vrais positifs|
|dr_false_neg| (AC_NB, ENTRY_NAME) des membres de la famille faux négatifs|
|dr_false_pos| (AC_NB, ENTRY_NAME) des membres de la famille faux positifs|
|dr_potential |séquence qui devrait faire partie de la famille, mais qui n'existe pas encore sur la base de données PROSITE|
|dr_unknown | Séquence qui pourrait potentiellement appartenir à la famille (manuellement identifiées) |
|pdb_structs | Liste des entrées PDB|
|name | ID e.g. ADH_ZINC|
|type | Type d'entrée, e.g. PATTERN, MATRIX, or RULE|
|accession | e.g. PS00387|
|created | Date de création de l'entrée PROSITE (MMM-AAAA avant janvier 2017, JJ-MMM-AAA depuis janvier 2017)|
|data_update | Date de dernière mise à jour des données primaires (liées au pattern/matrix)|
|info_update | Date de dernière mise à jour du reste des données.|
|pdoc | ID du PDOC associé.|
|description| Description rapide.|
|pattern | Motif PROSITE|

AC_NB :  identifiant UniProtKB/Swiss-Prot (e.g. https://www.uniprot.org/uniprotkb/Q96DN2/entry, ici Q96DN2)

ENTRY_NAME : ID global de la protéine

## 7. Ressources
https://python.sdv.univ-paris-diderot.fr/16_expressions_regulieres/, chapitre du cours regroupant les regex et le module *re*, écrit par Patrick Fuchs et Pierre Poulain, version du 29 août 2022.  
Il a permis la découverte du module *re*.

https://docs.python.org/fr/3/howto/regex.html, guide officiel des expressions régulières en Python, écrit par A.M. Kuchling, mis à jour le 6 novembre 2022.  
 Il a permis de comprendre comment fonctionne une expression régulière et comment en écrire une. 

https://regexr.com/, site internet, écrit Grant Skinner et la *gskinner team*, version du 1er juin 2020.  
Il a permis de vérifier l'étendue de nos expressions régulières.

https://prosite.expasy.org/prosite_details.html, informations sur la base de données PROSITE, crée par le *SIB Swiss Institute of Bioinformatics*.  
Il a permis de savoir comment fonctionne la base de donnée PROSITE.

https://prosite.expasy.org/PS00238, fiche du domaine des Opsines sur PROSITE.  
Il a permis d'obtenir le motif PROSITE spécifique des opsines.

https://biopython.org/docs/1.74/api/Bio.ExPASy.Prosite.html#Bio.ExPASy.Prosite.Record,  
Il a permis de récupérer des informations sur PROSITE avec BioPython.

https://biopython.org/docs/1.75/api/Bio.ExPASy.html 
Il a également permis de récupérer des informations sur PROSITE avec BioPython.
