# **Implémentation de BLAST II (Basic local alignment search tool) en python**

In [None]:
from scipy.stats import spearmanr
import pandas as pd
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
from IPython.display import display, HTML

display(HTML("""
<style>
.output {
    display: flex;
    align-items: center;
    text-align: center;
}
</style>
"""))


## Introduction

BLAST (Altschul *et al*, 1990) est un outil incontournable de la bioinformatique, permettant de rechercher rapidement des homologues d'une séquence, nucléique ou protéique, dans des bases de données de tailles toujours grandissantes. Il est performant, puisqu'il permet d'éviter l'alignement systématique de la séquence recherchée avec l'ensemble des séquences de la base de données. 
Pour ce faire, la séquence est décomposée en mots de taille k, qui seront recherchés dans les séquences de la base de données. Une fois un mot retrouvé, l'alignement entre les deux séquences est étendu des deux côtés du mot. Dans le cas de BLAST II (Altschul *et al*, 1997), ce n'est pas seulement la présence d'un de ces mots qui va enclancher l'extension d'un alignement, mais celle de deux mots. Cet amélioration de l'algorithme permet de diminuer le nombre de séquences qui seront effectivement alignées, et ainsi d'implémenter un alignement local comprenant de possibles gaps, soit des insertion ou déletions par rapport à la séquence recherchée. L'algorithme d'alignement utilisé est celui de Smith et Waterman (Smith et Waterman, 1981). 
Le projet est donc de développer l'algorithme de BLAST II en python. 

## Matériel et méthodes

L'algorithme présente trois grandes étapes. Tout d'abord, la **décomposition de la séquences en mots de taille k**. Tel que décrit sur la figure 1, les mots sont générés en itérant sur la séquence recherchée. En plus des mots issus de la décompisiont, on ajoute à cette sélection, l'ensemble des mots dits "voisins", ce qui correspond en pratique aux mots ayant un score d'alignement supérieur à 11. La matrice de substitution utilisée pour calculer l'ensemble des scores d'alignement lors de ce projet est la matrice BLOSUM62 (Henikoff et Henikoff, 1992) mais d'autres matrices peuvent être selectionnées. On **recherche ensuite ces mots dans une base de données de séquences**. On appelle un mot aligné de cette manière un "hit" (figure 2A). Dans le cas de BLAST II, deux hits se situant sur la même diagonale et au sein d'une distance de 40 résidus l'un de l'autre seront nécessaires pour lancer l'étape d'**alignement des séquences**. Cette étape consiste à joindre tout d'abord les deux hit trouvés et à calculer le score obtenu pour cet alignement avec la matrice choisie, puis, si ce score est supérieur à une cretaine valeur, étendre l'alignement en partant des deux extrémités. C'est l'algorithme de Smith et Waterman qui est utilisé pour étendre l'alignement, permettant ainsi de prendre en compte des substitutions ou déletions entre les deux séquences. L'alignement est ainsi étendu jusqu'à ce que le score le caractérisant atteigne une valeur inférieur de Xs au score maximal atteint. Les alignements ainsi obtenus sont ordonnés par score décroissant, et les 100 meilleurs alignements sont affichés. 

![Capture d’écran 2024-09-11 à 17.27.29.png](attachment:2f8a5644-2803-43ce-b066-9ad04776afe6.png)
*Figure 1 : Visualisation de l'ensemble de l'algorithme BLAST*

Certains paramètres utilisés pour cette implémentation peuvent être réglés en début de script. C'est le cas de la taille des mots, de la matrice de score, du treshold pour le score du mot, de la distance maximale entre deux hits d'un double hit, et enfin des pénalitées d'ouverture et d'élongation de gap.

Pour l'implémentation de cet algorithme, les modules pythons utilisés sont le module 'math' pour les fonctions de calcul, 'numpy' pour la gestion des matrices de score avec les numpy.arrays, 'biopython' pour la gestion des sequences sous forme d'objets Seq pour l'importation des fichiers fasta, et pour l'utilisation des matrices intégrées au module.
  
![Capture d’écran 2024-09-11 à 13.31.08.png](attachment:e6b17891-90d9-4da6-ac01-e213dd23034a.png)
*Figure 2 : A) Visualisation des hits obtenus sur la sequence 2 à partir de la séquence 1. B) Hits isolés, clusters de hits et double hits (sur une même diagonale) C) Jointure et extension des alignments à partir des double hits*

## Comparaison des résultats avec l'outil BLAST

Afin de déterminer la justesse de l'algorithme développé, une séquence protéique (Photosystème II D2 de *Chlamydomonas reinhardtii*, numéro d'accession PDB : P06007) a été recherchée dans une partie de la base de données RefSeq, comprenant l'ensemble des séquences protéiques de photosystèmes II de virus et d'Archées (~2000 séquences). Cette recherche a été d'une part effectuée en utilisant l'algorithme développé, d'autre part en utilisant l'algorithme d'alignement de BLASTP dans la sous base de données mentionnée.
Les premiers alignements obtenus dans chaque cas peuvent être retrouvés dans les tableaux 1 et 2.

**Tableau 1 : Quatres meilleurs alignements avec BLASTP**

In [33]:
OG_BLAST = pd.read_csv('OG_BLAST_E58CK512114-Alignment-HitTable.csv', names=['1', 'ID', 'identity', 'Acc.len', '2', '3', '4', '5', '6', '7', 'eval', 'score', 'positives'])
OG_BLAST = OG_BLAST.drop(columns = ['1','2', '3', '4', '5', '6','7']) 
OG_BLAST[0:4]

Unnamed: 0,ID,identity,Acc.len,eval,score,positives
0,YP_009324375.1,84.375,352,0.0,620,90.62
1,YP_010669555.1,84.091,352,0.0,618,90.62
2,YP_009322642.1,85.673,342,0.0,616,92.11
3,YP_003097254.1,85.465,344,0.0,616,91.57


**Tableau 2 : Quatres meilleurs alignements avec la version de BLAST développée**

In [27]:
DIY_BLAST = pd.read_csv('ordered_results.csv', names = ['ID', 'score', 'evalue'])
DIY_BLAST[0:4]

Unnamed: 0,ID,score,evalue
0,YP_009324375.1,709.72,7.936322999999999e-212
1,YP_003097254.1,707.56,3.5366040000000002e-211
2,WP_353737016.1,707.56,3.5366040000000002e-211
3,WP_300427454.1,707.56,3.5366040000000002e-211


L'arrondi appliqué aux evalues de BLASTP ne permettent pas la comparaison de ces valeurs puisqu'elles sont quasi égales à 0 dans les deux cas. On a donc bien des séquences avec une homologie certaine. Les bit scores quant à eux sont proches mais présentent tout de même une différence important. Cela est dû principalement au fait que les paramètres lambda et K lors du calcul de normalisation par rapport à la base de données ont étés choisis arbitrairement 
On remarque une différence dans les evalues obtenues pour ces alignements, ce qui provient de l'utilisation de valeurs de lambda et de K arbitraires pour son calcul, alors que ces deux paramètres sont dépendants de la base de données utilisée. 
Quand on rentre dans le détail du premier alignement obtenu, on observe que celui obtenu avec l'algorithme développé est...


Dans l'ensemble un test de corrélation des rangs pour les 100 premiers résultats nous montre que l'on obtient des résultats similaires entre les deux algorithmes. 

In [28]:

print(spearmanr(OG_BLAST['ID'], DIY_BLAST['ID'][0:100]))

SignificanceResult(statistic=0.05958595859585958, pvalue=0.5559338796202412)


## Complexité et temps de calcul (optionnel)
- temps de calcul : un graph avec taille de la bd en abscisse et temps de processing en ordonnées (faire avec matplotlib)
- trouver info

optionalinfo : - variations par rapport à BLAST
  L'inclusion des mots proches n'a, pour le moment, pas été implémentée dans l'algorithme présenté lors de ce projet, notamment pour simplifier la gestion des étapes suivantes. Cela peut impacter l'identification de séquences très éloignées, mais dans un usage courant de BLAST ne présente que peu d'impact sur les résultats obtenus.

## Réferences

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10. doi: 10.1016/S0022-2836(05)80360-2. PMID: 2231712.

Stephen F. Altschul, Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, David J. Lipman, Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucleic Acids Research, Volume 25, Issue 17, 1 September 1997, Pages 3389–3402, https://doi.org/10.1093/nar/25.17.3389

Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol. 1981 Mar 25;147(1):195-7. doi: 10.1016/0022-2836(81)90087-5. PMID: 7265238.

Henikoff S, Henikoff JG. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A. 1992 Nov 15;89(22):10915-9. doi: 10.1073/pnas.89.22.10915. PMID: 1438297; PMCID: PMC50453.
