# Alignement de séquences : Théorie et applications

L'alignement de séquences est une tâche fondamentale en bioinformatique qui consiste à comparer deux ou plusieurs séquences de nucléotides ou d'acides aminés pour en déduire des similitudes et des différences. Cette technique est utilisée pour étudier l'évolution des espèces, identifier des gènes ou des protéines similaires, concevoir des médicaments, prédire la structure des protéines, etc.


## La théorie de l'alignement de séquences

Elle repose sur l'hypothèse que des séquences similaires ont une origine évolutive commune, c'est-à-dire qu'elles ont évolué à partir d'un ancêtre commun. Les changements évolutifs dans les séquences peuvent être des substitutions de nucléotides ou d'acides aminés, des insertions ou des suppressions de bases ou de résidus, des duplications de gènes, des délétions, des inversions, etc.
Les méthodes d'alignement de séquences peuvent être classées en deux catégories : alignement global et alignement local.

### Alignement global

L'alignement global vise à aligner deux séquences entières en maximisant les similitudes sur toute la longueur des séquences

### Alignement local

L'alignement local vise à aligner les régions similaires de deux séquences en minimisant les différences dans les régions non similaires. L'alignement local est utile pour détecter des motifs de séquence, des sites de liaison à l'ADN, des domaines protéiques conservés, etc.

## Les algorithmes d'alignement de séquences

Les algorithmes d'alignement de séquences les plus couramment utilisés sont l'algorithme de <span style="color:red">**Needleman-Wunsch**</span> pour l'alignement global et l'algorithme de <span style="color:red">**Smith-Waterman**</span> pour l'alignement local. Ces algorithmes sont basés sur la programmation dynamique, qui permet de calculer le meilleur alignement en utilisant une matrice de scores de substitution et en explorant toutes les possibilités d'alignement.

Il existe de nombreux outils en ligne et en logiciel libre pour effectuer des alignements de séquences, tels que <span style="color:green">BLAST, ClustalW, MUSCLE, MAFFT, MEGA11</span>... Ces outils permettent de comparer des séquences de différentes tailles et de différentes origines, en fournissant des scores de similitude, des matrices de distance, des arbres phylogénétiques

## TP : Alignement de séquences avec MAFFT

Le but de ce TP est d'utiliser l'outil en ligne MAFFT pour aligner des séquences d'ADN et de protéines, puis de construire des arbres phylogénétiques pour étudier la relation évolutionnaire entre les espèces.

In [None]:
# Installation de MAFFT sous Windows avec Cygwin
apt-cyg install wget gcc-g++ make libbz2-devel zlib-devel
# Téléchargez la dernière version de MAFFT à partir du site web officiel de MAFFT 
wget https://mafft.cbrc.jp/alignment/software/mafft-VERSION-with-extensions-src.tgz
# Extrayez l'archive MAFFT que vous avez téléchargée
tar -zxvf mafft-VERSION-with-extensions-src.tgz
# Deplacez vous dans le répertoire MAFFT que vous venez d'extraire
cd mafft-VERSION-with-extensions
# Compilez et installez MAFFT 
./configure --enable-extensions --prefix=/usr/local/mafft
make
make install
# endre l'exécutable MAFFT disponible dans votre environnement
export PATH=$PATH:/usr/local/mafft/bin

Téléchargez l'installateur de <span style="color:red">MEGA11</span> pour Windows depuis le site web officiel de MEGA (https://www.megasoftware.net/). Cliquez sur le bouton "Download" sur la page d'accueil pour accéder à la page de téléchargement.

Suivez les instructions d'installation de MEGA11 pour Windows pour installer MEGA11 sur votre ordinateur Windows.

In [None]:
mafft --help

### A vous les commandes pour réaliser l'alignement

Aller sur https://www.expasy.org/proteomics

Rechercher HSF1

Cliquer sur (UniProtKB)

Récupérer les séquences de protéines de différents organismes (par exemple "Facteur de choc thermique 1" ou "HSF1")

Cela vous amènera sur http://www.uniprot.org/uniprot/?query=HSF1&sort=score

Sélectionner l'organisme (Humain, Rat, Souris, Arabidopsis, Poulet, Cochon...)

Cliquer sur Télécharger (Télécharger la sélection) puis enregistrer au format FASTA dans un seul fichier texte.

Aligner les séquences à l'aide de mafft (en ligne de commande), puis MEGA11 (en mode grapgique)


### Construction de l'arbre phylogénétique


Vérifier l'arbre phylogénétique basé sur le gène

Ajouter une séquence non apparentée (Out Group)

Vérifier les modifications de l'arbre phylogénétique basé sur le gène.

In [None]:
# Utiliser MEGA11 en ligne de commande sur le cluster