# BioPython pour biochimistes: Exploitation de bases de données distantes pour l'analyse d'une séquence

## Introduction

BioPython possède divers modules permettant d'analyser une séquence en exploitant des données distantes qu'il n'est pas nécessaire de posséder localement mais aussi certaines infos qui sont dans la distribution de BioPython.

Un bon exemple est l'inclusion d'une version de la base de données [REBASE](https://rebase.neb.com). Il est très facile de construire un simple script pour regarder l position de différents enzymes de restriction selon plusieurs critères comme par exemple:

- Une liste d'enzymes spécifiques;
- Des critères comme des sites avec des extrémités 5' ou 3' overhangs;
- Etc.

### Pré-requis nécessaire:
Donc, en premier, vérifions que BioPython est disponible sur le serveur (évidemment):

In [11]:
!pip install biopython


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


### Code de démonstration:
Lisons un fichier en format Genbank (pour faciliter la suite) et regardons ce que ça retourne comme contenu:

In [38]:
#
# Importons de la librairie BioPython
# les modules nécessaires
#
from Bio import SeqIO
from Bio.Restriction import *
#
# Lire le fichier de séquences
#
record = SeqIO.read("../z.misc_files/data_seq/h.sapiens.cttn.iso.a.cdna.gb","gb")

seq = record.seq
#
# AllEnzymes est un raccourci pour désigner tous les enzymes contenus dans REBASE
# Un autre raccourci est CommOnly, qui regroupe tous les enzymes commercialement
# disponibles.
#
#digest = Analysis(AllEnzymes,seq)
#digest.print_that()
#
# La façon de spécifier un ou des enzymes par nom se fait via la 
# méthode RestrictionBatch, en utilisant une liste
#
enz = RestrictionBatch([EcoRI,HindIII,BamHI,NotI,SmaI,KpnI])
digest = Analysis(enz,seq)
digest.print_that()
#
# Carte de restriction linéaire
#
digest.print_as("map")
digest.print_that()

BamHI      :  1869.
EcoRI      :  3178, 3223.
HindIII    :  192, 420.
SmaI       :  63, 1611.

   Enzymes which do not cut the sequence.

KpnI      NotI      

GGAACCGGAAGTAGAGCCTGGTGCCTGGGAGCGGCTGGCGCGGCGGAATCCAGGGCCGAC
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CCTTGGCCTTCATCTCGGACCACGGACCCTCGCCGACCGCGCCGCCTTAGGTCCCGGCTG
1                                                         60

  63 SmaI
  |                                                         
CCGGGCCGGACCGACCCCAGGCGGCGACGGAATCAGTCCCCAATGCCTGGAAATTCCTCA
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
GGCCCGGCCTGGCTGGGGTCCGCCGCTGCCTTAGTCAGGGGTTACGGACCTTTAAGGAGT
61                                                       120

TTGGATTACTGTGTTTTAAACAGAATTTCGTGAACAGCCTTTTATCTCCAAGCGGAAAGA
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AACCTAATGACACAAAATTTGTCTTAAAGCACTTGTCGGAAAATAGAGGTTCGCCTTTCT
121                                                      180

           192 HindIII
           

On peut aussi utiliser des méthodes de recherche utilisant des critères spécifiques, comme par exemple, le nombre de sites: 

In [47]:
digest = Analysis(enz,seq)
print("Enzymes avec un seul site:"+str(digest.with_N_sites(1)))
print("Enzymes avec deux sites:"+str(digest.with_N_sites(2)))


Enzymes avec un seul site:{BamHI: [1869]}
Enzymes avec deux sites:{SmaI: [63, 1611], EcoRI: [3178, 3223], HindIII: [192, 420]}
