# Python pour biochimistes: programmation orientée-objet et la librairie BioPython

## Introduction

Le projet BioPython cherche à créer des outils d'analyse des données biologiques pour simplifier l'utilisation de Python pour des programmeurs du dimanche que sont la majorité des biochimistes! Le projet regroupe un ensemble impressionant de modules pour réaliser les tâches usuelles et même plus qui sont construits en utilisant le modèle orioenté objet.

Par exemple, lire les fichiers de séquence dans divers formats (et même des fichiers qui ne sont pas des fichiers de séquence!!) devient très aisé. Le module `SeqIO` permet la lecture automatique d'un fichier et retourne un objet de type `SeqRecord`. Ce dernier contient une représentation standardisée des infos contenus dans le fichier pour des analyses ultérieures. On accéde aux champs d'infos avec différentes méthodes, qui peuvent variées d'un format à l'autre.

## Démonstration

### Étape 1:
Donc, en premier, vérifions que BioPython est disponible sur le serveur:

In [23]:
!pip install biopython



### Étape 2:
Lisons un fichier en format Genbank (pour faciliter la suite) et regardons ce que ça retourne comme contenu:

In [4]:
# Comme pour l'exemple précédent
import os.path as path

# Importons de la librairie BioPython
# le module nécessaire
from Bio import SeqIO, Seq

#
# Méthode interactive
# Le script attendra l'entrée faite par l'usager
#
# Monter d'un niveau et aller chercher un fichier de démo
# qui se trouve dans le répertoire z.misc_files sous demo_seq
#
seq = input("PATH vers fichier? :")

#
# Il faut trouver ce que "~" veut dire... La méthode expanduser "interprete"
# que "~" veut dire "/Users/foisys" sur Mac OS X :-)
#
seq = path.expanduser(seq)

with open(seq,'r') as file:
    #
    # Remplacer fasta par gb et tester avec le fichier
    # ../z.misc_files/data_seq/h.sapiens.cttn.iso.a.cdna.gb
    #
    # La méthide SeqIO.parse() retourne une objet de type Seq,
    # facilement manipulable.
    #
    for record in SeqIO.parse(file, "gb"):
        print(record)

PATH vers fichier? : ../z.misc_files/data_seq/h.sapiens.cttn.iso.a.cdna.gb


ID: NM_005231.4
Name: NM_005231
Description: Homo sapiens cortactin (CTTN), transcript variant 1, mRNA
Number of features: 69
/molecule_type=mRNA
/topology=linear
/data_file_division=PRI
/date=05-JUL-2023
/accessions=['NM_005231']
/sequence_version=4
/gi=1519242654
/keywords=['RefSeq', 'MANE Select']
/source=Homo sapiens (human)
/organism=Homo sapiens
/taxonomy=['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
/references=[Reference(title='Binding of USP4 to cortactin enhances cell migration in HCT116 human colon cancer cells', ...), Reference(title='Cortactin expression in a Norwegian cohort of human papilloma virus negative oral squamous cell carcinomas of the mobile tongue', ...), Reference(title='CBLC inhibits the proliferation and metastasis of breast cancer cells via ubiquitination and degradation of CTTN', ...), Reference(title='A cortactin CTTN 

ID: NM_005231.4
Name: NM_005231
Description: Homo sapiens cortactin (CTTN), transcript variant 1, mRNA
Number of features: 69
/molecule_type=mRNA
/topology=linear
/data_file_division=PRI
/date=05-JUL-2023
/accessions=['NM_005231']
/sequence_version=4
/gi=1519242654
/keywords=['RefSeq', 'MANE Select']
/source=Homo sapiens (human)
/organism=Homo sapiens
/taxonomy=['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo']
/references=[Reference(title='Binding of USP4 to cortactin enhances cell migration in HCT116 human colon cancer cells', ...), Reference(title='Cortactin expression in a Norwegian cohort of human papilloma virus negative oral squamous cell carcinomas of the mobile tongue', ...), Reference(title='CBLC inhibits the proliferation and metastasis of breast cancer cells via ubiquitination and degradation of CTTN', ...), Reference(title='A cortactin CTTN 

### Étape 3:
Extrayons la séquence de ce cDNA:

In [5]:
print("Impression de la sequence:")
print(record.seq)

Impression de la sequence:
GGAACCGGAAGTAGAGCCTGGTGCCTGGGAGCGGCTGGCGCGGCGGAATCCAGGGCCGACCCGGGCCGGACCGACCCCAGGCGGCGACGGAATCAGTCCCCAATGCCTGGAAATTCCTCATTGGATTACTGTGTTTTAAACAGAATTTCGTGAACAGCCTTTTATCTCCAAGCGGAAAGAAAGATGTGGAAAGCTTCAGCAGGCCACGCTGTGTCCATCGCCCAGGATGACGCGGGGGCCGATGACTGGGAGACCGACCCTGATTTTGTGAATGATGTGAGTGAGAAGGAGCAAAGATGGGGTGCCAAGACGGTGCAGGGCTCCGGGCACCAGGAGCATATCAACATACACAAGCTGAGGGAGAATGTCTTTCAAGAGCATCAGACCCTTAAGGAGAAGGAACTTGAAACAGGACCAAAAGCTTCCCATGGCTATGGAGGGAAATTTGGTGTGGAACAAGACCGAATGGATAAGTCAGCTGTCGGCCACGAATATCAGTCGAAACTTTCCAAGCACTGCTCGCAGGTGGACTCGGTCCGTGGCTTCGGAGGCAAGTTTGGTGTCCAGATGGACAGAGTTGATCAGTCTGCTGTAGGCTTTGAATACCAGGGGAAGACTGAGAAGCATGCCTCCCAGAAAGACTACTCCAGTGGTTTTGGCGGCAAGTATGGCGTGCAGGCCGACCGAGTAGACAAGAGCGCGGTGGGCTTCGACTACCAGGGCAAGACGGAGAAGCACGAGTCACAGAGAGATTACTCCAAAGGTTTCGGCGGCAAATACGGTATCGACAAGGACAAAGTGGATAAGAGCGCCGTTGGCTTTGAGTATCAAGGCAAAACGGAGAAGCACGAGTCCCAGAAAGACTATGTGAAAGGGTTTGGAGGAAAATTTGGTGTGCAGACAGACAGACAAGACAAATGTGCCCTTGGCTGGGATCACCAGGAGAAATTGCAGCTGCATGAATCCCAAAAAG

### Étape 4:
Obtenons son identificateur NCBI:

In [6]:
print("Sequence ID:")
print(record.id)

Sequence ID:
NM_005231.4


### Étape 5:
Comment obtenir la longueur du transcrit? Facilement car la variable record.seq est une chaîne de caractères:

In [7]:
print("Taille de la sequence:")
print(len(record.seq))

Taille de la sequence:
3249


### Étape 6, pour commencer:
Quelle est la protéine représentée par cette séquence de cDNA? Il faut obtenir les valeurs de position du début et de la fin du cadre de lecture utilisé:

In [8]:
print("Informations sur le CDS de la sequence:")
#
# Capturer toutes les infos sur les métadonnées
#
# record.features est en fait une liste :-)
#
list = record.features
#
# Intercepter le cadre de lecture
#
for i in list:
  if(i.type == "CDS"):
    #
    # Juste pour etre certain :-)
    # 
    print(i.qualifiers["translation"])
    #
    # C'est l'information importante que nous devons
    # utiliser!
    #
    print(i.location)

Informations sur le CDS de la sequence:
['MWKASAGHAVSIAQDDAGADDWETDPDFVNDVSEKEQRWGAKTVQGSGHQEHINIHKLRENVFQEHQTLKEKELETGPKASHGYGGKFGVEQDRMDKSAVGHEYQSKLSKHCSQVDSVRGFGGKFGVQMDRVDQSAVGFEYQGKTEKHASQKDYSSGFGGKYGVQADRVDKSAVGFDYQGKTEKHESQRDYSKGFGGKYGIDKDKVDKSAVGFEYQGKTEKHESQKDYVKGFGGKFGVQTDRQDKCALGWDHQEKLQLHESQKDYKTGFGGKFGVQSERQDSAAVGFDYKEKLAKHESQQDYSKGFGGKYGVQKDRMDKNASTFEDVTQVSSAYQKTVPVEAVTSKTSNIRANFENLAKEKEQEDRRKAEAERAQRMAKERQEQEEARRKLEEQARAKTQTPPVSPAPQPTEERLPSSPVYEDAASFKAELSYRGPVSGTEPEPVYSMEAADYREASSQQGLAYATEAVYESAEAPGHYPAEDSTYDEYENDLGITAVALYDYQAAGDDEISFDPDDIITNIEMIDDGWWRGVCKGRYGLFPANYVELRQ']
[183:1836](+)


### Étape 6, pour finir:
Utilisons une des méthodes de la classe Seq:

In [9]:
#
# Pour faire la démonstration des manipulations possibles d'un objet Seq
#
# seqT est par défaut un objet Seq, étant un sous-ensemble de record.seq
#
# Remarquez que la notation BioPython part de 1 et non de 0
#
seqT = record.seq[183:1836]
#
# La fonction translate permet de faire la traduction; par défaut, elle 
# utilise le code universel.
#
# Voir la doc pour les autres paramètres utiles; par ex.: par défaut, c'est le
# code génétique universel qui est utilisé.
#
seqT = seqT.translate()
print("Sequence traduite:")
#
# Comparez avec la valeur de i.qualifiers["translation"]
#
print(seqT)

Sequence traduite:
MWKASAGHAVSIAQDDAGADDWETDPDFVNDVSEKEQRWGAKTVQGSGHQEHINIHKLRENVFQEHQTLKEKELETGPKASHGYGGKFGVEQDRMDKSAVGHEYQSKLSKHCSQVDSVRGFGGKFGVQMDRVDQSAVGFEYQGKTEKHASQKDYSSGFGGKYGVQADRVDKSAVGFDYQGKTEKHESQRDYSKGFGGKYGIDKDKVDKSAVGFEYQGKTEKHESQKDYVKGFGGKFGVQTDRQDKCALGWDHQEKLQLHESQKDYKTGFGGKFGVQSERQDSAAVGFDYKEKLAKHESQQDYSKGFGGKYGVQKDRMDKNASTFEDVTQVSSAYQKTVPVEAVTSKTSNIRANFENLAKEKEQEDRRKAEAERAQRMAKERQEQEEARRKLEEQARAKTQTPPVSPAPQPTEERLPSSPVYEDAASFKAELSYRGPVSGTEPEPVYSMEAADYREASSQQGLAYATEAVYESAEAPGHYPAEDSTYDEYENDLGITAVALYDYQAAGDDEISFDPDDIITNIEMIDDGWWRGVCKGRYGLFPANYVELRQ*
