# Python pour biochimistes: BioPython pour interroger des bases de données distantes

## Introduction

Dans un cahier précédent, nous avons développé la logique nécessaire pour accéder des ressources distantes: ouverture d'un flux de données (*handle*), construction d'un URL contenant les éléments de la requete, extraction de l'info, etc. C'est pas si complexe mais ça reste toujours un exercice long et pas toujours plaisant car ça demande de connaitre la façon d'entrer en contact avec la ressource distante et comprendre sa structure. Pourquoi ne pas utiliser une approche orientée-objet pour faciliter notre vie: encapsuler les actions à prendre sous forme de méthodes avec un usage prévisible?

BioPython, via `Bio.Entrez`, n'est pas la seule façon de rechercher de l'information grâce à l'approche orientée-objet. Le site [Mygene.info](https://Mygene.info) est une extraordinaire ressource totalement complémentaire à NCBI Entrez en utilisant une approche très différente. Plutôt que d'avoir à rechercher dans quelle base de données recherchée, Mygene.info a construit dans une seule ressource toutes les informations publiquement accessibles dans une approche gène-centrique. Il nous suffit d'installer la librairie `mygene` (https://pypi.org/project/mygene/) :-)

## Protocole pour obtenir des infos sur notre gène préféré via Mygene.info

### Étape 1 - Installation de la librairie `mygene` 

Rien de plus facile!

In [1]:
!pip install mygene


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


### Étape 2 - Recherche avec notre gène préféré 

Dans Mygene.info comme dans Entrez, la première étape est de rechercher l'information permettant d'identifier de manière non-équivoque le gène qui nous intéresse. La premi;re étape est donc la recherche de cette information. 

In [2]:
import mygene

#
# Création de l'objet de base pour faire le reste 
#
# Le constructeur gère les interactions avec Mygene.info
#
mg = mygene.MyGeneInfo()

out = mg.query("cttn", scopes='symbol', fields='entrezgene', species='human')
#
#
#
print(out["hits"])

#
# Comment interpréter nos résultats? Il faut avoir un peu d'expérience ;-)
#
# On voit que seulement 3/4 des résultats a une donnée entrezgene et que
# 2 des 3 ont des valeurs id très élevées...
#
# Obtenons TOUTES les infos sur CTTN; attention, c'est beaucoup!!
#
cttn = mg.getgene(2017)
print(cttn)

#
# Une approche est évidemment de limiter aux champs que nous désirons obtenir
#
# La liste des champs possibles est ici: https://docs.mygene.info/en/latest/doc/data.html
#
cttn = mg.getgene(2017,fields="genomic_pos")
print(cttn)
#
# Comme cttn est une liste, il est alors facile d'utiliser les fonctions de liste pour 
# ensuite utiliser Bio.Entrez pour obtenir les séquences
#

[{'_id': '2017', '_score': 143.45253, 'entrezgene': '2017'}, {'_id': 'ENSG00000246889', '_score': 116.01934}, {'_id': 'ENSG00000288166', '_score': 116.01934}, {'_id': '121233926', '_score': 116.01934, 'entrezgene': '121233926'}]
{'_id': '2017', '_version': 3, 'genomic_pos': [{'chr': '11', 'end': 70436584, 'ensemblgene': 'ENSG00000085733', 'start': 70398404, 'strand': 1}, {'chr': 'HG2115_PATCH', 'end': 197872, 'ensemblgene': 'ENSG00000288401', 'start': 159692, 'strand': 1}]}


### Étape 3 - Recherche des gènes dans un segment génomique 

Dans Mygene.info, on peut faire des recherches sur les gènes se trouvant dans un segment avec la même approche. Il faut simplement définir autrement la chaine de caractères, en incluant le chromosome, le début et la fin du segment et, évidemment, l'espéce utilisée.

In [19]:
span = mg.query('q=chr11:69900000-70500000', species=9606, entrezonly=True)
print(span)

{'took': 110, 'total': 8, 'max_score': 10.163101, 'hits': [{'_id': '100313770', '_score': 10.163101, 'entrezgene': '100313770', 'name': 'microRNA 548k', 'symbol': 'MIR548K', 'taxid': 9606}, {'_id': '8500', '_score': 10.163101, 'entrezgene': '8500', 'name': 'PTPRF interacting protein alpha 1', 'symbol': 'PPFIA1', 'taxid': 9606}, {'_id': '8772', '_score': 10.163101, 'entrezgene': '8772', 'name': 'Fas associated via death domain', 'symbol': 'FADD', 'taxid': 9606}, {'_id': '2017', '_score': 10.163101, 'entrezgene': '2017', 'name': 'cortactin', 'symbol': 'CTTN', 'taxid': 9606}, {'_id': '22941', '_score': 10.163101, 'entrezgene': '22941', 'name': 'SH3 and multiple ankyrin repeat domains 2', 'symbol': 'SHANK2', 'taxid': 9606}, {'_id': '55107', '_score': 10.163101, 'entrezgene': '55107', 'name': 'anoctamin 1', 'symbol': 'ANO1', 'taxid': 9606}, {'_id': '101928443', '_score': 10.163101, 'entrezgene': '101928443', 'name': 'long intergenic non-protein coding RNA 2753', 'symbol': 'LINC02753', 'taxi