# Aspects (plus) avancés pour la bioinformatique: recherche dans une base de données distante, version JSON et MyGene.info
<p>Le processus de collecte d'informations pour un processus d'annotation requiert des recherches sur des bases de données pré-existantes. De manière non-programmatique, on commence par aller sur une page web, on inscrit un ou plusieurs critères de recherche et le site nous retourne un ou des pages de résultats. Ok, c'est cool mais comment intégrer ça dans une structure de données? Il est tout à fait possible de le faire programmatiquement via Python. Dans les exemples qui suivent, nous allons utiliser le service MyGene.info pour faire notre recherche et notre collecte d'informations.
    
[https://www.mygene.info](MyGene.info)  nous permet également de rechercher les informations contenues dans un génome par position chromosomique, très intéressant lorsqu'on veut avoir de l'information rapidement sur un voisinage ;-) Reprenons l'information sur notre gène CTTN et regardons quels gènes se trouvent de part et d'autre dans un intervalle de 100000 nucléotides. Encore une fois, la clé est dans l'utilisation d'un URL un peu spécial!

#### Code de démonstration

In [2]:
import requests
import simplejson

# Il y a près de 350 champs possibles...
fields = '?fields=genomic_pos'
# Preparation de la requete
headers = {'content-type': 'application/x-www-form-urlencoded'}
mygene_url = "https://mygene.info/v3/gene/2017"+fields
# Envoyez la requete
res = requests.get(mygene_url,headers=headers)
data = res.json()

# Interceptons les valeurs nécessaires
# Pourquoi l'item 0 du sous-dictionnaire?
# Parce que le reste est sur une autre séquence!
# Remarquez aussi la conversion en chaines de caractères
chr = str(data['genomic_pos'][0]['chr'])

posStart = data['genomic_pos'][0]['start'] - 100000
posStart = str(posStart)
posEnd = data['genomic_pos'][0]['end'] + 100000
posEnd = str(posEnd)

# Créons un nouvel URL de recherche
query = "q=chr"+chr+":"+posStart+"-"+posEnd+"&species:9606"
print(query)

# Preparation de la requete
mygene_url = "https://mygene.info/v3/query?"+query

# Envoyez la requete
res = requests.get(mygene_url,headers=headers)
data = res.json()
print(data)
print("========================")
# Presentation un peu plus soignée :-)
for i in data["hits"]:
    tmp = "Gene ID "+i["_id"]
    if "name" in i:
        tmp = tmp+" : "+i["symbol"]+" | "+i["name"]
    else:
        tmp = tmp+" : no more info!"
    print(tmp)


q=chr11:70298404-70536584&species:9606
{'took': 327, 'total': 183, 'max_score': 10.156576, 'hits': [{'_id': 'ENSG00000227726', '_score': 10.156576, 'taxid': 9606}, {'_id': '2017', '_score': 10.156576, 'entrezgene': '2017', 'name': 'cortactin', 'symbol': 'CTTN', 'taxid': 9606}, {'_id': '8500', '_score': 10.156576, 'entrezgene': '8500', 'name': 'PTPRF interacting protein alpha 1', 'symbol': 'PPFIA1', 'taxid': 9606}, {'_id': 'ENSG00000254495', '_score': 10.156576, 'taxid': 9606}, {'_id': 'ENSG00000255539', '_score': 10.156576, 'taxid': 9606}, {'_id': 'ENSG00000254484', '_score': 10.156576, 'taxid': 9606}, {'_id': 'ENSG00000254604', '_score': 10.156576, 'taxid': 9606}, {'_id': '22941', '_score': 10.156576, 'entrezgene': '22941', 'name': 'SH3 and multiple ankyrin repeat domains 2', 'symbol': 'SHANK2', 'taxid': 9606}, {'_id': 'ENSG00000246889', '_score': 10.156576, 'name': 'CTTN divergent transcript', 'symbol': 'CTTN-DT', 'taxid': 9606}, {'_id': '216871', '_score': 8.518418, 'entrezgene': '2