# Module *requests*

Pour interroger un API (REST). Un petit survol disponible [ici](https://www.w3schools.com/python/module_requests.asp).

In [None]:
import requests

url    = 'https://jsonplaceholder.typicode.com/posts'  # Url utile pour faire des tests
params = {'userId':1}                                  # Paramètres sous forme de dictionnaire, ici id=1
req    = requests.get(url, params)                     # Ici méthode get(), mais on peut aussi utiliser post()


# Méthode json() si le format retourné est un json/liste de json.
# Pour le format texte on utilise 'req.text', sans parenthèses.
for i in req.json(): print(i)
req.close()

# API *Entrez* du NCBI

Je recommande fortement d'aller voir:

- [The 9 E-utilities and Associated Parameters](https://dataguide.nlm.nih.gov/eutilities/utilities.html)
- [A General Introduction to the E-utilities](https://www.ncbi.nlm.nih.gov/books/NBK25497/)
- [The E-utilities In-Depth: Parameters, Syntax and More](https://www.ncbi.nlm.nih.gov/books/NBK25499/)

Liste des bases de données disponibles [ici](https://www.ncbi.nlm.nih.gov/books/NBK25497/table/chapter2.T._entrez_unique_identifiers_ui/?report=objectonly).

### ESearch

On cherche une base de donnée (ici la bd 'gene') à l'aide de mots-clés. Retourne, entre autres, la liste des identifiants des gènes correspondants. Cet identifiant va nous permettre d'aller chercher plus d'infos sur les gènes correspondant plus tard. Plus de détail [ici](https://www.ncbi.nlm.nih.gov/books/NBK25499/#_chapter4_ESearch_).

In [None]:
import requests

def esearch(db, term):
    
    url    = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi"
    params = {
                'db'        : db,
                'term'      : term,
                'usehistory': 'y',        # Important. Permet de revenir sur son historique de recherche sur NCBI
                'RetMax'    : '25',
                'retmode'   : 'json',
                'sort'      : 'relevance'
    }
    return requests.get(url, params=params)
    
    
    
# 1. Interroger l'utilisateur
kw = input('Quel gène cherchez-vous? Entrez un mot-clé (Ex. epo) : ')

# 2. Interroger l'api
term    = f"human[orgn] (${kw}[gfn] OR ${kw}[gn] OR ${kw}[uid])" # Construction des termes de la requête (v. documentation)
req     = esearch(db='gene', term=term)                          # On appelle l'API
results = req.json()                                             # Json parsing
IDs     = results['esearchresult']['idlist']                     # Parmis les résultats, on veut la liste des identifiants

# 3. Important de conserver si l'on veut utiliser l'historique de recherche sur NCBI...
query_key = results['esearchresult']['querykey']
WebEnv    = results['esearchresult']['webenv']

# 4. Afficher; fermer
print('\nRésultats retournée :\n', results)
print('\nListe des identifiants :\n', IDs)
print("\nInfos pour l'historique :", f'query_key : {query_key}', f'WebEnv    : {WebEnv}', sep='\n')
req.close()

### ESummary

On cherche une base de donnée (toujours la bd 'gene') à l'aide d'un identifiant cette fois. Permet d'obtenir beaucoup plus d'informations. Plus de détail [ici](https://www.ncbi.nlm.nih.gov/books/NBK25499/#_chapter4_ESummary_).

In [None]:
import requests

def esummary(db, id):

    url    = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi"
    params = {
                'db'     : db,
                'id'     : id,
                'retmode': 'json'
             }
    return requests.get(url, params=params)



# 1. Interroger l'utilisateur
id = input('Quel gène cherchez-vous? Entrez un id (Ex. 2056) : ')

# 2. Interroger l'api
req     = esummary(db='gene', id=id)
results = req.json()
print('\nRésultats retournée :\n', results)

# 3. Sélectionner quelques infos et sauvegarder dans un dictionnaire
fields  = ('uid', 'name', 'description', 'otheraliases', 'otherdesignations', 'summary', 'genomicinfo')
id      = str(id.split(',')[0])   # Si plusieurs id, on ne garde que le premier (pour cet exemple)
data    = {i:results['result'][id].get(i) for i in fields if results['result'].get(id)}   # Compréhension de dictionnaire
print('\nDictionnaire avec quelques infos sélectionnées :\n', data)

# 4. Afficher les résultats formatés
print('\nInfos formatées sur le gène : ')
for k, v in data.items():
    if k == 'genomicinfo' and v:
        for k2, v2 in v[0].items(): print(k2.upper(), v2, sep=' : ')
    else:
        print(k.upper(), v, sep=' : ')
req.close()

#### Exemple avec l'utilisation de l'historique

In [None]:
import requests

def esummary2(db, query_key, WebEnv):

    url    = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esummary.fcgi"
    params = {
                'db'       : db,
                'retmode'  : 'json',
                'query_key': query_key,
                'WebEnv'   : WebEnv
    }
    return requests.get(url, params=params)


# 1. Interroger l'utilisateur
history              = dict()
history['query_key'] = input("Entrez le query_key (Ex. 1) : ")
history['WebEnv']    = input("Entrez le WebEnv (Ex. MCID_5f5e45e2d29...) : ")

# 2. Interroger l'API
req = esummary2(db='gene', **history)
        
# 3. Affichage
print('\nRésultats retournée :\n', req.json()); req.close()

### Elink

Permet d'accéder aux références croisées (i.e. liens entre certains enregistrements d'une base de donnée à une autre).

Par exemple, permet d'obtenir le lien vers la séquence d'ADN (bd 'nuclootide', aka 'nuccore') à partir de la fiche d'un gène (bd 'gene'). On utilise ce lien pour lier les enregistrements entre-eux.

Liste des nombreux paramètres dans [Entrez Link Descriptions](https://eutils.ncbi.nlm.nih.gov/entrez/query/static/entrezlinks.html).

In [None]:
import requests

def elink(dbFrom, db, id, cmd='neighbor'):

    url    = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi"
    params = {
                'dbfrom'  : dbFrom,
                'db'      : db,
                'id'      : id,
                'retmode' : 'json',
                'cmd'     : cmd,
                'linkname': 'gene_nuccore_refseqgene' # Existe de nombreux autres paramètres pour 'linkname'...
    }
    return requests.get(url, params=params)


# 1. Interroger l'utilisateur
id = input("Pour quel gène cherchez-vous la référence RefSeq? Entrez un id (Ex. 2056) : ")

# 2a. Interroger l'API et affichage du lien RefSeq, sans l'historique
# Lien RefSeq = Lien vers la séquence de référence
# req    = elink(dbFrom='gene', db='nuccore', id=id)
# refseq = req.json()['linksets'][0]['linksetdbs'][0]['links'][0]
# print(f'\nLien vers RefSeq : {refseq}')

# 2b. Interroger l'API et affichage de l'historique, sans le lien RefSeq
req       = elink(dbFrom='gene', db='nuccore', id=id, cmd='neighbor_history')
query_key = req.json()['linksets'][0]['linksetdbhistories'][0]['querykey'][0]
WebEnv    = req.json()['linksets'][0]['webenv']
print(f'query_key : {query_key}', f'WebEnv    : {WebEnv}', sep='\n')

req.close()

### Efetch

On veut obtenir de l'information sur une séquence génique à l'aide d'un **numéro d'accession**. Plus de détail [ici](https://www.ncbi.nlm.nih.gov/books/NBK25499/#_chapter4_EFetch_). Aussi, si vous êtes intéressés par la [nomenclature](https://www.ncbi.nlm.nih.gov/Sequin/acc.html) des numéros d'accession...

#### Fichier au format FASTA

In [None]:
import requests

def efetch(db, id):

    url    = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi"
    params = {
                'db'      : db,
                'id'      : id,
                'rettype' : 'fasta'
    }
    return requests.get(url, params=params)


# Format FASTA
accession = input("Quel séquence voulez-vous? Entrez un numéro d'accession (Ex. 'NG_021471.2') : ")
req       = efetch(db='nuccore', id=accession)
print('\nRésultats retournés en format FASTA :\n', req.text); req.close()

# Être patient, ça peut être long...

#### Fiche GenBank

In [None]:
import requests

def efetch2(db, id):

    url    = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi"
    params = {
                'db'     : db,
                'id'     : id,
                'rettype': 'gb'
    }
    return requests.get(url, params=params)


# Obtenir une fiche GenBank
accession = input("Quel séquence voulez-vous? Entrez un numéro d'accession (Ex. 'NG_021471.2') : ")
req       = efetch2(db='nuccore', id=accession)
print('\nFiche GenBank :\n\n', req.text); req.close()

#### Fiche GenBank avec *parsing* XML

Réf. [ici](https://www.ncbi.nlm.nih.gov/dtd/NCBI_GBSeq.mod.dtd)

In [None]:
import requests
from xml.etree import ElementTree # Pour le parsing du XML


def efetch3(db, id):

    url    = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi"
    params = {
                'db'     : db,
                'id'     : id,
                'rettype': 'gb',
                'retmode': 'xml'
    }
    return requests.get(url, params=params)


# Obtenir une fiche GenBank en format xml
accession = input("Quel séquence voulez-vous? Entrez un numéro d'accession (Ex. 'NG_021471.2') : ")
req       = efetch3(db='nuccore', id=accession)

# Afficher le fichier brute
# print(req.text)


root = ElementTree.fromstring(req.text)
req.close()

# Afficher un apperçu...
# for child in root:
#     for grandChild in child:
#         print(grandChild.tag, grandChild.text, sep=' : ')

# Afficher la séquence
for i in root.iter('GBSeq_sequence'): print(i.text)

## Wrapping it all together!

In [None]:
import requests


def main():
    
    ####################################################################################
    # 1. ESEARCH -- Recherche de gène par mot-clé. Obtention d'une liste d'identifiants
    kw     = input('Quel gène cherchez-vous? Entrez un mot-clé : ')
    term   = f"human[orgn] (${kw}[gfn] OR ${kw}[gn] OR ${kw}[uid])"
    params = {
                'db'        : 'gene',
                'term'      : term,
                'usehistory': 'y',
                'RetMax'    : '25',
                'retmode'   : 'json',
                'sort'      : 'relevance'
    }
    req    = ncbiEntrez(eutils='esearch', params=params)
    ids    = req.json()['esearchresult']['idlist']; req.close()
    if not ids:
        print('Aucun résultats')
        return None # Une façon de quiter la fonction...
    ####################################################################################


    ####################################################################################
    # 2. ESUMMARY -- Recherche les infos correspondant aux gènes de la liste
    params = {
                'db'     : 'gene',
                'id'     : ','.join(ids),
                'retmode': 'json'
    }
    req     = ncbiEntrez(eutils='esummary', params=params)
    summary = req.json(); req.close()
    ####################################################################################
    
    
    ####################################################################################
    # 3. Choix du gène parmis la liste
    while True:
        print('\nListe des gènes trouvés : ')
        for index, value in enumerate(ids):
            print(index, summary['result'][value]['description'], sep='. ')
        choix = input('\nChoix : ')
        if choix.isnumeric() and int(choix) in range(len(ids)): break
    ####################################################################################
            
    
    ####################################################################################
    # 4. ELINK -- Obtention du lien vers RefSeq (indirectement via l'historique)
    params = {
                'dbFrom'  : 'gene',
                'db'      : 'nuccore',
                'id'      : ids[int(choix)],
                'cmd'     : 'neighbor_history',
                'retmode' : 'json',
                'linkname': 'gene_nuccore_refseqgene'
    }
    req       = ncbiEntrez(eutils='elink', params=params)
    query_key = req.json()['linksets'][0]['linksetdbhistories'][0]['querykey'][0]
    WebEnv    = req.json()['linksets'][0]['webenv']
    req.close()
    ####################################################################################
    
    
    ####################################################################################
    # 5. EFETCH -- Obtention de la séquence ADN en format fasta
    params = {
                'db'       : 'nuccore',
                'query_key': query_key,
                'WebEnv'   : WebEnv,
                'rettype'  : 'fasta'
    }
    req     = ncbiEntrez(eutils='efetch', params=params)
    print('\nFichier FASTA :\n', req.text); req.close()
    ####################################################################################
    

    
def ncbiEntrez(eutils, params, method='get'):
    
    url = f"https://eutils.ncbi.nlm.nih.gov/entrez/eutils/{eutils}.fcgi"
    return getattr(requests, method)(url, params=params) # 'getattr' appelle dynamiquement une méthode sur un objet.
    


if __name__ == '__main__':
    main()