## Paso 1: Carga de datos origen: listado de DOIs (parámetro de entrada para las APIs)

Se cargará un archivo que contiene DOIs de publicaciones sobre aplicación de técnicas de Deep Learning en el dominio de COVID-19. 


In [1]:
# Carga de DOIs desde un archivo CSV.

import pandas as pd

dois = pd.read_csv('data/dois.csv', sep='|')

print("Cantidad de dois: ", dois.shape[0])

ModuleNotFoundError: No module named 'pandas'

In [4]:
dois.head(10)

Unnamed: 0,id,doi
0,1,10.1155/2020/8828855
1,2,10.1016/j.imu.2020.100427
2,3,10.1007/s00259-020-05075-4
3,4,10.26355/eurrev_202011_23640
4,5,10.1016/j.ejro.2020.100272
5,6,10.1109/ACCESS.2020.3016780
6,7,10.3390/INFO11090419
7,8,10.1007/978-981-15-6572-4_7
8,9,10.1007/s10489-020-02076-6
9,10,10.1109/JBHI.2020.3042523


## Paso 2:  Extracción de datos mediante APIs


### 2.1 Preparación de directorios de salida

Crear directorio donde se guardarán los datos extraídos

In [5]:

import os

# Determinar el directorio actual:
path = os.getcwd()
print ("Directorio actual %s" % path)

# Crear nuevo directorio:

newdir = "data/results" # nombre del nuevo directorio

try:
    os.mkdir(newdir)
except OSError:
    print ("Creación de directorio %s fallida " % newdir)
else:
    print ("Creación de directorio %s exitosa" % newdir)

Directorio actual /Users/jachicaiza/envs/nlp10/Notebooks/DOCENCIA/20231/FAD
Creación de directorio data/results exitosa


### 2.2 Extracción de datos desde Altmetrics

Consultar Documentación de la API: http://api.altmetric.com


Sintaxis de la request: https://api.altmetric.com/v1/doi/xxx

la parte final de la dirección, sustituye al DOI de cada paper.


In [6]:
dois.loc[0]['doi']  # Primer doi del listado, verificar si está en ALTMETRIC


'10.1155/2020/8828855'


La URL de la request sería: https://api.altmetric.com/v1/doi/10.1109/ACCESS.2022.3159025

A partir de los resultados que se devuelvan (curl, browser), podemos diseñar la estrategia para consumir los datos, es decir, básicamente debemos entender la estructura de los datos devueltos, para acceder a los elementos de datos (keys) que nos interesa guardar.

Para entender la estructura de la responde, podemos apoyarnos de algún JSON Formatter o un plugin

### Preparar el request(importar libraries y definir parámetros generales)

In [7]:
import requests, json, time, random

PARAMS = {
    "format": "json"
}

S = requests.Session()

import datetime as dt

endpoint = 'https://api.altmetric.com/v1/doi/'


### Recorrer el archivo con los dois de los papers a obtener más información

In [24]:
# Entender cómo consumir datos del dataframe:
for idx, row in dois.iterrows():
    print(idx, row[0], row[1])

0 1 10.1155/2020/8828855
1 2 10.1016/j.imu.2020.100427
2 3 10.1007/s00259-020-05075-4
3 4 10.26355/eurrev_202011_23640
4 5 10.1016/j.ejro.2020.100272
5 6 10.1109/ACCESS.2020.3016780
6 7 10.3390/INFO11090419
7 8 10.1007/978-981-15-6572-4_7
8 9 10.1007/s10489-020-02076-6
9 10 10.1109/JBHI.2020.3042523
10 11 10.1007/s00330-020-07225-6
11 14 10.7150/ijms.46684
12 15 10.32604/cmes.2020.011920
13 16 10.3844/JCSSP.2020.620.625
14 17 10.1007/s40670-020-01133-6
15 19 10.1109/JIOT.2020.3044031
16 20 10.1109/MNET.011.2000458


In [25]:
for idx, row in dois.iterrows():
    doi = row[1]
    print(doi) # identificador del paper a recuperar
    url =  endpoint + doi  # formamos la url completa

    # Solicitar datos al proveedor: Altmetric:
    request = S.get(url=url, params=PARAMS)
    if request.ok: # En caso de que la petición sea exitosa, es decir, existe el documento en Almetric se procesan los datos.
        response = request.json()
        print(response) # Analizar estructura de resultados para obtener la información requerida

10.1155/2020/8828855
{'title': 'COVID-19 Deep Learning Prediction Model Using Publicly Available Radiologist-Adjudicated Chest X-Ray Images as Training Data: Preliminary Findings', 'doi': '10.1155/2020/8828855', 'pmid': '32849861', 'altmetric_jid': '4f6fa5283cf058f610003e02', 'issns': ['1687-4188', '1687-4196'], 'journal': 'International Journal of Biomedical Imaging', 'cohorts': {'pub': 5, 'sci': 1}, 'context': {'all': {'count': 23245494, 'mean': 10.294080287488075, 'rank': 7309438, 'pct': 68, 'higher_than': 15871426}, 'journal': {'count': 170, 'mean': 2.9842000000000004, 'rank': 36, 'pct': 78, 'higher_than': 134}, 'similar_age_3m': {'count': 400250, 'mean': 17.795559150529893, 'rank': 155474, 'pct': 60, 'higher_than': 242550}, 'similar_age_journal_3m': {'count': 1, 'mean': 3.35, 'rank': 1, 'pct': 1, 'higher_than': 0}}, 'authors': ['Mohd Zulfaezal Che Azemin', 'Radhiana Hassan', 'Mohd Izzuddin Mohd Tamrin', 'Mohd Adli Md Ali'], 'type': 'article', 'pubdate': 1597708800, 'altmetric_id':

### Optimizar/controlar las peticiones realizadas

Es recomendable no procesar todos los datos, porque a lo mejor lleguemos al límite de peticiones por unidad de tiempo.

Para evitar lo anterior podemos asumir dos estrategias:

1. Sólo recorrer una parte de los datos de entrada. Podríamos establecer un elemento inicial (idx) y un elemento final hasta el que queramos recuperar los datos.
2. Usar tiempos constantes o randómicos muertos para controlar la cantidad de peticiones por tiempo.

In [31]:
import datetime as dt


def getAltMetrics(lim1, lim2):
    idD = lim1 + 1
    for i in range(dois.index[lim1], dois.index[lim2]):
        doi = dois.loc[i]['doi']
        url = 'https://api.altmetric.com/v1/doi/' + doi
        print(idD, url)
        request = S.get(url=url, params=PARAMS)
        if request.ok:
            response = request.json()
            print(response)
            idD = idD + 1
            # TAREA A COMPLETAR, recorrer el JSON y guardar datos en objetos python hasta finalmente guardar en archivo csv.
        
        # El método sleep() suspende la ejecución del hilo actual durante un número determinado de segundos.
        time.sleep( 1 + random.uniform(0, 1)) # esperar un segundo y una fracción más.


In [28]:
# Recorrer el primer elemento de la lista de DOIs:

getAltMetrics(0,1)

1 https://api.altmetric.com/v1/doi/10.1155/2020/8828855
{'title': 'COVID-19 Deep Learning Prediction Model Using Publicly Available Radiologist-Adjudicated Chest X-Ray Images as Training Data: Preliminary Findings', 'doi': '10.1155/2020/8828855', 'pmid': '32849861', 'altmetric_jid': '4f6fa5283cf058f610003e02', 'issns': ['1687-4188', '1687-4196'], 'journal': 'International Journal of Biomedical Imaging', 'cohorts': {'pub': 5, 'sci': 1}, 'context': {'all': {'count': 23245494, 'mean': 10.294080287488075, 'rank': 7309438, 'pct': 68, 'higher_than': 15871426}, 'journal': {'count': 170, 'mean': 2.9842000000000004, 'rank': 36, 'pct': 78, 'higher_than': 134}, 'similar_age_3m': {'count': 400250, 'mean': 17.795559150529893, 'rank': 155474, 'pct': 60, 'higher_than': 242550}, 'similar_age_journal_3m': {'count': 1, 'mean': 3.35, 'rank': 1, 'pct': 1, 'higher_than': 0}}, 'authors': ['Mohd Zulfaezal Che Azemin', 'Radhiana Hassan', 'Mohd Izzuddin Mohd Tamrin', 'Mohd Adli Md Ali'], 'type': 'article', 'pu

In [9]:
import requests
token = 'cf3c6c6c-c6ea-4ab9-8a70-3a558775e837-843339462' # colocar aquí el token
url_endpoint = 'http://tagme.d4science.org/tagme/tag?lang=en&include_abstract=true&include_categories=true&gcube-token='
headers = {'user-agent': 'Mozilla/5.0', 'accept': 'application/json', 'content-type': 'application/json'}

text = """Ecuador, officially the Republic of Ecuador (Spanish: República del Ecuador, 
which literally translates as "Republic of the Equator"; 
is a country in northwestern South America, bordered by Colombia on the north, Peru on the east and south, 
and the Pacific Ocean on the west"""

url = url_endpoint + token + '&text=' + text

S = requests.Session()
resp = S.get(url, headers=headers)

if resp.status_code == 200:
    result = resp.json()
    print(result)


{'test': '5', 'annotations': [{'spot': 'Ecuador', 'start': 0, 'link_probability': 0.875615119934082, 'rho': 0.6957006454467773, 'dbpedia_categories': ['Ecuador', 'Countries bordering the Pacific Ocean', 'Former Spanish colonies', 'Member states of OPEC', 'Member states of the Union of South American Nations', 'Andean Community of Nations', 'Republics', 'Countries in South America', 'Spanish-speaking countries', 'States and territories established in 1830', 'Member states of the United Nations'], 'end': 7, 'id': 9334, 'abstract': 'Ecuador (,), officially the Republic of Ecuador (, which literally translates as "Republic of the Equator"), is a representative democratic republic in northwestern South America, bordered by Colombia on the north, Peru on the east and south, and the Pacific Ocean to the west. Ecuador also includes the Galápagos Islands in the Pacific, about west of the mainland.', 'title': 'Ecuador'}, {'spot': 'Republic of Ecuador', 'start': 24, 'link_probability': 0.43181818