<a href="https://colab.research.google.com/github/matiaaaj/AMP-Tech/blob/master/BreveTutorial_JSON_XML.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Formato de datos de APIs

Típicamente, las APIs devuelven datos en dos formatos: json y xml. Ambos formatos son igual de válidos. Una ventaja del formato json es que permite manejar listas de datos.


### Formato JSON

El formato json es muy similar a los diccionarios de python, por lo que nos va a ser bastante familiar. Una buena referencia sobre este formato es este [tutorial](https://www.w3schools.com/js/js_json_intro.asp). Los datos corresponden a información de papers obtenida de la API de [Scopus](https://www.scopus.com/home.uri). Para leer los datos vamos a utilizar la librería de python denominada simplemente [**json**](https://www.w3schools.com/python/python_json.asp).

In [None]:
# Montamos el drive para los archivos
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


##### Lectura de los datos

In [None]:
# Importamos la librería que nos va a permitir leer .json
import json

In [None]:
# Abrimos el archivo con la opción de leer (read) y efectivamente lo leemos
json_text = open('/content/drive/My Drive/LaboDatos2021/data_tutorial.json', 'r').read()

Veamos cómo se ve el archivo json:

In [None]:
print(json_text)

[
    {
        "@_fa": "true", 
        "affiliation": [
            {
                "@_fa": "true", 
                "affiliation-city": "Sendai", 
                "affiliation-country": "Japan", 
                "affiliation-url": "https://api.elsevier.com/content/affiliation/affiliation_id/60008435", 
                "affilname": "Tohoku University", 
                "afid": "60008435"
            }
        ], 
        "author": [
            {
                "@_fa": "true", 
                "@seq": "1", 
                "afid": [
                    {
                        "$": "60008435", 
                        "@_fa": "true"
                    }
                ], 
                "authid": "56587183800", 
                "authname": "Takahashi S.", 
                "author-url": "https://api.elsevier.com/content/author/author_id/56587183800", 
                "given-name": "Shuntaro", 
                "initials": "S.", 
                "surname": "Takahashi"
           

Para crear un objeto de python a partir de un texto en formato .json lo hacemos de la siguiente manera:

In [None]:
# Creamos un objeto de python a partir de los datos json
json_data = json.loads(json_text)

Otra forma de hacer lo mismo de antes más corto es con .load() (esto lee un objeto *file*), en vez loads() (la s es que lee un *string*):
~~~
json_data = json.load(open('prueba.json','r'))
~~~


##### Inspección de objeto JSON

Veamos qué tipo de dato obtuvimos. Lo usual es encontrarnos con una lista o un diccionario de python.

In [None]:
# Tipo de dato del objeto json
type(json_data)

list

Este ejemplo se corresponde a una lista. Veamos la cantidad de elementos y el tipo de dato del primero de ellos:

In [None]:
# Cantidad de elementos en la lista
print(len(json_data))

# Tipo de datos del primer elemento
type(json_data[0])

5


dict

El primer elemento es un diccionario por ejemplo (en realidad este objeto es una lista de diccionarios). Podemos ver las *keys* de este e inspeccionar cada valor:

In [None]:
# Keys del diccionario del primer elemento
print(json_data[0].keys())

dict_keys(['@_fa', 'affiliation', 'author', 'dc:description', 'dc:title', 'prism:coverDate', 'prism:doi', 'prism:eIssn', 'prism:url'])


Vemos algunas entradas: 

In [None]:
# Título del artículo
print('Titulo:')
print(json_data[0]['dc:title'])

# Resumen del artículo
print('Resumen:')
print(json_data[0]['dc:description'])

Titulo:
Dealloying of nitrogen-introduced pt-co alloy nanoparticles: Preferential core-shell formation with enhanced activity for oxygen reduction reaction
Resumen:
Voltammetric dealloying is a typical method to synthesize Pt-shell/less-noble metal (M) alloy core nanoparticles (NPs) toward the oxygen reduction reaction (ORR). The pristine nanostructures of the Pt-M alloy NPs should determine the ORR activity of the dealloyed NPs. In this study, we investigated the voltammetric dealloying behavior of the Pt-Co and nitrogenintroduced Pt-Co alloy NPs generated by synchronous arc-plasma deposition of Pt and Co. The results showed that the dealloying behavior is sensitive to cobalt nitride in the pristine NPs, leading to the preferential generation of a Pt-rich shell/Pt-Co alloy core architecture having enhanced ORR activity.


También hay entradas que pueden contener listas u otros diccionarios, como la lista de autores en este caso:

In [None]:
type(json_data[0]['author'])

list

In [None]:
# Primer author del primer artículo
print(json_data[0]['author'][0])

# Nombre del primer author
print('Nombre:')
print(json_data[0]['author'][0]['authname'])

{'@_fa': 'true', '@seq': '1', 'afid': [{'$': '60008435', '@_fa': 'true'}], 'authid': '56587183800', 'authname': 'Takahashi S.', 'author-url': 'https://api.elsevier.com/content/author/author_id/56587183800', 'given-name': 'Shuntaro', 'initials': 'S.', 'surname': 'Takahashi'}
Nombre:
Takahashi S.


Finalemente, hagamos una iteración para obtener el título de todas las publicaciones contenidas en esta base de datos:

In [None]:
for i in range(len(json_data)):
  print(json_data[i]['dc:title'])

Dealloying of nitrogen-introduced pt-co alloy nanoparticles: Preferential core-shell formation with enhanced activity for oxygen reduction reaction
A novel electrochemical nanosensor for voltammetric determination of isoproterenol
A study of polybromide chain formation using carbon nanomaterials via density functional theory approach
Rare earth metal-mediated precision polymerization of vinylphosphonates and conjugated nitrogen-containing vinyl monomers
One-Step hydrothermal synthesis of W-Doped VO2 (M) nanorods with a tunable phase-transition temperature for infrared smart windows


### Formato XML

El otro tipo de dato que devuelven típicamente las APIs es el formato xml. Este está estructurado mediante *tags* de la misma manera en la que están ordenados archivos *html*. [Aquí](https://www.w3schools.com/xml/default.asp) una buena referencia para el formato xml. 
Para transformar en un objeto de python datos en formato xml vamos a utilizar la librería [**BeautifulSoup**](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) (¡que maravilla esta sopa!) que sirve para todo tipo de formato taggeado como *html*.
Los datos los extraímos de la API de [*Arxiv*](https://arxiv.org/help/api/basics), que tiene información de pre-publicaciones (versiones de papers previas a la revisión de pares).



In [None]:
# Importamos la librería beautifulsoup 
from bs4 import BeautifulSoup as BS

Veamos com se ve un archivo xml:

In [None]:
# Carguemos el texto del archivo de xml
xml_text = open('/content/drive/My Drive/LaboDatos2021/data_tutorial.xml', 'r').read()

# Printiemos el texto xml
print(xml_text)

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
  <link href="http://arxiv.org/api/query?search_query%3Dall%3Anetwork%26id_list%3D%26start%3D0%26max_results%3D5" rel="self" type="application/atom+xml"/>
  <title type="html">ArXiv Query: search_query=all:network&amp;id_list=&amp;start=0&amp;max_results=5</title>
  <id>http://arxiv.org/api/tPE9XocbOXlz0ZowKf7LtUNnyFY</id>
  <updated>2021-05-25T00:00:00-04:00</updated>
  <opensearch:totalResults xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/">175521</opensearch:totalResults>
  <opensearch:startIndex xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/">0</opensearch:startIndex>
  <opensearch:itemsPerPage xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/">5</opensearch:itemsPerPage>
  <entry>
    <id>http://arxiv.org/abs/2105.11450v1</id>
    <updated>2021-05-24T17:58:36Z</updated>
    <published>2021-05-24T17:58:36Z</published>
    <title>SAT: 2D Semantics Assisted Training for 3D Visual Gr

Aquí el análisis de de los xml es un poco más intrincado con el formato json. El primer paso es convertir la data de texto en un objeto de python:

In [None]:
# Creamos un objeto de python a partir del texto de xml
xml_data = BS(xml_text)

En este ejemplo en particular, la información sobre las publicaciones están dentro de etiquetas denominadas *entry*. Por lo tanto creamos una lista de todos los papers buscando todos los elementos bajo dicha etiqueta:

In [None]:
# Llamamos al método "buscá todo" del objeto xml_data
entries = xml_data.find_all('entry')

Veamos por ejemplo lo contenido dentro de la primera publicación:

In [None]:
print(len(entries))
print(entries[0])

5
<entry>
<id>http://arxiv.org/abs/2105.11450v1</id>
<updated>2021-05-24T17:58:36Z</updated>
<published>2021-05-24T17:58:36Z</published>
<title>SAT: 2D Semantics Assisted Training for 3D Visual Grounding</title>
<summary>  3D visual grounding aims at grounding a natural language description about a
3D scene, usually represented in the form of 3D point clouds, to the targeted
object region. Point clouds are sparse, noisy, and contain limited semantic
information compared with 2D images. These inherent limitations make the 3D
visual grounding problem more challenging. In this study, we propose 2D
Semantics Assisted Training (SAT) that utilizes 2D image semantics in the
training stage to ease point-cloud-language joint representation learning and
assist 3D visual grounding. The main idea is to learn auxiliary alignments
between rich, clean 2D object representations and the corresponding objects or
mentioned entities in 3D scenes. SAT takes 2D object semantics, i.e., object
label, image fe

Podemos acceder a la información de cada uno de los elementos dentro de cada publicación de diferentes maneras. Por ejemplo, veamos el elemento *title* (título de la publicación):

In [None]:
print(entries[0].title)

<title>SAT: 2D Semantics Assisted Training for 3D Visual Grounding</title>


Cuando hablamos de elemento nos referimos a todo el objeto entre etiquetas. Para acceder solo al contenido podemos hacer por ejemplo:

In [None]:
print(entries[0].title.text)

SAT: 2D Semantics Assisted Training for 3D Visual Grounding


Otro ejemplo es el resumen de la publicación (elemento *summary*):

In [None]:
print(entries[0].summary.text)

  3D visual grounding aims at grounding a natural language description about a
3D scene, usually represented in the form of 3D point clouds, to the targeted
object region. Point clouds are sparse, noisy, and contain limited semantic
information compared with 2D images. These inherent limitations make the 3D
visual grounding problem more challenging. In this study, we propose 2D
Semantics Assisted Training (SAT) that utilizes 2D image semantics in the
training stage to ease point-cloud-language joint representation learning and
assist 3D visual grounding. The main idea is to learn auxiliary alignments
between rich, clean 2D object representations and the corresponding objects or
mentioned entities in 3D scenes. SAT takes 2D object semantics, i.e., object
label, image feature, and 2D geometric feature, as the extra input in training
but does not require such inputs during inference. By effectively utilizing 2D
semantics in training, our approach boosts the accuracy on the Nr3D dataset
fr

Además, cada elemento es un objeto xml que tiene métodos asociados. Podemos por ejemplo obtener la lista de autores del primer paper de la siguiente manera:

In [None]:
# Buscamos todos los autores de la primera publicación
authors = entries[0].find_all('author')

print(authors)

[<author>
<name>Zhengyuan Yang</name>
</author>, <author>
<name>Songyang Zhang</name>
</author>, <author>
<name>Liwei Wang</name>
</author>, <author>
<name>Jiebo Luo</name>
</author>]


Y finalmente podemos iterar para sacar en limpio el nombre de todos los autores:

In [None]:
for element in authors:
  print(element.text)


Zhengyuan Yang


Songyang Zhang


Liwei Wang


Jiebo Luo

