# Formatos comunes en las respuestas HTTP

Las bases datos biológicas, y otros servicios online, usan tipicamente poco formatos para devolver los datos:

- XML
- JSON
- Texto tabular


## XML - Extensible Markup Language

Es un formato de texto que permite representar datos de formar jerarquica y arbitrario.
No está pensado para ser leido directamente por un usuario.

```xml
<?xml version="1.0" encoding="UTF-8"?>
<ResultadoDeBusqueda>
    <Proteinas>
        <Protein>
            <Nombre>
                FUS
            </Nombre>
            <ProteinID>
                Q6IBQ5
            </ProteinID>
            <Length>
                526
            </Length>
        </Protein>
        <Protein>
            <Nombre>
                FIBP
            </Nombre>
            <ProteinID>
                Q6IBQ3
            </ProteinID>
            <Length>
                364
            </Length>
        </Protein>
    </Proteinas>
    <NumeroDeResultados>
        2
    </NumeroDeResultados>
</ResultadoDeBusqueda>
```

In [179]:
library(xml2)

In [180]:
xml_content <- '<?xml version="1.0" encoding="UTF-8"?>
<ResultadoDeBusqueda>
<Proteinas>
<Protein>
<Nombre>FUS</Nombre>
<ProteinID>Q6IBQ5</ProteinID>
<Longitud>526</Longitud>
</Protein>
<Protein>
<Nombre>FIBP</Nombre>
<ProteinID>Q6IBQ3</ProteinID>
<Longitud>364</Longitud>
</Protein>
</Proteinas>
<NumeroDeResultados>2</NumeroDeResultados>
</ResultadoDeBusqueda>'

# Lee el Texto en formato XML
xml_document <- read_xml(xml_content)

# Lo convierte a una lista
xml_list <- as_list(xml_document)

In [181]:
# Todos los datos que están en 'ResultadoDeBusqueda'
xml_list$ResultadoDeBusqueda

In [182]:
# La cantidad de resultados
as.numeric(xml_list$ResultadoDeBusqueda$NumeroDeResultados)

In [183]:
lista_de_proteinas <- xml_list$ResultadoDeBusqueda$Proteinas
print(paste("La lista tiene", length(lista_de_proteinas), "proteinas"))
lista_de_proteinas

[1] "La lista tiene 2 proteinas"


In [184]:
# La primer proteina
# xml_list$ResultadoDeBusqueda$Proteinas[[1]]
primer_proteina <- lista_de_proteinas[[1]]
primer_proteina

In [185]:
# Los datos de la primer proteina
# trimws, borras los espacios en blando que hay al inicio y fin de un texto
primer_proteina$Nombre

In [186]:
# Recupero uns lista con todos los Nombres
nombres <- c()
for (nombre in xml_list$ResultadoDeBusqueda$Proteinas) {
    nombres <- c(nombres, nombre$Nombre)
}
nombres

In [187]:
# Lo mismo pero de otra forma
nombres <- sapply(
    xml_list$ResultadoDeBusqueda$Proteinas,
    function(x) {x$Nombre}
)
nombres

In [188]:
# Convertir a dataframe
df <- as.data.frame(do.call(rbind, xml_list$ResultadoDeBusqueda$Proteinas))
df
# Otra forma
proteinas <- as.data.frame(t(sapply(xml_list$ResultadoDeBusqueda$Proteinas, unlist)))
proteinas


Unnamed: 0_level_0,Nombre,ProteinID,Longitud
Unnamed: 0_level_1,<named list>,<named list>,<named list>
Protein,FUS,Q6IBQ5,526
Protein.1,FIBP,Q6IBQ3,364


Unnamed: 0_level_0,Nombre,ProteinID,Longitud
Unnamed: 0_level_1,<chr>,<chr>,<chr>
Protein,FUS,Q6IBQ5,526
Protein.1,FIBP,Q6IBQ3,364


## JSON - Javascript Object Notation

Es otro formato para representar datos jerárquicos y arbitrarios.
Es más simple que XML.
No está pensado para ser leido directamente por un usuario.

```json
{
    "Proteinas":[
        {
            "Nombre": FUS,
            "ProteinID": Q6IBQ5,
            "Longitud": 526
        },
        {
            "Nombre": FIBP,
            "ProteinID": Q6IBQ3,
            "Longitud": 364
        }
    ],
    "NumeroDeResultados": 2
}
```

In [189]:
# Para instalar rjson
install.packages("rjson")

"package 'rjson' is in use and will not be installed"


In [190]:
library("rjson")

In [191]:
respuesta <- '{
    "Proteinas":[
        {
            "Nombre": "FUS",
            "ProteinID": "Q6IBQ5",
            "Longitud": 526
        },
        {
            "Nombre": "FIBP",
            "ProteinID": "Q6IBQ3",
            "Longitud": 364
        }
    ],
    "NumeroDeResultados": 2
}'
json_list <- fromJSON(respuesta)

In [192]:
# Mostrar las proteinas
json_list$Proteinas

In [193]:
# Mostrar 
json_list$NumeroDeResultados

In [194]:
# Extraer los nombres de proteínas
nombres <- c()
for (nombre in json_list$Proteinas) {
    nombres <- c(nombres, trimws(nombre$Nombre))
}
nombres

In [195]:
# Otra forma
nombres <- sapply(
    json_list$Proteinas,
    function(x) {x$Nombre}
)
nombres

In [196]:
# Convertir a dataframe
json_data_frame <- as.data.frame(do.call(rbind, json_list$Proteinas))
json_data_frame

# Otra forma
proteinas <- as.data.frame(t(sapply(json_list$Proteinas, unlist)))
proteinas

Nombre,ProteinID,Longitud
<list>,<list>,<list>
FUS,Q6IBQ5,526
FIBP,Q6IBQ3,364


Nombre,ProteinID,Longitud
<chr>,<chr>,<chr>
FUS,Q6IBQ5,526
FIBP,Q6IBQ3,364


## Texto tabular

Es simplemente un texto plano que representa una tabla.
Cada línea de texto representa una fila de la tabla, requiere especificar un caracter de separación para las columnas.

Los datos que se pueden representar no son arbitrarios, tienen que tener forma de tabla y no son jerárquicos.

```txt
Nombre  ProteinID Longitud
FUS Q6IBQ5 526
FIBP Q6IBQ3 364
```


In [197]:
tabla <- "Nombre  ProteinID Longitud
FUS Q6IBQ5 526
FIBP Q6IBQ3 364"

data <- read.table(text=tabla, header=TRUE)
data

Nombre,ProteinID,Longitud
<chr>,<chr>,<int>
FUS,Q6IBQ5,526
FIBP,Q6IBQ3,364
