# Generación de ficheros de metadatos y lectura de formatos en python/R

***

## `YALM`

_YAML_ (_YAML Ain't Markup Language_) es un formato de serialización de datos legible por humanos inspirado en lenguajes como XML, C, Python o Perl, con el objetivo de guardar objetos de datos con estructura de árbol.

Fue creado bajo la creencia de que todos los datos pueden ser representados adecuadamente como combinaciones de __listas__, __hashes__ (mapeos) y __datos escalares__ (valores simples). La sintaxis es relativamente sencilla y fue diseñada teniendo en cuenta que fuera muy legible pero que a la vez fuese fácilmente mapeable a los tipos de datos más comunes en la mayoría de los lenguajes de alto nivel. Además, _YAML_ utiliza una notación basada en la sangría y/o un conjunto de caracteres __Sigil__ distintos de los que se usan en XML, haciendo que sea fácil componer ambos lenguajes.

* Los contenidos en _YAML_ se describen utilizando el conjunto de caracteres imprimibles de __Unicode__ (UTF-8 o UTF-16).
* La estructura del documento se denota indentando con espacios en blanco; sin embargo no se permite el uso de caracteres de tabulación para sangrar.
* Los miembros de las listas se denotan encabezados por un guion ( - ) con un miembro por cada línea, o bien entre corchetes ([   ] ) y separados por coma espacio ( ,   ).
* Los vectores asociativos se representan usando los dos puntos seguidos por un espacio. en la forma "clave: valor", bien uno por línea o entre llaves ( {   } ) y separados por coma seguida de espacio ( ,   ).
* Un valor de un vector asociativo viene precedido por un signo de interrogación ( ? ), lo que permite que se construyan claves complejas sin ambigüedad.
* Los valores sencillos (o escalares) por lo general aparecen sin entrecomillar, pero pueden incluirse entre comillas dobles ( " ), o comillas simples ( ' ).
* En las comillas dobles, los caracteres especiales se pueden representar con secuencias de escape similares a las del lenguaje de programación C, que comienzan con una barra invertida ( \ ).
* Se pueden incluir múltiples documentos dentro de un único flujo, separándolos por tres guiones ( --- ); los tres puntos ( ... ) indican el fin de un documento dentro de un flujo.
* Los nodos repetidos se pueden denotar con un ampersand ( & ) y ser referidos posteriormente usando el asterisco ( * )
* Los comentarios vienen encabezados por la almohadilla ( # ) y continúan hasta el final de la línea.
* Los nodos pueden etiquetarse con un tipo o etiqueta utilizando el signo de exclamación( ! ) seguido de una cadena que puede ser expandida en una URL.
* Los documentos _YAML_ pueden ser precedidos por directivas compuestas por un signo de porcentaje ( % ) seguidos de un nombre y parámetros delimitados por espacios. 
* _YAML_ requiere que las comas y puntos y comas que se utilicen como separadores en las listas sean seguidos por un espacio, de forma que los valores escalares que contengan signos de puntuación.

Hay dos caracteres adicionales que están reservados en YAML para su posible estandarización en un futuro: la arroba ( @ ) y el acento grave ( ` ).

### Lectura de archivos `YAML` en Python

In [15]:
# Importación de yaml
import yaml

# Carga del fichero
with open('../data/travis.yml') as file:
        data = yaml.load(file, Loader = yaml.FullLoader)

In [16]:
# Visualización del fichero
print(data)

{'sudo': 'required', 'language': 'python', 'matrix': {'include': [{'python': 3.7}, {'python': 3.6}, {'python': 3.5}, {'python': 3.4}]}, 'install': ['pip install numpy', 'python setup.py install', 'pip install flake8 coveralls pytest-cov'], 'script': ['py.test --cov iterstrat --cov-report term-missing', 'flake8'], 'after_success': ['coveralls']}


***

## `JSON`

_JSON_ (JavaScript Object Notation - Notación de Objetos de JavaScript) es un formato ligero de intercambio de datos. Leerlo y escribirlo es simple para humanos, mientras que para las máquinas es simple interpretarlo y generarlo. Está basado en un subconjunto del Lenguaje de Programación JavaScript.

Es un formato de texto que es completamente independiente del lenguaje pero utiliza convenciones que son ampliamente conocidos por los programadores de la familia de lenguajes C, incluyendo C, C++, C#, Java, JavaScript, Perl, Python, y muchos otros. Estas propiedades hacen que JSON sea un lenguaje ideal para el intercambio de datos.

JSON está constituído por dos estructuras:

1. Una colección de pares de nombre/valor. En varios lenguajes esto es conocido como un objeto, registro, estructura, diccionario, tabla hash, lista de claves o un arreglo asociativo.
2. Una lista ordenada de valores. En la mayoría de los lenguajes, esto se implementa como arreglos, vectores, listas o sequencias.



Sus características son las siguientes:

* JSON es solo un formato de datos.
* Requiere usar comillas dobles para las cadenas y los nombres de propiedades. Las comillas simples no son válidas.
* Una coma o dos puntos mal ubicados pueden producir que un archivo JSON no funcione. 
* Puede tomar la forma de cualquier tipo de datos que sea válido para ser incluido en un JSON, no solo arreglos u objetos. Así, por ejemplo, una cadena o un número único podrían ser objetos JSON válidos.
* A diferencia del código JavaScript, en el que las propiedades del objeto pueden no estar entre comillas, en JSON solo las cadenas entre comillas pueden ser utilizadas como propiedades.

Las ventajas de `JSON` son varias: es autodescriptivo y fácil de entender y su sencillez le ha permitido posicionarse como alternativa a XML. Además, es más rápido en cualquier navegador y más fácil de leer que XML. Es más ligero (bytes) en las transmisiones y se parsea más rápido. Su velocidad de procesamiento es alta. Por último, puede ser entendido de forma nativa por los analizadores de JavaScript.

Sin embargo, algunos desarrolladores encuentran su escueta notación algo confusa ni cuenta con una característica que posee XML: extensibilidad. Tampoco soporta grandes cargas, solo datos comunes y para la seguridad requiere de mecanismos externos como expresiones regulares.

### Lectura de archivos `JSON` en Python

In [17]:
# Importación de pandas
import pandas as pd

# Carga y visualización del fichero
instruments = pd.read_json('../data/Musical_Instruments_5.json', lines = True)
instruments.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,A2IBPI20UZIR0U,1384719342,"cassandra tu ""Yeah, well, that's just like, u...","[0, 0]","Not much to write about here, but it does exac...",5,good,1393545600,"02 28, 2014"
1,A14VAT5EAX3D9S,1384719342,Jake,"[13, 14]",The product does exactly as it should and is q...,5,Jake,1363392000,"03 16, 2013"
2,A195EZSQDW3E21,1384719342,"Rick Bennette ""Rick Bennette""","[1, 1]",The primary job of this device is to block the...,5,It Does The Job Well,1377648000,"08 28, 2013"
3,A2C00NNG1ZQQG2,1384719342,"RustyBill ""Sunday Rocker""","[0, 0]",Nice windscreen protects my MXL mic and preven...,5,GOOD WINDSCREEN FOR THE MONEY,1392336000,"02 14, 2014"
4,A94QU4C90B1AX,1384719342,SEAN MASLANKA,"[0, 0]",This pop filter is great. It looks and perform...,5,No more pops when I record my vocals.,1392940800,"02 21, 2014"


***

### ¿Se pueden leer los ficheros `YAML` y `JSON` con spark?

Sí, sin embargo mientras que los ficheros `JSON` se pueden leer sin problema, los ficheros `YAML` deben transformarse antes a formato `JSON` o `Java Script` para poder trabajar con ellos.

***

### ¿Qué tipo de bases de datos `No SQL` usa estructuras de datos similares?

Bases como por ejemplo CouchDB de Apache o MongoDB, es decir, BBDD documentales. 

En concreto, `MongoDB` es un sistema de base de datos NoSQL, orientado a documentos y de código abierto.

En lugar de guardar los datos en tablas, tal y como se hace en las bases de datos relacionales, MongoDB guarda estructuras de datos BSON (una especificación similar a JSON) con un esquema dinámico, haciendo que la integración de los datos en ciertas aplicaciones sea más __fácil y rápida__.


***