# Generación de ficheros de metadatos y lectura de formatos en python/R

##### Autor: Manuel Matías Corredoira de Soto

##### Lectura y tratamiento de información estructurada sobre fuentes de metainformación que contenga la estructura de los datos con los que trabajamos.

## JSON

JSON es un formato de texto que es completamente independiente del lenguaje pero utiliza convenciones que son ampliamente conocidos por los programadores de la familia de lenguajes C, incluyendo C, C++, C#, Java, JavaScript, Perl, Python, y muchos otros. Estas propiedades hacen que JSON sea un lenguaje ideal para el intercambio de datos.

JSON está constituído por dos estructuras:
Una colección de pares de nombre/valor. En varios lenguajes esto es conocido como un objeto, registro, estructura, diccionario, tabla hash, lista de claves o un arreglo asociativo.
Una lista ordenada de valores. En la mayoría de los lenguajes, esto se implementa como arreglos, vectores, listas o sequencias.
Estas son estructuras universales; virtualmente todos los lenguajes de programación las soportan de una forma u otra. Es razonable que un formato de intercambio de datos que es independiente del lenguaje de programación se base en estas estructuras.

En JSON, se presentan de estas formas:

Un objeto es un conjunto desordenado de pares nombre/valor. Un objeto comienza con {llave de apertura y termine con }llave de cierre. Cada nombre es seguido por :dos puntos y los pares nombre/valor están separados por ,coma.

## YAML

YAML es un formato para serializar datos que es fácil de procesar por las máquinas, fácil de leer para las personas y fácil de interactuar con los lenguajes de script. Dicho de otra forma, YAML es un lenguaje muy sencillo que permite describir los datos como en XML, pero con una sintaxis mucho más sencilla. YAML es un formato especialmente útil para describir datos que pueden ser transformados en arrays simples y asociativos. Está inspirado en lenguajes como XML, C, Python, Perl, así como el formato para correos electrónicos especificado por el RFC 2822.


#### Origen

   YAML fue propuesto por Clark Evans en 2001, quien lo diseñó junto a Oren Ben-Kiki. YAML es un acrónimo recursivo que significa "YAML Ain't Another Markup Language (en castellano, "YAML no es otro lenguaje de marcado"). A comienzos de su desarrollo, YAML significaba "Yet Another Markup Language" ("Otro lenguaje de marcado más") para distinguir su propósito centrado en los datos en lugar del marcado de documentos. Sin embargo, dado que se usa frecuentemente XML para serializar datos y XML es un auténtico lenguaje de marcado de documentos, es razonable considerar YAML como un lenguaje de marcado ligero. El formato se lleva utilizando desde 2001 y existen utilidades para procesar YAML en una gran variedad de lenguajes de programación

#### Características generales 

Sus puntos principales son los siguientes:
- YAML es un lenguaje basado en datos que tiene características derivadas de Perl, C, HTML y otros lenguajes.
- YAML es un superconjunto derivado de JSON que viene con varias ventajas integradas, como comentarios, autoreferencia y compatibilidad con tipos de datos complejos.
- Varios paquetes de software han implementado YAML para crear potentes herramientas de administración de configuración.
- Infraestructura de alto rendimiento
- Puede ver más información técnica sobre YAML en su sitio web oficial o en el sitio web de referencia de Ansible – RedHat, ambos en inglés.

### Importación JSON

Para esta tarea hemos decidido cargar una base de datos que contiene los subtitulos pertenecientes a la temporada 4 de la famosa serie de television Game Of Thrones

In [48]:
import pandas as pd
got4 = pd.read_json('../data/season4.json')   # Carga de datos
got4.head()                                   # Visualización

Unnamed: 0,Game Of Thrones S04E01 Two Swords.srt,Game Of Thrones S04E02 The Lion And The Rose.srt,Game Of Thrones S04E03 Breaker Of Chains.srt,Game Of Thrones S04E04 Oathkeeper.srt,Game Of Thrones S04E05 First Of His Name.srt,Game Of Thrones S04E06 The Laws Of Gods And Men.srt,Game Of Thrones S04E07 Mockingbird.srt,Game Of Thrones S04E08 The Mountain And The Viper.srt,Game Of Thrones S04E09 The Watchers On The Wall.srt,Game Of Thrones S04E10 The Children.srt,season4.json
1,- Magnificent. - Mmm-hmm.,Tansy!,You did this!,"""My name",May the Warrior grant him courage,"Your Grace, if you'd like to sit, I'm sure tha...","I made a deal for you,",Here we are.,What was she like?,You're wearing a black cloak again.,
10,You've wanted one in the family for a long time.,- Tansy! - Where is she?,You'll be fine.,When did they take me?,"I now proclaim Tommen of the House Baratheon,","King of the Andals and the First Men,",You fell in love with a whore.,Too bad you got a hangnail for a cock.,So you and Gilly never?,I was loyal,
100,How lovely is she?,This was Balon Greyjoy's son and heir.,He built this Sept.,He named you for his champion,It appears my liberation of Slaver's Bay isn't...,"""Bring me my brown pants!""",Could I have a drink?,do you remember that?,It's exactly what the survivors of their raids...,"You're speaking to the one true king, boy.",
101,Beautiful.,"We've been flaying our enemies for 1,000 years.",He also named a 6-year-old boy High Septon,because he knew you would ride day and night t...,You could sail for Westeros and leave it all b...,You think they ever met a pirate who didn't te...,Dying is thirsty work.,I'm sorry.,"Yes, imagine the stories wildlings tell about us.","You will address him as ""Your Grace.""",
102,But pale.,The flayed man is on our banners.,because he thought the boy could work miracles.,You gonna fight for him now?,A boy sits on the Iron Throne.,Davos.,Wish it were wine.,- I'm sorry they did that to you. - Why?,Love is the death of duty.,I know he's the king. My father died for him.,


### Abrir archivos YAML

In [49]:
import yaml

In [53]:
with open('../data/environment_.yml') as file:                   # Carga
        datos = yaml.load(file, Loader = yaml.FullLoader)

print(datos)                                                     # Visualización

{'name': 'data-science-handbook', 'channels': ['conda-forge'], 'dependencies': ['python=3.5', {'pip': ['-r requirements.txt']}]}


### Lectura de datos con Spark

Desde Spark es posible la lectura de ambos arcchivos, sin embargo en el caso de los yaml, a diferencia de json es necesario realizar transformaciones a json y a dataframe. Esto con un json se puede realizar directamente

### ¿Qué tipo de bases de datos No SQL usa estructuras de datos similares?

Un ejemplo es CouchDB, se trata de un gestor de bases de datos de código abierto, se centra en la facilidad de  uso. Se trata de una base de datos NoSQL que emplea JSON para almacenar los datos, JavaScript como lenguaje de consulta por medio de MapReduce y HTTP como API.
CouchDB implementa una forma de control de concurrencia multiversión para evitar la necesidad de bloquear el archivo de base de datos durante las escrituras.

### Referencias

 Para realizar una visión general de yaml. Procedente de https://es.wikipedia.org/wiki/YAML

 Para realizar una visión general de json. Procedente de https://www.json.org/json-es.html

Búsqueda de información adicional sobre json. Procedente de https://www.mclibre.org/consultar/informatica/lecciones/formato-json.html

Búsqueda de información adicional sobre yaml. Procedente de https://marquesfernandes.com/es/tecnologia-es/file-yaml-what-and-and-for-that-serves/