# Lectura de ficheros tipo .json y .yaml

## Marcos Barragán Corredera

### ETL 2020/2021

### Objetivo:

El objetivo de esta práctica consiste en la familiarización con los ficheros de datos _.json_ y _.yaml_. Para ello, se buscará cómo generar y cómo leer y cargar este tipo ficheros en Python.

#### 1) Ficheros _.json_

Los ficheros _.json_ son formatos de texto sencillo para el intercambio de datos. Se trata de un subconjunto de la notación literal de objetos de JavaScript. Este tipo de ficheros permite incluir:

+ Números: incluidos negativos y fracciones, con la parte fraccional separada por puntos.

+ Cadenas: secuencias de caracteres. Se ponen entre doble comilla.

+ Booleanos: valores `True` y `False`.

+ Null: representan el valor nulo (nan).

+ Array: Representa una lista ordenada de cero o más valores, que pueden ser de cualquier tipo. Los valores se separan por comas y el vector se mete entre corchetes (como en python). 

+ Objetos: colecciones no ordenadas de pares de la forma separados por comas y puestas entre llaves.

Python presenta un paquete/librería que permite trabajar con este tipo de estructuras. La librería se llama __json__, y será la que nos permita abrir ficheros de ese mismo tipo. 

In [1]:
import json

La estructura para crear ficheros .json es: 

In [29]:
data_json = {}

data_json['Clientes'] = []

data_json['Clientes'].append({
    'Nombre': 'Paco',
    'Apellidos': 'García López',
    'Edad': 27,
    'Deuda (€)': 7.17})

data_json['Clientes'].append({
    'Nombre': 'Pepe',
    'Apellidos': 'Jiménez Peña',
    'Edad': 45,
    'Deuda (€)': 900.20})

data_json['Clientes'].append({
    'Nombre': 'María',
    'Apellidos': 'Fuertes Domínguez',
    'Edad': 23,
    'Deuda (€)': 71.37})

with open('data.json', 'w', encoding = 'utf8') as file:
    json.dump(data_json, file, indent = 4)

Vemos que presenta una estructura similar a la de un diccionario de datos de Python. Nótese la importancia de especificar que queremos que se guarde como un UTF-8, porque si no no entendería las tildes o los caracteres extraños (como la ñ, el €, etc.).
La `w` dentro del open hace referencia a que es un archivo solo de escritura.

Para leer este tipo de ficheros podemos hacer:

In [30]:
prueba = open('data.json', encoding="utf8")

data = json.load(prueba)

data

{'Clientes': [{'Nombre': 'Paco',
   'Apellidos': 'García López',
   'Edad': 27,
   'Deuda (€)': 7.17},
  {'Nombre': 'Pepe',
   'Apellidos': 'Jiménez Peña',
   'Edad': 45,
   'Deuda (€)': 900.2},
  {'Nombre': 'María',
   'Apellidos': 'Fuertes Domínguez',
   'Edad': 23,
   'Deuda (€)': 71.37}]}

O bien:

In [9]:
with open('data.json') as file:
    data = json.load(file)
    
data

{'Clientes': [{'Nombre': 'Paco',
   'Apellidos': 'García López',
   'Edad': 27,
   'Deuda (€)': 7.17},
  {'Nombre': 'Pepe',
   'Apellidos': 'Jiménez Peña',
   'Edad': 45,
   'Deuda (€)': 900.2},
  {'Nombre': 'María',
   'Apellidos': 'Fuertes Domínguez',
   'Edad': 23,
   'Deuda (€)': 71.37}]}

Además de generarlo aquí, para comprobar que funciona con archivos externos, lo que hice fue crearme un archivo con ese formato en un archivo de texto y guardarlo en la misma carpeta, con el objetivo de abrirlo a través de esa función. 

Este archivo lo llamé: _prueba.json_. 

In [11]:
prueba = open('prueba.json', encoding="utf8")

datos = json.load(prueba)

datos

{'data': [{'Codigo_Postal': 28001,
   'Nombre_Calle': 'Calle General Mola',
   'Portal': 62,
   'Piso': 8,
   'sexo': 'Hombre'},
  {'Codigo_Postal': 28003,
   'Nombre_Calle': 'Calle Los Vascos',
   'Portal': 2,
   'Piso': 4,
   'sexo': 'Mujer'},
  {'Codigo_Postal': 28003,
   'Nombre_Calle': 'Calle Beatriz de Boadilla',
   'Portal': 13,
   'Piso': 5,
   'sexo': 'Hombre'}]}

### 2) Ficheros yaml

Los ficheros tipo YAML fueron creados bajo la creencia de que todos los datos pueden ser representados adecuadamente como combinaciones de listas, mapeos y datos escalares. 

La sintaxis es relativamente sencilla, prácticamente es un objeto tipo diccionario de Python. Fue implantada con el fin de que fuese entendible fácilmente pero que a la vez fuese empleable por los tipos de datos más comunes en la mayoría de los lenguajes de alto nivel. 

Algunas consideraciones sobre este tipo de ficheros:

+ Los contenidos en YAML se describen utilizando el conjunto de caracteres imprimibles de Unicode, bien en UTF-8 o UTF-16.

+ La estructura del documento se denota indentando con espacios en blanco; sin embargo no se permite el uso de caracteres de tabulación para sangrar.

+ Los miembros de las listas se denotan encabezados por un guion ( - ) con un miembro por cada línea, o bien entre corchetes y separados por coma espacio.

+ Los vectores asociativos se representan usando los dos puntos seguidos por un espacio. en la forma "clave: valor", como en un diccionario de Python. 

+ Los escalares, por lo general, aparecen sin entrecomillar, pero pueden incluirse entre comillas. En mi caso, los pondré con comillas. 

+ Se pueden incluir múltiples documentos dentro de un único flujo, separándolos por tres guiones. 

+ Tres indican el fin de un documento dentro de un flujo.

+ Los nodos repetidos se pueden denotar con & y ser referidos posteriormente usando *.

+ Los nodos pueden etiquetarse con un tipo o etiqueta utilizando el signo de exclamación( ! ) seguido de una cadena que puede ser expandida en una URL.

Como en el caso anterior, para trabajar con ficheros tipo _.yaml_ debemos cargar la librería con el mismo nombre de Python:

In [12]:
import yaml

In [26]:
prueba_yaml = open('prueba2.yaml', encoding = "utf8")

datos_yaml = yaml.load(prueba_yaml)

In [27]:
datos_yaml

[{'nombre': 'Marcos', 'appelido': 'López', 'ocupacion': 'Jardinero'},
 {'nombre': 'Paula', 'apellido': 'Berenguer', 'ocupacion': 'Peluquera'},
 {'nombre': 'Pedro', 'apellido': 'Piqueras', 'ocupacion': 'presentador'}]

También se pueden leer creando una función que lo haga: 

In [24]:
def read_yaml_file(prueba2):
    with open(prueba2, 'r', encoding = "utf8") as stream:
        try:
            print(yaml.safe_load(stream))
        except yaml.YAMLError as exc:
            print(exc)

In [25]:
read_yaml_file("prueba2.yaml")

[{'nombre': 'Marcos', 'appelido': 'López', 'ocupacion': 'Jardinero'}, {'nombre': 'Paula', 'apellido': 'Berenguer', 'ocupacion': 'Peluquera'}, {'nombre': 'Pedro', 'apellido': 'Piqueras', 'ocupacion': 'presentador'}]


Para generar ficheros _.yaml_ haremos como antes: 

In [32]:
prueba_yaml = [{'Nombre': 'Paco', 'Apellidos': 'García López', 'Edad': '27', 'Deuda (€)': '7.17'},
               {'Nombre': 'Pepe', 'Apellidos': 'Jiménez Peña', 'Edad': '45', 'Deuda (€)': '900.20'},
               {'Nombre': 'María', 'Apellidos': 'Fuertes Domínguez', 'Edad': 23, 'Deuda (€)': '71.37'}]

In [35]:
with open('data_yaml.yaml', 'w', encoding = 'utf8') as file:
    yaml.dump(prueba_yaml, file)

Con eso, habríamos generado un fichero de datos en formato _.yaml_, llamado prueba_yaml.