# Generación de ficheros de metadatos y lectura de formatos en python/R

<img src= https://i.stack.imgur.com/1Gja6.png>

#### Autor: Ignacio Ruiz de Zuazu Echevarría

#### Máster en Data Sciecnce para Finanzas, CUNEF

## Lectura de archivos YAML

YAML (YAML Ain't Markup Language) es un lenguaje de serialización de datos legible por humanos. Se usa comúnmente para archivos de configuración, pero también se usa en el almacenamiento de datos (por ejemplo, salida de depuración) o transmisión (por ejemplo, encabezados de documentos).

YAML admite de forma nativa tres tipos de datos básicos: escalares (como cadenas, enteros y flotantes), listas y matrices asociativas.

La extensión de nombre de archivo oficial recomendada para archivos YAML ha sido .yaml. Hay dos módulos en Python para YAML: PyYAML y ruamel.yaml. En este tutorial, usamos el primero.

In [1]:
import yaml

def read_yaml_file(filename):
    with open(filename, 'r') as stream:
        try:
            print(yaml.safe_load(stream))
        except yaml.YAMLError as exc:
            print(exc)

In [2]:
users = [{'name': 'John Aherne', 'occupation': 'Marketing Manager'},
         {'name': 'Jonathan Matzinger', 'occupation': 'Student'},
        { 'name': 'Raphael Marceau', 'occupation': 'Auditor'}]

In [3]:
with open('./data/users.yaml', 'w') as f:
    
    data = yaml.dump(users, f)

In [4]:
read_yaml_file("./data/users.yaml")

[{'name': 'John Aherne', 'occupation': 'Marketing Manager'}, {'name': 'Jonathan Matzinger', 'occupation': 'Student'}, {'name': 'Raphael Marceau', 'occupation': 'Auditor'}]


### Lectura de un enviroment de conda

In [5]:
read_yaml_file("./data/lendingclub.yml")

{'name': 'lendingclub', 'channels': ['anaconda', 'conda-forge', 'defaults'], 'dependencies': ['argon2-cffi=20.1.0=py38h294d835_2', 'async_generator=1.10=py_0', 'attrs=20.3.0=pyhd3deb0d_0', 'backcall=0.2.0=pyh9f0ad1d_0', 'backports=1.0=py_2', 'backports.functools_lru_cache=1.6.1=py_0', 'blas=1.0=mkl', 'bleach=3.2.1=pyh9f0ad1d_0', 'brotlipy=0.7.0=py38hab1e662_1001', 'ca-certificates=2020.10.14=0', 'certifi=2020.6.20=py38_0', 'cffi=1.14.3=py38h0e640b1_1', 'chardet=3.0.4=py38h9bdc248_1008', 'colorama=0.4.4=pyh9f0ad1d_0', 'cryptography=3.2.1=py38hd8c33c5_0', 'cycler=0.10.0=py38_0', 'decorator=4.4.2=py_0', 'defusedxml=0.6.0=py_0', 'entrypoints=0.3=pyhd8ed1ab_1003', 'freetype=2.10.4=hd328e21_0', 'icc_rt=2019.0.0=h0cc432a_1', 'icu=58.2=vc14hc45fdbb_0', 'idna=2.10=pyh9f0ad1d_0', 'importlib-metadata=2.0.0=py_1', 'importlib_metadata=2.0.0=1', 'intel-openmp=2020.2=254', 'ipykernel=5.3.4=py38h5ca1d4c_0', 'ipython=7.19.0=py38hc5df569_0', 'ipython_genutils=0.2.0=py_1', 'jedi=0.17.2=py38haa244fe_1', '

In [6]:
import pandas as pd
import yaml

with open("./data/lendingclub.yml", 'r') as f:
    df = pd.json_normalize(yaml.safe_load(f))

print(df.head())


          name                           channels  \
0  lendingclub  [anaconda, conda-forge, defaults]   

                                        dependencies  \
0  [argon2-cffi=20.1.0=py38h294d835_2, async_gene...   

                                      prefix  
0  C:\Users\nacho\anaconda3\envs\lendingclub  


## Lectura formato JSON

Un archivo JSON es un archivo que almacena objetos y estructuras de datos simples en formato JSON (JavaScript Object Notation), que es un formato estándar de intercambio de datos. Se utiliza principalmente para transmitir datos entre una aplicación web y un servidor. Los archivos JSON son ligeros, están basados en texto, son legibles por humanos y pueden editarse usando un editor de texto.

### Escribir y guardar en formato json

In [7]:
import json

data = {}
data['people'] = []
data['people'].append({
    'name': 'Scott',
    'website': 'stackabuse.com',
    'from': 'Nebraska'
})
data['people'].append({
    'name': 'Larry',
    'website': 'google.com',
    'from': 'Michigan'
})
data['people'].append({
    'name': 'Tim',
    'website': 'apple.com',
    'from': 'Alabama'
})

with open('./data/data.txt', 'w') as outfile:
    json.dump(data, outfile)

### Lectura formato JSON

In [8]:
import json

with open('./data/data.txt') as json_file:
    data = json.load(json_file)    
    
    for p in data['people']:
        print('Name: ' + p['name'])
        print('Website: ' + p['website'])
        print('From: ' + p['from'])
        print('')

Name: Scott
Website: stackabuse.com
From: Nebraska

Name: Larry
Website: google.com
From: Michigan

Name: Tim
Website: apple.com
From: Alabama



### Ejemplo con IRIS dataset

Como ejemplo usaremos el dataset iris 

In [9]:
import json
open_json = open("./data/iris.json")

En formato texto

In [12]:
load_json = json.load(open_json)
load_json

[{'sepalLength': 5.1,
  'sepalWidth': 3.5,
  'petalLength': 1.4,
  'petalWidth': 0.2,
  'species': 'setosa'},
 {'sepalLength': 4.9,
  'sepalWidth': 3.0,
  'petalLength': 1.4,
  'petalWidth': 0.2,
  'species': 'setosa'},
 {'sepalLength': 4.7,
  'sepalWidth': 3.2,
  'petalLength': 1.3,
  'petalWidth': 0.2,
  'species': 'setosa'},
 {'sepalLength': 4.6,
  'sepalWidth': 3.1,
  'petalLength': 1.5,
  'petalWidth': 0.2,
  'species': 'setosa'},
 {'sepalLength': 5.0,
  'sepalWidth': 3.6,
  'petalLength': 1.4,
  'petalWidth': 0.2,
  'species': 'setosa'},
 {'sepalLength': 5.4,
  'sepalWidth': 3.9,
  'petalLength': 1.7,
  'petalWidth': 0.4,
  'species': 'setosa'},
 {'sepalLength': 4.6,
  'sepalWidth': 3.4,
  'petalLength': 1.4,
  'petalWidth': 0.3,
  'species': 'setosa'},
 {'sepalLength': 5.0,
  'sepalWidth': 3.4,
  'petalLength': 1.5,
  'petalWidth': 0.2,
  'species': 'setosa'},
 {'sepalLength': 4.4,
  'sepalWidth': 2.9,
  'petalLength': 1.4,
  'petalWidth': 0.2,
  'species': 'setosa'},
 {'sepalLe

Se puede transformar a data frame

In [10]:
import pandas as pd
pd.read_json("./data/iris.json")

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


## Lectura de archivos YAML en Spark 

Sope es un conjunto de utilidades y funciones de biblioteca que ayudan con el desarrollo de ETL utilizando Apache Spark. El proyecto contiene los siguientes submódulos:

* sope-spark
* sope-etl

Sope-spark es un módulo que contiene funciones de biblioteca y una biblioteca dsl interna de Scala que ayuda a escribir transformaciones Spark SQL ETL de manera concisa.

Sope-etl contiene un transformador YAML. El transformador YAML lee un archivo yaml y ejecuta las transformaciones definidas en el archivo. Encontrará que el transformador es útil para crear pipelines de transformación de complejidad media o simple utilizando un archivo YAML externo, en lugar de escribir archivos scala / java.

## Lectura de archivos JSON en Spark

Spark SQL proporciona spark.read.json ("ruta") para leer un archivo JSON de una sola línea y varias líneas (varias líneas) en Spark DataFrame y dataframe.write.json ("ruta") para guardar o escribir en un archivo JSON, en este tutorial, aprenderá cómo leer un solo archivo, múltiples archivos, todos los archivos de un directorio en DataFrame y escribir DataFrame de nuevo en un archivo JSON usando el ejemplo de Scala.

Nota: Spark admite la lectura de archivos JSON y muchos más formatos de archivo en Spark DataFrame y Spark usa la biblioteca Jackson de forma nativa para trabajar con archivos JSON.

## Tipos de bases de datos No SQL que usan estructuras de datos similares

1. Bases de datos clave – valor
2. Bases de datos documentales
3. Bases de datos en grafo
4. Bases de datos orientadas a objetos

## Referencias

https://rollout.io/blog/yaml-tutorial-everything-you-need-get-started/

https://stackoverflow.com/questions/35968189/retrieving-data-from-a-yaml-file-based-on-a-python-list

https://www.geeksforgeeks.org/read-json-file-using-python/

https://www.programiz.com/python-programming/json

https://www.kaggle.com/rtatman/iris-dataset-json-version

https://www.acens.com/wp-content/images/2014/02/bbdd-nosql-wp-acens.pdf