27/11/2020

Isabel Afán de Ribera 

## Práctica 1: Generación de ficheros de metadatos y lectura de formatos en Python

Esta tarea consiste en, buscar información sobre los formatos json y yaml, e implementar sendas funciones ya sea en R o en python (como en este caso), para poder leer este tipo de ficheros. ¿Se pueden leer con spark? ¿Qué tipo de bases de datos No SQL usa estructuras de datos similares?

### Sobre ambos formatos

Tanto JSON como YAML son lenguajes de serialización de datos siendo este el proceso de convertir objetos de datos presentes en estructuras de datos complejas en un flujo de bytes para fines de almacenamiento, transferencia y distribución en dispositivos físicos. Por tanto, ambos son una forma de almacenar objetos y estructuras de datos en archivos. 

### Formato JSON

JavaScript Object Notation (JSON) es un formato basado en texto estándar para representar datos estructurados en la sintaxis de objetos de JavaScript. Aunque puede ser utilizado independientemente de JavaScript, y muchos entornos de programación poseen la capacidad de leer (convertir; parsear) y generar JSON.

JSON tiene un formato estándar para el almacenamiento de datos. Almacena datos en pares clave / valor. Los registros están separados por comas y tanto los nombres de los campos como las cadenas están entre comillas dobles.

Algunos de los tipos de datos válidos utilizados en JSON son:

* Números
* Strings
* Objetos
* Arrays

In [18]:
# base de datos obtenida de datos abiertos de la Comunidad de Madrid relativa a información epidemiológica Covid-19 de Madrid
import json
dataset = open("covid19_tia_muni_y_distritos_s.json", encoding="utf8")
data = json.load(dataset)
data

{'data': [{'municipio_distrito': 'Madrid-Retiro',
   'codigo_geometria': '079603',
   'tasa_incidencia_acumulada_ultimos_14dias': 264.002614883043,
   'tasa_incidencia_acumulada_total': 4700.92275199678,
   'casos_confirmados_totales': 5609,
   'casos_confirmados_ultimos_14dias': 315,
   'fecha_informe': '2020/11/17 12:22:00'},
  {'municipio_distrito': 'Madrid-Salamanca',
   'codigo_geometria': '079604',
   'tasa_incidencia_acumulada_ultimos_14dias': 331.955319498439,
   'tasa_incidencia_acumulada_total': 4740.45885122926,
   'casos_confirmados_totales': 6926,
   'casos_confirmados_ultimos_14dias': 485,
   'fecha_informe': '2020/11/17 12:22:00'},
  {'municipio_distrito': 'Madrid-Centro',
   'codigo_geometria': '079601',
   'tasa_incidencia_acumulada_ultimos_14dias': 289.956098718557,
   'tasa_incidencia_acumulada_total': 5056.06312292359,
   'casos_confirmados_totales': 6818,
   'casos_confirmados_ultimos_14dias': 391,
   'fecha_informe': '2020/11/17 12:22:00'},
  {'municipio_distrito'

### Formato yaml

YAML es un formato para guardar objetos de datos con estructura de árbol. Sus siglas significan YAML Ain’t Markup Language. Este lenguaje es muy legible para las personas, más legible que un JSON y sobretodo que XML. Se utiliza normalmente para: archivos de configuración, traducciones y para representar información. Sus ventajas frente al formato JSON/XML: 
- es un formato mucho más amigable
- fácil de entender rápidamente 
- facilita el mapeo de estructuras de datos complejas.

YAML usa tres guiones (“ ---”) para indicar el comienzo de un documento y tres puntos (“ ...”) para indicar el final de un documento. A diferencia de JSON, YAML usa las sangrías como en Python para mostrar los niveles en los datos. Los pares clave / valor se separan con dos puntos y las listas comienzan con un guión en YAML.

Los tipos de datos más comunes que se utilizan en YAML son:

* Números
* Instrumentos de cuerda
* Valores nulos
* Booleano
* Fechas y marcas de tiempo
* Secuencias
* Valores anidados

In [16]:
# base de datos obtenida de Kaggle sobre "Women's Big Bash League matches"
import yaml  # paquete yaml

with open(r'1023679.yaml') as file:
    doc = yaml.load(file, Loader=yaml.FullLoader)  # la función yaml.load convierte un documento YAML en un objeto Python

    sort_file = yaml.dump(doc, sort_keys=True)  # La función yaml.dump acepta un objeto Python y produce un documento YAML
    print(sort_file)

info:
  city: Bendigo
  competition: Women's Big Bash League
  dates:
  - '2016-12-18'
  gender: female
  match_type: T20
  outcome:
    eliminator: Hobart Hurricanes
    result: tie
  overs: 20
  player_of_match:
  - AE Satterthwaite
  teams:
  - Hobart Hurricanes
  - Melbourne Renegades
  toss:
    decision: field
    winner: Melbourne Renegades
  umpires:
  - D Brigham
  - S Brne
  venue: Queen Elizabeth II Oval
innings:
- 1st innings:
    deliveries:
    - 0.1:
        batsman: HK Matthews
        bowler: LMM Tahuhu
        non_striker: G Redmayne
        runs:
          batsman: 1
          extras: 0
          total: 1
    - 0.2:
        batsman: G Redmayne
        bowler: LMM Tahuhu
        non_striker: HK Matthews
        runs:
          batsman: 0
          extras: 0
          total: 0
    - 0.3:
        batsman: G Redmayne
        bowler: LMM Tahuhu
        non_striker: HK Matthews
        runs:
          batsman: 4
          extras: 0
          total: 4
    - 0.4:
        bat

### JSON vs YAML

Con respecto a legibilidad y complejidad el objetivo del diseño de JSON es ser lo más simple posible y universalmente utilizable. Por tanto, esto ha reducido la legibilidad de los datos hasta cierto punto. Por el contrario, el objetivo de diseño de YAML es proporcionar un buen formato legible por humanos y proporcionar soporte para serializar estructuras de datos nativas arbitrarias. Así que esto ha aumentado la legibilidad de los archivos YAML pero ha hecho que el análisis y la generación de archivos sean algo complejos. 

En lo relativo a rendimiento de serialización JSON es el ganador debido a la capacidad de analizar rápida y fácilmente datos serializados JSON con su diseño más simple. Y esto ha hecho que JSON se haya convertido en el formato de intercambio de datos más utilizado para aplicaciones y servicios web entre los desarrolladores.

### Otras cuestiones

####  ¿Se pueden leer con spark? 

Spark está diseñado para funcionar con Python, Java, Scala y SQL y los tipos de datos que puede leer son los siguientes:

![tiposdatosSpark.PNG](attachment:tiposdatosSpark.PNG)

#### ¿Qué tipo de bases de datos No SQL usa estructuras de datos similares?

Las bases de datos NoSQL son sistemas de almacenamiento de información que no cumplen con el esquema entidad–relación. Tampoco utilizan una estructura de datos en forma de tabla donde se van almacenando los datos sino que para el almacenamiento hacen uso de otros formatos como clave–valor, mapeo de columnas o grafos. Además, son estructuras que nos permiten almacenar información en aquellas situaciones en las que las bases de datos relacionales generan ciertos problemas debido principalmente a problemas de escalabilidad y rendimiento. 

Algunos tipos de bases de datos No SQL que usan estructuras de datos similares a JSON y YAML, es decir, con estructura de diccionario clave-valor son:

* Mongo DB
* Couch DB

## Referencias

* Bases de datos NoSQL.Qué son y tipos que nos podemos encontrar. Disponible en: https://www.acens.com/wp-content/images/2014/02/bbdd-nosql-wp-acens.pdf
* Conoce que es un YAML. Disponible en: https://fercontreras.com/conoce-que-es-un-yaml-e18e9d21ade4
* Datos abiertos de la Comunidad de Madrid. Covid 19 -TIA por Municipios y Distritos de Madrid dataset. Disponible en: https://datos.comunidad.madrid/catalogo/organization/f483a299-1775-4d87-a2f7-39bf554735a1?res_format=JSON
* JSON vs YAML. Disponible en: https://levelup.gitconnected.com/json-vs-yaml-6aa0243aefc6
* Reading and Writing YAML to a File in Python. Disponible en: https://stackabuse.com/reading-and-writing-yaml-to-a-file-in-python/
* Trabajando con JSON. MDN web docs. Disponible en: https://developer.mozilla.org/es/docs/Learn/JavaScript/Objects/JSON
* What is the difference between YAML and JSON? Disponible en: https://www.geeksforgeeks.org/what-is-the-difference-between-yaml-and-json/
*  Women's Big Bash League matches dataset (Kaggle). Disponible en: https://www.kaggle.com/maneesh99/womens-big-bash-league-matches