# Extracción, Transformación y Carga

__Autor:__ Sergio Casares Fernández

# 1. Teoría

Introducción teórica del trabajo

## 1.1. Tipos de datos

Se dividen en datos estructurados y no estructurados

### 1.1.A. Datos Estructurados

Nos referimos a la información que se suele encontrar en la mayoría de bases de datos relacionales (RDBMS). Suelen ser archivos de texto que se almacenan en formato tabla, hojas de cálculo o bases de datos relacionales con títulos para cada categoría que permite identificarlos.

Para gestionar este tipo de datos se utiliza un tipo de lenguaje de programación estructurado, conocido como SQL (Structured Query Language) diseñado para administrar y recuperar información de sistemas de gestión de bases de datos relacionales (RDBMS)

### 1.1.B. Datos no Estructurados

La característica principal de este tipo de datos, generalmente binarios, es que no poseen una estructura interna identificable. Se trata de un cúmulo de información que deben identificarse y almacenarse de forma organizada a través de una base de datos no relacional (NoSQL).

Los datos no estructurados que puede generar el ser se pueden almacenar en múltiples formatos como:

* Documentos PDF.
* Documentos Word.
* Correos electrónicos. Habitualmente, se suelen categorizar como datos semiestructurados. No obstante, el campo del mensaje no está estructurado y las herramientas tradicionales de análisis no son capaces de identificarlos.
* Datos móviles: mensajes de texto, ubicaciones, mensajería instantánea, grabaciones telefónicas, etcétera.
* Hojas de cálculo.
* Vídeos y audios.
* Publicaciones en medios sociales.

El ser humano no es el único capaz de generar datos, las máquinas también lo hacen constantemente.  En este sentido la información más destacable que podemos obtener son las imágenes de satélite, imágenes de vigilancia digital, datos de sensores de tráfico, clima u oceanográficos.

Una vez organizados los archivos que conforman el contenido se pueden categorizar para obtener información. Esta labor se puede llevar a través de múltiples herramientas de software para el procesamiento, gestión o almacenamiento de las que hemos hablado en anteriores entradas, como por ejemplo Hadoop, MapReduce, Cassandra, etcétera.

### 1.1.C. Diferencias tipos de datos

__Almacenamiento__
Esta es la diferencia más clara entre ambos conceptos. Los datos estructurados se almacenan en una base de datos relacional (RDBMS), mientras que los datos no estructurados no pueden almacenarse en estructuras de datos relacionales predefinidas (NoSQL).

__Facilidad de análisis__
Los datos estructurados al poseer, como su propio nombre indica, una estructura organizada que otorga al usuario de facilidad de análisis para la obtención de resultados medibles. Por el contrario, los datos no estructurados necesitan herramientas analíticas más complejas.

__Flexibilidad__
Los datos no estructurados que permanecen en el Data Lake son más flexibles, es decir,  mucho menos sensibles a los cambios que los datos estructurados. Al almacenar toda la información en bruto, permite el acceso de cualquier usuario para configure y reconfigurare según la finalidad para la que hayan sido concebidos.

__Información__
Los datos almacenados en el Data Warehouse son más maduros y, precisamente por esa cualidad proporcionan resultados organizados y fiables que los que permanecen en el Data Lake, que destacan por ser un conglomerado de información masiva.

## 1.2. Formatos YAML y JSON

### 1.2.A. YAML

YAML database is a document database which stores documents as YAML files. The documents in the database can be maintained by simply editing the yaml files.

This database was designed to be used for systems like CMS systems, where an easy way to edit data is necessary and the number of data objects is not very high. It can be also used to store settings and configurations.

Storing the database as separate files lets you use version control systems like git on the database, which is again ideal for storing settings, configurations, blog posts and CMS content.

__ADVANTAGES__

* Can easily change database entries
* Can use version control on the database
* Ideal for settings and configurations (user configs etc)

__DISADVANTAGES__

* No SQL or similar functionality (like searching the database)
* Not suitable for storing transactional data

### 1.2.B. JSON


JavaScript Object Notation (JSON) es un formato basado en texto estándar para representar datos estructurados en la sintaxis de objetos de JavaScript. Es comúnmente utilizado para transmitir datos en aplicaciones web (por ejemplo: enviar algunos datos desde el servidor al cliente, así estos datos pueden ser mostrados en páginas web, o vice versa).

JSON es un formato de datos basado en texto que sigue la sintaxis de objeto de JavaScript, popularizado por Douglas Crockford. Aunque es muy parecido a la sintaxis de objeto literal de JavaScript, puede ser utilizado independientemente de JavaScript, y muchos entornos de programación poseen la capacidad de leer (convertir; parsear) y generar JSON.

### 1.2.C. Diferencias Yaml y Json

* 1. YAML, dependiendo de cómo lo use, puede ser más legible que JSON
* 2. JSON es a menudo más rápido y probablemente aún sea interoperable con más sistemas
* 3. Es posible escribir un analizador JSON “lo suficientemente bueno” muy rápidamente
* 4. Las claves duplicadas, que son JSON potencialmente válidas, son definitivamente inválidas YAML.
* 5. YAML tiene un montón de características, que incluyen comentarios y anclajes relacionales. La syntax de YAML es bastante compleja y puede ser difícil de entender.
* 6. Es posible escribir estructuras recursivas en yaml: {a: &b [*b]} , que se repetirá infinitamente en algunos convertidores. Incluso con la detección circular, una “bomba yaml” aún es posible (ver bomba xml ).
* 7. Como no hay referencias, es imposible serializar estructuras complejas con referencias a objetos en JSON. La serialización de YAML puede, por lo tanto, ser más eficiente.
* 8. En algunos entornos de encoding, el uso de YAML puede permitir que un atacante ejecute código arbitrario .

# 2. Preguntas

## ¿Se pueden leer con spark? 

Spark es un sistema de computación distribuida de software libre, que permite procesar grandes conjuntos de datos sobre un conjunto de máquinas de forma simultánea, proporcionando escalabilidad horizontal y la tolerancia a fallos.

Sí se puede, no solo con la interfaz de Spark sino también utilizando la librería en Python de Pyspark:

* https://sparkbyexamples.com/spark/spark-read-and-write-json-file/


## ¿Qué tipo de bases de datos No SQL usa estructuras de datos similares?

El formato YAML y JSON utiliza bases de datos de tipo documental, pero además, este formato no solo permite hacer búsquedas por clave o valor sino que también puede realizar consultas más avanzadas sobre el contenido del documento.

__Bases de datos documentales similares:__  MongoDB o CouchDB (las más similares a Yaml y Json)



También existen otro tipo de base de datos que pueden clasificar en función de su utilización:

__Bases de datos clave – valor:__ Cassandra, BigTable o HBase.

__Bases de datos en grafo:__  Neo4j, InfoGrid o Virtuoso.

__Bases de datos orientadas a objetos:__ Zope, Gemstone o Db4o.

# 3. Ejemplos Prácticos

## 3.1. YAML

In [71]:
#importamos la libreria YAML
import yaml

In [106]:
#Creamos el contenido de la base de datos no relacional
data = { 'Name': 'Sergio',
        'Age' : 22,
        'Location' : {'Localidad':'Navalmoral de la Mata',
                      'Provincia':'Caceres'},
       'Social Media' : {'Youtube': 'https://www.youtube.com/channel/UCSbzrD7fR8jozUWWoDJDVEg?view_as=subscriber' ,
                        'Github' : 'https://github.com/Scasares98',
                       },
       'Languajes' : {'markup' : ['HTML', 'RMD', 'YAML'],
                     'Programming' : ['R', 'Python', 'SQL']}
       }

In [107]:
#diferencia print a enseñar el objeto
print(data), data

{'Name': 'Sergio', 'Age': 22, 'Location': {'Localidad': 'Navalmoral de la Mata', 'Provincia': 'Caceres'}, 'Social Media': {'Youtube': 'https://www.youtube.com/channel/UCSbzrD7fR8jozUWWoDJDVEg?view_as=subscriber', 'Github': 'https://github.com/Scasares98'}, 'Languajes': {'markup': ['HTML', 'RMD', 'YAML'], 'Programming': ['R', 'Python', 'SQL']}}


(None,
 {'Name': 'Sergio',
  'Age': 22,
  'Location': {'Localidad': 'Navalmoral de la Mata', 'Provincia': 'Caceres'},
  'Social Media': {'Youtube': 'https://www.youtube.com/channel/UCSbzrD7fR8jozUWWoDJDVEg?view_as=subscriber',
   'Github': 'https://github.com/Scasares98'},
  'Languajes': {'markup': ['HTML', 'RMD', 'YAML'],
   'Programming': ['R', 'Python', 'SQL']}})

In [108]:
#Convertir data a un formato YAML
x = yaml.dump(data)

In [109]:
print(yaml.dump(x, default_flow_style = False))

"Age: 22\nLanguajes:\n  Programming:\n  - R\n  - Python\n  - SQL\n  markup:\n  - HTML\n\
  \  - RMD\n  - YAML\nLocation:\n  Localidad: Navalmoral de la Mata\n  Provincia:\
  \ Caceres\nName: Sergio\nSocial Media:\n  Github: https://github.com/Scasares98\n\
  \  Youtube: https://www.youtube.com/channel/UCSbzrD7fR8jozUWWoDJDVEg?view_as=subscriber\n"



Accedemos a los datos:

In [137]:
yaml.load(x, Loader = yaml.FullLoader)['Name'], data['Age']

('Sergio', 22)

In [134]:
data['Name'], data['Age']

('Sergio', 22)

In [139]:
yaml.load(x, Loader = yaml.FullLoader)['Social Media']['Youtube']

'https://www.youtube.com/channel/UCSbzrD7fR8jozUWWoDJDVEg?view_as=subscriber'

In [136]:
data['Languajes']['Programming'][0]

'R'

## 3.2. JSON

#### EJEMPLO 1

In [90]:
#Importar las librerías
import json

In [185]:
#Creación del contenido de una base de datos no relacional
Y =       {
                      "squadName": "Super hero squad",
                      "homeTown": "Metro City",
                      "formed": 2016,
                      "secretBase": "Super tower",
                      "active": True,
                      "members": [
                        {
                          "name": "Molecule Man",
                          "age": 29,
                          "secretIdentity": "Dan Jukes",
                          "powers": [
                            "Radiation resistance",
                            "Turning tiny",
                            "Radiation blast"
                          ]
                        },
                        {
                          "name": "Madame Uppercut",
                          "age": 39,
                          "secretIdentity": "Jane Wilson",
                          "powers": [
                            "Million tonne punch",
                            "Damage resistance",
                            "Superhuman reflexes"
                          ]
                        },
                        {
                          "name": "Eternal Flame",
                          "age": 1000000,
                          "secretIdentity": "Unknown",
                          "powers": [
                            "Immortality",
                            "Heat Immunity",
                            "Inferno",
                            "Teleportation",
                            "Interdimensional travel"
                          ]
                        }
                      ]
                    }

In [92]:
# convert into JSON:
Y = json.dumps(Y)

In [186]:
print(Y), Y

{'squadName': 'Super hero squad', 'homeTown': 'Metro City', 'formed': 2016, 'secretBase': 'Super tower', 'active': True, 'members': [{'name': 'Molecule Man', 'age': 29, 'secretIdentity': 'Dan Jukes', 'powers': ['Radiation resistance', 'Turning tiny', 'Radiation blast']}, {'name': 'Madame Uppercut', 'age': 39, 'secretIdentity': 'Jane Wilson', 'powers': ['Million tonne punch', 'Damage resistance', 'Superhuman reflexes']}, {'name': 'Eternal Flame', 'age': 1000000, 'secretIdentity': 'Unknown', 'powers': ['Immortality', 'Heat Immunity', 'Inferno', 'Teleportation', 'Interdimensional travel']}]}


(None,
 {'squadName': 'Super hero squad',
  'homeTown': 'Metro City',
  'formed': 2016,
  'secretBase': 'Super tower',
  'active': True,
  'members': [{'name': 'Molecule Man',
    'age': 29,
    'secretIdentity': 'Dan Jukes',
    'powers': ['Radiation resistance', 'Turning tiny', 'Radiation blast']},
   {'name': 'Madame Uppercut',
    'age': 39,
    'secretIdentity': 'Jane Wilson',
    'powers': ['Million tonne punch',
     'Damage resistance',
     'Superhuman reflexes']},
   {'name': 'Eternal Flame',
    'age': 1000000,
    'secretIdentity': 'Unknown',
    'powers': ['Immortality',
     'Heat Immunity',
     'Inferno',
     'Teleportation',
     'Interdimensional travel']}]})

Accedemos a los datos:

In [189]:
#poderes de la tercera persona
Y['members'][2]['powers']

['Immortality',
 'Heat Immunity',
 'Inferno',
 'Teleportation',
 'Interdimensional travel']

In [190]:
Y['members'][1]['powers'][2]

'Superhuman reflexes'

#### EJEMPLO 2

In [170]:
x_2 = {
  "name": "John",
  "age": 30,
  "married": True,
  "divorced": False,
  "children": ("Ann","Billy"),
  "pets": None,
  "cars": [
    {"model": "BMW 230", "mpg": 27.5},
    {"model": "Ford Edge", "mpg": 24.1}
  ]
}

print(json.dumps(x_2))

{"name": "John", "age": 30, "married": true, "divorced": false, "children": ["Ann", "Billy"], "pets": null, "cars": [{"model": "BMW 230", "mpg": 27.5}, {"model": "Ford Edge", "mpg": 24.1}]}


In [184]:
x_2['children'][0]

'Ann'

Presentación y alteración del archivo JSON:

In [179]:
#numero de espacios
print(json.dumps(x_2, indent=5))

{
     "name": "John",
     "age": 30,
     "married": true,
     "divorced": false,
     "children": [
          "Ann",
          "Billy"
     ],
     "pets": null,
     "cars": [
          {
               "model": "BMW 230",
               "mpg": 27.5
          },
          {
               "model": "Ford Edge",
               "mpg": 24.1
          }
     ]
}


In [181]:
print(json.dumps(x_2, indent=4, separators=(". ", " = ")))

{
    "name" = "John". 
    "age" = 30. 
    "married" = true. 
    "divorced" = false. 
    "children" = [
        "Ann". 
        "Billy"
    ]. 
    "pets" = null. 
    "cars" = [
        {
            "model" = "BMW 230". 
            "mpg" = 27.5
        }. 
        {
            "model" = "Ford Edge". 
            "mpg" = 24.1
        }
    ]
}


In [182]:
print(json.dumps(x_2, indent=4, sort_keys=True))

{
    "age": 30,
    "cars": [
        {
            "model": "BMW 230",
            "mpg": 27.5
        },
        {
            "model": "Ford Edge",
            "mpg": 24.1
        }
    ],
    "children": [
        "Ann",
        "Billy"
    ],
    "divorced": false,
    "married": true,
    "name": "John",
    "pets": null
}


#### Ejemplo 3

In [67]:
print(json.dumps({"name": "John", "age": 30}))
print(json.dumps(["apple", "bananas"]))
print(json.dumps(("apple", "bananas")))
print(json.dumps("hello"))
print(json.dumps(42))
print(json.dumps(31.76))
print(json.dumps(True))
print(json.dumps(False))
print(json.dumps(None))

{"name": "John", "age": 30}
["apple", "bananas"]
["apple", "bananas"]
"hello"
42
31.76
true
false
null


# Bibliografía:

Diferencias entre datos estructurados y datos no estructurados:

* https://agenciab12.com/noticia/diferencia-datos-estructurados-y-datos-no-estructurados

* https://www.acens.com/wp-content/images/2014/02/bbdd-nosql-wp-acens.pdf

¿Cuál es la diferencia entre YAML y JSON?:

* https://www.dokry.com/9723

YAML:

* https://stackabuse.com/reading-and-writing-yaml-to-a-file-in-python/

* http://blog.varunajayasiri.com/yamldb/

* https://www.youtube.com/watch?v=hSuHnuNC8L4

* https://www.kite.com/python/answers/how-to-parse-and-extract-data-from-a-yaml-file-in-python#:~:text=Use%20yaml.,parse%20it%2C%20returning%20a%20dictionary.

JSON:

* https://developer.mozilla.org/es/docs/Learn/JavaScript/Objects/JSON

* https://www.w3schools.com/python/python_json.asp

* https://www.diegocalvo.es/leer-y-escribir-json-en-python/

PySpark:

* https://medium.com/datos-y-ciencia/c%C3%B3mo-usar-pyspark-en-tu-computadora-dee7978d1a40