# **Hablemos de Data**

![data](https://i.imgur.com/GTIORoV.png)

## Big Data:
*Big data se refiere principalmente a conjuntos de datos que son demasiado grandes o complejos para ser tratados por el software de aplicación de procesamiento de datos tradicional. Los datos con muchas entradas (filas) ofrecen un mayor poder estadístico, mientras que los datos con mayor complejidad (más atributos o columnas) pueden generar una mayor tasa de descubrimiento falso (sobreajuste, encontrar relaciones que parecen significativas pero no lo son). Aunque a veces se usa de manera vaga, en parte debido a la falta de una definición formal, la mejor interpretación es que se trata de una gran cantidad de información que no se puede comprender cuando se usa solo en pequeñas cantidades.

## **Data** Formats

Lo principal a la hora de clasificar los datos es definir su formato... pero esto es practicamente imposible, hay demasiados formatos!
Por ejemplo:

- Log de un servidor
- Métricas de un sistema
- Tweets de un hashtag
- Sentimiento general en comentarios de un foro
- Histórico de visitas de clientes a una tienda
- etc...

## Structured VS Unstructured **Data**

![structdata](https://4.bp.blogspot.com/-fe8e2o9gln4/Vthc_xcK9HI/AAAAAAAAADw/m5Xfp8ltzY8/s1600/structured-vs-unstructured-tag-cloud.png)

Los datos pueden tener estructura o no.
Una parte fundamental de nuestro trabajo es manejar estos datos, vengan como vengan. Por ello, la idea es manejar siempre un lenguaje común.

### Structured **Data**

Los datos estructurados pueden expresarse con un lenguaje cerrado, generalmente se utilizan formatos ampliamente conocidos:

- XML
- CSV
- JSON
- ...

Estas estructuras siguen unas reglas (muchas veces poco flexible). Y a veces son complicados de entender a simple vista!

### XLST

Exsten herramientas o conceptos como el [XSLT](https://www.w3schools.com/xml/xsl_intro.asp), que sirven de ayuda para aplicar ciertas formulas a los datos estructurados.


Hay herramientas parecidas en varios lenguajes. Empecemos con algunos ejemplos:

In [None]:
xml_contents = """<?xml version="1.0"?>
<data>
  <food>
    <name>Belgian Waffles</name>
    <price>$5.95</price>
    <description>
      Two of our famous Belgian Waffles with plenty of real maple syrup
    </description>
    <calories>650</calories>
  </food>
  <food>
    <name>Strawberry Belgian Waffles</name>
    <price>$7.95</price>
    <description>
      Light Belgian waffles covered with strawberries and whipped cream
    </description>
    <calories>900</calories>
  </food>
  <food>
    <name>Berry-Berry Belgian Waffles</name>
    <price>$8.95</price>
    <description>
      Light Belgian waffles covered with an assortment of fresh berries and whipped cream
    </description>
    <calories>900</calories>
  </food>
  <food>
    <name>French Toast</name>
    <price>$4.50</price>
    <description>
      Thick slices made from our homemade sourdough bread
    </description>
    <calories>600</calories>
  </food>
  <food>
    <name>Homestyle Breakfast</name>
    <price>$6.95</price>
    <description>
      Two eggs, bacon or sausage, toast, and our ever-popular hash browns
    </description>
    <calories>950</calories>
  </food>
</data>"""

import xml.etree.ElementTree as ET
tree = ET.ElementTree(ET.fromstring(xml_contents))
root = tree.getroot()

print(root)

print(root.tag)



### TODO: Print del output ###
print(ET.tostring(root[1], encoding='unicode'))


: 

In [None]:
# Ahora en root tenemos la raiz del xml, podemos recorrerlo y printearlo como cualquier lista

for food in root:
  print("----------------------------------------------------------------------------------------------")
  for field in food:
    print(field.text)

In [None]:
# Tambien podemos pasarlo a otro formato como CSV:

print("name,price,description")
for food in root:
  fields = []
  for field in food:
    fields.append(field.text.strip())
  print('{},{},{}'.format(fields[0], fields[1], fields[2]))

In [None]:
# También a XPATH!

# Top-level elements
prices = root.findall("./food/price")
for price in prices:
  print(price.text)

In [None]:
cities_xml="""<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank updated="yes">2</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank updated="yes">5</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank updated="yes">69</rank>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>"""
tree_cities = ET.ElementTree(ET.fromstring(cities_xml))
root_cities = tree_cities.getroot()

# Countries with a "year" child
result = root_cities.findall(".//year/..")
for res in result:
  print(res.attrib)

In [None]:
# 'year' nodes that are children of nodes with name='Singapore'
year_nodes = root_cities.findall(".//*[@name='Singapore']/year")
for year in year_nodes:
  print(year.text)

In [None]:
# All 'neighbor' nodes that are the second child of their parent
second_neigh = root_cities.findall(".//neighbor[2]")
for neigh in second_neigh:
  print(neigh.attrib)

## Y esto... ¿Para qué me sirve? 🤯

Si pensamos en el hecho de que podemos extraer datos de datos (Metadatos!!!) y, en que podemos producir extracciones de datos rápidas que pueden pasarse a ficheros estructurados de datos que después podremos manejar con alguna herramienta diseñada para procesar enormes cantidades de datos (como Hadoop 🤔)

In [None]:
# Procesemos tambien JSON.
# La librería json en Python nos permite manejar este tipo de datos.
import json

json_contents = """
{"widget": {
    "debug": "on",
    "window": {
        "title": "Sample Konfabulator Widget",
        "name": "main_window",
        "width": 500,
        "height": 500
    },
    "image": {
        "src": "Images/Sun.png",
        "name": "sun1",
        "hOffset": 250,
        "vOffset": 250,
        "alignment": "center",
        "tags": ["test", "foto"]
    },
    "text": {
        "data": "Click Here",
        "size": 36,
        "style": "bold",
        "name": "text1",
        "hOffset": 250,
        "vOffset": 100,
        "alignment": "center",
        "onMouseUp": "sun1.opacity = (sun1.opacity / 100) * 90;"
    }
}}
"""

json_obj = json.loads(json_contents)

menu = """
{"data": {
  "food": {
    "name": "x",
    "price": 1,
    "description": "test"
  }
}}
"""

json_obj = json.loads(menu)

### Hacer aquí un print del json_obj para ['data']['food'] ###
print(json_obj['data']['food'])

In [None]:
# Lo mismo que en JSON puede expresarse en XML

xml_menu = """<?xml version="1.0"?>
<widget>
    <debug>on</debug>
    <window title="Sample Konfabulator Widget">
        <name>main_window</name>
        <width>500</width>
        <width>300</width>
        <height>500</height>
        <window title="Sub Window">
          <width>100</width>
          <window title="Sub Sub Window">
            <width>10</width>
          </window>
        </window>
    </window>
    <image src="Images/Sun.png" name="sun1">
        <hOffset>250</hOffset>
        <vOffset>250</vOffset>
        <alignment>center</alignment>
    </image>
    <text data="Click Here" size="36" style="bold">
        <name>text1</name>
        <hOffset>250</hOffset>
        <vOffset>100</vOffset>
        <alignment>center</alignment>
        <onMouseUp>
            sun1.opacity = (sun1.opacity / 100) * 90;
        </onMouseUp>
    </text>
</widget>"""

tree_menu = ET.ElementTree(ET.fromstring(xml_menu))
menu = tree_menu.getroot()

print(menu.find('./window'))
print(menu.findtext('.//width'))

Como apunte, existe un tipo de dato muy similar al **JSON**, llamado **GeoJSON**, que se utiliza generalmente en todo lo relacionado con datos satelitales o geoespaciales (**GIS** -Geospatial Information Systems). Su estructura es idéntica al JSON. Algunas librerías que permiten manejar este tipo de datos son: [Rasterio](https://rasterio.readthedocs.io/en/stable/), [Folium](https://python-visualization.github.io/folium/latest/) o [GDAL](https://gdal.org/index.html)

**CSV** es otro mundo...
Las separaciones entre datos deben ser con "," o ";". A parte de eso, siempre tienen una apariencia similar:

```
cabecera1,cabecera2,cabecera3
dato,dato,dato
dato,dato,dato
...
```

Al reservar un caracter para delimitar los datos, se limitan las posibilidades. Hay que ser muy cuidadoso además con tildes y ciertos caracteres especiales.

## ¿Cuándo debo utilizar un tipo de **datos** estructurados u otro?

**CSV**
- Datos legacy
- Resultados de benchmarks
- Extracciones de bases de datos
- IOT

**JSON**
- Logs
- el 90% de las respuestas de APIs
- JSON-LD
- JSONAPI

**XML**
- Toda la Web
- El 10% restante de las APIs

**Readability vs Performance**
- Hay quien dice que XML es más legible que JSON
- La legibiidad de los datos la define el cliente o consumidor
- La legibilidad de los datos importa poco en Big Data, importa más el performance.

## JSON-LD

JSON Linked Data permite estructurar meta informacion dentro de datos ya estructurados:

```
{
  "@context": "https://json-ld.org/contexts/person.jsonld",
  "@id": "http://dbpedia.org/resource/John_Lennon",
  "name": "John Lennon",
  "born": "1940-10-09",
  "spouse": "http://dbpedia.org/resource/Cynthia_Lennon"
}
```

- JSON-LD es un formato ligero de datos enlazados.
- Es fácil para los humanos leer y escribir.
- JSON-LD es un formato de datos ideal para servicios web REST y **bases de datos no estructuradas como CouchDB y MongoDB**.

Visitemos esto para [saber mas](https://json-ld.org/playground/).

## JSON API

JSON API es una convencion (no un estandar) para expresar datos de APIs en formato JSON, tiene una serie de reglas más extensas que JSON-LD.

```
{
  "links": {
    "self": "http://example.com/articles",
    "next": "http://example.com/articles?page[offset]=2",
    "last": "http://example.com/articles?page[offset]=10"
  },
  "data": [{
    "type": "articles",
    "id": "1",
    "attributes": {
      "title": "JSON API paints my bikeshed!"
    },
    "relationships": {
      "author": {
        "links": {
          "self": "http://example.com/articles/1/relationships/author",
          "related": "http://example.com/articles/1/author"
        },
        "data": { "type": "people", "id": "9" }
      },
      "comments": {
        "links": {
          "self": "http://example.com/articles/1/relationships/comments",
          "related": "http://example.com/articles/1/comments"
        },
        "data": [
          { "type": "comments", "id": "5" },
          { "type": "comments", "id": "12" }
        ]
      }
    },
    "links": {
      "self": "http://example.com/articles/1"
    }
  }],
  "included": [{
    "type": "people",
    "id": "9",
    "attributes": {
      "first-name": "Dan",
      "last-name": "Gebhardt",
      "twitter": "dgeb"
    },
    "links": {
      "self": "http://example.com/people/9"
    }
  }, {
    "type": "comments",
    "id": "5",
    "attributes": {
      "body": "First!"
    },
    "relationships": {
      "author": {
        "data": { "type": "people", "id": "2" }
      }
    },
    "links": {
      "self": "http://example.com/comments/5"
    }
  }, {
    "type": "comments",
    "id": "12",
    "attributes": {
      "body": "I like XML better"
    },
    "relationships": {
      "author": {
        "data": { "type": "people", "id": "9" }
      }
    },
    "links": {
      "self": "http://example.com/comments/12"
    }
  }]
}
```

JSON API es muy verbose, pero tambien da metadatos sobre los datos y permite enriquecer la informacion poco o no estructurada.