# Serialización

## Introducción

El concepto de **serialización** es la transformación de datos a un formato exportable que se puede almacenar para recuperar posteriormente o para compartir entre distintos programas.

La información se puede **serializar** en texto plano, que son legibles como archivos de texto, o en archivos binarios que son codificados y solamente legibles por software que entiende dicha codificación. 

Además, atendiendo a la estructura de datos, se puede almacenar información en dos tipos de estructuras, **planas** o **anidadas**:

- **Estructura plana**: cada objeto se representa en una línea, similar a una **lista** o una **tupla**.
- **Estructura anidada**: cada objeto se representa como clave/valor, similar a los diccionarios.


## Como texto plano

### CSV

El formato **csv** (*comma-separated values*) es el formato de **estructura plana** más común de serialización de **estructura plana**. Cada valor se representa en una misma línea, separados por coma. El punto débil de este formato es que no es un formato estandarizado, es decir, no atiende al formato de los campos que se representan en él. Las **cadenas de texto**, por ejemplo, no tienen porque venir delimitadas por comillas.

In [5]:
import csv
import os

ruta_al_archivo = os.path.join("examples", "files", "listado-estaciones-completo.csv")

def lector_csv(ruta):
    with open(ruta, "r", encoding="utf8") as archivo:
        lector = csv.reader(archivo, quotechar='"')

        for linea in lector:
            yield linea
            
generador_csv = lector_csv(ruta_al_archivo)

for i in range(1, 5):
    print(next(generador_csv))
            

['CÓDIGO', 'DESCRIPCION', 'LATITUD', 'LONGITUD', 'DIRECCIÓN', 'C.P.', 'POBLACION', 'PROVINCIA', 'PAIS', 'CERCANIAS', 'FEVE']
['11208', 'VITORIA/GASTEIZ', '42,8415284', '-2,6726651', 'PLAZUELA DE LA ESTACION, 1', '01005', 'Vitoria-Gasteiz', 'Araba/Álava', 'España', 'NO', 'NO']
['11212', 'AGURAIN/SALVATIERRA DE ALAVA', '42,8464369', '-2,3892266', 'TREBIÑO KALEA, S/N', '01200', 'Salvatierra/Agurain', 'Araba/Álava', 'España', 'NO', 'NO']
['11213', 'ARAIA', '42,8694713', '-2,3068018', 'CALLE ESTACION FERROCARRIL, S/N', '01208', 'Arraia-Maeztu', 'Araba/Álava', 'España', 'NO', 'NO']


### JSON

**JSON** (*JavaScript Object Notation*) es de los formatos mas comunes para intercambio de datos en internet, y el formato mas extendido en [API REST](https://www.redhat.com/es/topics/api/what-is-a-rest-api). Se trata de un formato clave-valor, por tanto **estructura anidada**, y es idéntico a los **diccionarios** en **python**. En este formato si se especifican tipos de datos, se pueden representar **números**, **cadenas de texto**, **booleanos**, **valor nulo**, **listas** y otros **diccionarios**.

In [24]:
import json
import os

ruta_al_archivo = os.path.join("examples", "files", "listado-estaciones-completo.json")

with open(ruta_al_archivo, "r") as f:
    estaciones = json.load(f)

print(estaciones)
            

{'11208': {'descripcion': 'vitoria/gasteiz', 'latitud': '42,8415284', 'longitud': '-2,6726651', 'dirección': 'plazuela de la estacion, 1', 'c.p.': '01005', 'poblacion': 'vitoria-gasteiz', 'provincia': 'araba/álava', 'pais': 'españa', 'cercanias': 'no', 'feve': 'no'}, '11212': {'descripcion': 'agurain/salvatierra de alava', 'latitud': '42,8464369', 'longitud': '-2,3892266', 'dirección': 'trebiño kalea, s/n', 'c.p.': '01200', 'poblacion': 'salvatierra/agurain', 'provincia': 'araba/álava', 'pais': 'españa', 'cercanias': 'no', 'feve': 'no'}, '11213': {'descripcion': 'araia', 'latitud': '42,8694713', 'longitud': '-2,3068018', 'dirección': 'calle estacion ferrocarril, s/n', 'c.p.': '01208', 'poblacion': 'arraia-maeztu', 'provincia': 'araba/álava', 'pais': 'españa', 'cercanias': 'no', 'feve': 'no'}, '11203': {'descripcion': 'manzanos', 'latitud': '42,7428754', 'longitud': '-2,8675305', 'dirección': 'rio zadorra kalea, s/n', 'c.p.': '01220', 'poblacion': 'ribera baja/erribera beitia', 'provinc

### YAML

Es un formato idéntico a **JSON** pero su uso está mas popularizado en **archivos de configuración** de aplicaciones, como por ejemplo [Docker Compose](https://docs.docker.com/compose/). La principal diferencia es que **YAML** delimita los diferentes niveles con **identación** en lugar de utilizando llaves, pero puede reperesentar también **números**, **cadenas de texto**, **booleanos**, **valor nulo**, **listas** y otros **diccionarios**. También se trata de una **estructura anidada**. No viene en la librería estándar, hay que instalar el paquete `pyyaml`

In [26]:
import yaml
import os

ruta_al_archivo = os.path.join("examples", "files", "listado-estaciones-completo.yaml")

with open(ruta_al_archivo, "r") as f:
    estaciones = yaml.load(f, Loader=yaml.FullLoader)

print(estaciones)

{'01003': {'c.p.': '41600', 'cercanias': 'no', 'descripcion': 'arahal', 'dirección': 'calle virgen de los dolores, s/n', 'feve': 'no', 'latitud': '37,268141', 'longitud': '-5,5484006', 'pais': 'españa', 'poblacion': 'arahal', 'provincia': 'sevilla'}, '01005': {'c.p.': '41620', 'cercanias': 'no', 'descripcion': 'marchena', 'dirección': 'avenida maestro santos ruano, 8', 'feve': 'no', 'latitud': '37,3342501', 'longitud': '-5,4254295', 'pais': 'españa', 'poblacion': 'marchena', 'provincia': 'sevilla'}, '01007': {'c.p.': '41640', 'cercanias': 'no', 'descripcion': 'osuna', 'dirección': 'avenida estacion ferrocarril, s/n', 'feve': 'no', 'latitud': '37,2337769', 'longitud': '-5,1148398', 'pais': 'españa', 'poblacion': 'osuna', 'provincia': 'sevilla'}, '01009': {'c.p.': '41566', 'cercanias': 'no', 'descripcion': 'pedrera', 'dirección': 'calle manuel aranda, 3', 'feve': 'no', 'latitud': '37,2223527', 'longitud': '-4,893696', 'pais': 'españa', 'poblacion': 'pedrera', 'provincia': 'sevilla'}, '02

## Como archivos binarios

### Pickle

Es un formato binario propio de **python** y se puede utilizar para persistir datos en este lenguaje, pero no se recomienda para intercambio de datos entre diferentes lenguajes.

Es también una **estructura anidada** y permite representar **números**, **cadenas de texto**, **booleanos**, **valor nulo**, **listas**, **tuplas**, **sets** y otros **diccionarios**.

In [27]:
import pickle
import os

ruta_al_archivo = os.path.join("examples", "files", "listado-estaciones-completo.pickle")

with open(ruta_al_archivo, "rb") as f:
    estaciones = pickle.load(f)

print(estaciones)

{'11208': {'descripcion': 'vitoria/gasteiz', 'latitud': '42,8415284', 'longitud': '-2,6726651', 'dirección': 'plazuela de la estacion, 1', 'c.p.': '01005', 'poblacion': 'vitoria-gasteiz', 'provincia': 'araba/álava', 'pais': 'españa', 'cercanias': 'no', 'feve': 'no'}, '11212': {'descripcion': 'agurain/salvatierra de alava', 'latitud': '42,8464369', 'longitud': '-2,3892266', 'dirección': 'trebiño kalea, s/n', 'c.p.': '01200', 'poblacion': 'salvatierra/agurain', 'provincia': 'araba/álava', 'pais': 'españa', 'cercanias': 'no', 'feve': 'no'}, '11213': {'descripcion': 'araia', 'latitud': '42,8694713', 'longitud': '-2,3068018', 'dirección': 'calle estacion ferrocarril, s/n', 'c.p.': '01208', 'poblacion': 'arraia-maeztu', 'provincia': 'araba/álava', 'pais': 'españa', 'cercanias': 'no', 'feve': 'no'}, '11203': {'descripcion': 'manzanos', 'latitud': '42,7428754', 'longitud': '-2,8675305', 'dirección': 'rio zadorra kalea, s/n', 'c.p.': '01220', 'poblacion': 'ribera baja/erribera beitia', 'provinc

## Ejercicios

1. Añade un método a la clase `Noticia` que permita almacenar en un archivo `.json` una Noticia cuya clave sea el id (el campo `@property` que implementaste al principio). Si ya existe, debería actualizarla.