<p>
<font size='5' face='Georgia, Arial'>IIC2115 - Programación como herramienta para la ingeniería</font><br>
<font size='1'>Basado en material de Karim Pichara y Christian Pieringer. Todos los derechos reservados.</font>
</p>

# Input/Output (I/O)
En este capítulo estudiaremos a fondo el manejo de strings, bytes, arreglos de bytes, archivos, context managers y serialización.

## Strings
Hasta ahora hemos trabajado muchas veces con strings, como sabemos, corresponden a una secuencia inmutable de caracteres. En Python 3, todos los strings se representan en Unicode, codificación que permite representar virtualmente cualquier caracter en cualquier lenguaje. Luego veremos más detalles sobre Unicode. Entonces pensemos que en Python un string es una secuencia inmutable de caracteres Unicode. Aquí algunas formas distintas de crear un string en Python:

In [None]:
a = "programando"
b = 'mucho'
c = '''un string
con múltiples
lineas'''

d = """Multiples con
     doble comillas"""
e = ("Tres" "Strings" " Juntos")
f = "un string " + "concatenado"

print(a)
print(b)
print(c)
print(d)
print(e)
print(f)

La clase str tiene muchos métodos para manipular strings, aquí podemos obtener la lista:

In [None]:
print(dir(str))

Aquí algunos ejemplos:

In [None]:
# El método isalpha retorna True si todos los caracteres del string están en el 
# alfabeto de algún lenguaje.
print("abñ".isalpha()) 

# Si hay algún número, espacio o puntuación dentro del string, retornará falso.
print("t/".isalpha())

# El método is digit retorna True si todos los caracteres en el string son dígitos
# numéricos
print("34".isdigit())

s = "estoy programando"
print(s.startswith("est"))
print(s.endswith("do"))

# Devuelve el indice donde comienza en s la secuencia que se pasa como argumento
print(s.find("y p"))

# El método index retorna el indice donde comienza la secuencia. Acepta dos argumentos 
# opcionales: la posición inicial donde comenzar la búsqueda y la posición final 
# (hasta dónde llega buscando). Se usan de la siguiente forma: 
# str.index('string', beg=1 end=len(s))
print(s.index('y', 4, 10))
print(s.index('p', 5, 10))

Otros métodos que actúan sobre strings retornan un string nuevo. Ejemplos:

In [None]:
s = "hola a todos, cómo están"
s2 = s.split(' ')
print(s2)
s3 = '#'.join(s2)
print(s3)
print(s.replace(' ', '**'))
print(s)
s5 = s.partition(' ')
print(s5)
print(s)

Como ya hemos visto muchas veces, podemos insertar valores de variables dentro de un string usando "format":

In [None]:
nombre = 'Juan Pérez'
nota = 4.5
if nota >= 4.0:
    resultado = 'aprobado'
else:
    resultado = 'reprobado'

template = "Hola {0}, estás {1}. Tu nota fue un {2}"
print(template.format(nombre, resultado, nota))

Si queremos incluir las llaves dentro del string, podemos hacer el "escape" usando doble llaves, por ejemplo, si queremos imprimir una simple definición de una clase en Java:

In [None]:
template = """
public class {0} 
{{
       public static void main(String[] args) 
       {{
           System.out.println({1});
       }} 
}}"""

print(template.format("MiClase", "'hola mundo'"));

A veces queremos incluir muchas variables dentro de un string, esto hace que sea difícil recordar el orden en que debemos escribirlas dentro de la función format. Una solución es usar argumentos con keywords en la función format:

In [None]:
print("{} {label} {}".format("x", "y", label="z"))

In [None]:
template = """
From: <{from_email}>
To: <{to_email}>
Subject: {subject}
{message}
"""

print(template.format(
    from_email = "halobel@ing.puc.cl",
    to_email = "cualquiera@example.com",
    message = "\nreproba3",#ver como Python concatena esto automáticamente 
    subject = "Este correo es urgente")
    )

Podemos incluso usar contenedores como listas, tuplas o diccionarios como argumentos dentro de la función format:

In [None]:
emails = ("a@ejemplo.com", "b@ejemplo.com")
message = {'subject': "Tienes un correo", 'message': "Este es un correo para ti"}
template = """
From: <{0[0]}>
To: <{0[1]}>
Subject: {message[subject]} {message[message]}
""" 
print(template.format(emails, message=message))

Podemos incluso usar un diccionario con listas e indexar la lista dentro del string:

In [None]:
mensaje = {"emails": ["yo@ejemplo.com", "tu@ejemplo.com"], "subject": "mira este correo", "message": "Sorry no era tan importante"}

template = """
From: <{0[emails][0]}>
To: <{0[emails][1]}>
Subject: {0[subject]}
{0[message]}"""

print(template.format(mensaje))

Esto puede ser aún mejor, podemos pasar cualquier objeto como argumento, por ejemplo, una instancia de una clase, luego dentro del string podemos acceder a cualquiera de los atributos del objeto:

In [None]:
class EMail:
    def __init__(self, from_addr, to_addr, subject, message):
        self.from_addr = from_addr
        self.to_addr = to_addr
        self.subject = subject
        self.message = message
        
email = EMail("a@ejemplo.com", "b@ejemplo.com","Tienes un correo","\nEl mensaje es inútil\n\nSaludos")
template = """
From: <{0.from_addr}>
To: <{0.to_addr}>
Subject: {0.subject}
{0.message}"""
print(template.format(email))

También podemos mejorar el formato de los strings que se imprimen, por ejemplo, en casos como la impresión de una tabla con datos, muchas veces queremos que datos pertenecientes a la misma variable se vean alineados en columnas:

In [None]:
compra = [('leche', 2, 120), ('pan', 3.5, 800), ('arroz', 1.75, 960)]

print("PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL")
for producto, precio, cantidad in compra:
    subtotal = precio * cantidad
    print("{0:8s}{1: ^9d}    ${2: <8.2f}${3: >7.2f}".format(producto, cantidad, precio, subtotal))

Notar que dentro de cada llave existe un item tipo diccionario, es decir, antes de los dos puntos va el índice del argumento dentro de la función format. Después de los dos puntos, por ejemplo, "8s", significa que el dato es un string de 8 caracteres. Por default, si el string es más corto que los 8 caracteres, el resto se llenará con espacios (por la derecha). No olvidar que también por default si el string que ingresamos es más largo que los 8 caracteres, este no será truncado:

In [None]:
compra = [('lecheeeeeeeeeeeeeee', 2, 120), ('pan', 3.5, 800), ('arroz', 1.75, 960)]

print("PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL")
for producto, precio, cantidad in compra:
    subtotal = precio * cantidad
    print("{0:8s}{1: ^9d}    ${2: <8.2f}${3: >7.2f}".format(producto, cantidad, precio, subtotal))

Podemos cambiar esta situación obligando a que el string sea truncado si se pasa del largo máximo, basta con agregar un punto (precisión) antes del número que indica el largo del string:

In [None]:
compra = [('lecheeeeeeeeeeeeeee', 2, 120), ('pan', 3.5, 800), ('arroz', 1.75, 960)]

print("PRODUCTO  CANTIDAD   PRECIO   SUBTOTAL")
for producto, precio, cantidad in compra:
    subtotal = precio * cantidad
    print("{0:.8s}{1: ^9d}    ${2: <8.2f}${3: >7.2f}".format(producto, cantidad, precio, subtotal))

Para la cantidad de producto el formato es {1: ^9d}, el 1 corresponde al índice del argumento en la función format, el espacio después de los dos puntos dice que los lugares vacíos deben ser llenados con espacios (en los tipos enteros el default es llenar con ceros), el símbolo ^ es para que el número quede centrado en el espacio disponible, "9d" significa que será un entero de hasta 9 dígitos. Notar que siempre el orden de estos parámetros (aunque son opcionales) debe ser (de izquierda a derecha después de los dos puntos): Primero el caracter para llenar los espacios vacíos, después el alineamiento, después el tamaño y finalmente el tipo.

Para el precio por ejemplo, {2: <8.2f} significa que el dato se leerá del tercer argumento de la función format, luego los lugares que queden libres se llenarán con espacios, el símbolo < significa que el alineamiento es a la izquierda, el formato será un float de hasta 8 caracteres, con dos decimales.

De la misma forma, para el subtotal, {3: >7.2f} significa que el dato se sacará del cuarto argumento dentro de la función format, el caracter de llenado será espacio, el alineamiento es a la derecha, será un float de 7 digitos, dos de ellos decimales e incluyendo el '.' como caracter.


# Bytes e I/O
Al comienzo del capítulo dijimos que los strings en Python eran una colección de caracteres Unicode inmutables. Unicode no es realmente un formato válido de almacenamiento de datos, muchas veces leemos información correspondiente a algún string desde un archivo o un socket en bytes, no en Unicode. Los Bytes son el formato de almacenamiento de más bajo nivel, representan una secuencia de 8 bits, descritas en general como un entero entre 0 y 255, un hexadecimal equivalente entre 0 y FF, o un literal (sólo se permiten los caracteres ascii para representar bytes). Los bytes a secas pueden representar cualquier cosa, desde caracteres codificados de un string, o pixeles de una imagen. En general necesitamos saber la forma en que fueron codificados para poder interpretar el tipo de datos correcto representados por los bytes. Por ejemplo, un patrón binario de 8 bits (1 byte) puede corresponder a un caracter en particular si lo decodificamos como un ASCII, pero puede corresponder a un caracter completamente distinto si lo decodificamos como un caracter Unicode.
En Python los bytes se representan con el objeto tipo "bytes", para declarar que un objeto es un byte simplemente se pone al comienzo del objeto una "b". Por ejemplo:

In [None]:
caracteres = b'\x63\x6c\x69\x63\x68\xe9' #aquí estamos diciendo que lo que está entre las comillas es un objeto de bytes                                         
print(caracteres) 
print(caracteres.decode("latin-1"))
caracteres = b"ab"
caracteres = b"\x61\x62"  # 61 y 62 es la representación en hexadecimal de a y b respectivamente
print(caracteres.decode("ascii"))
caracteres = bytes((97, 98))  # 97 y 98 corresponden al código ascii de los caracteres a y b repectivamente
print(caracteres)

In [None]:
caracteres = b"áb" # esto genera un error ya que sólo se pueden usar literales ascii para la creación de bytes

El símbolo escape "\x" indica que los siguientes dos caracteres después de la x corresponden a un byte usando dígitos hexadecimales. Los bytes que coinciden con los bytes de ASCII son reconocidos inmediatamente, así cuando los tratamos de imprimir aparecen correctamente (clich), el resto se imprime como hexadecimal. La "b" en la impresión nos recuerda que lo que está a la derecha es un objeto de bytes, no un string. La sentencia "caracteres.decode("latin-1")" decodifica la secuencia de bytes usando el alfabeto "latin-1".

El método "decode" retorna un string normal (Unicode). Si por ejemplo hubiésemos usado otro alfabeto, habríamos obtenido otro string:

In [None]:
caracteres = b'\x63\x6c\x69\x63\x68\xe9'
print(caracteres.decode("latin-1"))
print(caracteres.decode("iso8859-5"))

Para codificar un string en distintos alfabetos, simplemente usamos el método encode de la clase str, obviamente es necesario ingresar como argumento el set de caracteres o alfabeto con que se quiere codificar:

In [None]:
characters = "estación"
print(characters.encode("UTF-8"))  # 8-bit Unicode Transformation Format
print(characters.encode("latin-1"))
print(characters.encode("CP437"))

# No se puede codificar en ASCII el caracter "ó" ya que no existe dentro 
# de los 128 caracteres de ASCII
print(characters.encode("ascii"))  

El método encode nos ofrece opciones de cómo manejar el caso en que el string que se quiere codificar no puede ser codificado con el alfabeto requerido, estas opciones se ingresan a través del argumento opcional "errors", los valores posibles son: 'strict'(default), 'replace', 'ignore' o 'xmlcharrefreplace'.

In [None]:
print(characters.encode("ascii", errors = 'replace'))  # en ascii se reemplaza el caracter desconocido con "?"
print(characters.encode("ascii", errors = 'ignore'))
print(characters.encode("ascii", errors = 'xmlcharrefreplace'))  # se crea una entidad xml que representa el caracter Unicode

En general si queremos codificar un string y no sabemos con qué alfabeto deberíamos codificar, lo mejor es usar UTF-8, ya que es "backwards" compatible con ASCII (los primeros 128 caracteres de UTF-8 son los mismos que en ASCII). Recordar siempre que los objetos tipo byte son **inmutables**.

## bytearrays
Tal como el nombre lo sugiere, los bytearrays son arreglos de bytes, y a diferencia de los bytes **son mutables**. Los bytearrays se comportan como las listas, podemos indexar con la notación de slices, también podemos ir agregando bytes con el método extend. Para construir un bytearray podemos ingresar un byte inicial:

In [None]:
ba_1 = bytearray(b"holamundo")
print(ba_1)
print(ba_1[3:7])
ba_1[4:6] = b"\x15\xa3"
print(ba_1)
ba_1.extend(b"programa")
print(ba_1)
print(ba_1[0])  # Notar que aquí se imprime un entero, el ascii que corresponde a la letra "h"
print(bin(ba_1[0]))
print(bin(ba_1[0])[2:].zfill(8))

Notar que la última línea es para imprimir directamente los bits correspondientes al primer byte (representado en el literal h o el entero 104). El "[2:]" es para partir desde la tercera posición, ya que las primeras dos posiciones contienen los caracteres "0b", que simplemente indica que el formato es en binario (línea anterior). Al agregar ".zfill(8)" indicamos que se usarán 8 bits para representar el byte, lo cual tiene sentido cuando hay ceros por el lado izquierdo y el default no los muestra (línea anterior tiene sólo 7 bits después del "0b").

Un caracter de un byte puede ser convertido a un entero usando la función ord:

In [None]:
print(ord(b"a"))
b = bytearray(b'abcdef')
b[3] = ord(b'g')  # La letra g tiene como código ascii el 103
b[4] = 68  # La letra D tiene como código ascii el 68, esto sería lo mismo que ingresar b[4] = ord(b'D')
print(b)

# Manejo de Archivos

En general hasta ahora hemos operado con la lectura y escritura de archivos de texto, sin embargo los sistemas operativos representan los archivos como secuencias de bytes, no como texto. Dado que leer bytes y convertirlos a texto es una operación muy común en archivos, Python se encarga de manejar los bytes que vienen o van transformándolos a la respectiva representación en string con los encoders/decoders correspondientes. La ya conocida función "open" nos permite además de abrir archivos, ingresar como argumentos el set de caracteres que se usará para codificar los bytes y la estrategia que se debe serguir cuando aparezcan bytes inconsistentes con el formato:

In [None]:
file = open('archivo_ejemplo', "r", encoding='ascii', errors='replace')
print(file.read())
file.close()

In [None]:
contenido = "sorry pero ahora yo soy lo que habrá dentro del archivo"
file = open("archivo_ejemplo", "w", encoding="ascii", errors="replace")
file.write(contenido)
file.close()

Ahora, si nuevamente tratamos de leer el archivo como al comienzo:

In [None]:
file = open('archivo_ejemplo', "r", encoding='ascii', errors='replace')
print(file.read())
file.close()

Podemos también agregar contenido al final del archivo, reemplazando el modo de apertura del archivo, cambiando la "w" por una "a":

In [None]:
contenido = "\nyo me agregaré al final"
file = open("archivo_ejemplo", "a", encoding="ascii", errors="replace")
file.write(contenido)
file.close()

file = open('archivo_ejemplo', "r", encoding='ascii', errors='replace')
print(file.read())
file.close()

Para abrir un archivo como binario, simplemente debemos agregar una "b" por el lado derecho del modo de apertura, por ejemplo, "wb" o "rb". El archivo se comportará igual que un archivo de texto, sólo que sin la codificación automática de byte a texto.

In [None]:
contenido = b"abcde12"
file = open("archivo_ejemplo_2", "wb")
file.write(contenido)
file.close()

file = open('archivo_ejemplo_2', "rb")
print(file.read())
file.close()

Podemos además concatenar bytes simplemente con el operador suma, en el siguiente ejemplo construimos un contenido dinámico para ser escrito en un archivo de bytes, después leemos una cantidad fija de bytes desde el mismo archivo:

In [None]:
num_lineas = 100

file = open("archivo_ejemplo_3", "wb")
for i in range(num_lineas):
    # A la función "bytes" debemos pasarle un iterable con el contenido a convertir 
    # por eso le pasamos el entero dentro de una lista  
    contenido = b"linea_" + bytes([i]) + b" abcde12 "                                             
    file.write(contenido)
file.close()

file = open('archivo_ejemplo_3', "rb")
# El número dentro de la función read nos dice el número de bytes que se van a leer del archivo
print(file.read(41))
file.close()

## Context Manager
Dado que siempre necesitamos cerrar un archivo después de usarlo, debemos considerar la posibilidad de que ocurran excepciones mientras el archivo está abierto. Una forma clara de hacerlo es cerrar el archivo dentro de la sentencia finally: después de un try:. El problema es que esto genera mucho código extra. Afortuadamente en Python existe una forma de hacer lo mismo con menos código, a través de un "context manager", que se encarga de ejecutar las sentencias try y finally sin la necesidad de llamarlas directamente, sólo necesitamos llamar al archivo que abriremos con la sentencia with. Ejemplo:

In [None]:
with open("archivo_ejemplo_4", "r") as file:
    contenido = file.read()

El código anterior sería equivalente a hacer lo siguiente:

In [None]:
file = open("archivo_ejemplo_4", "r")
try:
    contenido = file.read()
finally:
    file.close()

Si ejecutamos dir en un objeto tipo archivo:

In [None]:
file = open("archivo_ejemplo_4", "w")
print(dir(file))
file.close()

Vemos que existen dos métodos llamados **\__enter\__** y **\__exit\__**. Estos dos métodos transforman el archivo en un "context manager". El método **\__exit\__** asegura que el archivo será cerrado incluso si aparece una excepción mientras esté abierto. El método **\__enter\__** inicializa el archivo o realiza cualquier acción necesaria para setear el contexto del objeto.

Para asegurarnos que un archivo usará los métodos **\__enter\__** y **\__exit\__**, simplemente debemos llamar a la apertura del archivo con el método **with**.

Podemos crear nuestros propios context managers, simplemente creamos cualquier clase, agregamos los métodos **\__enter\__** y **\__exit\__** y podemos llamar a nuestra clase a través del método **with**. Del siguiente ejemplo se puede ver cómo el método **\__exit\__** se ejecuta una vez que nos salimos del scope de la sentencia **with**.

In [None]:
import string, random

class StringUpper(list): 
        
    def __enter__(self):
        return self
    
    def __exit__(self, type, value, tb):
        for i in range(len(self)):
            self[i] = self[i].upper()
        

with StringUpper() as s_upper:
    for i in range(20):
        # Aquí se va seleccionando en forma aleatoria un ascii en minúsculas y las
        # agregamos a la lista
        s_upper.append(random.choice(string.ascii_lowercase))
    print(s_upper)
        
print(s_upper)

El código anterior simplemente corresponde a una clase que hereda de la clase **list**, al implementar los métodos **\__enter\__** y **\__exit\__** podemos instanciar la clase a través de un context manager, en este ejemplo en particular, el context manager se encarga de transformar todos los caracteres ascii de la lista a mayúsculas.

# Serialización de objetos
El término serialización se refiere al procedimiento de transformar cualquier objeto en una secuencia o serie de bytes que nos permite su almacenamiento (o transferencia) del objeto. Muchas veces es necesario que nuestros programas guarden información, ya sea a través de archivos de texto o cualquier tipo de objeto, con la idea de que otro programa o en una ejecución posterior del mismo programa podamos cargar los objetos guardados y usarlos nuevamente.

El módulo **pickle** de Python nos permite serializar cualquier objeto, por ejemplo, el métodos **dumps** nos permite serializar un objeto, mientras el método **loads** sirve para deserializar el objeto serializado retornando el objeto original, ejemplo:

In [None]:
import pickle

tupla = ("a", 1, 3, "hola")
serial = pickle.dumps(tupla)
print(serial)
print(type(serial))
print(pickle.loads(serial))

Pickle también nos ofrece los métodos **dump** y **load** (casi el mismo nombre que antes pero sin la "s"), los cuales también serializan y deserializan pero a través de archivos, es decir, **dump** guarda un archivo con el objeto serializado y **load** carga el archivo de vuelta. El siguiente ejemplo muestra cómo usar los métodos:

In [None]:
lista = [1,2,3,7,8,3]

with open("mi_lista", 'wb') as file:
    pickle.dump(lista, file)

with open("mi_lista", 'rb') as file:
    mi_lista = pickle.load(file)
    # Esto generaría un error si el objeto que cargamos no es igual al que guardamos
    assert mi_lista == lista 

Pickle es un módulo no seguro, nunca deben cargar un archivo pickle cuando no conocen su procedencia, ya que éste podría ejecutar código malicioso en sus computadores. No entraremos en detalles sobre cómo inyectar código a través del módulo pickle, pero para los interesados en el siguiente link pueden aprender más al respecto: http://www.cs.jhu.edu/~s/musings/pickle.html. También es importante mencionar que si estamos en Python 3 y vamos a serializar un objeto que posteriormente será deserializado en Python 2, debemos pasar un argumento extra a las funciones **dump** o **dumps**, el nombre del argumento es "protocol" y debe ser igual a 2 (el default es 3). Ejemplo:

In [None]:
mi_objeto = [1,2,3,4]
serial = pickle.dumps(mi_objeto, protocol=2)

Cuando pickle trata de serializar un objeto, lo que trata de hacer es es guardar el atributo **\__dict\__** del objeto. Lo interesante es que antes de chequear el atributo **\__dict\__**, pickle revisa si es que existe un método llamado **\__getstate\__**, si existe, serializará lo que retorna el método **\__getstate\__** en vez del diccionario (**\__dict\__**) del objeto. Esto nos permite personalizar la serialización.

In [None]:
class Persona:
    
    def __init__(self, nombre, edad):
        self.nombre = nombre
        self.edad = edad
        self.mensaje = "No pasa nada"
        
    def __getstate__(self):
        # Retorna el estado actual del objeto, para que sea serializado por pickle
        # Aquí creamos una copia del diccionario actual, para modificar la copia y no el objeto original
        nueva = self.__dict__.copy()
        nueva.update({"mensaje" : "Me están serializando!!"})
        return nueva

m = Persona("Juan", 30)
print(m.mensaje)
serial = pickle.dumps(m)
m2 = pickle.loads(serial)

#el objeto original sigue igual
print(m2.mensaje)
print(m.mensaje)

Naturalmente también podemos personalizar la des-serialización, implementando el método **\__setstate\__**, que se ejecutará cada vez que llamamos a load o loads, para setear el estado actual del objeto recién deserializado. El método **\__setstate\__** recibe como argumento el estado del objeto que fue serializado (el retornado por **\__getstate\__**) y debe setear el estado en el cual queremos que el objeto deserializado quede, seteando **self.\__dict\__** . Al recibir el argumento, uno puede realizar cualquier acción o modificación dentro del método. Ejemplo:

In [None]:
class Persona:
    
    def __init__(self, nombre, edad):
        self.nombre = nombre
        self.edad = edad
        self.mensaje = "No pasa nada"
        
    def __getstate__(self):
        nueva = self.__dict__.copy()
        nueva.update({"mensaje" : "Me están serializando!!"})
        
        #esto es lo que será serializado por pickle
        return nueva 

    def __setstate__(self, state):
        print("Objeto recién des-serializado, seteando su estado...\n")
        state.update({"nombre" : state["nombre"] + " deserializado"})
        self.__dict__ = state
    
m = Persona("Juan", 30)
print(m.nombre)
serial = pickle.dumps(m)
m2 = pickle.loads(serial)
print(m2.nombre)

Una aplicación práctica de los métodos **\__getstate\__** y **\__setstate\__**, es cuando necesitamos serializar un objeto que contiene un atributo que perderá sentido en la serialización. Por ejemplo, si un objeto contiene una conexión a una base de datos, al serializar el objeto, naturalmente la conexión en el objeto serializado se perderá, de hecho pickle genera un error cuando tratamos de serializar este tipo de objetos. Una solución es usar los métodos **\__getstate\__** y **\__setstate\__**. Primero, usamos **\__getstate\__** para eliminar la conexión a la base de datos del objeto que se va a serializar (borramos la conexión de la copia del diccionario), y cuando deserializamos el objeto de vuelta, lo volvemos a conectar manualmente a la base de datos dentro del método **\__setstate\__**.

## Serialización de objetos web con JSON
Una de las desventajas de los objetos serializados con pickle es que sólo pueden ser deserializados por otros programas de Python. JSON (Java Script Object Notation) es un formato standard de intercambio de datos que puede ser interpretado por muchos sistemas distintos. JSON además puede ser fácilmente leído y entendido por humanos. El formato en que almacena la información es muy parecido a los diccionarios de Python. En JSON sólo es posible serializar datos (int, str, floats, diccionarios y listas), no es posible serializar funciones o clases. En Python existe un módulo que trasforma datos desde Python al formato JSON, el módulo se llama **json**, provee una interfaz similar a la de pickle (métodos dump(s) y load(s)). El output de una serialización usando el método **dump** del módulo **json** es obviamente un objeto en formato JSON. Ejemplo:

In [None]:
import json

class Persona:
    
    def __init__(self, nombre, edad, estado_civil):
        self.nombre = nombre
        self.edad = edad
        self.estado_civil = estado_civil
        self.idn = next(Persona.gen)

    def get_id():
        cont = 1
        while True:
            yield cont
            cont += 1

    gen = get_id()
            
p = Persona("Juan", 35, "Soltero")
json_string = json.dumps(p.__dict__)
print("datos en formato JSON: ")
print(json_string)
print("datos en formato Python: ")
print(json.loads(json_string))

También podemos escribir directamente objetos tipo json como un string en Python, siguiendo el formato de los datos json. En el siguiente ejemplo creamos un objeto tipo json directamente (sin json.dumps) y luego lo "deserializamos" a un objeto tipo Python con json.loads:

In [None]:
json_string = '{"nombre":"Jorge","edad":34,"estado_civil": "casado", "puntaje" : 90.5}'
print(json.loads(json_string))

También podemos cargar los datos con formatos especiales, por ejemplo, si en el caso anterior queremos que los datos tipo enteros (la edad por ejemplo) se carguen como un float:

In [None]:
json_string = '{"nombre":"Jorge","edad":34,"estado_civil": "casado", "puntaje" : 90.5}'
print(json.loads(json_string,parse_int=float))

Por default, en Python json convierte todos los datos a un diccionario, si queremos convertir en otro tipo de datos, podemos usar el argumento **object_hook** con una función lambda que será aplicada a cada dato del objeto. Por ejemplo, si queremos cargar datos json en una lista de tuplas en vez de un diccionario:

In [None]:
json_string = '{"nombre":"Jorge","edad":34,"estado_civil": "casado", "puntaje" : 90.5}'
datos = json.loads(json_string, object_hook = lambda dict_obj: [tuple((i,j)) for i,j in dict_obj.items()])
print(datos)

Podemos crear cualquier función y aplicarla a los datos que serán convertidos desde json:

In [None]:
def funcion(dict_obj):
    lista = []
    for k in dict_obj:
        lista.extend([k, str(dict_obj[k])])
    return lista

json_string = '{"nombre":"Jorge","edad":34,"estado_civil": "casado", "puntaje" : 90.5}'
datos = json.loads(json_string, object_hook = lambda dict_obj: funcion(dict_obj))
print(datos)

Podemos además personalizar la forma en que codificamos los datos a formato json, creando una clase que hereda de la clase json.JSONEncoder y sobreescribiendo el método **default**:

In [None]:
from datetime import datetime


class PersonaEncoder(json.JSONEncoder):
    
       def default(self, obj):
            # Creamos una serialización personalizada para el
            # el tipo de objeto Persona
            
            if isinstance(obj, Persona):
                return {'Persona_id': obj.idn, 
                        'nombre': obj.nombre, 
                        'edad': obj.edad, 
                        'estado_civil': obj.estado_civil, 
                        'fecha_nac' : datetime.now().year - obj.edad}
            
            # Mantenemos la serialización por defecto para 
            # cualquier otro tipo de objeto
            return super().default(obj)


p1 = Persona("Juan", 37, "Soltero")
p2 = Persona("Jorge", 33, "Casado")
p3 = Persona("Pedro", 24, "Soltero")

print("Serialización default:\n")

# con esto serializamos directamente usando el default
json_string = json.dumps(p1.__dict__)
print(json_string)

# Ahora serializamos usando el método personalizado
print("\nSerialización personalizada:\n")
json_string = json.dumps(p1, cls = PersonaEncoder)
print(json_string)

json_string = json.dumps(p2, cls = PersonaEncoder)
print(json_string)

json_string = json.dumps(p3, cls = PersonaEncoder)
print(json_string)