<h1 align="center">Curso Introducción a Python</h1>

<h2 align="center">Universidad EAFIT - Bancolombia</h2>

<h3 align="center">MEDELLÍN - COLOMBIA </h3>

<h2 align="center">Sesión 08 - Manipulación de archivos JSON</h2>  

## Introducción


`JSON` (*JavaScript Object Notation*) es un formato ligero de intercambio de datos que los humanos pueden leer y escribir fácilmente. También es fácil para las computadoras analizar y generar. `JSON` se basa en el lenguaje de programación [JavaScript](https://www.javascript.com/ 'JavaScript'). Es un formato de texto que es independiente del lenguaje y se puede usar en `Python`, `Perl`, entre otros idiomas. Se utiliza principalmente para transmitir datos entre un servidor y aplicaciones web. `JSON` se basa en dos estructuras:

- Una colección de pares nombre / valor. Esto se realiza como un objeto, registro, diccionario, tabla hash, lista con clave o matriz asociativa.


- Una lista ordenada de valores. Esto se realiza como una matriz, vector, lista o secuencia.

## JSON en Python

Hay una serie de paquetes que admiten `JSON` en `Python`, como [metamagic.json](https://pypi.org/project/metamagic.json/ 'metamagic.json'), [jyson](http://opensource.xhaus.com/projects/jyson/wiki 'jyson'), [simplejson](https://simplejson.readthedocs.io/en/latest/ 'simplejson'), [Yajl-Py](http://pykler.github.io/yajl-py/ 'Yajl-Py'), [ultrajson](https://github.com/esnme/ultrajson 'ultrajson') y [json](https://docs.python.org/3.6/library/json.html 'json'). En este curso, utilizaremos [json](https://docs.python.org/3.6/library/json.html 'json'), que es compatible de forma nativa con `Python`. Podemos usar [este sitio](https://jsonlint.com/ 'jsonlint') que proporciona una interfaz `JSON` para verificar nuestros datos `JSON`.

A continuación se muestra un ejemplo de datos `JSON`.

In [None]:
{
    "nombre": "Jaime",
    "apellido": "Perez",
    "aficiones": ["correr", "ciclismo", "caminar"],
    "edad": 35,
    "hijos": [
        {
            "nombre": "Pedro",
            "edad": 6
        },
        {
            "nombre": "Alicia",
            "edad": 8
        }
    ]
}

Como puede verse, `JSON` admite tanto tipos primitivos, cadenas de caracteres y números, como listas y objetos anidados.

Notamos que la representación de datos es muy similar a los diccionarios de `Python` 

In [None]:
{
   "articulo": [
      {
         "id":"01",
         "lenguaje": "JSON",
         "edicion": "primera",
         "autor": "Derrick Mwiti"
      },

      {
         "id":"02",
         "lenguaje": "Python",
         "edicion": "segunda",
         "autor": "Derrick Mwiti"
      }
   ],
   "blog":[
   {
       "nombre": "Datacamp",
       "URL":"datacamp.com"
   }
   ]
}

Reescribámoslo en una forma más familiar

In [None]:
{"articulo":[{"id":"01","lenguaje": "JSON","edicion": "primera","author": "Derrick Mwiti"},
            {"id":"02","lenguaje": "Python","edicion": "segunda","autor": "Derrick Mwiti"}],
 "blog":[{"nombre": "Datacamp","URL":"datacamp.com"}]}

## `JSON` nativo en `Python`

`Python` viene con un paquete incorporado llamado `json` para codificar y decodificar datos `JSON`.

In [None]:
import json

## Un poco de vocabulario

El proceso de codificación de `JSON` generalmente se llama serialización. Este término se refiere a la transformación de datos en una serie de bytes (por lo tanto, en serie) para ser almacenados o transmitidos a través de una red. También puede escuchar el término de clasificación, pero esa es otra discusión. Naturalmente, la deserialización es el proceso recíproco de decodificación de datos que se ha almacenado o entregado en el estándar `JSON`.

De lo que estamos hablando aquí es leer y escribir. Piénselo así: la codificación es para escribir datos en el disco, mientras que la decodificación es para leer datos en la memoria.

### Serialización en `JSON`

¿Qué sucede después de que una computadora procesa mucha información? Necesita tomar un volcado de datos. En consecuencia, la biblioteca `json` expone el método `dump()` para escribir datos en archivos. También hay un método `dumps()` (pronunciado como "*dump-s*") para escribir en una cadena de `Python`.

Los objetos simples de `Python` se traducen a `JSON` de acuerdo con una conversión bastante intuitiva.

Comparemos los tipos de datos en `Python` y `JSON`.

|**Python** | **JSON**         |
|:---------:|:----------------:|
|dict       |object            |
|list|array |
|tuple|	array|
|str|	string|
|int|	number|
|float|	number|
|True|	true|
|False|	false|
|None| null|	

### Serialización, ejemplo

tenemos un objeto `Python` en la memoria que se parece a algo así:

In [None]:
data = {
    "president": {
        "name": "Zaphod Beeblebrox",
        "species": "Betelgeusian"
    }
}

Es fundamental que se guarde esta información en el disco, por lo que la tarea es escribirla en un archivo.

Con el administrador de contexto de `Python`, puede crear un archivo llamado `data_file.json` y abrirlo en modo de escritura. (Los archivos `JSON` terminan convenientemente en una extensión `.json`).

In [None]:
with open("data_file.json", "w") as write_file:
    json.dump(data, write_file)

Tenga en cuenta que `dump()` toma dos argumentos posicionales: 

1. el objeto de datos que se va a serializar y 


2. el objeto tipo archivo en el que se escribirán los bytes.


O, si estaba tan inclinado a seguir usando estos datos `JSON` serializados en su programa, podría escribirlos en un objeto `str` nativo de `Python`.

In [None]:
json_string = json.dumps(data)

Tenga en cuenta que el objeto similar a un archivo está ausente ya que no está escribiendo en el disco. Aparte de eso, `dumps()` es como `dump()`.

Se ha creado un objeto `JSON` y está listo para trabajarlo.

### Algunos argumentos útiles de palabras clave

Recuerde, `JSON` está destinado a ser fácilmente legible por los humanos, pero la sintaxis legible no es suficiente si se aprieta todo junto. Además, probablemente tenga un estilo de programación diferente a éste presentado, y puede que le resulte más fácil leer el código cuando está formateado a su gusto.

***NOTA:*** Los métodos `dump()` y `dumps()` usan los mismos argumentos de palabras clave.

La primera opción que la mayoría de la gente quiere cambiar es el espacio en blanco. Puede usar el argumento de sangría de palabras clave para especificar el tamaño de sangría para estructuras anidadas. Compruebe la diferencia por sí mismo utilizando los datos, que definimos anteriormente, y ejecutando los siguientes comandos en una consola:

In [None]:
json.dumps(data)

In [None]:
json.dumps(data, indent=4)

Otra opción de formato es el argumento de palabra clave de separadores. Por defecto, esta es una tupla de 2 de las cadenas de separación (`","`, `": "`), pero una alternativa común para `JSON` compacto es (`","`, `":"`). observe el ejemplo `JSON` nuevamente para ver dónde entran en juego estos separadores.

Hay otros, como `sort_keys`. Puede encontrar una lista completa en la [documentación](https://docs.python.org/3/library/json.html#basic-usage) oficial.

### Deserializando JSON

Hemos trabajado un poco de `JSON` muy básico, ahora es el momento de ponerlo en forma. En la biblioteca `json`, encontrará `load()` y `loads()` para convertir datos codificados con `JSON` en objetos de `Python`.

Al igual que la serialización, hay una tabla de conversión simple para la deserialización, aunque probablemente ya puedas adivinar cómo se ve.

|**JSON** | **Python**         |
|:---------:|:----------------:|
|object      |dict            |
|array |list|
|array|tuple	|
|string|str	|
|number|int	|
|number|float	|
|true|True	|
|false|False	|
|null|None |	

Técnicamente, esta conversión no es un inverso perfecto a la tabla de serialización. Básicamente, eso significa que si codifica un objeto de vez en cuando y luego lo decodifica nuevamente más tarde, es posible que no recupere exactamente el mismo objeto. Me imagino que es un poco como teletransportación: descomponga mis moléculas aquí y vuelva a unirlas allí. ¿Sigo siendo la misma persona?

En realidad, probablemente sea más como hacer que un amigo traduzca algo al japonés y que otro amigo lo traduzca nuevamente al inglés. De todos modos, el ejemplo más simple sería codificar una tupla y recuperar una lista después de la decodificación, así:

In [None]:
blackjack_hand = (8, "Q")
encoded_hand = json.dumps(blackjack_hand)
decoded_hand = json.loads(encoded_hand)

In [None]:
blackjack_hand == decoded_hand

In [None]:
type(blackjack_hand)

In [None]:
type(decoded_hand)

In [None]:
blackjack_hand == tuple(decoded_hand)

### Deserialización, ejemplo

Esta vez, imagine que tiene algunos datos almacenados en el disco que le gustaría manipular en la memoria. Todavía usará el administrador de contexto, pero esta vez abrirá el archivo de datos existente `archivo_datos.json` en modo de lectura.

In [None]:
with open("data_file.json", "r") as read_file:
    data = json.load(read_file)

Hasta ahora las cosas son bastante sencillas, pero tenga en cuenta que el resultado de este método podría devolver cualquiera de los tipos de datos permitidos de la tabla de conversión. Esto solo es importante si está cargando datos que no ha visto antes. En la mayoría de los casos, el objeto raíz será un diccionario o una lista.

Si ha extraído datos `JSON` de otro programa o ha obtenido una cadena de datos con formato `JSON` en `Python`, puede deserializarlo fácilmente con `loads()`, que naturalmente se carga de una cadena:

In [None]:
my_json_string = """{
   "article": [

      {
         "id":"01",
         "language": "JSON",
         "edition": "first",
         "author": "Derrick Mwiti"
      },

      {
         "id":"02",
         "language": "Python",
         "edition": "second",
         "author": "Derrick Mwiti"
      }
   ],

   "blog":[
   {
       "name": "Datacamp",
       "URL":"datacamp.com"
   }
   ]
}
"""
to_python = json.loads(my_json_string)

Ahora ya estamos trabajando con `JSON` puro. Lo que se hará de ahora en adelante dependerá del usuario, por lo que hay qué estar muy atentos con lo que se quiere hacer, se hace, y el resultado que se obtiene.

## Un ejemplo real

Para este ejemplo introductorio, utilizaremos [JSONPlaceholder](https://jsonplaceholder.typicode.com/ "JSONPlaceholder"), una excelente fuente de datos `JSON` falsos para fines prácticos.

Primero cree un archivo de script llamado `scratch.py`, o como desee llamarlo.

Deberá realizar una solicitud de `API` al servicio `JSONPlaceholder`, así que solo use el paquete de solicitudes para realizar el trabajo pesado. Agregue estas importaciones en la parte superior de su archivo:

In [None]:
import json
import requests

Ahora haremos una solicitud a la `API` `JSONPlaceholder`, si no está familiarizado con las solicitudes, existe un práctico método `json()` que hará todo el trabajo, pero puede practicar el uso de la biblioteca `json` para deserializar el atributo de texto del objeto de respuesta. Debería verse más o menos así:

In [None]:
response = requests.get("https://jsonplaceholder.typicode.com/todos")
todos = json.loads(response.text)

Para saber si lo anterior funcionó (por lo menos no sacó ningún error), verifique el tipo de `todos` y luego hacer una consulta a los 10 primeros elementos de la lista.

In [None]:
todos == response.json()

In [None]:
type(todos)

In [None]:
todos[:10]

Puede ver la estructura de los datos visualizando el archivo en un navegador, pero aquí hay un ejemplo de parte de él:

In [None]:
# parte del archivo JSON - TODO

{
    "userId": 1,
    "id": 1,
    "title": "delectus aut autem",
    "completed": false
}

Hay varios usuarios, cada uno con un ID de usuario único, y cada tarea tiene una propiedad booleana completada. ¿Puedes determinar qué usuarios han completado la mayoría de las tareas?

In [None]:
# Mapeo de userID para la cantidad completa de TODOS para cada usuario
todos_by_user = {}

# Incrementa el recuento completo de TODOs para cada usuario.
for todo in todos:
    if todo["completed"]:
        try:
            # Incrementa el conteo del usuario existente.
            todos_by_user[todo["userId"]] += 1
        except KeyError:
            # Este usuario no ha sido visto, se inicia su conteo en 1.
            todos_by_user[todo["userId"]] = 1

# Crea una lista ordenada de pares (userId, num_complete).
top_users = sorted(todos_by_user.items(), 
                   key=lambda x: x[1], reverse=True)

# obtiene el número máximo completo de TODO
max_complete = top_users[0][1]

# Cree una lista de todos los usuarios que hayan completado la cantidad máxima de TODO
users = []
for user, num_complete in top_users:
    if num_complete < max_complete:
        break
    users.append(str(user))

max_users = " y ".join(users)

Ahora se pueden manipular los datos `JSON` como un objeto `Python` normal.

Al ejecutar el script se obtienen los siguientes resultados:

In [None]:
s = "s" if len(users) > 1 else ""
print(f"usuario{s} {max_users} completaron {max_complete} TODOs")

Continuando, se creará un archivo `JSON` que contiene los *TODO* completos para cada uno de los usuarios que completaron el número máximo de *TODO*.

Todo lo que necesita hacer es filtrar todos y escribir la lista resultante en un archivo. llamaremos al archivo de salida `filter_data_file.json`. Hay muchas maneras de hacerlo, pero aquí hay una:

In [None]:
# Defina una función para filtrar TODO completos de usuarios con TODOS máximos completados.
def keep(todo):
    is_complete = todo["completed"]
    has_max_count = str(todo["userId"]) in users
    return is_complete and has_max_count

# Escriba el filtrado de TODO a un archivo.
with open("filtered_data_file.json", "w") as data_file:
    filtered_todos = list(filter(keep, todos))
    json.dump(filtered_todos, data_file, indent=2)

Se han filtrado todos los datos que no se necesitan y se han guardado los necesarios en un archivo nuevo! Vuelva a ejecutar el script y revise `filter_data_file.json` para verificar que todo funcionó. Estará en el mismo directorio que `scratch.py` cuando lo ejecutes.

In [None]:
s = "s" if len(users) > 1 else ""
print(f"usuario{s} {max_users} completaron {max_complete} TODOs")

Por ahora estamos viendo los aspectos básicos de la manipulación de datos en `JSON`. Ahora vamos a tratar de avanzar un poco más en profundidad.

## Codificación y decodificación de objetos personalizados de `Python`

Veamos un ejemplo de una clase de un juego muy famoso (Dungeons & Dragons) ¿Qué sucede cuando intentamos serializar la clase `Elf` de esa aplicación?

In [None]:
class Elf:
    def __init__(self, level, ability_scores=None):
        self.level = level
        self.ability_scores = {
            "str": 11, "dex": 12, "con": 10,
            "int": 16, "wis": 14, "cha": 13
        } if ability_scores is None else ability_scores
        self.hp = 10 + self.ability_scores["con"]

In [None]:
elf = Elf(level=4)
json.dumps(elf)

`Python` indica que `Elf` no es serializable

Aunque el módulo `json` puede manejar la mayoría de los tipos de `Python` integrados, no comprende cómo codificar los tipos de datos personalizados de forma predeterminada. Es como tratar de colocar una clavija cuadrada en un orificio redondo: necesita una sierra circular y la supervisión de los padres.

## Simplificando las estructuras de datos

cómo lidiar con estructuras de datos más complejas?. Se podría intentar codificar y decodificar el `JSON` "*manualmente*", pero hay una solución un poco más inteligente que ahorrará algo de trabajo. En lugar de pasar directamente del tipo de datos personalizado a `JSON`, puede lanzar un paso intermedio.

Todo lo que se necesita hacer es representar los datos en términos de los tipos integrados que `json` ya comprende. Esencialmente, traduce el objeto más complejo en una representación más simple, que el módulo `json` luego traduce a `JSON`. Es como la propiedad transitiva en matemáticas: si `A = B` y `B = C`, entonces `A = C`.

Para entender esto, necesitarás un objeto complejo con el que jugar. Puede usar cualquier clase personalizada que desee, pero `Python` tiene un tipo incorporado llamado `complex` para representar números complejos, y no es serializable por defecto.

In [None]:
z = 3 + 8j

In [None]:
type(z)

In [None]:
json.dumps(z)

Una buena pregunta que debe hacerse al trabajar con tipos personalizados es ¿Cuál es la cantidad mínima de información necesaria para recrear este objeto? En el caso de números complejos, solo necesita conocer las partes real e imaginaria, a las que puede acceder como atributos en el objeto `complex`:

In [None]:
z.real

In [None]:
z.imag

Pasar los mismos números a un constructor `complex` es suficiente para satisfacer el operador de comparación `__eq__`:

In [None]:
complex(3, 8) == z

Desglosar los tipos de datos personalizados en sus componentes esenciales es fundamental para los procesos de serialización y deserialización.

## Codificación de tipos personalizados

Para traducir un objeto personalizado a `JSON`, todo lo que necesita hacer es proporcionar una función de codificación al parámetro predeterminado del método `dump()`. El módulo `json` llamará a esta función en cualquier objeto que no sea serializable de forma nativa. Aquí hay una función de decodificación simple que puede usar para practicar ([aquí](https://www.programiz.com/python-programming/methods/built-in/isinstance "isinstance") encontrará información acerca de la función `isinstance`):

In [None]:
def encode_complex(z):
    if isinstance(z, complex):
        return (z.real, z.imag)
    else:
        type_name = z.__class__.__name__
        raise TypeError(f"Object of type '{type_name}' is not JSON serializable")

Tenga en cuenta que se espera que genere un `TypeError` si no obtiene el tipo de objeto que esperaba. De esta manera, se evita serializar accidentalmente a cualquier `Elfo`. Ahora ya podemos intentar codificar objetos complejos.

In [None]:
json.dumps(9 + 5j, default=encode_complex)

In [None]:
json.dumps(elf, default=encode_complex)

¿Por qué codificamos el número complejo como una tupla? es la única opción, es la mejor opción? Qué pasaría si necesitáramos decodificar el objeto más tarde?

El otro enfoque común es subclasificar el `JSONEncoder` estándar y anular el método `default()`:

In [None]:
class ComplexEncoder(json.JSONEncoder):
    def default(self, z):
        if isinstance(z, complex):
            return (z.real, z.imag)
        else:
            return super().default(z)

En lugar de subir el `TypeError` usted mismo, simplemente puede dejar que la clase base lo maneje. Puede usar esto directamente en el método `dump()` a través del parámetro `cls` o creando una instancia del codificador y llamando a su método `encode()`:

In [None]:
json.dumps(2 + 5j, cls=ComplexEncoder)

In [None]:
encoder = ComplexEncoder()

In [None]:
>>> encoder.encode(3 + 6j)

## Decodificación de tipos personalizados

Si bien las partes reales e imaginarias de un número complejo son absolutamente necesarias, en realidad no son suficientes para recrear el objeto. Esto es lo que sucede cuando intenta codificar un número complejo con `ComplexEncoder` y luego decodifica el resultado:

In [None]:
complex_json = json.dumps(4 + 17j, cls=ComplexEncoder)
json.loads(complex_json)

Todo lo que se obtiene es una lista, y se tendría que pasar los valores a un constructor complejo si se quiere ese objeto complejo nuevamente. Recordemos el comentario sobre *teletransportación*. Lo que falta son metadatos o información sobre el tipo de datos que está codificando.

La pregunta que realmente debería hacerse es ¿Cuál es la cantidad mínima de información necesaria y suficiente para recrear este objeto?

El módulo `json` espera que todos los tipos personalizados se expresen como objetos en el estándar `JSON`. Para variar, puede crear un archivo `JSON` esta vez llamado `complex_data.json` y agregar el siguiente objeto que representa un número complejo:

In [None]:
# JSON

{
    "__complex__": true,
    "real": 42,
    "imag": 36
}

¿Ves la parte inteligente? Esa clave "`__complex__`" son los metadatos de los que acabamos de hablar. Realmente no importa cuál sea el valor asociado. Para que este pequeño truco funcione, todo lo que necesitas hacer es verificar que exista la clave:

In [None]:
def decode_complex(dct):
    if "__complex__" in dct:
        return complex(dct["real"], dct["imag"])
    return dct

Si "`__complex__`" no está en el diccionario, puede devolver el objeto y dejar que el decodificador predeterminado se encargue de él.

Cada vez que el método `load()` intenta analizar un objeto, se le da la oportunidad de interceder antes de que el decodificador predeterminado se adapte a los datos. Puede hacerlo pasando su función de decodificación al parámetro `object_hook`.

Ahora regresemos a lo de antes

In [None]:
with open("complex_data.json") as complex_data:
    data = complex_data.read()
    z = json.loads(data, object_hook=decode_complex)

In [None]:
type(z)

Si bien `object_hook` puede parecer la contraparte del parámetro predeterminado del método `dump()`, la analogía realmente comienza y termina allí.

In [None]:
# JSON
[
  {
    "__complex__":true,
    "real":42,
    "imag":36
  },
  {
    "__complex__":true,
    "real":64,
    "imag":11
  }
]

Esto tampoco funciona solo con un objeto. Intente poner esta lista de números complejos en `complex_data.json` y vuelva a ejecutar el script:

In [None]:
with open("complex_data.json") as complex_data:
    data = complex_data.read()
    numbers = json.loads(data, object_hook=decode_complex)

Si todo va bien, obtendrá una lista de objetos complejos:

In [None]:
type(z)

In [None]:
numbers

## Finalizando...

Ahora puede ejercer el poderoso poder de JSON para todas y cada una de las necesidades de `Python`.

Si bien los ejemplos con los que ha trabajado aquí son ciertamente demasiado simplistas, ilustran un flujo de trabajo que puede aplicar a tareas más generales:

- Importa el paquete json.


- Lea los datos con load () o cargas ().


- Procesar los datos.


- Escriba los datos alterados con dump () o dumps ().


Lo que haga con los datos una vez que se hayan cargado en la memoria dependerá de su caso de uso. En general, el objetivo será recopilar datos de una fuente, extraer información útil y transmitir esa información o mantener un registro de la misma.