<a href="https://colab.research.google.com/github/AngelParra87/ejemplo_clase_borrar/blob/main/Notebook_2_JSON.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# JSON

* JavaScript Object Notation

* Usados en almacenamiento de información web y APIs

* Son archivos de texto plano, con formato diccionario





# Abriendo con with statement

- Cuando abrimos archivos en Python, creamos una conexión con `open(archivo)`.

- Tras hacer las modificaciones que queramos, debemos recordar que esta conexión luego debe cerrarse con `.close()`

- Para evitar que se nos olvide y cerrar esta conexión de forma automática, usamos el **with statement**

- El *keyword* `with` hará que nuestra función `open()` cierre la conexión automáticamente tras ejecutarse, así no nos preocupamos nosotros de hacerlo.

La estructura es la siguiente:

In [None]:
with open('prueba.txt', 'w') as f:

  f.write('MASTERMIND')

- Esto nos sirve también para archivos **JSON**.
- Para poder abrir estos archivos, ejecutaremos el `open()` con la ruta del archivo **JSON**
- Luego, usaremos la función `.load()` de la librería json y asignaremos su resultado a una variable (*dct*) que será el diccionario con su contenido:


In [None]:
import json

path = '/content/sample_data/anscombe.json'

with open(path, 'r') as f:

  dct = json.load(f)

In [None]:
dct[:5]

[{'Series': 'I', 'X': 10.0, 'Y': 8.04},
 {'Series': 'I', 'X': 8.0, 'Y': 6.95},
 {'Series': 'I', 'X': 13.0, 'Y': 7.58},
 {'Series': 'I', 'X': 9.0, 'Y': 8.81},
 {'Series': 'I', 'X': 11.0, 'Y': 8.33}]

# De JSON a DataFrame


Con Pandas, cargar archivos **JSON** es muy sencillo, simplemente usaremos el método `pd.read_json(ruta_archivo)`.
- En este caso, ni siquiera es necesario usar el `open()` ni el *with statement*, ya que todo el contenido del archivo se vuelca en un *DataFrame* y su correspondiente variable:

In [None]:
import pandas as pd

path = '/content/sample_data/anscombe.json'

df = pd.read_json(path)

df.head()

Unnamed: 0,Series,X,Y
0,I,10,8.04
1,I,8,6.95
2,I,13,7.58
3,I,9,8.81
4,I,11,8.33


- Esto funciona de maravilla con diccionarios simples
- Pero qué sucede si nos encontramos con archivos **JSON** que contienen diccionarios *anidados (nested)*?

- Para conseguir el archivo **JSON** `'music.json'` empleado para este ejemplo, deberás descargarlo desde [aquí](https://drive.google.com/file/d/1yS_dCA6CZvr_4pvyF2nSqXgXJ2NfV_xF/view?usp=sharing), y adjuntar la ruta en la variable `path`

In [None]:
path = 'ruta_del_archivo_music.json'

df = pd.read_json(path)

df.head()

- Vemos que en las columnas `pop` y `rock` contenemos listas con diccionarios dentro. Esto no es ideal.
- Para solucionarlo, vamos a tener que fijarnos en la estructura del diccionario contenido en el archivo **JSON**, ahora sí, con nuestro `with` statement, ya que lo pasaremos a una variable como diccionario, y no como *DataFrame*:

In [None]:
path = 'ruta_del_archivo_music.json'

with open(path, 'r') as f:

  data = json.load(f)

In [None]:
data

{'decada': 1970,
 'plataforma': 'Spotify',
 'pop': {'usa': [{'id': 1, 'nombre': 'U2'}, {'id': 2, 'nombre': 'Take That'}],
  'uk': [{'id': 3, 'nombre': 'The Beatles'}, {'id': 4, 'nombre': 'Oasis'}]},
 'rock': {'usa': [{'id': 5, 'nombre': 'Nirvana'},
   {'id': 6, 'nombre': 'Aerosmith'}],
  'uk': [{'id': 7, 'nombre': 'Pink Floyd'}, {'id': 8, 'nombre': 'The Who'}]}}

- Si nuestro objetivo es ver la estructura de este diccionario, con este formato tenemos un problema. 
- Se hace complicado ver cómo se anidan (o nestean) las diferentes estructuras de datos entre ellas.
- Para tener una mejor visión de lo que ocurre, recurriremos a una función de la librería `json` *que no está diseñada para esta finalidad*, pero nos sirve

## Indentar diccionarios

- Nosotros que dominamos Python, sabemos que la indentación es algo imprescindible para poder programar. Al no existir comandos para indicar los finales de línea, este lenguaje recurre a estos espacios para indicar bloques de código.
- Esta indentación también la podemos aplicar a los diccionarios, esta vez con la única finalidad de poder leerlos mejor.
- Usaremos la función `print(json.dumps(dct, indent))` para aplicar esta indentación.
- Es importante el `print()` ya que esta función, en realidad se encarga de guardar un diccionario como archivo **JSON**, pero esto ya lo veremos más adelante. Básicamente, si no usamos este `print`, la línea generará un archivo **JSON**. Tienes la documentación sobre esta función [aquí](https://docs.python.org/3/library/json.html)

In [None]:
print(json.dumps(data, indent = 4))

{
    "decada": 1970,
    "plataforma": "Spotify",
    "pop": {
        "usa": [
            {
                "id": 1,
                "nombre": "U2"
            },
            {
                "id": 2,
                "nombre": "Take That"
            }
        ],
        "uk": [
            {
                "id": 3,
                "nombre": "The Beatles"
            },
            {
                "id": 4,
                "nombre": "Oasis"
            }
        ]
    },
    "rock": {
        "usa": [
            {
                "id": 5,
                "nombre": "Nirvana"
            },
            {
                "id": 6,
                "nombre": "Aerosmith"
            }
        ],
        "uk": [
            {
                "id": 7,
                "nombre": "Pink Floyd"
            },
            {
                "id": 8,
                "nombre": "The Who"
            }
        ]
    }
}


## Normalizando JSON


- Pandas, como librería de calidad que es, tiene en cuenta que a la hora de importar estos JSON como DataFrame podemos encontrarnos con esta serie de problemas.

- Por eso encontramos la función `pd.json_normalize(json/dict)`, que funciona como `pd.read_csv()` pero orientado a formatear diccionarios nesteados.

In [None]:
df = pd.json_normalize(data)

In [None]:
df

Unnamed: 0,decada,plataforma,pop.usa,pop.uk,rock.usa,rock.uk
0,1970,Spotify,"[{'id': 1, 'nombre': 'U2'}, {'id': 2, 'nombre'...","[{'id': 3, 'nombre': 'The Beatles'}, {'id': 4,...","[{'id': 5, 'nombre': 'Nirvana'}, {'id': 6, 'no...","[{'id': 7, 'nombre': 'Pink Floyd'}, {'id': 8, ..."


- El primer cambio que vemos es que al usar `json_normalize`, tiene en cuenta otro nivel de profundidad en el diccionario.
- Antes teníamos las columnas `'pop'` y `'rock'`, ahora añaden el nivel 'usa, uk' por cada una de ellas, obteniendo 4 columnas adicionales: `pop.usa, pop.uk, rock.usa y rock.uk`
- Pero `json_normalize` puede ir más lejos. Esta función acepta un argumento llamado `record_path`, en el que podemos especificar el camino que queremos seguir para extraer datos:

In [None]:
df = pd.json_normalize(data, record_path = ['pop', 'usa'])
df['genero'] = 'pop'
df['pais'] = 'usa'

df

Unnamed: 0,id,nombre,genero,pais
0,1,U2,pop,usa
1,2,Take That,pop,usa


- Vemos que, efectivamente, esta función extrae los contenidos dentro de `['pop']['usa']`
- También existe otro argumento, que permite sacar datos que estan fuera del path que hemos indicado: el parámetro meta, que incluirá los valores de las llaves que indiquemos:


In [None]:
df = pd.json_normalize(data, record_path = ['pop', 'usa'], meta = ['decada', 'plataforma'])
df['genero'] = 'pop'
df['pais'] = 'usa'

df

Unnamed: 0,id,nombre,decada,plataforma,genero,pais
0,1,U2,1970,Spotify,pop,usa
1,2,Take That,1970,Spotify,pop,usa


- Podemos generar una función para hacer esto automáticamente:

In [None]:
def parse_dict(df, genero, pais):

  df = pd.json_normalize(data, [genero, pais], meta = ['decada', 'plataforma'])
  df['genero'] = genero
  df['pais'] = pais

  return df

In [None]:
parse_dict(data, 'pop', 'uk')

Unnamed: 0,id,nombre,decada,plataforma,genero,pais
0,3,The Beatles,1970,Spotify,pop,uk
1,4,Oasis,1970,Spotify,pop,uk


- Con esta función, extrayendo los datos que nos interesan, y un pequeño `for loop` para iterar sobre las diferentes llaves, podemos construir una lista de DataFrames con las mismas columnas:

In [None]:
generos = ['pop', 'rock']
paises = ['usa', 'uk']

df_list = []

for genero in generos:

  for pais in paises:

    df = parse_dict(data, genero, pais)
    df_list.append(df)

In [None]:
df_list[1]

Unnamed: 0,id,nombre,decada,plataforma,genero,pais
0,3,The Beatles,1970,Spotify,pop,uk
1,4,Oasis,1970,Spotify,pop,uk


- Para transformar toda esta lista de DataFrames en uno sólo, simplemente usaremos la función `pd.concat(df_list)`

In [None]:
df_unido = pd.concat(df_list, ignore_index = True)

df_unido

Unnamed: 0,id,nombre,decada,plataforma,genero,pais
0,1,U2,1970,Spotify,pop,usa
1,2,Take That,1970,Spotify,pop,usa
2,3,The Beatles,1970,Spotify,pop,uk
3,4,Oasis,1970,Spotify,pop,uk
4,5,Nirvana,1970,Spotify,rock,usa
5,6,Aerosmith,1970,Spotify,rock,usa
6,7,Pink Floyd,1970,Spotify,rock,uk
7,8,The Who,1970,Spotify,rock,uk


# De DataFrame a JSON

- Si queremos volver a transformar el contenido de nuestro *DataFrame* a un archivo JSON después de haber hecho las modificaciones pertinentes, tenemos el método del *DataFrame* `.to_json()`
- Este método serializa y formatea nuestro df para poder guardar este archivo.



In [None]:
nuevo_json = df_unido.to_json()

nuevo_json

'{"id":{"0":1,"1":2,"2":3,"3":4,"4":5,"5":6,"6":7,"7":8},"nombre":{"0":"U2","1":"Take That","2":"The Beatles","3":"Oasis","4":"Nirvana","5":"Aerosmith","6":"Pink Floyd","7":"The Who"},"decada":{"0":1970,"1":1970,"2":1970,"3":1970,"4":1970,"5":1970,"6":1970,"7":1970},"plataforma":{"0":"Spotify","1":"Spotify","2":"Spotify","3":"Spotify","4":"Spotify","5":"Spotify","6":"Spotify","7":"Spotify"},"genero":{"0":"pop","1":"pop","2":"pop","3":"pop","4":"rock","5":"rock","6":"rock","7":"rock"},"pais":{"0":"usa","1":"usa","2":"uk","3":"uk","4":"usa","5":"usa","6":"uk","7":"uk"}}'

## EXTRA! Estructura de exportación

- Como vemos, aunque no hayamos modificado los *datos* contenidos en nuestro JSON, sí que hemos modificado su estructura.
- Con json.loads() podemos transformar el objeto que hemos serializado de vuelta a un diccionario para comparar:

In [None]:
## Compara la estructura de estos dos diccionarios:

nuevo = json.loads(nuevo_json)
dcts = [data, nuevo]

print(json.dumps(dcts[1], indent = 2)) ## Sólo tienes que cambiar el índice de dcts

{
  "id": {
    "0": 1,
    "1": 2,
    "2": 3,
    "3": 4,
    "4": 5,
    "5": 6,
    "6": 7,
    "7": 8
  },
  "nombre": {
    "0": "U2",
    "1": "Take That",
    "2": "The Beatles",
    "3": "Oasis",
    "4": "Nirvana",
    "5": "Aerosmith",
    "6": "Pink Floyd",
    "7": "The Who"
  },
  "decada": {
    "0": 1970,
    "1": 1970,
    "2": 1970,
    "3": 1970,
    "4": 1970,
    "5": 1970,
    "6": 1970,
    "7": 1970
  },
  "plataforma": {
    "0": "Spotify",
    "1": "Spotify",
    "2": "Spotify",
    "3": "Spotify",
    "4": "Spotify",
    "5": "Spotify",
    "6": "Spotify",
    "7": "Spotify"
  },
  "genero": {
    "0": "pop",
    "1": "pop",
    "2": "pop",
    "3": "pop",
    "4": "rock",
    "5": "rock",
    "6": "rock",
    "7": "rock"
  },
  "pais": {
    "0": "usa",
    "1": "usa",
    "2": "uk",
    "3": "uk",
    "4": "usa",
    "5": "usa",
    "6": "uk",
    "7": "uk"
  }
}


- Como vemos, Pandas ha aplicado una estructura diferente a  la que teníamos a la hora de transformar estos DataFrames a JSON.
- La que ha aplicado, es una de las estructuras posibles a la hora de exportarlos. Hay diversas estructuras, y se pueden escoger a través de el parámetro `orient`. Tienes la documentación [aquí](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_json.html).

In [None]:
## Explora las diferentes estructuras que ofrece pd.to_json(orient)!



# Exportando a archivo .json

- Para exportar estos archivos, ya sea desde un DataFrame fromateado y serializado desde `.to_json()`, o desde un diccionario normal, el método json.dump() es nuestra herramienta.
- Y la usamos exactamente igual que json.load(), a través de un with statement

In [None]:
with open('music_3.json', 'w') as f:

  json.dump(data, f)

- Esta función guardará nuestro **JSON** como `'music_3.json'` en nuestro directorio de trabajo
- **Para conservarlo, tendrás que descargarlo desde el gestor de archivos, sinó se perderá una vez salgas del entorno de ejecución!!**

# Ejercicios 

- Te he facilitado 3 archivos JSON con estructuras diferentes [aquí](https://drive.google.com/file/d/1Ukn0y_JZzv9S7js2ifa1_ldHqQGse8gq/view?usp=sharing), [aquí](https://drive.google.com/file/d/1UqWLYbC5XjsVVIob0ewsEfGIc9yBkqKJ/view?usp=sharing) y [aquí](https://drive.google.com/file/d/1TcX3ZDVhQqBmBgRoyrwXVOVcD-WOwnQI/view?usp=sharing).
- Descárgalos, y tendrás que:
  - Importarlos como diccionario
  - Explorar su estructura
  - Transformarlo a DataFrame sin perder valores
  - Guardarlos con 3 modelos de estructura diferentes, bajo tu elección.

¡Ánimo!

In [None]:
## Código aquí (datos1.json)




In [None]:
## Código aquí (datos2.json)




In [None]:
## Código aquí (datos3.json)


