<div id="navegacion" prev="../Tema_7/t7_pandas_032.html" next="../Tema_7/t7_pandas_034.html"></div>

<div class="section-title">Sección 5.3</div>

# Datos en Formato JSON

Otro de los estándar para el intercambio de datos en la Webes el formato JSON (JavaScript Object Notation). Al igual que ocurría con XML, permite representar cualquier estructura de datos de una forma jerárquica, la cual puede ser fácilmente representada en forma de árbol.

Pandas dispone de la función `pd.read_json()`  para crear dataframes a partir de un documento JSON. La operación recíproca, el método `to_json()` de la clase `DataFrame` que permite guardar dataframes en formato JSON.

Para entender cómo navegar por este tipo de documentos es necesario conocer su estructura interna. 

## Escritura de ficheros JSON

Para empezar, veremos cómo crear un documento en formato JSON a partir de un dataframe usando el método `to_json`. 

In [3]:
import pandas as pd
import json

tabla = pd.DataFrame( [ (1982,"E.T. the ExtraTerrestrial","Fantasy"),
                        (1982,"Poltergeist","Horror"),
                        (1992,"Alien","Action"),
                        (1992,"The Crying Game","War")],
                     columns = ["Extreno","Nombre","Cat"])
tabla

Unnamed: 0,Extreno,Nombre,Cat
0,1982,E.T. the ExtraTerrestrial,Fantasy
1,1982,Poltergeist,Horror
2,1992,Alien,Action
3,1992,The Crying Game,War


In [4]:
tabla.to_json('peliculas.json')

El documento `peliculas.json` se muestra a continuación:

```
peliculas.json
------------------

{
    "Cat": {
        "3": "War",
        "2": "Action",
        "0": "Fantasy",
        "1": "Horror"
    },
    "Nombre": {
        "3": "The Crying Game",
        "2": "Alien",
        "0": "E.T. the ExtraTerrestrial",
        "1": "Poltergeist"
    },
    "Extreno": {
        "3": 1992,
        "2": 1992,
        "0": 1982,
        "1": 1982
    }
}
``` 

## Lectura de ficheros JSON

La función `pd.read_json` permite realizar la operación inversa. Dicha función recibe como argumento la ruta del fichero que contiene los datos en formato JSON.

In [5]:
tabla = pd.read_json('./peliculas.json')
tabla

Unnamed: 0,Cat,Extreno,Nombre
0,Fantasy,1982,E.T. the ExtraTerrestrial
1,Horror,1982,Poltergeist
2,Action,1992,Alien
3,War,1992,The Crying Game


En este caso, el proceso es muy simple porque el contenido del fichero `peliculas.json` tenía una estructura tabular, pero eso no es lo normal. La figura XX muestra el contenido del fichero `canciones.json`.

```
canciones.json
--------------

[
    {
        "Songs": [
            {
                "Length": "6:29",
                "Date": 1992,
                "Title": "Nothing Else Matters"
            },
            {
                "Length": "4:21",
                "Title": "Hero Of The Day"
            }
        ],
        "Genre": "Metal",
        "Group": {
            "Name": "Metallica"
        }
    },
    {
        "Songs": [
            {
                "Length": "4:37",
                "Date": 2010,
                "Title": "Need you now"
            },
            {
                "Length": "4:17",
                "Date": 2010,
                "Title": "I Run To You"
            },
            {
                "Length": "3:44",
                "Title": "American honey"
            }
        ],
        "Genre": "Country pop",
        "Group": {
            "Name": "Lady Antebellum"
        }
    }
]
```


La función `json_normalize` de la sublibrería `pandas.io.json` aporta un poco más de potencia. Por ejemplo, para crear un dataframe con la información de las canciones, escribimo lo siguiente:

In [6]:
from pandas.io.json import json_normalize
with open('./datos/canciones.json') as json_data:
    d = json.load(json_data)
json_normalize(d, "Songs") 

Unnamed: 0,Date,Length,Title
0,1992.0,6:29,Nothing Else Matters
1,,4:21,Hero Of The Day
2,2010.0,4:37,Need you now
3,2010.0,4:17,I Run To You
4,,3:44,American honey


La función `json_normalize` recibe como argumentos el objeto de la clase `json` y la clave del documento que contiene los datos que buscamos. Si además queremos añadir al dataframe la información del grupo musical al que pertenece cada canción, tenemos que añadir un tercer argumento que indica la lista de claves que queremos añadir.

In [7]:
from pandas.io.json import json_normalize
with open('./datos/canciones.json') as json_data:
    d = json.load(json_data)
json_normalize(d, "Songs", [["Group", "Name"], "Genre"]) 

Unnamed: 0,Date,Length,Title,Group.Name,Genre
0,1992.0,6:29,Nothing Else Matters,Metallica,Metal
1,,4:21,Hero Of The Day,Metallica,Metal
2,2010.0,4:37,Need you now,Lady Antebellum,Country pop
3,2010.0,4:17,I Run To You,Lady Antebellum,Country pop
4,,3:44,American honey,Lady Antebellum,Country pop


## Referencias

* [Big Data. Análisis de datos con Python. Sarasa Cabezuelo, Antonio; García Ruiz, Yolanda Aditorial Garceta. ISBN: 978-84-1622-883-6](http://www.garceta.es/libro.php?ISBN=978-84-1622-883-6)
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)
* [librería request](http://docs.python-requests.org/en/master/)
* [`lxml`](http://lxml.de/)

------