# Lectura 16: JSON

### `read_json`

Con la función `read_json` vamos a poder crear un DataFrame a partir de la lectura de un archivo JSON.

A continuación mostramos una captura de cómo debe estar estructurado un archivo JSON para que pueda ser leído por esta función.

<img src="./img/json.png">

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import polars as pl

In [4]:
df1 = pl.read_json('/content/drive/MyDrive/polars/seccion03/json/data.json')

print(df1)

shape: (1, 1)
┌─────────────────────────────────┐
│ columns                         │
│ ---                             │
│ list[struct[4]]                 │
╞═════════════════════════════════╡
│ [{"color","Utf8","",["rojo", "… │
└─────────────────────────────────┘


In [5]:
df = pl.read_json('/content/drive/MyDrive/polars/seccion03/json/data.json')

print(df)

shape: (1, 1)
┌─────────────────────────────────┐
│ columns                         │
│ ---                             │
│ list[struct[4]]                 │
╞═════════════════════════════════╡
│ [{"color","Utf8","",["rojo", "… │
└─────────────────────────────────┘


### `read_ndjson`

Con la función `read_ndjson` vamos a poder crear un DataFrame a partir de la lectura de un archivo JSON delimitado por una nueva línea.

A continuación mostramos una captura de cómo debe estar estructurado un archivo JSON para que pueda ser leído por esta función.

<img src="./img/ndjson.png">

In [6]:
df1 = pl.read_ndjson('/content/drive/MyDrive/polars/seccion03/json/ndjson.json')

print(df1)

shape: (3, 4)
┌───────┬──────┬────────────┬──────┐
│ color ┆ edad ┆ fecha      ┆ pais │
│ ---   ┆ ---  ┆ ---        ┆ ---  │
│ str   ┆ str  ┆ str        ┆ str  │
╞═══════╪══════╪════════════╪══════╡
│ rojo  ┆ 23   ┆ 2021-02-21 ┆ MX   │
│ azul  ┆ 56   ┆ 2021-06-10 ┆ CA   │
│ verde ┆ 32   ┆ 2020-06-02 ┆ US   │
└───────┴──────┴────────────┴──────┘


### `scan_ndjson`

Esta función permite leer de forma lazy un archivo JSON delimitado por nuevas líneas.

Esto permite que el optimizador de consultas baje los predicados y las proyecciones al nivel de escaneo, lo que reduce potencialmente la sobrecarga de memoria.

In [7]:
df2 = pl.scan_ndjson('/content/drive/MyDrive/polars/seccion03/json/ndjson.json')

print(df2.collect())

shape: (3, 4)
┌───────┬──────┬────────────┬──────┐
│ color ┆ edad ┆ fecha      ┆ pais │
│ ---   ┆ ---  ┆ ---        ┆ ---  │
│ str   ┆ str  ┆ str        ┆ str  │
╞═══════╪══════╪════════════╪══════╡
│ rojo  ┆ 23   ┆ 2021-02-21 ┆ MX   │
│ azul  ┆ 56   ┆ 2021-06-10 ┆ CA   │
│ verde ┆ 32   ┆ 2020-06-02 ┆ US   │
└───────┴──────┴────────────┴──────┘


### `write_json`

Con esta función seremos capaz de escribir un archivo JSON. Para ello debemos crear la carpeta `salida` y dentro escribiremos el archivo JSON.

In [8]:
df.write_json('/content/drive/MyDrive/polars/seccion03/json/ndjson.json')

In [9]:
print(df)

shape: (1, 1)
┌─────────────────────────────────┐
│ columns                         │
│ ---                             │
│ list[struct[4]]                 │
╞═════════════════════════════════╡
│ [{"color","Utf8","",["rojo", "… │
└─────────────────────────────────┘


### `write_ndjson`

Con esta función seremos capaz de escribir un archivo JSON delimitado por una nueva línea.

In [11]:
df.write_ndjson('/content/drive/MyDrive/polars/seccion03/json/data.json')

In [12]:
df

columns
list[struct[4]]
"[{""color"",""Utf8"","""",[""rojo"", ""azul"", ""verde""]}, {""edad"",""Utf8"","""",[""23"", ""56"", ""32""]}, … {""pais"",""Utf8"","""",[""MX"", ""CA"", ""US""]}]"
