### Arquivos JSON

Jay son, JSON! Temos que falar direito porque os freelas em dólar estão na área!

Vamos aprender um pouquinho sobre manipulação do mais que onipresente formato JSON. Arquivos de configuração, requisições e respostas de APIs  e tantas outras aplicações desse formatinho que praticamente acabou com o XML.

Nossa sorte é que o Python e o Pandas simplesmente AMAM esse formato, pois se parecem muito com os dicionários. Temos de graça, sem necessidade de pacotes adicionais, um bom arcabouço para ler, escrever e manipular esses tipos de arquivos. Uma referência ótima é a própria [documentação do Python](https://docs.python.org/3/library/json.html) Mas nosso foco aqui é Pandas! Então vamos manipular arquivos JSON com nosso pacote de manipulação favorito!

Então, chega de churumelas e vamos para algumas manipulações de arquivo json!

In [1]:
import pandas as pd
import json

## <a> Pandas </a> 

Uai, mas pandas não trabalha com dados tabulares??? Verdade, padawan! Mas a gente pode fazer algumas transformações pra deixar os dados tabulares, ou mesmo dizer para o pandas como a gente quer que ele interprete os dados estruturados.

No método read_json existe um parâmetro "orient" que possui as alternativas de valor:
- 'split' : dicionarios com formato {index -> [indice], columns -> [colunas], data -> [valores]}

- 'records' : listas com formato [{coluna -> valor}, ... , {coluna -> valor}]

- 'index' : dicionários com formato {indice -> {coluna -> valor}}

- 'columns' : dicionarios com formato {coluna -> {indice -> valor}}

- 'values' : um arranjo com valores


In [3]:
dicionario_com_valores = {
    "index": ["hamburguer","alface","queijo","molho especial", "cebola", "picles", "pão com gergelim"],
    "columns": ["qtd","calorias"],
    "data": [[2,120],[3,1],[1,100],[1,100], [1, 10], [3, 8], [2, 80]]
}

dicionario_com_valores

{'index': ['hamburguer',
  'alface',
  'queijo',
  'molho especial',
  'cebola',
  'picles',
  'pão com gergelim'],
 'columns': ['qtd', 'calorias'],
 'data': [[2, 120], [3, 1], [1, 100], [1, 100], [1, 10], [3, 8], [2, 80]]}

In [4]:
dicionario_com_valores.keys()

dict_keys(['index', 'columns', 'data'])

In [5]:
type(dicionario_com_valores)

dict

In [8]:
# Lê dict e transforma em string (str)
str_valores = json.dumps(dicionario_com_valores)

str_valores

'{"index": ["hamburguer", "alface", "queijo", "molho especial", "cebola", "picles", "p\\u00e3o com gergelim"], "columns": ["qtd", "calorias"], "data": [[2, 120], [3, 1], [1, 100], [1, 100], [1, 10], [3, 8], [2, 80]]}'

In [9]:
type(str_valores)

str

In [10]:
# Lê string e transforma em dict(json)
json.loads(str_valores)

{'index': ['hamburguer',
  'alface',
  'queijo',
  'molho especial',
  'cebola',
  'picles',
  'pão com gergelim'],
 'columns': ['qtd', 'calorias'],
 'data': [[2, 120], [3, 1], [1, 100], [1, 100], [1, 10], [3, 8], [2, 80]]}

In [11]:
# No split as chaves devem ter EXATAMENTE esses nomes: index, columns e data
# 'split' : dicionarios com formato {index -> [indice], columns -> [colunas], data -> [valores]}
str_json_split = json.dumps({
    "index": ["hamburguer","alface","queijo","molho especial", "cebola", "picles", "pão com gergelim"],
    "columns": ["qtd","calorias"],
    "data": [[2,120],[3,1],[1,100],[1,100], [1, 10], [3, 8], [2, 80]]
})

str_json_split

'{"index": ["hamburguer", "alface", "queijo", "molho especial", "cebola", "picles", "p\\u00e3o com gergelim"], "columns": ["qtd", "calorias"], "data": [[2, 120], [3, 1], [1, 100], [1, 100], [1, 10], [3, 8], [2, 80]]}'

In [12]:
# orient é o parâmetro de como o pandas deve tratar os dados que estamos passando
# para ele!
# Com o orient split o pandas espera três chaves! index, columns, data
pd.read_json(str_json_split, orient = 'split')

  pd.read_json(str_json_split, orient = 'split')


Unnamed: 0,qtd,calorias
hamburguer,2,120
alface,3,1
queijo,1,100
molho especial,1,100
cebola,1,10
picles,3,8
pão com gergelim,2,80


In [13]:
# 'records' : listas com formato [{coluna -> valor}, ... , {coluna -> valor}]

json_record = json.dumps([
    {"ingrediente":"hamburguer","qtd":2,"calorias":120},
    {"ingrediente":"alface","qtd":3,"calorias":1},
    {"ingrediente":"queijo","qtd":1,"calorias":100},
    {"ingrediente":"molho especial","qtd":1,"calorias":100}
])

json_record

'[{"ingrediente": "hamburguer", "qtd": 2, "calorias": 120}, {"ingrediente": "alface", "qtd": 3, "calorias": 1}, {"ingrediente": "queijo", "qtd": 1, "calorias": 100}, {"ingrediente": "molho especial", "qtd": 1, "calorias": 100}]'

In [16]:
pd.read_json(json_record, orient = 'records')

  pd.read_json(json_record, orient = 'records')


Unnamed: 0,ingrediente,qtd,calorias
0,hamburguer,2,120
1,alface,3,1
2,queijo,1,100
3,molho especial,1,100


In [17]:
# 'index' : dicionários com formato {indice -> {coluna -> valor}}
# chave é o índice e valor são as colunas com os dados!

json_index = json.dumps({
    "hamburguer": {
        "qtd": 5, 
        "calorias": 20
        },
    "alface": {
        "qtd": 8, 
        "calorias": 30
        },
    "queijo": {
        "qtd": 2, 
        "calorias": 120
        },
    "molho especial": {
        "qtd": 4, 
        "calorias": 16
        }

})

json_index

'{"hamburguer": {"qtd": 5, "calorias": 20}, "alface": {"qtd": 8, "calorias": 30}, "queijo": {"qtd": 2, "calorias": 120}, "molho especial": {"qtd": 4, "calorias": 16}}'

In [18]:
pd.read_json(json_index, orient = 'index')

  pd.read_json(json_index, orient = 'index')


Unnamed: 0,qtd,calorias
hamburguer,5,20
alface,8,30
queijo,2,120
molho especial,4,16


In [19]:
# 'columns' : dicionarios com formato {coluna -> {indice -> valor}}
# Aqui a chave é a COLUNA e os valores são pares indice_pandas:valor_coluna

json_columns = json.dumps({
    "qtd": {
        "hamburguer": 2,
        "alface": 1,
        "queijo": 1,
        "molho especial": 1
    },
    "calorias": {
        "hamburguer": 120,
        "alface": 1,
        "queijo": 100,
        "molho especial": 100
    }
})

json_columns

'{"qtd": {"hamburguer": 2, "alface": 1, "queijo": 1, "molho especial": 1}, "calorias": {"hamburguer": 120, "alface": 1, "queijo": 100, "molho especial": 100}}'

In [20]:
pd.read_json(json_columns, orient = 'columns')

  pd.read_json(json_columns, orient = 'columns')


Unnamed: 0,qtd,calorias
hamburguer,2,120
alface,1,1
queijo,1,100
molho especial,1,100


In [21]:
# 'values' : um arranjo com valores

json_values = json.dumps([
    ["hamburguer", 2, 120],
    ["alface", 1, 1],
    ["queijo", 1,100],
    ["molho especial", 1, 100]

])

json_values

'[["hamburguer", 2, 120], ["alface", 1, 1], ["queijo", 1, 100], ["molho especial", 1, 100]]'

In [22]:
pd.read_json(json_values, orient = 'values')

  pd.read_json(json_values, orient = 'values')


Unnamed: 0,0,1,2
0,hamburguer,2,120
1,alface,1,1
2,queijo,1,100
3,molho especial,1,100


#### <a> E para estruturas complexas? </a>

E o nosso arquivo??? Ele não parece ser de nenhum tipo porque tem uma estrutura muito "aninhada"

Para ele precisamos de algo mais "elaborado"


### <a> "Achatando" um json  </a>

Uma forma legal de trabalhar com dados mais aninhados é utilizar o json_normalize do pandas.

Uma forma legal de entender como normalizar (achatar) o json é pensar ANTES como queremos o resultado.

No caso das bandas, faz sentido ter uma linha para cada música, com as colunas para os nomes das bandas e dos álbuns. Sabendo que o nível mais "profundo" que queremos ir, fica mais fácil. Bora nessa!

In [23]:
# Vamos recuperar a estrutura de bandas original
with open('./data/bands.json') as arquivo_json:
    objeto_json = json.load(arquivo_json)

objeto_json

[{'name': 'Radiohead',
  'albums': [{'title': 'The King of Limbs',
    'songs': [{'title': 'Bloom', 'length': '5:15'},
     {'title': 'Morning Mr Magpie', 'length': '4:41'},
     {'title': 'Little by Little', 'length': '4:27'},
     {'title': 'Feral', 'length': '3:13'},
     {'title': 'Lotus Flower', 'length': '5:01'},
     {'title': 'Codex', 'length': '4:47'},
     {'title': 'Give Up the Ghost', 'length': '4:50'},
     {'title': 'Separator', 'length': '5:20'}],
    'description': '\n\tThe King of Limbs is the eighth studio album by English rock band Radiohead, produced by Nigel Godrich. It was self-released on 18 February 2011 as a download in MP3 and WAV formats, followed by physical CD and 12" vinyl releases on 28 March, a wider digital release via AWAL, and a special "newspaper" edition on 9 May 2011. The physical editions were released through the band\'s Ticker Tape imprint on XL in the United Kingdom, TBD in the United States, and Hostess Entertainment in Japan.\n      '},
   {'

In [25]:
df = pd.json_normalize(objeto_json, record_path=['albums', 'songs'], meta=['name', ['albums', 'title']])

df

Unnamed: 0,title,length,name,albums.title
0,Bloom,5:15,Radiohead,The King of Limbs
1,Morning Mr Magpie,4:41,Radiohead,The King of Limbs
2,Little by Little,4:27,Radiohead,The King of Limbs
3,Feral,3:13,Radiohead,The King of Limbs
4,Lotus Flower,5:01,Radiohead,The King of Limbs
5,Codex,4:47,Radiohead,The King of Limbs
6,Give Up the Ghost,4:50,Radiohead,The King of Limbs
7,Separator,5:20,Radiohead,The King of Limbs
8,Airbag,4:44,Radiohead,OK Computer
9,Paranoid Android,6:23,Radiohead,OK Computer
