# Prática com JSON

Nesse notebook vamos aprender a realizar acesso a dados em formato json.

### Importação das libs necessárias

In [1]:
import json
import pandas as pd


### Abrindo o arquivo com o json.load

In [2]:

with open('./exemplo01.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
print(data)


[{'nome': 'marie curie', 'profissao': ['químico', 'físico'], 'idade': 66, 'ganhou_nobel': True, 'conjuge': {'nome': 'Pierre Curie'}}]


In [6]:
data[0]

{'nome': 'marie curie',
 'profissao': ['químico', 'físico'],
 'idade': 66,
 'ganhou_nobel': True,
 'conjuge': {'nome': 'Pierre Curie'}}

### Pandas + json

Usualmente queremos uma ferramenta mais adequada parar explorar o *dataset* do que uma lista ou um dicionário. 
Por isso, é comum usarmos dataframes pandas para manipular esse tipo de dados.

### Normalização
Arquivos json podem não estar normalizados, ou seja, é possível que existam subtabelas e listas dentro do arquivo que dificultam a manipulação dos dados em um dataframe. A solução para esses casos é aplicar normalização.

In [5]:
print(json.dumps(data, indent=4, ensure_ascii=False))


[
    {
        "nome": "marie curie",
        "profissao": [
            "químico",
            "físico"
        ],
        "idade": 66,
        "ganhou_nobel": true,
        "conjuge": {
            "nome": "Pierre Curie"
        }
    }
]


Nas próximas duas telas vamos ver a diferença de aplicar a normalização antes de carregar o json em um dataframe. Verifique a diferença na coluna ¨conjuje¨.

In [6]:
pd.read_json('./exemplo01.json')


Unnamed: 0,nome,profissao,idade,ganhou_nobel,conjuge
0,marie curie,"[químico, físico]",66,True,{'nome': 'Pierre Curie'}


In [7]:
pd.json_normalize(data)


Unnamed: 0,nome,profissao,idade,ganhou_nobel,conjuge.nome
0,marie curie,"[químico, físico]",66,True,Pierre Curie


Veja mais [alguns exemplos](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html) de normalização de arquivos json


#### Exemplo 01
Verifique que nesse json temos várias formas de listar o nome de uma pessoa. Ao carregar esses dados sem normalizar teremos como resultado uma coluna que armazena alguns dicionários.

In [6]:
data = [
    {"id": 1, "name": {"first": "Coleen", "last": "Volk"}},
    {"name": {"given": "Mark", "family": "Regner"}},
    {"id": 2, "name": "Faye Raker"},
]
pd.DataFrame(data)


Unnamed: 0,id,name
0,1.0,"{'first': 'Coleen', 'last': 'Volk'}"
1,,"{'given': 'Mark', 'family': 'Regner'}"
2,2.0,Faye Raker


Contudo, se utilizarmos a função json_normalize teremos uma coluna para cada uma das variações de nome. É como se a tabela fosse *planificada*.

In [7]:
pd.json_normalize(data)


Unnamed: 0,id,name.first,name.last,name.given,name.family,name
0,1.0,Coleen,Volk,,,
1,,,,Mark,Regner,
2,2.0,,,,,Faye Raker


#### Exemplo 02
Verifique que o mesmo acontece nesse segundo exemplo. Temos atributos compostos nas colunas *fitness* e *job*. Esses atributos são decompostos em colunas individuais ao utilizarmos o normalize.

In [8]:
data = [
    {
        "id": 1,
        "name": "Cole Volk",
        "fitness": {"height": 130, "weight": 60},
    },
    {"name": "Mark Reg", "fitness": {"height": 130, "weight": 60}},
    {
        "id": 2,
        "name": "Faye Raker",
        "fitness": {"height": 130, "weight": 60},
        "job": {"title": "programmer", "wage": 90000}
    },
]
pd.DataFrame(data)


Unnamed: 0,id,name,fitness,job
0,1.0,Cole Volk,"{'height': 130, 'weight': 60}",
1,,Mark Reg,"{'height': 130, 'weight': 60}",
2,2.0,Faye Raker,"{'height': 130, 'weight': 60}","{'title': 'programmer', 'wage': 90000}"


### O parâmetro *orient* 

Diferentes arquivos jsons podem ter estruturas diferentes. Nessa seção vamos trabalhar com os formatos suportados pelo pandas

#### *orient* = 'records'

In [9]:
pd.read_json('./json_orient/records.json', orient='records')


Unnamed: 0,produto,preco,categoria
0,teclado mecânico,450,eletrônicos
1,ssd 1tb,350,eletrônicos
2,harry potter,45,livros


#### *orient* = 'columns'

In [10]:
pd.read_json('./json_orient/columns.json', orient='columns')


Unnamed: 0,produto,preco,categoria
0,teclado mecânico,450,eletrônicos
1,ssd 1tb,350,eletrônicos
2,harry potter,45,livros


#### *orient* = 'index'

In [11]:
pd.read_json('./json_orient/index.json', orient='index')


Unnamed: 0,produto,preco,categoria
0,teclado mecânico,450,eletrônicos
1,ssd 1tb,350,eletrônicos
2,harry potter,45,livros


#### *orient* = 'table'

In [12]:
pd.read_json('./json_orient/table.json', orient='table')


Unnamed: 0,produto,preco,categoria
0,teclado mecânico,450,eletrônicos
1,ssd 1tb,350,eletrônicos
2,harry potter,45,livros


#### *orient* = 'values'

In [13]:
pd.read_json('./json_orient/values.json', orient='values')


Unnamed: 0,0,1,2
0,teclado mecânico,450,eletrônicos
1,ssd 1tb,350,eletrônicos
2,harry potter,45,livros
