<a href="https://colab.research.google.com/github/diegoflxgarcia/Pandas/blob/main/json_normalize.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importando arquivo JSON (Javascript object notation) de uma API e lendo como um DataFrame Pandas padronizado

Essa estrutura de arquivo é bastante utilizada para armazenar dados fornecidos por APIs por ser prático em sua transferência e ela em si é um texto escrito na forma de um dicionário Python. Além disso ela pode ter dados aninhados dentro de um dado.

Portanto, vamos importar um arquivo JSON de uma API e ler o mesmo de forma padronizada como um DataFrame, isto é, desfazer os aninhamentos para obter todos os dados no DataFrame de forma clara e objetiva.

Vamos utilizar os módulos request e json para acessar a API e extrair o conteúdo do arquivo JSON, respectivamente, e por fim vamos usar a função [pd.DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) e [pd.json_normalize](https://pandas.pydata.org/docs/reference/api/pandas.json_normalize.html) para transformar o arquivo em DataFrame e em um DataFrame normalizado, respectivamente.

In [184]:
import pandas as pd
import requests
import json

Vamos obter da API chamada [fruityvice](https://fruityvice.com/) um arquivo json contendo informações sobre diversas frutas.

In [185]:
# Realizando uma requesição a API que irá fornecer dados das frutas
resposta = requests.get('https://fruityvice.com/api/fruit/all')

In [186]:
# Guardando o conteudo dentro do arquivo json fornecido na requesição e salvando em uma variável
conteudo_resposta_json = resposta.text
dados_frutas = json.loads(conteudo_resposta_json)
display(dados_frutas) # Uma lista de dicionários que possuem outro dicionário (lista de objetos json com cada um contendo outro objeto json)

[{'name': 'Persimmon',
  'id': 52,
  'family': 'Ebenaceae',
  'order': 'Rosales',
  'genus': 'Diospyros',
  'nutritions': {'calories': 81,
   'fat': 0.0,
   'sugar': 18.0,
   'carbohydrates': 18.0,
   'protein': 0.0}},
 {'name': 'Strawberry',
  'id': 3,
  'family': 'Rosaceae',
  'order': 'Rosales',
  'genus': 'Fragaria',
  'nutritions': {'calories': 29,
   'fat': 0.4,
   'sugar': 5.4,
   'carbohydrates': 5.5,
   'protein': 0.8}},
 {'name': 'Banana',
  'id': 1,
  'family': 'Musaceae',
  'order': 'Zingiberales',
  'genus': 'Musa',
  'nutritions': {'calories': 96,
   'fat': 0.2,
   'sugar': 17.2,
   'carbohydrates': 22.0,
   'protein': 1.0}},
 {'name': 'Tomato',
  'id': 5,
  'family': 'Solanaceae',
  'order': 'Solanales',
  'genus': 'Solanum',
  'nutritions': {'calories': 74,
   'fat': 0.2,
   'sugar': 2.6,
   'carbohydrates': 3.9,
   'protein': 0.9}},
 {'name': 'Pear',
  'id': 4,
  'family': 'Rosaceae',
  'order': 'Rosales',
  'genus': 'Pyrus',
  'nutritions': {'calories': 57,
   'fat': 

In [187]:
# Transformando em um dataframe pandas não normalizado
df_frutas = pd.DataFrame(dados_frutas)
display(df_frutas)

Unnamed: 0,name,id,family,order,genus,nutritions
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,"{'calories': 81, 'fat': 0.0, 'sugar': 18.0, 'c..."
1,Strawberry,3,Rosaceae,Rosales,Fragaria,"{'calories': 29, 'fat': 0.4, 'sugar': 5.4, 'ca..."
2,Banana,1,Musaceae,Zingiberales,Musa,"{'calories': 96, 'fat': 0.2, 'sugar': 17.2, 'c..."
3,Tomato,5,Solanaceae,Solanales,Solanum,"{'calories': 74, 'fat': 0.2, 'sugar': 2.6, 'ca..."
4,Pear,4,Rosaceae,Rosales,Pyrus,"{'calories': 57, 'fat': 0.1, 'sugar': 10.0, 'c..."
5,Durian,60,Malvaceae,Malvales,Durio,"{'calories': 147, 'fat': 5.3, 'sugar': 6.75, '..."
6,Blackberry,64,Rosaceae,Rosales,Rubus,"{'calories': 40, 'fat': 0.4, 'sugar': 4.5, 'ca..."
7,Lingonberry,65,Ericaceae,Ericales,Vaccinium,"{'calories': 50, 'fat': 0.34, 'sugar': 5.74, '..."
8,Kiwi,66,Actinidiaceae,Struthioniformes,Apteryx,"{'calories': 61, 'fat': 0.5, 'sugar': 9.0, 'ca..."
9,Lychee,67,Sapindaceae,Sapindales,Litchi,"{'calories': 66, 'fat': 0.44, 'sugar': 15.0, '..."


In [188]:
# Transformando em um dataframe Pandas normalizado
dados_frutas_normalizado = pd.json_normalize(dados_frutas)
display(dados_frutas_normalizado)

Unnamed: 0,name,id,family,order,genus,nutritions.calories,nutritions.fat,nutritions.sugar,nutritions.carbohydrates,nutritions.protein
0,Persimmon,52,Ebenaceae,Rosales,Diospyros,81,0.0,18.0,18.0,0.0
1,Strawberry,3,Rosaceae,Rosales,Fragaria,29,0.4,5.4,5.5,0.8
2,Banana,1,Musaceae,Zingiberales,Musa,96,0.2,17.2,22.0,1.0
3,Tomato,5,Solanaceae,Solanales,Solanum,74,0.2,2.6,3.9,0.9
4,Pear,4,Rosaceae,Rosales,Pyrus,57,0.1,10.0,15.0,0.4
5,Durian,60,Malvaceae,Malvales,Durio,147,5.3,6.75,27.1,1.5
6,Blackberry,64,Rosaceae,Rosales,Rubus,40,0.4,4.5,9.0,1.3
7,Lingonberry,65,Ericaceae,Ericales,Vaccinium,50,0.34,5.74,11.3,0.75
8,Kiwi,66,Actinidiaceae,Struthioniformes,Apteryx,61,0.5,9.0,15.0,1.1
9,Lychee,67,Sapindaceae,Sapindales,Litchi,66,0.44,15.0,17.0,0.8


Poderiamos ter usado a função [pd.read_json](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html), que retorna um DataFrame, para ler o arquivo json em vez da json.loads, que retorna um dicionário ou lista de dicionários (com os dados armazenados no formato JSON). Porém, a pd.json_normalize apenas aceita um dicinário ou uma lista de dicionários (que no caso, foram provenientes da leitura dos dados em JSON realizada pela json.loads) para retornar o DataFrame padronizado.

Portanto, a função pd.json_normalize fez o papel da pd.read_json de ler o arquivo json com a funcionalidade extra de devolver um DataFrame já normalizado.