# Import data from json files

### O que é um arquivo JSON?
A seguir, temos um exemplo de informações de um arquivo JSON com dados de uma paciente do hospital:

```python
{"ID":"01", "Faixa_etaria":"55-59", "Sexo_biologico":"Feminino"}
```

Neste arquivo, temos três informações a respeito da pessoa:

* Um ID atribuído a ela ("ID");
* Sua faixa etária ("Faixa_etaria");
* Seu sexo biológico ("Sexo_biologico").

Estas informações são o que chamamos de chaves. Uma chave é o que indexa, ou seja, posiciona um elemento dentro do arquivo JSON. Cada chave é acompanhada de seus respectivos valores.

Desse modo, o ID da paciente carrega o valor "01", enquanto a sua faixa etária corresponde à faixa entre 55 e 59 anos ("55-59") e o sexo biológico foi atribuído como "Feminino".

Os valores de cada chave podem ser números do tipo inteiro (int) ou float, podem ser caracteres de texto (string) ou uma lista com vários elementos.

Assim, um arquivo JSON é formado por chaves e seus respectivos valores. Sempre haverá o símbolo de abrir e fechar chaves no começo e no fim das informações. Nesse sentido, o arquivo se assemelha muito a um dicionário em Python.

Lembrando que, após a chave, teremos dois pontos e o valor correspondente, seguidos de uma vírgula quando houver mais informações.

### O que significa JSON?
JSON é uma sigla em inglês para JavaScript Object Notation. Em português, são os Objetos de Notação JavaScript. Este é um formato de texto leve baseado em um subconjunto da linguagem de programação JavaScript. Ele é muito utilizado em APIs também.





In [7]:
import pandas as pd
json_url = 'https://raw.githubusercontent.com/alura-cursos/Pandas/refs/heads/main/pacientes.json'
data = pd.read_json(json_url)

data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1000 entries, 0 to 999
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ID_paciente           1000 non-null   int64  
 1   Doenca_cardiaca       1000 non-null   object 
 2   IMC                   1000 non-null   float64
 3   Fumante               1000 non-null   object 
 4   Consumo_alcool        1000 non-null   object 
 5   AVC                   1000 non-null   object 
 6   Saude_fisica          1000 non-null   int64  
 7   Saude_mental          1000 non-null   int64  
 8   Dificuldade_caminhar  1000 non-null   object 
 9   Sexo_biologico        1000 non-null   object 
 10  Faixa_etaria          1000 non-null   object 
 11  Raca                  1000 non-null   object 
 12  Diabetes              1000 non-null   object 
 13  Atividade_fisica      1000 non-null   object 
 14  Saude_geral           1000 non-null   object 
 15  Horas_sono            1000 

In [9]:
data.head(10)

Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.6,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao
5,5,Sim,28.87,Sim,Nao,Nao,6,0,Sim,Feminino,75-79,Preta,Nao,No,Razoavel,12,Nao,Nao,Nao
6,6,Nao,21.63,Nao,Nao,Nao,15,0,Nao,Feminino,70-74,Branca,Nao,Sim,Razoavel,4,Sim,Nao,Sim
7,7,Nao,31.64,Sim,Nao,Nao,5,0,Sim,Feminino,80 ou +,Branca,Sim,No,Boa,9,Sim,Nao,Nao
8,8,Nao,26.45,Nao,Nao,Nao,0,0,Nao,Feminino,80 ou +,Branca,"Nao, pre-diabetico",No,Razoavel,5,Nao,Sim,Nao
9,9,Nao,40.69,Nao,Nao,Nao,0,0,Sim,Masculino,65-69,Branca,Nao,Sim,Boa,10,Nao,Nao,Nao


## Normalizando JSON

Normalização de dados é um processo importante em ciência de dados que tem como objetivo organizar e padronizar dados para facilitar a análise e comparação entre eles. Quando se trata de dados no formato JSON (JavaScript Object Notation - Notação de Objetos JavaScript), é comum que eles estejam aninhados, o que pode dificultar sua análise e manipulação.

A biblioteca Pandas possui uma função chamada json_normalize() que permite a transformação dos dados em um formato tabular, facilitando a visualização e análise das informações. A seguir vamos aprender como usar essa função para normalizar diferentes tipos de JSON em DataFrames.

Normalizando um JSON simples
Abaixo temos uma variável chamada dados e dentro dela há um objeto JSON com três chaves e seus respectivos valores:

```python
dados = {'Pesquisa': 'Principais Indicadores de Doenca Cardiaca', 'Ano': 2020, 'Numero_Pacientes':3}
```

Para normalizar essa variável, podemos passa-lá dentro da função json_normalize e analisar o DataFrame obtido:
```python
df = pd.json_normalize(dados)
df
```

Normalizando um JSON com vários níveis
Existem situações em que o arquivo JSON pode conter mais de um objeto, como é o caso do exemplo abaixo, no qual temos uma lista, armazenada na variável json_lista, contendo dois objetos JSON:

json_lista = [
    { 'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_biologico': 'feminino'},
    { 'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_biologico': 'feminino'}
]

Para normalizar essa lista podemos aplicar a função json_normalize:

```python
pd.json_normalize(json_lista)
```
index	ID	Faixa_etaria	Sexo_biologico
0	01	55-59	feminino
1	02	80 ou +	feminino

A função json_normalize() é capaz de converter cada registro da lista em uma linha de forma tabular.

### Normalizando um JSON com uma lista aninhada
Bom, notamos que a função json_normalize() funciona muito bem nas situações anteriores, mas e em outras situações?

### Dados como um dicionário
Vamos começar analisando a normalização quando os dados são um dicionário. Temos um dicionário armazenado na variável json_obj. Note que na chave “Saude” temos outro dicionário:

```python
json_obj = {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      }
```
Fazendo a normalização:

```python
pd.json_normalize(json_obj)


```
index	ID	Faixa_etaria	Sexo_biologico	Saude.Dificuldade_caminhar	Saude.Atividade_fisica	Saude.IMC	Saude.Doenca_cardiaca
0	01	55-59	Feminino	Nao	Sim	16.6	Nao


O DataFrame gerado possui uma coluna para cada informação contida no dicionário que estava em “Saude”. As colunas criadas possuem o prefixo “Saude.”, pois as informações vieram dessa mesma chave.

### Dados como uma lista de dicionários
Agora nós temos uma lista de dicionários armazenada na variável json_list:

```python
json_list = [
    {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {'Dificuldade_caminhar': 'Nao',
              'Atividade_fisica': 'Sim',
              'IMC': 16.6,
              'Doenca_cardiaca': 'Nao',
          }
      },
      {
          'ID': '02',
          'Faixa_etaria': '80 ou +',
          'Sexo_biologico': 'Feminino',
          'Saude': {'Dificuldade_caminhar': 'Nao',
                    'Atividade_fisica': 'Sim',
                    'IMC': 20.34,
                    'Doenca_cardiaca': 'Sim'}
       }
       ]

```
Fazendo a normalização:
```python
pd.json_normalize(json_list)
```
index	ID	Faixa_etaria	Sexo_biologico	Saude.Dificuldade_caminhar	Saude.Atividade_fisica	Saude.IMC	Saude.Doenca_cardiaca
0	01	55-59	Feminino	Nao	Sim	16.6	Nao
1	02	80 ou +	Feminino	Nao	Sim	20.34	Sim
Podemos analisar que todos os valores aninhados em cada registro da lista foram convertidos em colunas separadas. E os dados que nós normalizamos no vídeo anterior? Lembra que a normalização deles foi feita de um jeito diferente?

Recapitulando, vamos copiar os dados do arquivo pacientes_2.json e armazená-los numa variável chamada dados_dict.

```python
dados_dict = {
  "Pesquisa": "Principais Indicadores de Doenca Cardiaca",
  "Ano": 2020,
  "Pacientes": [
    {
      "ID": "01",
      "Faixa_etaria": "55-59",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 16.6,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 3,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 5,
      "Problemas_saude": [
        "Diabetes",
        "Asma",
        "Cancer_pele"
      ]
    },
    {
      "ID": "02",
      "Faixa_etaria": "80 ou +",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 20.34,
      "Fumante": "Nao",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 0,
      "Saude_mental": 0,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 7,
      "Problemas_saude": [
        "AVC"
      ]
    },
    {
      "ID": "03",
      "Faixa_etaria": "65-69",
      "Sexo_biologico": "Masculino",
      "Raça": "Branca",
      "IMC": 26.58,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 20,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 8,
      "Problemas_saude": [
        "diabetes",
        "Asma"
      ]
    }
  ]
}


```
Se tentarmos normalizar esses dados:

pd.json_normalize(dados_dict)

index	Pesquisa	Ano	Pacientes
0	Principais Indicadores de Doenca Cardiaca	2020	{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_b...
Podemos observar que nossa lista aninhada é colocada em uma única coluna Pacientes. Então, nós usamos o seguinte código para normalizar os dados, especificando qual coluna está aninhada:

pd.json_normalize(dados_dict['Pacientes'])

Também podemos fazer isso utilizando o parâmetro record_path como ['Pacientes']. Esse parâmetro é usado na função pd.json_normalize() para especificar o caminho para os registros que devem ser normalizados em um DataFrame separado:

pd.json_normalize(dados_dict, record_path=['Pacientes'])

Com ambos os códigos o resultado é o mesmo.

index	ID	Faixa_etaria	Sexo_biologico	Raça	...	Atividade_fisica	Saude_geral	Horas_sono	Problemas_saude
0	01	55-59	Feminino	Branca	...	Sim	Muito boa	5	Diabetes,Asma,Cancer_pele
1	02	80 ou +	Feminino	Branca	...	Sim	Muito boa	7	AVC
2	03	65-69	Masculino	Branca	...	Sim	Muito boa	8	diabetes,Asma
O resultado parece ótimo, mas não inclui as colunas “Pesquisa” e “Ano”. Para incluí-las, podemos usar o parâmetro meta para especificar outras colunas que queremos no DataFrame.

pd.json_normalize(
    dados_dict, 
    record_path =['Pacientes'], 
    meta=['Pesquisa', 'Ano']
)

index	ID	Faixa_etaria	Sexo_biologico	...	Problemas_saude	Pesquisa	Ano
0	01	55-59	Feminino	...	[Diabetes,Asma,Cancer_pele]	Principais Indicadores de Doenca Cardiaca	2020
1	02	80 ou +	Feminino	...	AVC	Principais Indicadores de Doenca Cardiaca	2020
2	03	65-69	Masculino	...	[diabetes,Asma]	Principais Indicadores de Doenca Cardiaca	2020
Dessa forma temos todas as colunas presentes no DataFrame!

Importante: Na aula nós realizamos a normalização em um arquivo com o formato JSON. No entanto, a função json_normalize() aceita apenas um dicionário ou uma lista de dicionários. Por isso, no vídeo foi usada a estratégia de usar o código: pd.json_normalize(dados_pacientes_2['Pacientes']). Porém, se tentarmos usar parâmetros da função json_normalize em um arquivo JSON podem surgir erros. Para contornar isso, precisamos importar o módulo json e ler os arquivos conforme o código abaixo:

#Importando a biblioteca Pandas
import pandas as pd

#Importando o módulo JSON
import json

#Lendo o arquivo json usando o módulo Python JSON
with open('pacientes_2.json','r') as f:
    dados = json.loads(f.read())

#Normalizando os dados com os parâmetros record_path e meta
pd.json_normalize(dados, record_path='Pacientes', meta=['Pesquisa', 'Ano'])

E, assim, aprendemos como normalizar arquivos JSON simples, com múltiplos níveis e aninhados.

In [10]:
dados2 = pd.read_json('https://raw.githubusercontent.com/alura-cursos/Pandas/refs/heads/main/pacientes_2.json')

dados2.head()

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


In [11]:
dados2_normalize = pd.json_normalize(dados2['Pacientes'])
dados2_normalize

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


In [12]:
# salvando como json

dados2_normalize.to_json('json_normalizado.csv')

In [17]:
import requests
import json

dados_usuarios = requests.get('https://jsonplaceholder.typicode.com/users')

result = json.loads(dados_usuarios.text)
data = pd.DataFrame(result)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        10 non-null     int64 
 1   name      10 non-null     object
 2   username  10 non-null     object
 3   email     10 non-null     object
 4   address   10 non-null     object
 5   phone     10 non-null     object
 6   website   10 non-null     object
 7   company   10 non-null     object
dtypes: int64(1), object(7)
memory usage: 772.0+ bytes


In [18]:
data.head()

Unnamed: 0,id,name,username,email,address,phone,website,company
0,1,Leanne Graham,Bret,Sincere@april.biz,"{'street': 'Kulas Light', 'suite': 'Apt. 556',...",1-770-736-8031 x56442,hildegard.org,"{'name': 'Romaguera-Crona', 'catchPhrase': 'Mu..."
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,"{'street': 'Victor Plains', 'suite': 'Suite 87...",010-692-6593 x09125,anastasia.net,"{'name': 'Deckow-Crist', 'catchPhrase': 'Proac..."
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,"{'street': 'Douglas Extension', 'suite': 'Suit...",1-463-123-4447,ramiro.info,"{'name': 'Romaguera-Jacobson', 'catchPhrase': ..."
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,"{'street': 'Hoeger Mall', 'suite': 'Apt. 692',...",493-170-9623 x156,kale.biz,"{'name': 'Robel-Corkery', 'catchPhrase': 'Mult..."
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,"{'street': 'Skiles Walks', 'suite': 'Suite 351...",(254)954-1289,demarco.info,"{'name': 'Keebler LLC', 'catchPhrase': 'User-c..."


In [21]:
data_normalize = pd.json_normalize(data['address'])
data_normalize

Unnamed: 0,street,suite,city,zipcode,geo.lat,geo.lng
0,Kulas Light,Apt. 556,Gwenborough,92998-3874,-37.3159,81.1496
1,Victor Plains,Suite 879,Wisokyburgh,90566-7771,-43.9509,-34.4618
2,Douglas Extension,Suite 847,McKenziehaven,59590-4157,-68.6102,-47.0653
3,Hoeger Mall,Apt. 692,South Elvis,53919-4257,29.4572,-164.299
4,Skiles Walks,Suite 351,Roscoeview,33263,-31.8129,62.5342
5,Norberto Crossing,Apt. 950,South Christy,23505-1337,-71.4197,71.7478
6,Rex Trail,Suite 280,Howemouth,58804-1099,24.8918,21.8984
7,Ellsworth Summit,Suite 729,Aliyaview,45169,-14.399,-120.7677
8,Dayna Park,Suite 449,Bartholomebury,76495-3109,24.6463,-168.8889
9,Kattie Turnpike,Suite 198,Lebsackbury,31428-2261,-38.2386,57.2232


In [23]:
data_normalize2 = pd.json_normalize(data['company'])
data_normalize2

Unnamed: 0,name,catchPhrase,bs
0,Romaguera-Crona,Multi-layered client-server neural-net,harness real-time e-markets
1,Deckow-Crist,Proactive didactic contingency,synergize scalable supply-chains
2,Romaguera-Jacobson,Face to face bifurcated interface,e-enable strategic applications
3,Robel-Corkery,Multi-tiered zero tolerance productivity,transition cutting-edge web services
4,Keebler LLC,User-centric fault-tolerant solution,revolutionize end-to-end systems
5,Considine-Lockman,Synchronised bottom-line interface,e-enable innovative applications
6,Johns Group,Configurable multimedia task-force,generate enterprise e-tailers
7,Abernathy Group,Implemented secondary concept,e-enable extensible e-tailers
8,Yost and Sons,Switchable contextually-based project,aggregate real-time technologies
9,Hoeger LLC,Centralized empowering task-force,target end-to-end models


In [25]:
import pandas as pd
dados_usuarios_normalizado = pd.json_normalize(result, sep='_')
dados_usuarios_normalizado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   id                   10 non-null     int64 
 1   name                 10 non-null     object
 2   username             10 non-null     object
 3   email                10 non-null     object
 4   phone                10 non-null     object
 5   website              10 non-null     object
 6   address_street       10 non-null     object
 7   address_suite        10 non-null     object
 8   address_city         10 non-null     object
 9   address_zipcode      10 non-null     object
 10  address_geo_lat      10 non-null     object
 11  address_geo_lng      10 non-null     object
 12  company_name         10 non-null     object
 13  company_catchPhrase  10 non-null     object
 14  company_bs           10 non-null     object
dtypes: int64(1), object(14)
memory usage: 1.3+ KB
