#Pandas_ I/O_Excel

O que é um arquivo JSON?

````python

{"ID":"01", "Faixa_etaria":"55-59", "Sexo_biologico":"Feminino"}

````

# Estrutura de um arquivo JSON

Um arquivo **JSON** é composto por **chaves** e seus respectivos **valores**.  
As chaves funcionam como índices que posicionam elementos dentro do arquivo.

---

## Exemplo de informações em JSON

- **ID** → `"01"`  
- **Faixa_etaria** → `"55-59"`  
- **Sexo_biologico** → `"Feminino"`

Neste exemplo:  
- a chave `ID` tem o valor `"01"`,  
- a chave `Faixa_etaria` tem o valor `"55-59"`,  
- a chave `Sexo_biologico` tem o valor `"Feminino"`.

---

## Tipos de valores possíveis
Os valores em um JSON podem ser:
- Números inteiros (**int**)  
- Números decimais (**float**)  
- Texto (**string**)  
- Listas com vários elementos  

---

## Estrutura básica
Um arquivo JSON sempre:
- começa e termina com **chaves `{ }`**  
- contém pares **chave : valor**  
- usa **vírgula** para separar os pares  

📌 Em Python, a estrutura de um JSON é muito semelhante a um **dicionário**.

##O que significa JSON?
JSON é uma sigla em inglês para JavaScript Object Notation. Em português, são os Objetos de Notação JavaScript. Este é um formato de texto leve baseado em um subconjunto da linguagem de programação JavaScript. Ele é muito utilizado em APIs também.

#Manipulando os dados

```
# Isto está formatado como código
```



In [2]:
import pandas as pd

In [3]:
url = 'https://raw.githubusercontent.com/YuriArduino/Estudos_Pandas/refs/heads/data-tests/pacientes.json'
dados_pacientes = pd.read_json(url)
dados_pacientes.head()

Unnamed: 0,ID_paciente,Doenca_cardiaca,IMC,Fumante,Consumo_alcool,AVC,Saude_fisica,Saude_mental,Dificuldade_caminhar,Sexo_biologico,Faixa_etaria,Raca,Diabetes,Atividade_fisica,Saude_geral,Horas_sono,Asma,Doenca_renal,Cancer_pele
0,0,Nao,16.6,Sim,Nao,Nao,3,30,Nao,Feminino,55-59,Branca,Sim,Sim,Muito boa,5,Sim,Nao,Sim
1,1,Nao,20.34,Nao,Nao,Sim,0,0,Nao,Feminino,80 ou +,Branca,Nao,Sim,Muito boa,7,Nao,Nao,Nao
2,2,Nao,26.58,Sim,Nao,Nao,20,30,Nao,Masculino,65-69,Branca,Sim,Sim,Razoavel,8,Sim,Nao,Nao
3,3,Nao,24.21,Nao,Nao,Nao,0,0,Nao,Feminino,75-79,Branca,Nao,No,Boa,6,Nao,Nao,Sim
4,4,Nao,23.71,Nao,Nao,Nao,28,0,Sim,Feminino,40-44,Branca,Nao,Sim,Muito boa,8,Nao,Nao,Nao


##Segundo caso: Informações Aninhadas (Nested Information)

In [4]:
url_2 = 'https://raw.githubusercontent.com/YuriArduino/Estudos_Pandas/refs/heads/data-tests/pacientes_2.json'
dados_pacientes_2 = pd.read_json(url_2)
dados_pacientes_2.head()

Unnamed: 0,Pesquisa,Ano,Pacientes
0,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_bi..."
1,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_..."
2,Principais Indicadores de Doenca Cardiaca,2020,"{'ID': '03', 'Faixa_etaria': '65-69', 'Sexo_bi..."


##Normalizando arquivos JSON

In [6]:
#Normaliza dados JSON semiestruturados em uma tabela plana.

df_normalizado = pd.json_normalize(dados_pacientes_2['Pacientes'])
df_normalizado.head()

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"



# Para saber mais: aprofundando na normalização de JSON

A **normalização de dados** organiza e padroniza informações, facilitando análise e comparação.  
No caso de arquivos JSON aninhados, a normalização transforma os dados em **formato tabular**, ideal para análise com Pandas.

A função `pd.json_normalize()` faz exatamente isso: converte JSONs em DataFrames.

---

## 1️⃣ Normalizando um JSON simples

```python
import pandas as pd

dados = {
    'Pesquisa': 'Principais Indicadores de Doenca Cardiaca',
    'Ano': 2020,
    'Numero_Pacientes': 3
}

df = pd.json_normalize(dados)
df
````

**Saída esperada:**

| index | Pesquisa                                  | Ano  | Numero\_Pacientes |
| ----- | ----------------------------------------- | ---- | ----------------- |
| 0     | Principais Indicadores de Doenca Cardiaca | 2020 | 3                 |

Cada chave virou uma coluna, e os valores correspondentes ficaram na linha.

---

## 2️⃣ Normalizando uma lista de JSONs

Quando temos múltiplos objetos, podemos passar uma lista de dicionários:

```python
json_lista = [
    { 'ID': '01', 'Faixa_etaria': '55-59', 'Sexo_biologico': 'feminino'},
    { 'ID': '02', 'Faixa_etaria': '80 ou +', 'Sexo_biologico': 'feminino'}
]

pd.json_normalize(json_lista)
```

**Saída esperada:**

| index | ID | Faixa\_etaria | Sexo\_biologico |
| ----- | -- | ------------- | --------------- |
| 0     | 01 | 55-59         | feminino        |
| 1     | 02 | 80 ou +       | feminino        |

Cada registro da lista virou uma linha no DataFrame.

---

## 3️⃣ Normalizando JSON com dicionário aninhado

Para JSONs mais complexos, com **dicionários dentro de dicionários**:

```python
json_obj = {
    'ID': '01',
    'Faixa_etaria': '55-59',
    'Sexo_biologico': 'Feminino',
    'Saude': {
        'Dificuldade_caminhar': 'Nao',
        'Atividade_fisica': 'Sim',
        'IMC': 16.6,
        'Doenca_cardiaca': 'Nao',
    }
}

pd.json_normalize(json_obj)
```

**Saída esperada:**

| index | ID | Faixa\_etaria | Sexo\_biologico | Saude.Dificuldade\_caminhar | Saude.Atividade\_fisica | Saude.IMC | Saude.Doenca\_cardiaca |
| ----- | -- | ------------- | --------------- | --------------------------- | ----------------------- | --------- | ---------------------- |
| 0     | 01 | 55-59         | Feminino        | Nao                         | Sim                     | 16.6      | Nao                    |

O DataFrame possui colunas para cada informação contida no dicionário aninhado.
As colunas criadas recebem **prefixo `Saude.`**, indicando a chave de origem.

# Normalização de JSON com Pandas

A função `pd.json_normalize()` transforma dados JSON em **DataFrames tabulares**, facilitando análise e manipulação.

---

## 1️⃣ Lista de dicionários simples

```python
import pandas as pd

json_list = [
    {
        'ID': '01',
        'Faixa_etaria': '55-59',
        'Sexo_biologico': 'Feminino',
        'Saude': {
            'Dificuldade_caminhar': 'Nao',
            'Atividade_fisica': 'Sim',
            'IMC': 16.6,
            'Doenca_cardiaca': 'Nao'
        }
    },
    {
        'ID': '02',
        'Faixa_etaria': '80 ou +',
        'Sexo_biologico': 'Feminino',
        'Saude': {
            'Dificuldade_caminhar': 'Nao',
            'Atividade_fisica': 'Sim',
            'IMC': 20.34,
            'Doenca_cardiaca': 'Sim'
        }
    }
]

pd.json_normalize(json_list)
````

> Todos os valores aninhados foram convertidos em colunas separadas. As colunas do dicionário `Saude` recebem prefixo `Saude.`.

---

## 2️⃣ Lista aninhada dentro de um dicionário

```python
dados_dict = {
  "Pesquisa": "Principais Indicadores de Doenca Cardiaca",
  "Ano": 2020,
  "Pacientes": [
    {
      "ID": "01",
      "Faixa_etaria": "55-59",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 16.6,
      "Fumante": "Sim",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 3,
      "Saude_mental": 30,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 5,
      "Problemas_saude": ["Diabetes", "Asma", "Cancer_pele"]
    },
    {
      "ID": "02",
      "Faixa_etaria": "80 ou +",
      "Sexo_biologico": "Feminino",
      "Raça": "Branca",
      "IMC": 20.34,
      "Fumante": "Nao",
      "Consumo_alcool": "Nao",
      "Saude_fisica": 0,
      "Saude_mental": 0,
      "Dificuldade_caminhar": "Nao",
      "Atividade_fisica": "Sim",
      "Saude_geral": "Muito boa",
      "Horas_sono": 7,
      "Problemas_saude": ["AVC"]
    }
  ]
}
```

Tentando normalizar diretamente:

```python
pd.json_normalize(dados_dict)
```

> Resultado: a lista `Pacientes` aparece como uma única coluna.

---

### 2.1 Normalizando a lista de pacientes

```python
pd.json_normalize(dados_dict['Pacientes'])
```

ou usando `record_path`:

```python
pd.json_normalize(dados_dict, record_path=['Pacientes'])
```

> Resultado: cada paciente vira uma linha do DataFrame, com suas informações em colunas separadas.

---

### 2.2 Incluindo colunas externas com `meta`

Para manter também informações do nível superior (`Pesquisa`, `Ano`):

```python
pd.json_normalize(
    dados_dict,
    record_path=['Pacientes'],
    meta=['Pesquisa', 'Ano']
)
```

> Resultado: todas as colunas, incluindo a lista aninhada e os metadados, ficam disponíveis no DataFrame.

---

## 3️⃣ Normalizando JSON a partir de arquivo

Se você tiver um arquivo JSON, é necessário carregá-lo primeiro com o módulo `json`:

```python
import pandas as pd
import json

with open('pacientes_2.json', 'r', encoding='utf-8') as f:
    dados = json.load(f)

pd.json_normalize(dados, record_path='Pacientes', meta=['Pesquisa', 'Ano'])
```

> Assim, é possível normalizar JSONs simples, com múltiplos níveis ou listas aninhadas em DataFrames tabulares.

---------------

#Escrevendo arquivos JSON

In [8]:
df_normalizado.to_json('historico_pacientes_normalizado.json')

In [10]:
pd.read_json('/content/historico_pacientes_normalizado.json')

Unnamed: 0,ID,Faixa_etaria,Sexo_biologico,Raça,IMC,Fumante,Consumo_alcool,Saude_fisica,Saude_mental,Dificuldade_caminhar,Atividade_fisica,Saude_geral,Horas_sono,Problemas_saude
0,1,55-59,Feminino,Branca,16.6,Sim,Nao,3,30,Nao,Sim,Muito boa,5,"[Diabetes, Asma, Cancer_pele]"
1,2,80 ou +,Feminino,Branca,20.34,Nao,Nao,0,0,Nao,Sim,Muito boa,7,[AVC]
2,3,65-69,Masculino,Branca,26.58,Sim,Nao,20,30,Nao,Sim,Muito boa,8,"[diabetes, Asma]"


# Para saber mais: obtendo arquivos JSON de APIs

APIs (**Application Programming Interface**) permitem a comunicação entre diferentes sistemas ou programas.  
Um dos formatos mais comuns para troca de informações em APIs é o **JSON** (JavaScript Object Notation), um formato leve baseado em objetos do JavaScript.

---

## 1️⃣ Importando bibliotecas

```python
import requests
import json
import pandas as pd
````

---

## 2️⃣ Obtendo dados de uma API

Exemplo usando a API **JSONPlaceholder**, que retorna informações de usuários:

```python
# Requisição GET na API
dados_usuarios = requests.get('https://jsonplaceholder.typicode.com/users')

# Convertendo o conteúdo da resposta para JSON
resultado = json.loads(dados_usuarios.text)

# Transformando em DataFrame
df = pd.DataFrame(resultado)
df.head()
```

---

## 3️⃣ Observações importantes

* Cada usuário é um registro (linha) no DataFrame.
* Campos como `address` e `company` podem conter **dicionários aninhados**.
* Caso queira analisar dados aninhados, podemos combinar `pd.json_normalize()` como vimos anteriormente.

---

> Assim, podemos coletar dados de APIs, transformá-los em DataFrames e iniciar análises de forma rápida e organizada.


#Exercícioa: Normalizando o JSON obtido na API

In [15]:
import requests
import json

url = 'https://jsonplaceholder.typicode.com/users'
dados_usuarios = requests.get(url)
resultado = json.loads(dados_usuarios.text)
df_normalizado = pd.json_normalize(resultado, sep='_')
#garante que os subcampos de dados aninhados sejam desaninhados com os níveis unidos por um sublinhado (_)
df_normalizado.head()

Unnamed: 0,id,name,username,email,phone,website,address_street,address_suite,address_city,address_zipcode,address_geo_lat,address_geo_lng,company_name,company_catchPhrase,company_bs
0,1,Leanne Graham,Bret,Sincere@april.biz,1-770-736-8031 x56442,hildegard.org,Kulas Light,Apt. 556,Gwenborough,92998-3874,-37.3159,81.1496,Romaguera-Crona,Multi-layered client-server neural-net,harness real-time e-markets
1,2,Ervin Howell,Antonette,Shanna@melissa.tv,010-692-6593 x09125,anastasia.net,Victor Plains,Suite 879,Wisokyburgh,90566-7771,-43.9509,-34.4618,Deckow-Crist,Proactive didactic contingency,synergize scalable supply-chains
2,3,Clementine Bauch,Samantha,Nathan@yesenia.net,1-463-123-4447,ramiro.info,Douglas Extension,Suite 847,McKenziehaven,59590-4157,-68.6102,-47.0653,Romaguera-Jacobson,Face to face bifurcated interface,e-enable strategic applications
3,4,Patricia Lebsack,Karianne,Julianne.OConner@kory.org,493-170-9623 x156,kale.biz,Hoeger Mall,Apt. 692,South Elvis,53919-4257,29.4572,-164.299,Robel-Corkery,Multi-tiered zero tolerance productivity,transition cutting-edge web services
4,5,Chelsey Dietrich,Kamren,Lucio_Hettinger@annie.ca,(254)954-1289,demarco.info,Skiles Walks,Suite 351,Roscoeview,33263,-31.8129,62.5342,Keebler LLC,User-centric fault-tolerant solution,revolutionize end-to-end systems
