## 🎓 **Aula sobre: Introdução a arquivos JSON e Lendo Arquivos JSON em Python**

 <br>

### 🧭 Sumário da Aula

| # | Sub-tópico                      | Tempo Estimado | Complexidade |
|---|---------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida         | ~1 min         | ⭐           |
| 2 | Mergulho Profundo               | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões          | ~3 min         | ⭐⭐         |
| 4 | Ação e Verificação              | ~5 min         | ⭐⭐         |
| 5 | Mergulhos Adicionais            | Opcional       | ⭐⭐⭐⭐       |

 <br>

---
 <br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

 <br>

> JSON (*JavaScript Object Notation*) é um formato de texto para troca de dados.  
> Em Python, use o módulo `json`:  
> - `json.load(f)` lê JSON de um arquivo aberto e retorna objetos Python.  
> - `json.loads(s)` faz o mesmo a partir de uma *string*.  
> - Para escrever, use `json.dump(obj, f)` e `json.dumps(obj)`.

 <br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

 <br>

#### **🎯 O Conceito Central**  
JSON representa estruturas aninhadas de forma legível. Python mapeia automaticamente chaves e valores em *dict*, listas e tipos primitivos.

#### **🔗 Analogia de Data Science**  
Ao receber um payload de API com dados de usuários, o JSON já chega pronto para virar um dicionário ou lista de dicionários, facilitando a conversão para *DataFrame* ou outras estruturas de análise.

 <br>


### **💻 Exemplos de Mercado (Abrangentes)**

#### **Nível Simples: Lendo `/content/exemplo.json`**


In [None]:
import json

with open("/content/exemplo.json", "r", encoding="utf-8") as f:
    dados = json.load(f)

print(dados)            # {'nome': 'Maria', 'idade': 28, 'cidade': 'São Paulo'}
print(type(dados))      # <class 'dict'>


In [4]:
# Pratique seu código aqui!

import json

with open("/content/exemplo.json", "r", encoding="utf-8") as f:
  dados = json.load(f)

print(dados)
print(type(dados))

{'nome': 'Maria', 'idade': 28, 'cidade': 'São Paulo'}
<class 'dict'>


*   **O que o código faz:** Carrega um objeto JSON simples em dicionário Python.  
*   **Cenário de Mercado:** Configurações de usuário ou perfis armazenados localmente.  
*   **Boas Práticas:** Sempre trate `FileNotFoundError` e `JSONDecodeError`.


#### **Nível Intermediário: Lendo `/content/livro.json`**


In [None]:
import json

with open("/content/livro.json", "r", encoding="utf-8") as f:
    livro = json.load(f)

titulo = livro.get("titulo")
autor = livro.get("autor")
ano = livro.get("ano")
print(f"{titulo} — {autor} ({ano})")


In [7]:
from inspect import EndOfBlock
# Pratique seu código aqui!

import json

with open("/content/livro.json", "r", encoding="utf-8") as f:
    livro = json.load(f)

titulo = livro.get("titulo")
autor = livro.get("autor")
ano = livro.get("ano")
print(f"{titulo} — {autor} ({ano})")


Dom Casmurro — Machado de Assis (1899)


*   **O que o código faz:** Extrai campos específicos de um JSON em dicionário.  
*   **Cenário de Mercado:** Metadados de publicações para bibliotecas digitais.


#### **Nível Avançado: Lendo `/content/produtos.json` (lista de itens)**


In [None]:
import json

with open("/content/produtos.json", "r", encoding="utf-8") as f:
    produtos = json.load(f)

for p in produtos:
    nome = p["nome"]
    preco = float(p["preco"])
    print(f"Produto: {nome} — R$ {preco:.2f}")


In [8]:
# Pratique seu código aqui!

import json

with open("/content/produtos.json", "r", encoding="utf-8") as f:
  produtos = json.load(f)

for p in produtos:
  nome = p["nome"]
  preco = float(p["preco"])
  print(f"Produto: {nome} - R$ {preco:.2f}")


Produto: cadeira - R$ 200.00
Produto: mesa - R$ 300.00
Produto: relogio - R$ 40.00


*   **O que o código faz:** Percorre lista de dicionários e formata preços.  
*   **Cenário de Mercado:** Catálogo de produtos importado de JSON para exibição.


#### **Nível DEUS (1/3): Tratando Erros de Parsing**


In [None]:
import json

try:
    with open("/content/invalido.json", "r", encoding="utf-8") as f:
        data = json.load(f)
except FileNotFoundError:
    print("Arquivo não encontrado.")
except json.JSONDecodeError as e:
    print("Erro ao decodificar JSON:", e)


In [9]:
# Pratique seu código aqui!

import json

try:
  with open("/content/invalido.json", "r", encoding="utf-8") as f:
    data = json.load(f)
except FileNotFoundError:
  print("Arquivo não encontrado.")
except json.JSONDecodeError as e:
  print("Erro ao decodificar JSON:", e)

Arquivo não encontrado.


*   **O que o código faz:** Captura ausência de arquivo e falha de formato.  
*   **Cenário de Mercado:** Validação robusta de dados antes de processar grandes volumes.


#### **Nível DEUS (2/3): Leitura de JSON Lines (JSONL)**


In [13]:
# Create a dummy produtos.jsonl file for demonstration
jsonl_data = """
{"nome": "produto A", "preco": "10.00"}
{"nome": "produto B", "preco": "25.50"}
{"nome": "produto C", "preco": "5.75"}
"""

with open("/content/produtos.jsonl", "w", encoding="utf-8") as f:
    f.write(jsonl_data.strip())

In [None]:
import json

with open("/content/produtos.jsonl", "r", encoding="utf-8") as f:
    registros = [json.loads(linha) for linha in f]

print(f"{len(registros)} registros lidos")


In [14]:
# Pratique seu código aqui!

import json

jsonl_data = """
{"nome": "produto A", "preco": "10.00"}
{"nome": "produto B", "preco": "25.50"}
{"nome": "produto C", "preco": "5.75"}
"""

with open("/content/produtos.jsonl", "w", encoding="utf-8") as f:
    f.write(jsonl_data.strip())

with open("/content/produtos.jsonl", "r", encoding="utf-8") as f:
    registros = [json.loads(linha) for linha in f]

print(f"{len(registros)} registros lidos")

3 registros lidos


*   **O que o código faz:** Trata cada linha como JSON independente.  
*   **Cenário de Mercado:** Logs estruturados ou streams de eventos em tempo real.


#### **Nível DEUS (3/3): Normalização para DataFrame**


In [None]:
import json
import pandas as pd

with open("/content/produtos.json", "r", encoding="utf-8") as f:
    produtos = json.load(f)

df = pd.json_normalize(produtos)
print(df.head())


In [16]:
# Pratique seu código aqui!
import json
import pandas as pd

with open("/content/produtos.json", "r", encoding="utf-8") as f:
  produtos = json.load(f)

df = pd.json_normalize(produtos)
print(df.head())

      nome preco
0  cadeira   200
1     mesa   300
2  relogio    40


*   **O que o código faz:** Converte lista JSON em tabela plana do pandas.  
*   **Cenário de Mercado:** Preparar dados para análise e modelagem sem loops manuais.


### 3. 🕸️ Profundezas e Conexões

 <br>

Leitura de JSON conecta-se a **requests** (API web via `response.json()`), **pandas** (`read_json`), **context managers** e bibliotecas de alto desempenho como `ujson` ou `orjson`. Entender parsing e normalização é essencial para ingestão e integração de dados heterogêneos.

 <br>

---
 <br>


### 4. 🚀 Ação e Verificação

 <br>

#### **🤔 Desafio Prático**
1. Leia `/content/exemplo.json` e imprima apenas o valor de `"cidade"`.  
2. Usando `json.loads()`, parseie uma string JSON contendo o dicionário de `livro.json`.  
3. Abra `/content/produtos.json`, filtre produtos com `preco > 100` e exiba nomes.  
4. Trate `JSONDecodeError` ao ler um arquivo JSON malformado (`try/except`).  
5. Normalize `/content/produtos.json` em DataFrame e calcule o preço médio.

 <br>

#### **❓ Pergunta de Verificação**
Por que JSONL pode ser mais eficiente que um único JSON grande? Quais vantagens de processamento de streaming isso traz?

 <br>

---
 <br>


### **Resposta Rápida**

O formato **JSONL** (JSON Lines) é mais eficiente que um único JSON grande porque permite **processar os dados linha por linha**, sem carregar tudo na memória. Isso facilita o **streaming**, a **paralelização** e a **leitura incremental**, ideal para arquivos grandes.

---

### **Analogia do Dia**

Imagine que você vai ler um dicionário gigante.
No formato JSON tradicional, é como receber **um único livro encadernado enorme**: você precisa **abrir tudo de uma vez**.
No JSONL, é como receber **uma pilha de cartões**, um por definição — você pode **processar um por um**, sem carregar o conjunto inteiro.

---

### **Análise Técnica Detalhada**

#### 🧩 JSON tradicional (um único dicionário grande):

```json
[
  {"id": 1, "nome": "Alice"},
  {"id": 2, "nome": "Bob"},
  {"id": 3, "nome": "Carol"}
]
```

* ✅ Ótimo para **troca de dados entre sistemas**
* ❌ Precisa ser **carregado todo na memória** de uma vez (`json.load`)
* ❌ Difícil de **manipular incrementalmente**

---

#### ✅ JSONL (JSON Lines):

```json
{"id": 1, "nome": "Alice"}
{"id": 2, "nome": "Bob"}
{"id": 3, "nome": "Carol"}
```

* Cada linha é um **objeto JSON completo**
* Pode ser lido **linha por linha com `for`**
* Excelente para **streaming, logs, grandes volumes de dados**

---

#### ⚙️ Como processar JSONL em Python:

```python
import json

with open("dados.jsonl", "r", encoding="utf-8") as f:
    for linha in f:
        registro = json.loads(linha)
        print(registro["nome"])
```

🧠 Isso **evita carregar tudo na memória**!

---

### **Nota de Rodapé para Novatos**

* **JSONL**: Formato onde **cada linha do arquivo é um objeto JSON** independente.
* **Streaming**: Técnica de processar dados **à medida que são recebidos/lidos**, sem esperar o arquivo inteiro.
* **`json.loads()`**: Carrega uma string JSON (ex: uma linha do arquivo) como dicionário Python.
* **Leitura incremental**: Processar dados pouco a pouco — útil para datasets grandes.

---

### **Aplicação Prática e Boas Práticas**

✅ JSONL é ideal para:

* Grandes volumes de dados (ex: logs, dados de sensores, extrações de APIs)
* Treinamento de modelos de IA com **pipeline de dados sob demanda**
* Paralelismo: várias threads/processos podem **ler e processar linhas separadamente**

❌ Evite JSONL quando:

* Precisa de estrutura aninhada complexa (ex: listas dentro de listas)
* O conjunto de dados **precisa ser tratado como uma estrutura inteira**

💡 Ferramentas como `pandas`, `datasets` da HuggingFace, Spark e pipelines de NLP **adoram JSONL** por sua leveza e compatibilidade com leitura em lote.

---

### **Resumo da Lição**

JSONL é eficiente para grandes volumes de dados porque permite **leitura linha por linha**, sem consumir muita memória — ideal para **streaming, processamento paralelo** e **pipelines escaláveis** de Ciência de Dados.

---
