## 🎓 **Aula sobre: Escrevendo em Arquivos JSON em Python**

 <br>

### 🧭 Sumário da Aula

| # | Sub-tópico                      | Tempo Estimado | Complexidade |
|---|---------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida         | ~1 min         | ⭐           |
| 2 | Mergulho Profundo               | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões          | ~3 min         | ⭐⭐         |
| 4 | Ação e Verificação              | ~5 min         | ⭐⭐         |
| 5 | Mergulhos Adicionais            | Opcional      | ⭐⭐⭐⭐      |

 <br>

---
 <br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

 <br>

> Para escrever objetos Python em JSON, use o módulo `json`:  
> - `json.dump(obj, f, **kwargs)` grava diretamente em arquivo.  
> - `json.dumps(obj, **kwargs)` retorna string JSON.  
> - Parâmetros úteis: `indent=`, `ensure_ascii=`, `sort_keys=`, `default=` para objetos não serializáveis.  
> - Abra o arquivo em modo texto (`'w'`) e use `with` para fechar automaticamente.


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

 <br>

#### **🎯 O Conceito Central**  
Quando você chama `json.dump()`, o encoder percorre seu objeto, converte em texto JSON e escreve no buffer do arquivo.  
- `indent=n` formata com n espaços para maior legibilidade.  
- `ensure_ascii=False` mantém caracteres Unicode legíveis.  
- `sort_keys=True` ordena chaves alfabeticamente.  
- `default=func` trata tipos personalizados (ex: datas), retornando um objeto serializável.

 <br>

#### **🔗 Analogia de Data Science**  
Ao exportar resultados ou modelos, você gera JSON legível para humanos (logs de experimento) ou compacto (configurações de produção), ajustando indentação e encoding conforme o uso.


### **💻 Exemplos de Mercado (Abrangentes)**

#### **Nível Simples: Dump de um dicionário**


In [None]:
import json

config = {"host": "localhost", "port": 8080, "debug": True}
with open("config.json", "w", encoding="utf-8") as f:
    json.dump(config, f)


In [2]:
# Pratique seu código aqui!

import json

config = {"host": "localhost", "port": 8080, "debug": True}
with open("config.json", "w", encoding="utf-8") as f:
    json.dump(config, f)


{'host': 'localhost', 'port': 8080, 'debug': True}

*   **O que o código faz:** Cria/abre `config.json` e grava o dicionário sem formatação extra.  
*   **Cenário de Mercado:** Armazenar configurações de serviço de forma compacta.


#### **Nível Intermediário: Pretty-print com `indent` e `ensure_ascii`**


In [None]:
import json

usuarios = [{"nome": "Ana", "idade": 30}, {"nome": "Bruno", "idade": 25}]
with open("usuarios.json", "w", encoding="utf-8") as f:
    json.dump(usuarios, f, indent=2, ensure_ascii=False)


In [5]:
# Pratique seu código aqui!

import json

usuarios = [{"nome": "Ana", "idade": 30}, {"nome": "Bruno", "idade": 25}]
with open("usuarios.json", "w", encoding="utf-8") as f:
    json.dump(usuarios, f, indent=2, ensure_ascii=False)

*   **O que o código faz:** Formata JSON com recuos e mantém acentos.  
*   **Cenário de Mercado:** Exportar relatórios ou payloads legíveis para revisão manual.


#### **Nível Avançado: Salvando lista de produtos**


In [None]:
import json

produtos = [
    {"id": 1, "nome": "Caneta", "preco": 2.5},
    {"id": 2, "nome": "Caderno", "preco": 15.0}
]
with open("produtos.json", "w", encoding="utf-8") as f:
    json.dump(produtos, f, indent=4, sort_keys=True)


In [6]:
# Pratique seu código aqui!
import json

produtos = [
    {"id": 1, "nome": "Caneta", "preco": 2.5},
    {"id": 2, "nome": "Caderno", "preco": 15.0}
]

with open("produtos.json", "w", encoding="utf-8") as f:
  json.dump(produtos, f, indent=4, sort_keys=True)

*   **O que o código faz:** Ordena chaves e recua com 4 espaços.  
*   **Cenário de Mercado:** Catálogo de produtos para API ou frontend.


#### **Nível DEUS (1/3): Serializando objetos customizados**


In [None]:
import json
import datetime

class Pedido:
    def __init__(self, id, data):
        self.id = id
        self.data = data

def encoder(obj):
    if isinstance(obj, Pedido):
        return {"id": obj.id, "data": obj.data.isoformat()}
    raise TypeError

ped = Pedido(123, datetime.date.today())
with open("pedido.json", "w", encoding="utf-8") as f:
    json.dump(ped, f, default=encoder, indent=2)


In [9]:
# Pratique seu código aqui!

import json
import datetime

class Pedido:
  def __init__(self, id, data):
    self.id = id
    self.data = data

def encoder(obj):
  if isinstance(obj, Pedido):
    return {"id": obj.id, "data": obj.data.isoformat()}
  raise TypeError

ped = Pedido(123, datetime.date.today())
with open("pedido.json", "w", encoding = "utf-8") as f:
  json.dump(ped, f, default=encoder, indent=2)



*   **O que o código faz:** Converte instância de classe em dict via função `default`.  
*   **Cenário de Mercado:** Exportar modelos ou datas em APIs REST.


#### **Nível DEUS (2/3): Gerando JSONL (JSON Lines)**


In [None]:
import json

with open("logs.jsonl", "w", encoding="utf-8") as f:
    for entry in eventos:  # lista de dicionários
        f.write(json.dumps(entry) + "\n")


In [13]:
# Pratique seu código aqui!

import json

# Sample data - replace with your actual list of dictionaries
eventos = [
    {"timestamp": "2023-10-27T10:00:00Z", "level": "INFO", "message": "Process started"},
    {"timestamp": "2023-10-27T10:01:00Z", "level": "ERROR", "message": "Failed to connect to database"},
    {"timestamp": "2023-10-27T10:05:00Z", "level": "INFO", "message": "Process finished"}
]

with open("logs.jsonl", "w", encoding="utf-8") as f:
    for entry in eventos:
        f.write(json.dumps(entry) + "\n")

*   **O que o código faz:** Escreve cada objeto JSON em linha separada.  
*   **Cenário de Mercado:** Logs de evento ou grandes dumps de dados para streaming.


#### **Nível DEUS (3/3): Escrita incremental com `JSONEncoder.iterencode`**


In [None]:
import json

encoder = json.JSONEncoder(indent=2)
with open("grande.json", "w", encoding="utf-8") as f:
    f.write("[\n")
    for i, obj in enumerate(grande_lista):
        text = encoder.iterencode(obj)
        chunk = "".join(text)
        f.write(chunk + ("," if i < len(grande_lista)-1 else "") + "\n")
    f.write("]\n")


In [15]:
# Pratique seu código aqui!

import json

# Sample data - replace with your actual large list of dictionaries
grande_lista = [
    {"item": f"item_{i}", "value": i*10} for i in range(100)
]

encoder = json.JSONEncoder(indent=2)
with open("grande.json", "w", encoding="utf-8") as f:
  f.write("[\n")
  for i, obj in enumerate(grande_lista):
    text = encoder.iterencode(obj)
    chunk = "".join(text)
    f.write(chunk + ("," if i < len(grande_lista)-1 else "") + "\n")
  f.write("]\n")

*   **O que o código faz:** Gera JSON grande sem carregar tudo em memória de uma vez.  
*   **Cenário de Mercado:** Exportação de milhões de registros de forma controlada.


### 3. 🕸️ Profundezas e Conexões

 <br>

Escrita de JSON se integra a **logging** (handlers de arquivo JSON), **pathlib** para gerenciamento de paths, e **frameworks** (FastAPI `response_model`). Bibliotecas de alto desempenho (`orjson`, `ujson`) aceleram dump e loads em produção.

 <br>

---
 <br>


### 4. 🚀 Ação e Verificação

 <br>

#### **🤔 Desafio Prático**
1. Salve um dicionário de configuração em `config.json` com `indent=4`.  
2. Exporte uma lista de produtos em `produtos.jsonl`, escrevendo uma linha por produto.  
3. Implemente um encoder customizado para salvar objetos `datetime`.  
4. Escreva uma função que receba um generator e grave em `dados.json` incrementalmente.  
5. Compare o tempo de escrita entre `json.dump` padrão e `orjson.dumps`.

 <br>

#### **❓ Pergunta de Verificação**
Quando usar JSONL em vez de JSON padrão e quais ganhos de performance e robustez isso traz?

 <br>

---
 <br>


### **Resposta Rápida**

O formato **JSONL** (JSON Lines) é mais eficiente que um único JSON grande porque permite **processar os dados linha por linha**, sem carregar tudo na memória. Isso facilita o **streaming**, a **paralelização** e a **leitura incremental**, ideal para arquivos grandes.

---

### **Analogia do Dia**

Imagine que você vai ler um dicionário gigante.
No formato JSON tradicional, é como receber **um único livro encadernado enorme**: você precisa **abrir tudo de uma vez**.
No JSONL, é como receber **uma pilha de cartões**, um por definição — você pode **processar um por um**, sem carregar o conjunto inteiro.

---

### **Análise Técnica Detalhada**

#### 🧩 JSON tradicional (um único dicionário grande):

```json
[
  {"id": 1, "nome": "Alice"},
  {"id": 2, "nome": "Bob"},
  {"id": 3, "nome": "Carol"}
]
```

* ✅ Ótimo para **troca de dados entre sistemas**
* ❌ Precisa ser **carregado todo na memória** de uma vez (`json.load`)
* ❌ Difícil de **manipular incrementalmente**

---

#### ✅ JSONL (JSON Lines):

```json
{"id": 1, "nome": "Alice"}
{"id": 2, "nome": "Bob"}
{"id": 3, "nome": "Carol"}
```

* Cada linha é um **objeto JSON completo**
* Pode ser lido **linha por linha com `for`**
* Excelente para **streaming, logs, grandes volumes de dados**

---

#### ⚙️ Como processar JSONL em Python:

```python
import json

with open("dados.jsonl", "r", encoding="utf-8") as f:
    for linha in f:
        registro = json.loads(linha)
        print(registro["nome"])
```

🧠 Isso **evita carregar tudo na memória**!

---

### **Nota de Rodapé para Novatos**

* **JSONL**: Formato onde **cada linha do arquivo é um objeto JSON** independente.
* **Streaming**: Técnica de processar dados **à medida que são recebidos/lidos**, sem esperar o arquivo inteiro.
* **`json.loads()`**: Carrega uma string JSON (ex: uma linha do arquivo) como dicionário Python.
* **Leitura incremental**: Processar dados pouco a pouco — útil para datasets grandes.

---

### **Aplicação Prática e Boas Práticas**

✅ JSONL é ideal para:

* Grandes volumes de dados (ex: logs, dados de sensores, extrações de APIs)
* Treinamento de modelos de IA com **pipeline de dados sob demanda**
* Paralelismo: várias threads/processos podem **ler e processar linhas separadamente**

❌ Evite JSONL quando:

* Precisa de estrutura aninhada complexa (ex: listas dentro de listas)
* O conjunto de dados **precisa ser tratado como uma estrutura inteira**

💡 Ferramentas como `pandas`, `datasets` da HuggingFace, Spark e pipelines de NLP **adoram JSONL** por sua leveza e compatibilidade com leitura em lote.

---

### **Resumo da Lição**

JSONL é eficiente para grandes volumes de dados porque permite **leitura linha por linha**, sem consumir muita memória — ideal para **streaming, processamento paralelo** e **pipelines escaláveis** de Ciência de Dados.

---
