## üéì **Aula sobre: Escrevendo em Arquivos JSON em Python**

 <br>

### üß≠ Sum√°rio da Aula

| # | Sub-t√≥pico                      | Tempo Estimado | Complexidade |
|---|---------------------------------|----------------|--------------|
| 1 | Ficha de Revis√£o R√°pida         | ~1 min         | ‚≠ê           |
| 2 | Mergulho Profundo               | ~15 min        | ‚≠ê‚≠ê‚≠ê‚≠ê       |
| 3 | Profundezas e Conex√µes          | ~3 min         | ‚≠ê‚≠ê         |
| 4 | A√ß√£o e Verifica√ß√£o              | ~5 min         | ‚≠ê‚≠ê         |
| 5 | Mergulhos Adicionais            | Opcional      | ‚≠ê‚≠ê‚≠ê‚≠ê      |

 <br>

---
 <br>


### 1. üß† Ficha de Revis√£o R√°pida | (O Essencial)

 <br>

> Para escrever objetos Python em JSON, use o m√≥dulo `json`:  
> - `json.dump(obj, f, **kwargs)` grava diretamente em arquivo.  
> - `json.dumps(obj, **kwargs)` retorna string JSON.  
> - Par√¢metros √∫teis: `indent=`, `ensure_ascii=`, `sort_keys=`, `default=` para objetos n√£o serializ√°veis.  
> - Abra o arquivo em modo texto (`'w'`) e use `with` para fechar automaticamente.


### 2. üî¨ Mergulho Profundo | (Os Detalhes)

 <br>

#### **üéØ O Conceito Central**  
Quando voc√™ chama `json.dump()`, o encoder percorre seu objeto, converte em texto JSON e escreve no buffer do arquivo.  
- `indent=n` formata com n espa√ßos para maior legibilidade.  
- `ensure_ascii=False` mant√©m caracteres Unicode leg√≠veis.  
- `sort_keys=True` ordena chaves alfabeticamente.  
- `default=func` trata tipos personalizados (ex: datas), retornando um objeto serializ√°vel.

 <br>

#### **üîó Analogia de Data Science**  
Ao exportar resultados ou modelos, voc√™ gera JSON leg√≠vel para humanos (logs de experimento) ou compacto (configura√ß√µes de produ√ß√£o), ajustando indenta√ß√£o e encoding conforme o uso.


### **üíª Exemplos de Mercado (Abrangentes)**

#### **N√≠vel Simples: Dump de um dicion√°rio**


In [None]:
import json

config = {"host": "localhost", "port": 8080, "debug": True}
with open("config.json", "w", encoding="utf-8") as f:
    json.dump(config, f)


In [2]:
# Pratique seu c√≥digo aqui!

import json

config = {"host": "localhost", "port": 8080, "debug": True}
with open("config.json", "w", encoding="utf-8") as f:
    json.dump(config, f)


{'host': 'localhost', 'port': 8080, 'debug': True}

*   **O que o c√≥digo faz:** Cria/abre `config.json` e grava o dicion√°rio sem formata√ß√£o extra.  
*   **Cen√°rio de Mercado:** Armazenar configura√ß√µes de servi√ßo de forma compacta.


#### **N√≠vel Intermedi√°rio: Pretty-print com `indent` e `ensure_ascii`**


In [None]:
import json

usuarios = [{"nome": "Ana", "idade": 30}, {"nome": "Bruno", "idade": 25}]
with open("usuarios.json", "w", encoding="utf-8") as f:
    json.dump(usuarios, f, indent=2, ensure_ascii=False)


In [5]:
# Pratique seu c√≥digo aqui!

import json

usuarios = [{"nome": "Ana", "idade": 30}, {"nome": "Bruno", "idade": 25}]
with open("usuarios.json", "w", encoding="utf-8") as f:
    json.dump(usuarios, f, indent=2, ensure_ascii=False)

*   **O que o c√≥digo faz:** Formata JSON com recuos e mant√©m acentos.  
*   **Cen√°rio de Mercado:** Exportar relat√≥rios ou payloads leg√≠veis para revis√£o manual.


#### **N√≠vel Avan√ßado: Salvando lista de produtos**


In [None]:
import json

produtos = [
    {"id": 1, "nome": "Caneta", "preco": 2.5},
    {"id": 2, "nome": "Caderno", "preco": 15.0}
]
with open("produtos.json", "w", encoding="utf-8") as f:
    json.dump(produtos, f, indent=4, sort_keys=True)


In [6]:
# Pratique seu c√≥digo aqui!
import json

produtos = [
    {"id": 1, "nome": "Caneta", "preco": 2.5},
    {"id": 2, "nome": "Caderno", "preco": 15.0}
]

with open("produtos.json", "w", encoding="utf-8") as f:
  json.dump(produtos, f, indent=4, sort_keys=True)

*   **O que o c√≥digo faz:** Ordena chaves e recua com 4 espa√ßos.  
*   **Cen√°rio de Mercado:** Cat√°logo de produtos para API ou frontend.


#### **N√≠vel DEUS (1/3): Serializando objetos customizados**


In [None]:
import json
import datetime

class Pedido:
    def __init__(self, id, data):
        self.id = id
        self.data = data

def encoder(obj):
    if isinstance(obj, Pedido):
        return {"id": obj.id, "data": obj.data.isoformat()}
    raise TypeError

ped = Pedido(123, datetime.date.today())
with open("pedido.json", "w", encoding="utf-8") as f:
    json.dump(ped, f, default=encoder, indent=2)


In [9]:
# Pratique seu c√≥digo aqui!

import json
import datetime

class Pedido:
  def __init__(self, id, data):
    self.id = id
    self.data = data

def encoder(obj):
  if isinstance(obj, Pedido):
    return {"id": obj.id, "data": obj.data.isoformat()}
  raise TypeError

ped = Pedido(123, datetime.date.today())
with open("pedido.json", "w", encoding = "utf-8") as f:
  json.dump(ped, f, default=encoder, indent=2)



*   **O que o c√≥digo faz:** Converte inst√¢ncia de classe em dict via fun√ß√£o `default`.  
*   **Cen√°rio de Mercado:** Exportar modelos ou datas em APIs REST.


#### **N√≠vel DEUS (2/3): Gerando JSONL (JSON Lines)**


In [None]:
import json

with open("logs.jsonl", "w", encoding="utf-8") as f:
    for entry in eventos:  # lista de dicion√°rios
        f.write(json.dumps(entry) + "\n")


In [13]:
# Pratique seu c√≥digo aqui!

import json

# Sample data - replace with your actual list of dictionaries
eventos = [
    {"timestamp": "2023-10-27T10:00:00Z", "level": "INFO", "message": "Process started"},
    {"timestamp": "2023-10-27T10:01:00Z", "level": "ERROR", "message": "Failed to connect to database"},
    {"timestamp": "2023-10-27T10:05:00Z", "level": "INFO", "message": "Process finished"}
]

with open("logs.jsonl", "w", encoding="utf-8") as f:
    for entry in eventos:
        f.write(json.dumps(entry) + "\n")

*   **O que o c√≥digo faz:** Escreve cada objeto JSON em linha separada.  
*   **Cen√°rio de Mercado:** Logs de evento ou grandes dumps de dados para streaming.


#### **N√≠vel DEUS (3/3): Escrita incremental com `JSONEncoder.iterencode`**


In [None]:
import json

encoder = json.JSONEncoder(indent=2)
with open("grande.json", "w", encoding="utf-8") as f:
    f.write("[\n")
    for i, obj in enumerate(grande_lista):
        text = encoder.iterencode(obj)
        chunk = "".join(text)
        f.write(chunk + ("," if i < len(grande_lista)-1 else "") + "\n")
    f.write("]\n")


In [15]:
# Pratique seu c√≥digo aqui!

import json

# Sample data - replace with your actual large list of dictionaries
grande_lista = [
    {"item": f"item_{i}", "value": i*10} for i in range(100)
]

encoder = json.JSONEncoder(indent=2)
with open("grande.json", "w", encoding="utf-8") as f:
  f.write("[\n")
  for i, obj in enumerate(grande_lista):
    text = encoder.iterencode(obj)
    chunk = "".join(text)
    f.write(chunk + ("," if i < len(grande_lista)-1 else "") + "\n")
  f.write("]\n")

*   **O que o c√≥digo faz:** Gera JSON grande sem carregar tudo em mem√≥ria de uma vez.  
*   **Cen√°rio de Mercado:** Exporta√ß√£o de milh√µes de registros de forma controlada.


### 3. üï∏Ô∏è Profundezas e Conex√µes

 <br>

Escrita de JSON se integra a **logging** (handlers de arquivo JSON), **pathlib** para gerenciamento de paths, e **frameworks** (FastAPI `response_model`). Bibliotecas de alto desempenho (`orjson`, `ujson`) aceleram dump e loads em produ√ß√£o.

 <br>

---
 <br>


### 4. üöÄ A√ß√£o e Verifica√ß√£o

 <br>

#### **ü§î Desafio Pr√°tico**
1. Salve um dicion√°rio de configura√ß√£o em `config.json` com `indent=4`.  
2. Exporte uma lista de produtos em `produtos.jsonl`, escrevendo uma linha por produto.  
3. Implemente um encoder customizado para salvar objetos `datetime`.  
4. Escreva uma fun√ß√£o que receba um generator e grave em `dados.json` incrementalmente.  
5. Compare o tempo de escrita entre `json.dump` padr√£o e `orjson.dumps`.

 <br>

#### **‚ùì Pergunta de Verifica√ß√£o**
Quando usar JSONL em vez de JSON padr√£o e quais ganhos de performance e robustez isso traz?

 <br>

---
 <br>


### **Resposta R√°pida**

O formato **JSONL** (JSON Lines) √© mais eficiente que um √∫nico JSON grande porque permite **processar os dados linha por linha**, sem carregar tudo na mem√≥ria. Isso facilita o **streaming**, a **paraleliza√ß√£o** e a **leitura incremental**, ideal para arquivos grandes.

---

### **Analogia do Dia**

Imagine que voc√™ vai ler um dicion√°rio gigante.
No formato JSON tradicional, √© como receber **um √∫nico livro encadernado enorme**: voc√™ precisa **abrir tudo de uma vez**.
No JSONL, √© como receber **uma pilha de cart√µes**, um por defini√ß√£o ‚Äî voc√™ pode **processar um por um**, sem carregar o conjunto inteiro.

---

### **An√°lise T√©cnica Detalhada**

#### üß© JSON tradicional (um √∫nico dicion√°rio grande):

```json
[
  {"id": 1, "nome": "Alice"},
  {"id": 2, "nome": "Bob"},
  {"id": 3, "nome": "Carol"}
]
```

* ‚úÖ √ìtimo para **troca de dados entre sistemas**
* ‚ùå Precisa ser **carregado todo na mem√≥ria** de uma vez (`json.load`)
* ‚ùå Dif√≠cil de **manipular incrementalmente**

---

#### ‚úÖ JSONL (JSON Lines):

```json
{"id": 1, "nome": "Alice"}
{"id": 2, "nome": "Bob"}
{"id": 3, "nome": "Carol"}
```

* Cada linha √© um **objeto JSON completo**
* Pode ser lido **linha por linha com `for`**
* Excelente para **streaming, logs, grandes volumes de dados**

---

#### ‚öôÔ∏è Como processar JSONL em Python:

```python
import json

with open("dados.jsonl", "r", encoding="utf-8") as f:
    for linha in f:
        registro = json.loads(linha)
        print(registro["nome"])
```

üß† Isso **evita carregar tudo na mem√≥ria**!

---

### **Nota de Rodap√© para Novatos**

* **JSONL**: Formato onde **cada linha do arquivo √© um objeto JSON** independente.
* **Streaming**: T√©cnica de processar dados **√† medida que s√£o recebidos/lidos**, sem esperar o arquivo inteiro.
* **`json.loads()`**: Carrega uma string JSON (ex: uma linha do arquivo) como dicion√°rio Python.
* **Leitura incremental**: Processar dados pouco a pouco ‚Äî √∫til para datasets grandes.

---

### **Aplica√ß√£o Pr√°tica e Boas Pr√°ticas**

‚úÖ JSONL √© ideal para:

* Grandes volumes de dados (ex: logs, dados de sensores, extra√ß√µes de APIs)
* Treinamento de modelos de IA com **pipeline de dados sob demanda**
* Paralelismo: v√°rias threads/processos podem **ler e processar linhas separadamente**

‚ùå Evite JSONL quando:

* Precisa de estrutura aninhada complexa (ex: listas dentro de listas)
* O conjunto de dados **precisa ser tratado como uma estrutura inteira**

üí° Ferramentas como `pandas`, `datasets` da HuggingFace, Spark e pipelines de NLP **adoram JSONL** por sua leveza e compatibilidade com leitura em lote.

---

### **Resumo da Li√ß√£o**

JSONL √© eficiente para grandes volumes de dados porque permite **leitura linha por linha**, sem consumir muita mem√≥ria ‚Äî ideal para **streaming, processamento paralelo** e **pipelines escal√°veis** de Ci√™ncia de Dados.

---
