## üéì **Aula sobre: Introdu√ß√£o a arquivos JSON e Lendo Arquivos JSON em Python**

 <br>

### üß≠ Sum√°rio da Aula

| # | Sub-t√≥pico                      | Tempo Estimado | Complexidade |
|---|---------------------------------|----------------|--------------|
| 1 | Ficha de Revis√£o R√°pida         | ~1 min         | ‚≠ê           |
| 2 | Mergulho Profundo               | ~15 min        | ‚≠ê‚≠ê‚≠ê‚≠ê       |
| 3 | Profundezas e Conex√µes          | ~3 min         | ‚≠ê‚≠ê         |
| 4 | A√ß√£o e Verifica√ß√£o              | ~5 min         | ‚≠ê‚≠ê         |
| 5 | Mergulhos Adicionais            | Opcional       | ‚≠ê‚≠ê‚≠ê‚≠ê       |

 <br>

---
 <br>


### 1. üß† Ficha de Revis√£o R√°pida | (O Essencial)

 <br>

> JSON (*JavaScript Object Notation*) √© um formato de texto para troca de dados.  
> Em Python, use o m√≥dulo `json`:  
> - `json.load(f)` l√™ JSON de um arquivo aberto e retorna objetos Python.  
> - `json.loads(s)` faz o mesmo a partir de uma *string*.  
> - Para escrever, use `json.dump(obj, f)` e `json.dumps(obj)`.

 <br>


### 2. üî¨ Mergulho Profundo | (Os Detalhes)

 <br>

#### **üéØ O Conceito Central**  
JSON representa estruturas aninhadas de forma leg√≠vel. Python mapeia automaticamente chaves e valores em *dict*, listas e tipos primitivos.

#### **üîó Analogia de Data Science**  
Ao receber um payload de API com dados de usu√°rios, o JSON j√° chega pronto para virar um dicion√°rio ou lista de dicion√°rios, facilitando a convers√£o para *DataFrame* ou outras estruturas de an√°lise.

 <br>


### **üíª Exemplos de Mercado (Abrangentes)**

#### **N√≠vel Simples: Lendo `/content/exemplo.json`**


In [None]:
import json

with open("/content/exemplo.json", "r", encoding="utf-8") as f:
    dados = json.load(f)

print(dados)            # {'nome': 'Maria', 'idade': 28, 'cidade': 'S√£o Paulo'}
print(type(dados))      # <class 'dict'>


In [4]:
# Pratique seu c√≥digo aqui!

import json

with open("/content/exemplo.json", "r", encoding="utf-8") as f:
  dados = json.load(f)

print(dados)
print(type(dados))

{'nome': 'Maria', 'idade': 28, 'cidade': 'S√£o Paulo'}
<class 'dict'>


*   **O que o c√≥digo faz:** Carrega um objeto JSON simples em dicion√°rio Python.  
*   **Cen√°rio de Mercado:** Configura√ß√µes de usu√°rio ou perfis armazenados localmente.  
*   **Boas Pr√°ticas:** Sempre trate `FileNotFoundError` e `JSONDecodeError`.


#### **N√≠vel Intermedi√°rio: Lendo `/content/livro.json`**


In [None]:
import json

with open("/content/livro.json", "r", encoding="utf-8") as f:
    livro = json.load(f)

titulo = livro.get("titulo")
autor = livro.get("autor")
ano = livro.get("ano")
print(f"{titulo} ‚Äî {autor} ({ano})")


In [7]:
from inspect import EndOfBlock
# Pratique seu c√≥digo aqui!

import json

with open("/content/livro.json", "r", encoding="utf-8") as f:
    livro = json.load(f)

titulo = livro.get("titulo")
autor = livro.get("autor")
ano = livro.get("ano")
print(f"{titulo} ‚Äî {autor} ({ano})")


Dom Casmurro ‚Äî Machado de Assis (1899)


*   **O que o c√≥digo faz:** Extrai campos espec√≠ficos de um JSON em dicion√°rio.  
*   **Cen√°rio de Mercado:** Metadados de publica√ß√µes para bibliotecas digitais.


#### **N√≠vel Avan√ßado: Lendo `/content/produtos.json` (lista de itens)**


In [None]:
import json

with open("/content/produtos.json", "r", encoding="utf-8") as f:
    produtos = json.load(f)

for p in produtos:
    nome = p["nome"]
    preco = float(p["preco"])
    print(f"Produto: {nome} ‚Äî R$ {preco:.2f}")


In [8]:
# Pratique seu c√≥digo aqui!

import json

with open("/content/produtos.json", "r", encoding="utf-8") as f:
  produtos = json.load(f)

for p in produtos:
  nome = p["nome"]
  preco = float(p["preco"])
  print(f"Produto: {nome} - R$ {preco:.2f}")


Produto: cadeira - R$ 200.00
Produto: mesa - R$ 300.00
Produto: relogio - R$ 40.00


*   **O que o c√≥digo faz:** Percorre lista de dicion√°rios e formata pre√ßos.  
*   **Cen√°rio de Mercado:** Cat√°logo de produtos importado de JSON para exibi√ß√£o.


#### **N√≠vel DEUS (1/3): Tratando Erros de Parsing**


In [None]:
import json

try:
    with open("/content/invalido.json", "r", encoding="utf-8") as f:
        data = json.load(f)
except FileNotFoundError:
    print("Arquivo n√£o encontrado.")
except json.JSONDecodeError as e:
    print("Erro ao decodificar JSON:", e)


In [9]:
# Pratique seu c√≥digo aqui!

import json

try:
  with open("/content/invalido.json", "r", encoding="utf-8") as f:
    data = json.load(f)
except FileNotFoundError:
  print("Arquivo n√£o encontrado.")
except json.JSONDecodeError as e:
  print("Erro ao decodificar JSON:", e)

Arquivo n√£o encontrado.


*   **O que o c√≥digo faz:** Captura aus√™ncia de arquivo e falha de formato.  
*   **Cen√°rio de Mercado:** Valida√ß√£o robusta de dados antes de processar grandes volumes.


#### **N√≠vel DEUS (2/3): Leitura de JSON Lines (JSONL)**


In [13]:
# Create a dummy produtos.jsonl file for demonstration
jsonl_data = """
{"nome": "produto A", "preco": "10.00"}
{"nome": "produto B", "preco": "25.50"}
{"nome": "produto C", "preco": "5.75"}
"""

with open("/content/produtos.jsonl", "w", encoding="utf-8") as f:
    f.write(jsonl_data.strip())

In [None]:
import json

with open("/content/produtos.jsonl", "r", encoding="utf-8") as f:
    registros = [json.loads(linha) for linha in f]

print(f"{len(registros)} registros lidos")


In [14]:
# Pratique seu c√≥digo aqui!

import json

jsonl_data = """
{"nome": "produto A", "preco": "10.00"}
{"nome": "produto B", "preco": "25.50"}
{"nome": "produto C", "preco": "5.75"}
"""

with open("/content/produtos.jsonl", "w", encoding="utf-8") as f:
    f.write(jsonl_data.strip())

with open("/content/produtos.jsonl", "r", encoding="utf-8") as f:
    registros = [json.loads(linha) for linha in f]

print(f"{len(registros)} registros lidos")

3 registros lidos


*   **O que o c√≥digo faz:** Trata cada linha como JSON independente.  
*   **Cen√°rio de Mercado:** Logs estruturados ou streams de eventos em tempo real.


#### **N√≠vel DEUS (3/3): Normaliza√ß√£o para DataFrame**


In [None]:
import json
import pandas as pd

with open("/content/produtos.json", "r", encoding="utf-8") as f:
    produtos = json.load(f)

df = pd.json_normalize(produtos)
print(df.head())


In [16]:
# Pratique seu c√≥digo aqui!
import json
import pandas as pd

with open("/content/produtos.json", "r", encoding="utf-8") as f:
  produtos = json.load(f)

df = pd.json_normalize(produtos)
print(df.head())

      nome preco
0  cadeira   200
1     mesa   300
2  relogio    40


*   **O que o c√≥digo faz:** Converte lista JSON em tabela plana do pandas.  
*   **Cen√°rio de Mercado:** Preparar dados para an√°lise e modelagem sem loops manuais.


### 3. üï∏Ô∏è Profundezas e Conex√µes

 <br>

Leitura de JSON conecta-se a **requests** (API web via `response.json()`), **pandas** (`read_json`), **context managers** e bibliotecas de alto desempenho como `ujson` ou `orjson`. Entender parsing e normaliza√ß√£o √© essencial para ingest√£o e integra√ß√£o de dados heterog√™neos.

 <br>

---
 <br>


### 4. üöÄ A√ß√£o e Verifica√ß√£o

 <br>

#### **ü§î Desafio Pr√°tico**
1. Leia `/content/exemplo.json` e imprima apenas o valor de `"cidade"`.  
2. Usando `json.loads()`, parseie uma string JSON contendo o dicion√°rio de `livro.json`.  
3. Abra `/content/produtos.json`, filtre produtos com `preco > 100` e exiba nomes.  
4. Trate `JSONDecodeError` ao ler um arquivo JSON malformado (`try/except`).  
5. Normalize `/content/produtos.json` em DataFrame e calcule o pre√ßo m√©dio.

 <br>

#### **‚ùì Pergunta de Verifica√ß√£o**
Por que JSONL pode ser mais eficiente que um √∫nico JSON grande? Quais vantagens de processamento de streaming isso traz?

 <br>

---
 <br>


### **Resposta R√°pida**

O formato **JSONL** (JSON Lines) √© mais eficiente que um √∫nico JSON grande porque permite **processar os dados linha por linha**, sem carregar tudo na mem√≥ria. Isso facilita o **streaming**, a **paraleliza√ß√£o** e a **leitura incremental**, ideal para arquivos grandes.

---

### **Analogia do Dia**

Imagine que voc√™ vai ler um dicion√°rio gigante.
No formato JSON tradicional, √© como receber **um √∫nico livro encadernado enorme**: voc√™ precisa **abrir tudo de uma vez**.
No JSONL, √© como receber **uma pilha de cart√µes**, um por defini√ß√£o ‚Äî voc√™ pode **processar um por um**, sem carregar o conjunto inteiro.

---

### **An√°lise T√©cnica Detalhada**

#### üß© JSON tradicional (um √∫nico dicion√°rio grande):

```json
[
  {"id": 1, "nome": "Alice"},
  {"id": 2, "nome": "Bob"},
  {"id": 3, "nome": "Carol"}
]
```

* ‚úÖ √ìtimo para **troca de dados entre sistemas**
* ‚ùå Precisa ser **carregado todo na mem√≥ria** de uma vez (`json.load`)
* ‚ùå Dif√≠cil de **manipular incrementalmente**

---

#### ‚úÖ JSONL (JSON Lines):

```json
{"id": 1, "nome": "Alice"}
{"id": 2, "nome": "Bob"}
{"id": 3, "nome": "Carol"}
```

* Cada linha √© um **objeto JSON completo**
* Pode ser lido **linha por linha com `for`**
* Excelente para **streaming, logs, grandes volumes de dados**

---

#### ‚öôÔ∏è Como processar JSONL em Python:

```python
import json

with open("dados.jsonl", "r", encoding="utf-8") as f:
    for linha in f:
        registro = json.loads(linha)
        print(registro["nome"])
```

üß† Isso **evita carregar tudo na mem√≥ria**!

---

### **Nota de Rodap√© para Novatos**

* **JSONL**: Formato onde **cada linha do arquivo √© um objeto JSON** independente.
* **Streaming**: T√©cnica de processar dados **√† medida que s√£o recebidos/lidos**, sem esperar o arquivo inteiro.
* **`json.loads()`**: Carrega uma string JSON (ex: uma linha do arquivo) como dicion√°rio Python.
* **Leitura incremental**: Processar dados pouco a pouco ‚Äî √∫til para datasets grandes.

---

### **Aplica√ß√£o Pr√°tica e Boas Pr√°ticas**

‚úÖ JSONL √© ideal para:

* Grandes volumes de dados (ex: logs, dados de sensores, extra√ß√µes de APIs)
* Treinamento de modelos de IA com **pipeline de dados sob demanda**
* Paralelismo: v√°rias threads/processos podem **ler e processar linhas separadamente**

‚ùå Evite JSONL quando:

* Precisa de estrutura aninhada complexa (ex: listas dentro de listas)
* O conjunto de dados **precisa ser tratado como uma estrutura inteira**

üí° Ferramentas como `pandas`, `datasets` da HuggingFace, Spark e pipelines de NLP **adoram JSONL** por sua leveza e compatibilidade com leitura em lote.

---

### **Resumo da Li√ß√£o**

JSONL √© eficiente para grandes volumes de dados porque permite **leitura linha por linha**, sem consumir muita mem√≥ria ‚Äî ideal para **streaming, processamento paralelo** e **pipelines escal√°veis** de Ci√™ncia de Dados.

---
