## 🎓 **Aula sobre: Pandas — Entrada e Saída de Dados**

<br>

### 🧭 Sumário da Aula

| # | Sub-tópico                         | Tempo Estimado | Complexidade |
|---|------------------------------------|----------------|--------------|
| 1 | Ficha de Revisão Rápida            | ~1 min         | ⭐           |
| 2 | Mergulho Profundo                  | ~15 min        | ⭐⭐⭐⭐       |
| 3 | Profundezas e Conexões             | ~3 min         | ⭐⭐         |
| 4 | 🚀 Ação e Verificação               | ~5 min         | ⭐⭐         |
| 5 | 🌊 Mergulhos Adicionais Opcionais   | Opcional       | ⭐⭐⭐⭐      |

<br>

---
<br>


### 1. 🧠 Ficha de Revisão Rápida | (O Essencial)

<br>

> - **`pd.read_csv(path)` / `df.to_csv(path)`**: ler e escrever arquivos CSV.  
> - **`pd.read_json(path)` / `df.to_json(path)`**: ler e escrever JSON com diferentes `orient`.  
> - **`pd.read_excel(path)` / `df.to_excel(path)`**: interoperar com Excel.  
> - **`pd.read_sql(query, conn)` / `df.to_sql(table, conn)`**: ler e escrever em bancos SQL.  
> - **`chunksize`**: permite leitura em pedaços para grandes arquivos.  

<br>


### 2. 🔬 Mergulho Profundo | (Os Detalhes)

<br>

#### **🎯 O Conceito Central**  
Leitura e escrita em Pandas abstraem engines de I/O (C, Python, SQL) para carregar e salvar estruturas tabulares. Parâmetros como `dtype`, `parse_dates` e `compression` controlam performance e precisão. O argumento `chunksize` retorna iterador de DataFrames, evitando sobrecarga de memória.

<br>

#### **🔗 Analogia de Data Science**  
Imagine um bibliotecário que:  
1. Vai ao depósito buscar caixas de fichas (CSV/JSON).  
2. Lê e organiza cada ficha em uma estante (DataFrame).  
3. Ao final, guarda as fichas processadas de volta em caixas novas (to_csv/to_json), possivelmente dividindo em lotes (chunksize).

<br>

### **💻 Exemplos de Mercado (Abrangentes)**


#### **Nível Simples: Lendo um CSV Local**


In [None]:
import pandas as pd

# Carrega histórico de reprodução do Spotify
df = pd.read_csv('/content/spotify_history.csv', engine='python', on_bad_lines='skip')
print(df.head())


In [4]:
# Pratique seu código aqui!

import pandas as pd

df = pd.read_csv('/content/spotify_history.csv', engine='python', on_bad_lines='skip')
df.head()

Unnamed: 0,spotify_track_uri,ts,platform,ms_played,track_name,artist_name,album_name,reason_start,reason_end,shuffle,skipped
0,2J3n32GeLmMjwuAzyhcSNe,2013-07-08 02:44:34,web player,3185,"Say It, Just Say It",The Mowgli's,Waiting For The Dawn,autoplay,clickrow,False,False
1,1oHxIPqJyvAYHy0PVrDU98,2013-07-08 02:45:37,web player,61865,Drinking from the Bottle (feat. Tinie Tempah),Calvin Harris,18 Months,clickrow,clickrow,False,False
2,487OPlneJNni3NWC8SYqhW,2013-07-08 02:50:24,web player,285386,Born To Die,Lana Del Rey,Born To Die - The Paradise Edition,clickrow,unknown,False,False
3,5IyblF777jLZj1vGHG2UD3,2013-07-08 02:52:40,web player,134022,Off To The Races,Lana Del Rey,Born To Die - The Paradise Edition,trackdone,clickrow,False,False
4,0GgAAB0ZMllFhbNc3mAodO,2013-07-08 03:17:52,web player,0,Half Mast,Empire Of The Sun,Walking On A Dream,clickrow,nextbtn,False,False


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas como pd.”  
  import pandas as pd

  # “Leia o arquivo CSV de histórico de reprodução.”  
df = pd.read_csv('/content/spotify_history.csv', engine='python', on_bad_lines='skip')

  # “Mostre as 5 primeiras linhas.”  
  print(df.head())
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo         | Expressão        | Saída                   | O que faz?                    |
  |:-------------:|:-----------------|:------------------------|:------------------------------|
  | 1             | `df`             | DataFrame completo      | Carrega toda a tabela do CSV  |
  | 2             | `df.head()`      | 5 primeiras linhas      | Inspeção inicial dos dados    |
  | 3             | –                | imprime                 | Saída final                   |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como abrir a caixa de fichas do mês, retirar as 5 primeiras e folhear para entender os campos disponíveis.

* **Cenário de Mercado:**  
  - Em **análise de logs**, carrega-se CSVs de servidores para inspeção inicial de eventos.  
  - Áreas como **BI** usam esses dados para montar dashboards diários rapidamente.

* **Boas Práticas:**  
  - **Afirmação:** “Especifique `dtype` em colunas numéricas.”  
    - **Porquê:** Evita inferência errada e economiza memória.  
    - **Analogia:** É como pedir caixas de tamanho exato para não desperdiçar espaço.


#### **Nível Intermediário: Lendo JSON e Escrevendo CSV**


In [None]:
import pandas as pd

# Lê produtos de JSON orientado a registros
prod = pd.read_json('/mnt/data/produtos.json', orient='records')
# Escreve em CSV para integração com outros sistemas
prod.to_csv('/mnt/data/produtos_export.csv', index=False)

print(prod.head())


In [7]:
# Pratique seu código aqui!

prod = pd.read_csv('/content/spotify_history.csv', engine='python', on_bad_lines='skip')

prod.to_csv('/content/spotify_history2.csv', index=False)

prod.head()



Unnamed: 0,spotify_track_uri,ts,platform,ms_played,track_name,artist_name,album_name,reason_start,reason_end,shuffle,skipped
0,2J3n32GeLmMjwuAzyhcSNe,2013-07-08 02:44:34,web player,3185,"Say It, Just Say It",The Mowgli's,Waiting For The Dawn,autoplay,clickrow,False,False
1,1oHxIPqJyvAYHy0PVrDU98,2013-07-08 02:45:37,web player,61865,Drinking from the Bottle (feat. Tinie Tempah),Calvin Harris,18 Months,clickrow,clickrow,False,False
2,487OPlneJNni3NWC8SYqhW,2013-07-08 02:50:24,web player,285386,Born To Die,Lana Del Rey,Born To Die - The Paradise Edition,clickrow,unknown,False,False
3,5IyblF777jLZj1vGHG2UD3,2013-07-08 02:52:40,web player,134022,Off To The Races,Lana Del Rey,Born To Die - The Paradise Edition,trackdone,clickrow,False,False
4,0GgAAB0ZMllFhbNc3mAodO,2013-07-08 03:17:52,web player,0,Half Mast,Empire Of The Sun,Walking On A Dream,clickrow,nextbtn,False,False


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas.”  
  import pandas as pd

  # “Leia JSON de produtos com orientação a registros.”  
  prod = pd.read_json('/mnt/data/produtos.json', orient='records')

  # “Salve como CSV sem índice.”  
  prod.to_csv('/mnt/data/produtos_export.csv', index=False)

  # “Veja as 5 primeiras linhas.”  
  print(prod.head())
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo       | Expressão                             | Saída                | O que faz?                                 |
  |:-----------:|:--------------------------------------|:---------------------|:--------------------------------------------|
  | 1           | `prod`                                | DataFrame de produtos| Converte JSON em tabela                    |
  | 2           | `to_csv(...)`                         | arquivo CSV criado   | Exporta para sistema externo               |
  | 3           | –                                     | imprime              | Inspeção após exportação                   |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como traduzir um documento estruturado (JSON) em uma planilha (CSV) para ser aberto em qualquer editor de texto.

* **Cenário de Mercado:**  
  - Em **ETL**, sistemas legados consomem CSVs; JSON precisa ser convertido antes de carga.  
  - Plataformas de **e-commerce** exportam catálogos JSON para planilhas de ERP.

* **Boas Práticas:**  
  - **Afirmação:** “Use `orient='records'` para JSON de listas de objetos.”  
    - **Porquê:** Garante compatibilidade com APIs REST.  
    - **Analogia:** É como alinhar fichas de contatos em um dicionário unificado.


#### **Nível Avançado: Leitura em Chunks para Grandes CSVs**


In [None]:
import pandas as pd

# Itera em pedaços de 10 000 linhas
chunks = pd.read_csv('/mnt/data/spotify_history.csv', chunksize=10000)
total = 0
for chunk in chunks:
    total += len(chunk[chunk['track_name'].str.contains('Love')])
print(f"Total de faixas com 'Love': {total}")


In [15]:
# Pratique seu código aqui!

import pandas as pd
import csv

chunks = pd.read_csv(
    '/content/spotify_history.csv',
    engine='python',
    quoting=csv.QUOTE_NONE,
    on_bad_lines='skip',
    chunksize=10000,
    encoding='utf-8',
    sep=',',
    dtype=str  # força todos os dados como string para evitar erros de tipo
)
total = 0
for chunk in chunks:
    total += len(chunk[chunk['track_name'].str.contains('Love')])

print(f"Total de faixas com 'Love': {total}")


Total de faixas com 'Love': 152


<pandas.io.parsers.readers.TextFileReader object at 0x7b6be90c7710>


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Leia CSV em pedaços de 10 000 linhas.”  
  chunks = pd.read_csv('/mnt/data/spotify_history.csv', chunksize=10000)

  # “Para cada chunk, conte faixas com 'Love' e acumule.”  
  for chunk in chunks:
      total += len(chunk[chunk['track_name'].str.contains('Love')])

  # “Exiba total de ocorrências.”  
  print(f"Total de faixas com 'Love': {total}")
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo   | Expressão                                       | Saída                       | O que faz?                              |
  |:-------:|:------------------------------------------------|:----------------------------|:-----------------------------------------|
  | 1       | `read_csv(..., chunksize=10000)`                | TextFileReader              | Prepara iterador por pedaços            |
  | 2       | `len(chunk[...] )`                              | inteiro                     | Conta eventos em cada pedaço            |
  | 3       | –                                               | imprime                     | Saída final                              |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como ler um livro em capítulos: você processa um capítulo de cada vez, sem precisar carregar o livro inteiro na memória.

* **Cenário de Mercado:**  
  - Em **big data**, processa logs de milhões de linhas sem estourar RAM.  
  - Serviços de **streaming** analisam eventos em tempo real com janelas de dados.

* **Boas Práticas:**  
  - **Afirmação:** “Use `chunksize` para arquivos > memória disponível.”  
    - **Porquê:** Evita estouros de memória; permite processamento em lote.  
    - **Analogia:** É como carregar caixas de livros aos poucos em vez de todas de uma vez.


#### **Nível DEUS (1/3): Leitura e Escrita em SQL**


In [None]:
import pandas as pd
import sqlite3

# Conecta ao banco SQLite local
conn = sqlite3.connect('/mnt/data/spotify_history.csv')

# Cria tabela de artistas e insere
df_art = pd.DataFrame({'artist_id':[1,2],'name':['Adele','Drake']})
df_art.to_sql('artists', conn, if_exists='replace', index=False)

# Lê de volta usando SQL
df_read = pd.read_sql('SELECT * FROM artists', conn)
print(df_read)


In [None]:
# Pratique seu código aqui!



* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Importe pandas e sqlite3.”  
  import pandas as pd  
  import sqlite3

  # “Abra conexão com example.db.”  
  conn = sqlite3.connect('/mnt/data/example.db')

  # “Crie DataFrame de artistas e grave na tabela SQL.”  
  df_art.to_sql('artists', conn, if_exists='replace', index=False)

  # “Leia todos os registros da tabela de volta.”  
  df_read = pd.read_sql('SELECT * FROM artists', conn)

  # “Mostre tabela lida.”  
  print(df_read)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo    | Expressão                     | Saída               | O que faz?                         |
  |:--------:|:------------------------------|:--------------------|:-----------------------------------|
  | 1        | `to_sql(...)`                 | tabela criada       | Persiste DataFrame em banco SQL    |
  | 2        | `read_sql('SELECT * ...')`    | DataFrame lido      | Carrega dados do banco para Pandas |
  | 3        | –                             | imprime             | Saída final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  É como escrever fichas no arquivo físico (SQL) e depois ler de volta para organizar em mesa de trabalho (DataFrame).

* **Cenário de Mercado:**  
  - Em **data warehousing**, exporta-se DataFrames para bancos relacionais para relatórios centralizados.  
  - ETL usa leitura SQL para integrar dados de múltiplas fontes.

* **Boas Práticas:**  
  - **Afirmação:** “Feche `conn` após uso.”  
    - **Porquê:** Evita conexões abertas e locks no banco.  
    - **Analogia:** É como fechar o arquivo depois de terminar de escrever.


#### **Nível DEUS (2/3): Compressão e Formatos Binários**


In [None]:
import pandas as pd

# Salva CSV comprimido e HDF5
df.to_csv('/mnt/data/spotify_history.csv.gz', compression='gzip', index=False)
df.to_hdf('/mnt/data/spotify_history.h5', key='data', mode='w')

# Lê arquivos comprimidos e HDF5
df_csv = pd.read_csv('/mnt/data/spotify_history.csv.gz', compression='gzip')
df_h5 = pd.read_hdf('/mnt/data/spotify_history.h5', 'data')
print(df_csv.shape, df_h5.shape)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Escreva CSV gzipado.”  
  df.to_csv('/mnt/data/spotify_history.csv.gz', compression='gzip', index=False)

  # “Escreva em HDF5.”  
  df.to_hdf('/mnt/data/spotify_history.h5', key='data', mode='w')

  # “Leia CSV gzipado.”  
  df_csv = pd.read_csv('/mnt/data/spotify_history.csv.gz', compression='gzip')

  # “Leia HDF5.”  
  df_h5 = pd.read_hdf('/mnt/data/spotify_history.h5', 'data')

  # “Mostre formas lidas.”  
  print(df_csv.shape, df_h5.shape)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo            | Expressão                                 | Saída         | O que faz?                         |
  |:----------------:|:-------------------------------------------|:--------------|:-----------------------------------|
  | 1                | `to_csv(...,gzip)`                         | arquivo .gz   | Compressão em disco                |
  | 2                | `to_hdf(...)`                              | arquivo .h5   | Formato binário otimizado          |
  | 3                | `read_csv(...,compression='gzip')`         | DataFrame     | Leitura de CSV gzipado             |
  | 4                | `read_hdf(...,'data')`                     | DataFrame     | Leitura de HDF5                    |
  | 5                | –                                          | imprime       | Saída final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Gzip é como comprimir livros em sacos a vácuo; HDF5 é biblioteca organizada em estantes binárias de acesso rápido.

* **Cenário de Mercado:**  
  - Em **data lakes**, usa-se HDF5 e Parquet para armazenar grandes volumes com acesso rápido.  
  - Logs de IoT frequentemente comprimem CSVs para reduzir transferência.

* **Boas Práticas:**  
  - **Afirmação:** “Escolha formato binário para alto desempenho.”  
    - **Porquê:** Reduz tempo de I/O e espaço em disco.  
    - **Analogia:** É como usar HD SSD em vez de fitas magnéticas.


#### **Nível DEUS (3/3): Integração com Parquet e Feather**


In [None]:
import pandas as pd

# Escreve e lê Parquet
df.to_parquet('/mnt/data/spotify.parquet', index=False)
df_parquet = pd.read_parquet('/mnt/data/spotify.parquet')

# Escreve e lê Feather
df.to_feather('/mnt/data/spotify.feather')
df_feather = pd.read_feather('/mnt/data/spotify.feather')

print(df_parquet.shape, df_feather.shape)


In [None]:
# Pratique seu código aqui!


* **O que o código faz:**  

  **1) Explicação Linha a Linha (Diálogo com o Código):**  
  ```python
  # “Salve em Parquet.”  
  df.to_parquet('/mnt/data/spotify.parquet', index=False)

  # “Leia Parquet.”  
  df_parquet = pd.read_parquet('/mnt/data/spotify.parquet')

  # “Salve em Feather.”  
  df.to_feather('/mnt/data/spotify.feather')

  # “Leia Feather.”  
  df_feather = pd.read_feather('/mnt/data/spotify.feather')

  # “Mostre formas.”  
  print(df_parquet.shape, df_feather.shape)
  ```

  **2) Tabela de Estados Intermediários:**

  ```markdown
  | Passo             | Expressão                           | Saída          | O que faz?                         |
  |:-----------------:|:-------------------------------------|:---------------|:-----------------------------------|
  | 1                 | `to_parquet(...)`                   | .parquet file  | Formato colunar otimizado          |
  | 2                 | `read_parquet(...)`                 | DataFrame      | Carrega dados colunarmente         |
  | 3                 | `to_feather(...)`                   | .feather file  | Formato binário leve               |
  | 4                 | `read_feather(...)`                 | DataFrame      | Leitura ultra-rápida               |
  | 5                 | –                                   | imprime        | Saída final                        |
  ```

  **3) Diagrama Mental (A Analogia Central):**  
  Parquet é estante de pastas colunar, Feather é maleta portátil de dados.

* **Cenário de Mercado:**  
  - Em **big data**, Parquet alimenta sistemas como Spark; Feather acelera troca de DataFrames entre Python e R.  
  - Modelos de ML carregam Feather para reduzir latência em inferência.

* **Boas Práticas:**  
  - **Afirmação:** “Use Parquet para arquivamento e Feather para transferência.”  
    - **Porquê:** Parquet é mais compacto, Feather mais ágil.  
    - **Analogia:** É como guardar documentos no cofre (Parquet) e levar cópia leve na pasta executiva (Feather).


### 3. 🕸️ Profundezas e Conexões

<br>

Entrada/Saída em Pandas conecta-se a **PyArrow**, **Fastparquet**, **SQLAlchemy**, **HDFStore** e sistemas de arquivos distribuídos (HDFS, S3), formando base de pipelines de dados em larga escala.

<br>

---
<br>


### 4. 🚀 Ação e Verificação

<br>

#### **🤔 Desafio Prático**
1. Leia `/mnt/data/spotify_history.csv` em chunks e conte reproduções por artista.  
2. Converta `/mnt/data/produtos.json` em Parquet e leia de volta.  
3. Exporte `spotify_history.csv` para HDF5 e recarregue apenas subset com `.read_hdf()`.  
4. Carregue JSON de `livro.json` e salve em Excel (`.to_excel()`).  
5. Salve DataFrame de vendas em SQLite e recupere via `pd.read_sql()`.

<br>

#### **❓ Pergunta de Verificação**
Como escolher formato de I/O certo conforme volume de dados e exigência de latência?

<br>

---
<br>


### **Resposta Rápida**

Escolha o formato de entrada/saída (I/O) com base no **volume dos dados** e na **latência esperada**:

* **CSV/Excel** → pequenos, legíveis, mas lentos.
* **Parquet/Feather** → grandes, binários, rápidos.
* **JSON/JSONL** → semi-estruturados, bons para APIs.
* **SQL/HDF5** → persistência e consultas rápidas.

---

### **Analogia do Dia**

Imagine diferentes formatos de I/O como **formas de empacotar comida**:

* **CSV** é como um **prato aberto**: fácil de ver, mas bagunça fácil.
* **Parquet** é um **Tupperware selado**: mais difícil de abrir, mas muito eficiente.
* **JSONL** é como uma **bandeja com porções separadas**: ideal para processar uma de cada vez.
* **SQL/HDF** é como uma **geladeira com gavetas indexadas**: rápido para achar qualquer item.

---

### **Análise Técnica Detalhada**

---

#### 🔓 **1. CSV e Excel** — texto plano, legíveis por humanos

✅ Usar quando:

* Dados pequenos ou médios (até \~100MB)
* Compatibilidade com Excel ou scripts legados

❌ Desvantagens:

* Lento de ler/escrever
* Tamanho grande
* Não preserva tipos com precisão

```python
df.to_csv("dados.csv", index=False)
df = pd.read_csv("dados.csv")
```

---

#### ⚡ **2. Parquet e Feather** — binários, otimizados para velocidade

✅ Usar quando:

* Dados médios a grandes (100MB+ até GBs)
* Precisão e performance são essenciais
* Precisa carregar **apenas algumas colunas**

❗ Necessário instalar `pyarrow` ou `fastparquet`

```python
df.to_parquet("dados.parquet")
df = pd.read_parquet("dados.parquet", columns=["id", "nome"])
```

📈 Muito mais rápido que CSV. Ideal para pipelines.

---

#### 🔄 **3. JSON e JSONL** — semi-estruturado, bom para APIs e streaming

✅ Use:

* Para dados aninhados (listas, dicionários)
* Em integração com APIs ou logs linha-a-linha (JSONL)

```python
df.to_json("dados.json", orient="records")
df = pd.read_json("dados.json")

# JSONL (um JSON por linha)
df.to_json("dados.jsonl", orient="records", lines=True)
df = pd.read_json("dados.jsonl", lines=True)
```

---

#### 🗄️ **4. SQL e HDF5** — para grandes volumes e acesso seletivo

✅ Use:

* Quando o dado **precisa ser consultado por partes**
* Para persistência de grandes volumes entre execuções

```python
# SQLite
import sqlite3
conn = sqlite3.connect("dados.db")
df.to_sql("clientes", conn)
df = pd.read_sql("SELECT * FROM clientes WHERE idade > 30", conn)
```

💡 HDF5 (`.h5`) é útil para **dados científicos e séries temporais**.

---

### **Nota de Rodapé para Novatos**

* **Latência**: Tempo necessário para carregar ou salvar dados.
* **Parquet/Feather**: Formatos binários otimizados para pandas.
* **JSONL**: Arquivo JSON com **uma linha por registro** (útil para logs).
* **HDF5**: Formato binário hierárquico ideal para dados científicos.
* **SQL**: Linguagem e estrutura de banco relacional, ideal para consultas sob demanda.

---

### **Aplicação Prática e Boas Práticas**

| Formato | Volume Ideal        | Leitura/Escrita | Suporte a Tipos | Casos de Uso                        |
| ------- | ------------------- | --------------- | --------------- | ----------------------------------- |
| CSV     | Pequeno/médio       | 🐢 Lento        | ❌ Limitado      | Exportar dados legíveis             |
| Parquet | Médio a grande      | ⚡ Rápido        | ✅ Completo      | Pipelines, ML, Big Data             |
| JSON    | Pequeno/médio       | 🐢 Médio        | ✅ Flexível      | APIs, configs                       |
| JSONL   | Médio               | ⚡ Streaming     | ✅ Flexível      | Logs, leitura linha a linha         |
| SQL     | Grande              | ⚡ Eficiente     | ✅ Completo      | Armazenar em banco, consultas       |
| HDF5    | Científico/temporal | ⚡ Otimizado     | ✅ Hierárquico   | Séries temporais, dados científicos |

💡 **Boas práticas**:

* Para grandes volumes: **prefira formatos binários (Parquet/Feather)**
* Para APIs e logs: **JSONL**
* Para análises com slicing ou persistência: **SQL ou HDF5**

---

### **Resumo da Lição**

Escolher o formato de I/O certo **acelera seus pipelines e evita gargalos de memória**. CSV é universal, mas Parquet e SQL são a escolha certa quando os dados crescem.

---