<a href="https://colab.research.google.com/github/Catarinamesk/Catarina_Amb/blob/main/Estruturas_de_Dados_DataOps_Colab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exercício Prático: Estruturas de Dados no DataOps
Este notebook irá explorar como diferentes formatos de dados (CSV, JSON, Parquet) são utilizados no contexto de DataOps. Vamos carregar, transformar e comparar os formatos.

In [None]:

# Importar bibliotecas necessárias
import pandas as pd
import os

# 1. Carregar o dataset em formato CSV
# O formato CSV é amplamente usado por ser simples e compatível com a maioria das ferramentas.
# Aqui carregamos o arquivo "sales.csv" para iniciar o exercício.
print("Carregando o arquivo CSV...")
df = pd.read_csv("sales.csv")
print("Pré-visualização dos dados:")
print(df.head())  # Mostra as primeiras 5 linhas do dataset para inspeção inicial.


Carregando o arquivo CSV...
Pré-visualização dos dados:
   TransactionID  CustomerID  ProductID ProductName Category  Quantity  \
0              1        1185        103      others   simple         8   
1              2        4819        136       force     sell         2   
2              3        4297        140        deal    serve         4   
3              4        4365        144       later  another         6   
4              5        2408        176         end     baby         9   

   PricePerUnit  TotalPrice PurchaseDate Region  PaymentMethod  
0        750.01     6000.08   2025-01-07  South    Credit Card  
1        515.56     1031.12   2025-01-06   West  Bank Transfer  
2        980.50     3922.00   2025-01-01  North    Credit Card  
3        507.34     3044.04   2025-01-06  North         PayPal  
4        300.11     2700.99   2025-01-23  South         PayPal  


In [None]:

# 2. Salvar os dados em formato JSON
# O JSON é ideal para integração com APIs e sistemas web. Usamos "orient='records'" para criar
# um JSON estruturado linha a linha, onde cada registro (linha) do DataFrame vira um objeto JSON.
# "lines=True" é necessário para salvar os registros como linhas separadas (JSONL), facilitando o streaming.
print("\nSalvando o arquivo em formato JSON...")
df.to_json("sales.json", orient="records", lines=True)
print("Arquivo JSON salvo como 'sales.json'.")



Salvando o arquivo em formato JSON...
Arquivo JSON salvo como 'sales.json'.


In [None]:

# 3. Salvar os dados em formato Parquet
# O formato Parquet é escolhido por sua eficiência em compactação e leitura de dados em colunas.
# Usamos "engine='pyarrow'" por ser uma biblioteca moderna e otimizada para manipulação de Parquet.
# O Parquet é amplamente usado em plataformas de Big Data (como Spark e Hadoop).
print("\nSalvando o arquivo em formato Parquet...")
df.to_parquet("sales.parquet", engine="pyarrow")
print("Arquivo Parquet salvo como 'sales.parquet'.")



Salvando o arquivo em formato Parquet...
Arquivo Parquet salvo como 'sales.parquet'.


In [None]:
# Abrir o arquivo Parquet em modo binário
with open("sales.parquet", "rb") as f:
    content = f.read(300)  # Ler os primeiros 300 bytes
    print(content)


b'PAR1\x15\x04\x15\x80\xe2\t\x15\xd2\xf1\x04L\x15\xa0\x9c\x01\x15\x00\x12\x00\x00\x80\xf1\x04\x04\x01\x00\t\x01\x00\x02\t\x07\x04\x00\x03\r\x08\x00\x04\r\x08\x00\x05\r\x08\x00\x06\r\x08\x00\x07\r\x08\x00\x08\r\x08\x00\t\r\x08\x00\n\r\x08\x00\x0b\r\x08\x00\x0c\r\x08\x00\r\r\x08\x00\x0e\r\x08\x00\x0f\r\x08\x00\x10\r\x08\x00\x11\r\x08\x00\x12\r\x08\x00\x13\r\x08\x00\x14\r\x08\x00\x15\r\x08\x00\x16\r\x08\x00\x17\r\x08\x00\x18\r\x08\x00\x19\r\x08\x00\x1a\r\x08\x00\x1b\r\x08\x00\x1c\r\x08\x00\x1d\r\x08\x00\x1e\r\x08\x00\x1f\r\x08\x00 \r\x08\x00!\r\x08\x00"\r\x08\x00#\r\x08\x00$\r\x08\x00%\r\x08\x00&\r\x08\x00\'\r\x08\x00(\r\x08\x00)\r\x08\x00*\r\x08\x00+\r\x08\x00,\r\x08\x00-\r\x08\x00.\r\x08\x00/\r\x08\x000\r\x08\x001\r\x08\x002\r\x08\x003\r\x08\x004\r\x08\x005\r\x08\x006\r\x08\x007\r\x08\x008\r\x08\x009\r\x08\x00:\r\x08\x00;\r\x08\x00<\r\x08\x00=\r\x08\x00>\r\x08\x00?\r\x08\x00@\r\x08\x00A\r\x08\x00B\r\x08\x00C\r\x08\x00D\r'


In [None]:
import pyarrow.parquet as pq

# Ler o arquivo Parquet
parquet_file = pq.ParquetFile("sales.parquet")

# Mostrar os metadados do Parquet
print("Esquema do arquivo Parquet:")
print(parquet_file.schema)

# Mostrar o número de linhas e colunas
print("\nInformações gerais:")
print(f"Número de linhas: {parquet_file.metadata.num_rows}")
print(f"Número de colunas: {parquet_file.metadata.num_columns}")

# Mostrar os metadados completos
print("\nMetadados completos:")
print(parquet_file.metadata)


Esquema do arquivo Parquet:
<pyarrow._parquet.ParquetSchema object at 0x15e9c6c40>
required group field_id=-1 schema {
  optional int64 field_id=-1 TransactionID;
  optional int64 field_id=-1 CustomerID;
  optional int64 field_id=-1 ProductID;
  optional binary field_id=-1 ProductName (String);
  optional binary field_id=-1 Category (String);
  optional int64 field_id=-1 Quantity;
  optional double field_id=-1 PricePerUnit;
  optional double field_id=-1 TotalPrice;
  optional binary field_id=-1 PurchaseDate (String);
  optional binary field_id=-1 Region (String);
  optional binary field_id=-1 PaymentMethod (String);
}


Informações gerais:
Número de linhas: 10000
Número de colunas: 11

Metadados completos:
<pyarrow._parquet.FileMetaData object at 0x15e9b7830>
  created_by: parquet-cpp-arrow version 16.1.0
  num_columns: 11
  num_rows: 10000
  num_row_groups: 1
  format_version: 2.6
  serialized_size: 6254


* O Parquet é um formato binário eficiente, mas não legível diretamente por humanos.
* Ferramentas como extensões no VSCode convertem os metadados e dados em estruturas JSON-like para facilitar a visualização.
* Para manipulação real, usamos bibliotecas como pandas ou ferramentas de Big Data (Spark, Hive).


In [None]:

# 4. Comparar os tamanhos dos arquivos gerados
# Aqui usamos a biblioteca os para verificar os tamanhos dos arquivos gerados.
# A função os.path.getsize retorna o tamanho em bytes, que convertemos para KB (dividindo por 1024).
print("\nComparando tamanhos dos arquivos:")
csv_size = os.path.getsize("sales.csv") / 1024  # Tamanho do arquivo CSV
json_size = os.path.getsize("sales.json") / 1024  # Tamanho do arquivo JSON
parquet_size = os.path.getsize("sales.parquet") / 1024  # Tamanho do arquivo Parquet

# Exibindo os tamanhos para análise
print(f"Tamanho do arquivo CSV: {csv_size:.2f} KB")
print(f"Tamanho do arquivo JSON: {json_size:.2f} KB")
print(f"Tamanho do arquivo Parquet: {parquet_size:.2f} KB")



Comparando tamanhos dos arquivos:
Tamanho do arquivo CSV: 708.44 KB
Tamanho do arquivo JSON: 2224.79 KB
Tamanho do arquivo Parquet: 285.64 KB


In [None]:

# 5. Visualizar a estrutura de cada formato
# JSON: Exibimos os primeiros 300 caracteres do arquivo para que os alunos analisem a estrutura.
print("\nEstrutura do arquivo JSON:")
with open("sales.json", "r") as f:
    print(f.read(300))  # Visualiza os primeiros 300 caracteres para inspecionar o conteúdo

# Parquet: Reabrimos o arquivo usando pandas para verificar se os dados foram salvos corretamente.
print("\nEstrutura do arquivo Parquet:")
parquet_df = pd.read_parquet("sales.parquet")  # Lendo o arquivo Parquet como DataFrame
print(parquet_df.head())  # Mostra as primeiras 5 linhas para validar a integridade dos dados



Estrutura do arquivo JSON:
{"TransactionID":1,"CustomerID":1185,"ProductID":103,"ProductName":"others","Category":"simple","Quantity":8,"PricePerUnit":750.01,"TotalPrice":6000.08,"PurchaseDate":"2025-01-07","Region":"South","PaymentMethod":"Credit Card"}
{"TransactionID":2,"CustomerID":4819,"ProductID":136,"ProductName":"forc

Estrutura do arquivo Parquet:
   TransactionID  CustomerID  ProductID ProductName Category  Quantity  \
0              1        1185        103      others   simple         8   
1              2        4819        136       force     sell         2   
2              3        4297        140        deal    serve         4   
3              4        4365        144       later  another         6   
4              5        2408        176         end     baby         9   

   PricePerUnit  TotalPrice PurchaseDate Region  PaymentMethod  
0        750.01     6000.08   2025-01-07  South    Credit Card  
1        515.56     1031.12   2025-01-06   West  Bank Transfer  


Reflexão:
- O formato JSON é mais legível e ideal para APIs, mas ocupa mais espaço.
- O formato Parquet é eficiente para armazenamento e processamento em escala.
- O formato CSV é simples e universal, mas pouco eficiente em compactação.


# Análise dos Tamanhos de Arquivos

### Resultados Obtidos:
- **CSV:** 708.44 KB
- **JSON:** 2224.79 KB
- **Parquet:** 285.67 KB

---

## **Análise dos Tamanhos:**

### 1. **CSV (708.44 KB):**
- O **CSV** é simples, sem compactação, e armazena os dados como texto puro.  
- É mais eficiente em termos de tamanho que JSON, mas ainda não ideal para grandes volumes.

### 2. **JSON (2224.79 KB):**
- O **JSON** é mais flexível e descritivo, mas isso vem com um custo:  
  - Os nomes das chaves (colunas) são repetidos em cada linha.  
  - Por isso, ocupa significativamente mais espaço, especialmente em datasets grandes.  
- Apesar disso, é o melhor para integração com APIs e sistemas.

### 3. **Parquet (285.67 KB):**
- O **Parquet** mostra sua força:  
  - Compactação altamente eficiente, reduzindo o tamanho em **~60%** comparado ao CSV.  
  - É otimizado para leitura em colunas, o que o torna ideal para análises em escala no Big Data.  
  - Um ótimo formato para armazenamento e processamento distribuído.

---

## **Conclusão Prática:**

- **Parquet é a escolha certa** para pipelines de **Big Data e DataOps** quando a eficiência é uma prioridade.  
- O **JSON**, embora maior, é indispensável para sistemas que precisam de dados legíveis e estruturados.  
- O **CSV** continua sendo uma boa opção para ingestão inicial e compatibilidade ampla.
