# Camada Bronze:
---

## Tabela Itens do Pedido:

### Objetivo:

Entender a padronização e comportamento dos dados para criar a view itens_pedido_bronze a partir da camada RAW.

### Fonte:

`workspace.default.itens_pedido`

### Destino:

`workspace.olist_bronze.itens_pedido_bronze`

In [0]:
-- Garantindo a existência do SCHEMA para armazenamento:

CREATE SCHEMA IF NOT EXISTS workspace.olist_bronze;

In [0]:
-- Verificando a existência da tabela:
SELECT * FROM workspace.default.itens_pedido;

In [0]:
-- Verificando quantas linhas tem na tabela:
SELECT COUNT(*) AS LINHAS 
FROM workspace.default.itens_pedido;

In [0]:
-- Verificando os tipos de dados:
DESC workspace.default.itens_pedido;

Os tipos de dados estão corretamente definidos, com exceção da coluna `oder_item_id`, que está tipificada como `BIGINT`. Considerando que o maior código possui apenas um algarismo, esse tipo é desnecessariamente grande e resulta em uso ineficiente de memória. Dessa forma, a coluna pode ser convertida para `INT`, mantendo a semântica dos dados e reduzindo o consumo de memória.

In [0]:
-- Verificando missing values em cada coluna:
SELECT
      SUM(CASE WHEN order_id IS NULL THEN 1 ELSE 0 END) AS order_id_null,
      SUM(CASE WHEN order_item_id IS NULL THEN 1 ELSE 0 END) AS order_item_id_null,
      SUM(CASE WHEN product_id IS NULL THEN 1 ELSE 0 END) AS product_id_null,
      SUM(CASE WHEN seller_id IS NULL THEN 1 ELSE 0 END) AS seller_id_null,
      SUM(CASE WHEN shipping_limit_date IS NULL THEN 1 ELSE 0 END) AS shipping_limit_date_null,
      SUM(CASE WHEN price IS NULL THEN 1 ELSE 0 END) AS price_null,
      SUM(CASE WHEN freight_value IS NULL THEN 1 ELSE 0 END) AS freight_value_null
FROM workspace.default.itens_pedido;

Não há valores nulos em nenhuma coluna.

In [0]:
-- Verificando valores inválidos em cada coluna:
SELECT 
      SUM(CASE WHEN order_id IS NOT NULL AND NOT order_id RLIKE '^[A-Za-z0-9]+$' THEN 1 ELSE 0 END) AS order_id_invalid,

      SUM(CASE WHEN order_item_id IS NOT NULL AND NOT order_item_id RLIKE '^[A-Za-z0-9]+$' THEN 1 ELSE 0 END) AS order_item_id_invalid,

      SUM(CASE WHEN product_id IS NOT NULL AND NOT product_id RLIKE '^[A-Za-z0-9]+$' THEN 1 ELSE 0 END) AS product_id_invalid,

      SUM(CASE WHEN seller_id IS NOT NULL AND NOT seller_id RLIKE '^[A-Za-z0-9]+$' THEN 1 ELSE 0 END) AS seller_id_invalid,

      SUM(CASE WHEN shipping_limit_date IS NOT NULL AND to_timestamp(shipping_limit_date, 'yyyy-MM-dd HH:mm:ss') IS NULL THEN 1 ELSE 0 END) AS shipping_limit_date_invalid,

      SUM(CASE WHEN price IS NOT NULL AND NOT price RLIKE '^[0-9]+(\.[0-9]+)?$' THEN 1 ELSE 0 END) AS price_invalid,

      SUM(CASE WHEN freight_value IS NOT NULL AND NOT freight_value RLIKE '^[0-9]+(\.[0-9]+)?$' THEN 1 ELSE 0 END) AS freight_value_invalid

FROM workspace.default.itens_pedido;

Não há valores inválidos em nenhuma coluna.

In [0]:
CREATE OR REPLACE VIEW workspace.olist_bronze.itens_pedido_bronze AS
SELECT *

FROM workspace.default.itens_pedido;