# Cria√ß√£o do Cat√°logo e Schemas - Smart Claims Dev

Este notebook cria a estrutura base do projeto no Databricks utilizando **Unity Catalog** (Lakeflow), incluindo:

- Cat√°logo principal: `smart_claims_dev`
- Schemas para arquitetura Medallion:
  - `00_landing` - Zona de recep√ß√£o de dados brutos
  - `01_bronze` - Dados brutos preservados imutavelmente
  - `02_silver` - Dados limpos, validados e enriquecidos
  - `03_gold` - Dados agregados e modelados para consumo
  - `default` - Schema padr√£o
  - `information_schema` - Metadados do sistema

## Nota sobre Execu√ß√£o
Este notebook utiliza **Python** para executar comandos SQL via `spark.sql()`, permitindo melhor controle de fluxo, tratamento de erros e logging. Cada comando SQL est√° em uma c√©lula separada para facilitar execu√ß√£o e debugging.


## Parte 1: Criar o Cat√°logo

**COMANDO: CREATE CATALOG**

O que faz:
- Cria um novo cat√°logo no Unity Catalog (sistema de governan√ßa de dados do Databricks)
- Um cat√°logo √© um container de n√≠vel superior que agrupa schemas relacionados
- Permite isolamento e organiza√ß√£o de dados por projeto/ambiente (dev, prod, etc.)
- O cat√°logo possui permiss√µes pr√≥prias e pode ser compartilhado entre workspaces
- √â o n√≠vel mais alto na hierarquia: CATALOG > SCHEMA > TABLE

**Documenta√ß√£o oficial:** [Unity Catalog - CREATE CATALOG](https://docs.databricks.com/en/connect/unity-catalog/create-catalog.html)


In [None]:
# ============================================================
# CRIAR O CAT√ÅLOGO smart_claims_dev
# ============================================================
# Comando SQL: CREATE CATALOG IF NOT EXISTS
# Cria o cat√°logo principal do projeto com propriedades customizadas
# ============================================================

create_catalog_sql = """
CREATE CATALOG IF NOT EXISTS smart_claims_dev
COMMENT 'Cat√°logo principal para o projeto Smart Claims - Ambiente de Desenvolvimento'
"""

try:
    spark.sql(create_catalog_sql)
    print("‚úÖ Cat√°logo 'smart_claims_dev' criado ou j√° existe")
except Exception as e:
    print(f"‚ùå Erro ao criar cat√°logo: {str(e)}")
    raise


In [None]:
# ============================================================
# USAR O CAT√ÅLOGO CRIADO
# ============================================================
# Comando SQL: USE CATALOG
# Define o cat√°logo ativo para os comandos subsequentes
# ============================================================

use_catalog_sql = "USE CATALOG smart_claims_dev"

try:
    spark.sql(use_catalog_sql)
    print("‚úÖ Cat√°logo 'smart_claims_dev' definido como ativo")
except Exception as e:
    print(f"‚ùå Erro ao usar cat√°logo: {str(e)}")
    raise


## Parte 2: Criar os Schemas (Databases)

**COMANDO: CREATE SCHEMA**

O que faz:
- Cria um schema (tamb√©m chamado de database) dentro do cat√°logo
- Schemas organizam tabelas relacionadas logicamente
- Cada schema pode ter permiss√µes e pol√≠ticas de reten√ß√£o pr√≥prias
- √â o segundo n√≠vel na hierarquia: CATALOG > SCHEMA > TABLE

**Documenta√ß√£o oficial:** [Unity Catalog - CREATE SCHEMA](https://docs.databricks.com/en/connect/unity-catalog/create-schema.html)


In [None]:
# ============================================================
# CRIAR SCHEMA 00_landing
# ============================================================
# Schema para zona de recep√ß√£o de dados brutos
# Normalmente recebe dados diretamente de sistemas externos
# Reten√ß√£o: 7 dias (tempor√°rio)
# ============================================================

create_landing_schema_sql = """
CREATE SCHEMA IF NOT EXISTS smart_claims_dev.`00_landing`
COMMENT 'Zona de landing - recep√ß√£o de dados brutos de sistemas externos'
"""

try:
    spark.sql(create_landing_schema_sql)
    print("‚úÖ Schema '00_landing' criado ou j√° existe")
except Exception as e:
    print(f"‚ùå Erro ao criar schema 00_landing: {str(e)}")
    raise


In [None]:
# ============================================================
# CRIAR SCHEMA 01_bronze
# ============================================================
# Camada Bronze: Preserva√ß√£o imut√°vel dos dados brutos
# Mant√©m uma c√≥pia permanente dos dados originais (Data Lake Pattern)
# Reten√ß√£o: 365 dias
# ============================================================

create_bronze_schema_sql = """
CREATE SCHEMA IF NOT EXISTS smart_claims_dev.`01_bronze`
COMMENT 'Camada Bronze - dados brutos preservados de forma imut√°vel'
"""

try:
    spark.sql(create_bronze_schema_sql)
    print("‚úÖ Schema '01_bronze' criado ou j√° existe")
except Exception as e:
    print(f"‚ùå Erro ao criar schema 01_bronze: {str(e)}")
    raise


In [None]:
# ============================================================
# CRIAR SCHEMA 02_silver
# ============================================================
# Camada Silver: Dados limpos, validados e enriquecidos
# Dados transformados com qualidade garantida
# Reten√ß√£o: 730 dias
# ============================================================

create_silver_schema_sql = """
CREATE SCHEMA IF NOT EXISTS smart_claims_dev.`02_silver`
COMMENT 'Camada Silver - dados limpos, validados e enriquecidos'
"""

try:
    spark.sql(create_silver_schema_sql)
    print("‚úÖ Schema '02_silver' criado ou j√° existe")
except Exception as e:
    print(f"‚ùå Erro ao criar schema 02_silver: {str(e)}")
    raise


In [None]:
# ============================================================
# CRIAR SCHEMA 03_gold
# ============================================================
# Camada Gold: Dados agregados e modelados para consumo final
# Dados otimizados para dashboards, relat√≥rios e ML
# Reten√ß√£o: 2555 dias (~7 anos)
# ============================================================

create_gold_schema_sql = """
CREATE SCHEMA IF NOT EXISTS smart_claims_dev.`03_gold`
COMMENT 'Camada Gold - dados agregados e modelados para consumo final'
"""

try:
    spark.sql(create_gold_schema_sql)
    print("‚úÖ Schema '03_gold' criado ou j√° existe")
except Exception as e:
    print(f"‚ùå Erro ao criar schema 03_gold: {str(e)}")
    raise


In [None]:
# ============================================================
# CRIAR SCHEMA default
# ============================================================
# Schema padr√£o do cat√°logo
# Utilizado para objetos que n√£o precisam de organiza√ß√£o espec√≠fica
# ============================================================

create_default_schema_sql = """
CREATE SCHEMA IF NOT EXISTS smart_claims_dev.default
COMMENT 'Schema padr√£o do cat√°logo smart_claims_dev'
"""

try:
    spark.sql(create_default_schema_sql)
    print("‚úÖ Schema 'default' criado ou j√° existe")
except Exception as e:
    print(f"‚ùå Erro ao criar schema default: {str(e)}")
    raise


## Parte 3: Verifica√ß√£o e Consulta dos Objetos Criados

Agora vamos verificar se todos os objetos foram criados com sucesso usando comandos de consulta.


In [None]:
# ============================================================
# VERIFICAR CAT√ÅLOGOS CRIADOS
# ============================================================
# Comando SQL: SHOW CATALOGS
# Lista todos os cat√°logos vis√≠veis para o usu√°rio atual
# ============================================================

show_catalogs_sql = "SHOW CATALOGS LIKE 'smart_claims*'"

try:
    catalogs_df = spark.sql(show_catalogs_sql)
    print("üìã Cat√°logos encontrados:")
    catalogs_df.show(truncate=False)
except Exception as e:
    print(f"‚ùå Erro ao listar cat√°logos: {str(e)}")


In [None]:
# ============================================================
# VERIFICAR SCHEMAS NO CAT√ÅLOGO
# ============================================================
# Comando SQL: SHOW SCHEMAS
# Lista todos os schemas dentro do cat√°logo atual
# ============================================================

show_schemas_sql = "SHOW SCHEMAS IN CATALOG smart_claims_dev"

try:
    schemas_df = spark.sql(show_schemas_sql)
    print("üìã Schemas encontrados no cat√°logo 'smart_claims_dev':")
    schemas_df.show(truncate=False)
except Exception as e:
    print(f"‚ùå Erro ao listar schemas: {str(e)}")


In [None]:
# ============================================================
# DESCREVER O CAT√ÅLOGO
# ============================================================
# Comando SQL: DESCRIBE CATALOG
# Mostra informa√ß√µes detalhadas sobre o cat√°logo
# ============================================================

describe_catalog_sql = "DESCRIBE CATALOG smart_claims_dev"

try:
    catalog_info_df = spark.sql(describe_catalog_sql)
    print("üìã Informa√ß√µes do cat√°logo 'smart_claims_dev':")
    catalog_info_df.show(truncate=False)
except Exception as e:
    print(f"‚ùå Erro ao descrever cat√°logo: {str(e)}")


In [None]:
# ============================================================
# DESCREVER SCHEMA 00_landing
# ============================================================
# Comando SQL: DESCRIBE SCHEMA
# Mostra informa√ß√µes detalhadas sobre o schema
# ============================================================

describe_landing_sql = "DESCRIBE SCHEMA smart_claims_dev.`00_landing`"

try:
    landing_info_df = spark.sql(describe_landing_sql)
    print("üìã Informa√ß√µes do schema '00_landing':")
    landing_info_df.show(truncate=False)
except Exception as e:
    print(f"‚ùå Erro ao descrever schema 00_landing: {str(e)}")


In [None]:
# ============================================================
# DESCREVER SCHEMA 01_bronze
# ============================================================

describe_bronze_sql = "DESCRIBE SCHEMA smart_claims_dev.`01_bronze`"

try:
    bronze_info_df = spark.sql(describe_bronze_sql)
    print("üìã Informa√ß√µes do schema '01_bronze':")
    bronze_info_df.show(truncate=False)
except Exception as e:
    print(f"‚ùå Erro ao descrever schema 01_bronze: {str(e)}")


In [None]:
# ============================================================
# DESCREVER SCHEMA 02_silver
# ============================================================

describe_silver_sql = "DESCRIBE SCHEMA smart_claims_dev.`02_silver`"

try:
    silver_info_df = spark.sql(describe_silver_sql)
    print("üìã Informa√ß√µes do schema '02_silver':")
    silver_info_df.show(truncate=False)
except Exception as e:
    print(f"‚ùå Erro ao descrever schema 02_silver: {str(e)}")


In [None]:
# ============================================================
# DESCREVER SCHEMA 03_gold
# ============================================================

describe_gold_sql = "DESCRIBE SCHEMA smart_claims_dev.`03_gold`"

try:
    gold_info_df = spark.sql(describe_gold_sql)
    print("üìã Informa√ß√µes do schema '03_gold':")
    gold_info_df.show(truncate=False)
except Exception as e:
    print(f"‚ùå Erro ao descrever schema 03_gold: {str(e)}")


## Parte 4: Resumo e Valida√ß√£o Final

Vamos fazer uma valida√ß√£o final da estrutura criada.


In [None]:
# ============================================================
# RESUMO DA ESTRUTURA CRIADA
# ============================================================
# Valida√ß√£o final: contar schemas criados
# ============================================================

try:
    # Listar todos os schemas
    schemas_df = spark.sql("SHOW SCHEMAS IN CATALOG smart_claims_dev")
    schema_count = schemas_df.count()
    
    print("=" * 60)
    print("‚úÖ RESUMO DA ESTRUTURA CRIADA")
    print("=" * 60)
    print(f"\nüì¶ Cat√°logo: smart_claims_dev")
    print(f"üìÅ Total de Schemas: {schema_count}")
    print("\nüìã Schemas criados:")
    
    # Listar nomes dos schemas
    schemas_list = [row['databaseName'] for row in schemas_df.collect()]
    for schema in sorted(schemas_list):
        print(f"   - {schema}")
    
    print("\n" + "=" * 60)
    print("‚úÖ Estrutura criada com sucesso!")
    print("=" * 60)
    
except Exception as e:
    print(f"‚ùå Erro ao gerar resumo: {str(e)}")


## Estrutura Final Criada

```
CATALOG: smart_claims_dev
  ‚îú‚îÄ‚îÄ SCHEMA: 00_landing      (Zona de recep√ß√£o)
  ‚îú‚îÄ‚îÄ SCHEMA: 01_bronze        (Dados brutos imut√°veis)
  ‚îú‚îÄ‚îÄ SCHEMA: 02_silver        (Dados limpos e curados)
  ‚îú‚îÄ‚îÄ SCHEMA: 03_gold          (Dados agregados e modelados)
  ‚îú‚îÄ‚îÄ SCHEMA: default          (Schema padr√£o)
  ‚îî‚îÄ‚îÄ SCHEMA: information_schema (Metadados do sistema - autom√°tico)
```

‚úÖ **Notebook conclu√≠do com sucesso!**

Todos os objetos foram criados e est√£o prontos para uso. A estrutura segue o padr√£o **Medallion Architecture** (Lakehouse) para organiza√ß√£o de dados em camadas.

### Pr√≥ximos Passos

Ap√≥s concluir a Task_001, voc√™ pode:

- **Task_002**: Criar volumes no schema `00_landing` e carregar arquivos CSV
- **Task_003**: Criar tabelas Delta na camada `01_bronze` a partir dos arquivos
- **Task_004**: Implementar transforma√ß√µes (Bronze ‚Üí Silver ‚Üí Gold)

### Documenta√ß√£o de Refer√™ncia

- [Unity Catalog - CREATE CATALOG](https://docs.databricks.com/en/connect/unity-catalog/create-catalog.html)
- [Unity Catalog - CREATE SCHEMA](https://docs.databricks.com/en/connect/unity-catalog/create-schema.html)
- [Unity Catalog - SHOW CATALOGS](https://docs.databricks.com/en/sql/language-manual/sql-ref-syntax-ddl-show-catalogs.html)
- [Medallion Architecture](https://www.databricks.com/glossary/medallion-architecture)


Eu quero 

# Cria√ß√£o do Cat√°logo e Schemas - Smart Claims Dev

Este notebook cria a estrutura base do projeto no Databricks utilizando **Unity Catalog** (Lakeflow), incluindo:

- Cat√°logo principal: `smart_claims_dev`
- Schemas para arquitetura Medallion:
  - `00_landing` - Zona de recep√ß√£o de dados brutos
  - `01_bronze` - Dados brutos preservados imutavelmente
  - `02_silver` - Dados limpos, validados e enriquecidos
  - `03_gold` - Dados agregados e modelados para consumo
  - `default` - Schema padr√£o
  - `information_schema` - Metadados do sistema



## Parte 1: Criar o Cat√°logo

**COMANDO: CREATE CATALOG**

O que faz:
- Cria um novo cat√°logo no Unity Catalog (sistema de governan√ßa de dados do Databricks)
- Um cat√°logo √© um container de n√≠vel superior que agrupa schemas relacionados
- Permite isolamento e organiza√ß√£o de dados por projeto/ambiente (dev, prod, etc.)
- O cat√°logo possui permiss√µes pr√≥prias e pode ser compartilhado entre workspaces
- √â o n√≠vel mais alto na hierarquia: CATALOG > SCHEMA > TABLE



In [0]:
%sql
-- Create the catalog smart_claims_dev
CREATE CATALOG IF NOT EXISTS smart_claims_dev
COMMENT 'Cat√°logo principal para o projeto Smart Claims - Ambiente de Desenvolvimento';

-- Use the created catalog
USE CATALOG smart_claims_dev;

## Parte 2: Criar os Schemas (Databases)

**COMANDO: CREATE SCHEMA**

O que faz:
- Cria um schema (tamb√©m chamado de database) dentro do cat√°logo
- Schemas organizam tabelas relacionadas logicamente
- Cada schema pode ter permiss√µes e pol√≠ticas de reten√ß√£o pr√≥prias
- √â o segundo n√≠vel na hierarquia: CATALOG > SCHEMA > TABLE



In [0]:
%sql
-- Criando cat√°logo (se ainda n√£o existir)
CREATE CATALOG IF NOT EXISTS smart_claims_dev
COMMENT 'Cat√°logo de desenvolvimento Smart Claims';

USE CATALOG smart_claims_dev;

-- Criar schemas/layers
CREATE SCHEMA IF NOT EXISTS `00_landing`
COMMENT 'Landing zone - dados brutos tempor√°rios';

CREATE SCHEMA IF NOT EXISTS `01_bronze`
COMMENT 'Bronze - dados ingeridos e padronizados';

CREATE SCHEMA IF NOT EXISTS `02_silver`
COMMENT 'Silver - dados tratados e refinados';

CREATE SCHEMA IF NOT EXISTS `03_gold`
COMMENT 'Gold - dados anal√≠ticos e m√©tricas';

-- Default j√° existe mas vamos garantir
CREATE SCHEMA IF NOT EXISTS `default`
COMMENT 'Schema padr√£o para objetos auxiliares';


## Parte 3: Verifica√ß√£o e Consulta dos Objetos Criados



`SHOW CATALOGS` O que faz:
- Lista todos os cat√°logos vis√≠veis para o usu√°rio atual
- Mostra metadados b√°sicos dos cat√°logos
- √ötil para verificar permiss√µes e cat√°logos dispon√≠veis


In [0]:
%sql
SHOW CATALOGS LIKE 'smart_claims*';

In [0]:
-- COMANDO: SHOW SCHEMAS
-- O que faz:
-- - Lista todos os schemas dentro do cat√°logo atual
-- - Mostra nome, tipo (MANAGED/EXTERNAL), localiza√ß√£o, etc.
-- - √ötil para verificar a estrutura criada

SHOW SCHEMAS IN CATALOG smart_claims_dev;



In [0]:
-- COMANDO: DESCRIBE CATALOG
-- O que faz:
-- - Mostra informa√ß√µes detalhadas sobre um cat√°logo espec√≠fico
-- - Exibe propriedades, coment√°rios, e metadados
-- - √ötil para documenta√ß√£o e auditoria

DESCRIBE CATALOG smart_claims_dev;



In [0]:
-- COMANDO: DESCRIBE SCHEMA
-- O que faz:
-- - Mostra informa√ß√µes detalhadas sobre um schema espec√≠fico
-- - Exibe propriedades, coment√°rios, localiza√ß√£o, e metadados
-- - √ötil para entender a configura√ß√£o de cada camada

DESCRIBE SCHEMA smart_claims_dev.`00_landing`;
DESCRIBE SCHEMA smart_claims_dev.`01_bronze`;
DESCRIBE SCHEMA smart_claims_dev.`02_silver`;
DESCRIBE SCHEMA smart_claims_dev.`03_gold`;



## Parte 4: Configura√ß√µes Adicionais (Opcional)



In [0]:
-- COMANDO: ALTER CATALOG
-- O que faz:
-- - Modifica propriedades de um cat√°logo existente
-- - Permite atualizar coment√°rios, propriedades, etc.
-- - √ötil para manuten√ß√£o e atualiza√ß√£o de metadados

-- Exemplo de atualiza√ß√£o de coment√°rio (opcional)
-- ALTER CATALOG smart_claims_dev SET COMMENT 'Cat√°logo atualizado em ' || current_timestamp();



In [0]:
-- COMANDO: GRANT/REVOKE
-- O que faz:
-- - Gerencia permiss√µes em cat√°logos e schemas
-- - Permite controle de acesso granular
-- - Essencial para seguran√ßa e governan√ßa

-- Exemplo de permiss√µes (ajustar conforme necess√°rio):
-- GRANT USE CATALOG ON CATALOG smart_claims_dev TO `data_engineers`;
-- GRANT CREATE SCHEMA ON CATALOG smart_claims_dev TO `data_engineers`;
-- GRANT ALL PRIVILEGES ON SCHEMA smart_claims_dev.`00_landing` TO `data_engineers`;



## Resumo da Estrutura Criada

```
CATALOG: smart_claims_dev
  ‚îú‚îÄ‚îÄ SCHEMA: 00_landing      (Zona de recep√ß√£o)
  ‚îú‚îÄ‚îÄ SCHEMA: 01_bronze        (Dados brutos imut√°veis)
  ‚îú‚îÄ‚îÄ SCHEMA: 02_silver        (Dados limpos e curados)
  ‚îú‚îÄ‚îÄ SCHEMA: 03_gold          (Dados agregados e modelados)
  ‚îú‚îÄ‚îÄ SCHEMA: default          (Schema padr√£o)
  ‚îî‚îÄ‚îÄ SCHEMA: information_schema (Metadados do sistema)
```

‚úÖ **Notebook conclu√≠do com sucesso!**

Todos os objetos foram criados e est√£o prontos para uso. Execute as c√©lulas sequencialmente para criar a estrutura completa.

