# **ETAPA 0 - CRIAÇÃO DO DATA LAKEHOUSE E SUAS CAMADAS**

<br>

---

<br>

Após as etapas de _Levantamento de Requisitos_, _Identificação da Base de Dados_, _Geração do Modelo Conceitual_ e _Verificação pós-mesclagem do Modelo Conceitual com a Base de Dados_. Agora começa etapa prática do projeto, iniciando pela criação do ambiente onde ficará organizado os dados no Delta Lakehouse, recomenda-se a estrutura:
- **Landing Zone** -> Dados totalmente brutos, em seus formatos originais
- **Bronze** -> Dados ainda brutos porém já com formato padrão, geralmente Delta Parquet 
- **Silver** -> Dados limpos e filtrados
- **Gold** -> Dados agrupados, prontos para criação de modelo semânticos

*`Esse é um modelo modular, complete as informações necessárias nos trechos que estão destacados em vermelho assim como esse, seguindo o padrão snake_case.`*

<br> 

***AVISO**: Esse Notebook foi feito com base na estrutura do Databricks Free Edition, que utiliza catálogos.*

<br><br>

---

<br>

### Parte 1 - **Importação das Bibliotecas Necessárias**

In [0]:
# Nesse caso não é necessário importar o pyspark, mas em um ambiente python padrão provalmente seria
# import pyspark 

<br>

---

<br>

### Parte 2 - **Criação do Data Lakehouse**

`Insira na variável nome_datalakehouse o nome do lakehouse:`

In [0]:
nome_datalakehouse = "dataexperts"

Aqui será criado uma **variável** para ajudar a **validar** se o Data Lakehouse que estamos criando foi realmente criado **nesta execução**:

In [0]:
datalakehouse_foi_criado_agora = True

Aqui é o código para buscar todos os Data Lakehouses existentes e armazenar o resultado dessa consulta em um Data Frame, assim verificando se o nome que estamos tentado criar já existe
  - Se já existir, não acontecerá mais no código para não prejudicar outros projetos que possam já existir.
  - Se ainda não existir, cria toda a estrutura esperada, tanto o Data Lakehouse quanto as suas respectivas camadas.

In [0]:
dataslakeshouses_existentes_df = spark.sql("SHOW CATALOGS;")

datalakehouse_foi_criado_agora = not (
    dataslakeshouses_existentes_df
    .filter(dataslakeshouses_existentes_df.catalog == nome_datalakehouse)
    .count() > 0
)

A seguir, o código responsável por **criar** o **catálogo/Data Lakehouse** junto do nome personalizado anteriormente 

In [0]:
if datalakehouse_foi_criado_agora:
  spark.sql(f"CREATE CATALOG {nome_datalakehouse};")

<br>

---

<br>

### Parte 3 - **Usar o Data LakeHouse Criado** 

O Data Lakehouse já foi criado, mas para que o restante do algoritmo, é necessário **definir explicitamente** qual Data Lakehouse será utilizado.  

A seguir, o código que indica o Data Lakehouse que vamos utilizar:

In [0]:
if datalakehouse_foi_criado_agora:
    spark.sql(f"USE CATALOG {nome_datalakehouse};")

<br>

---

<br>

### Parte 4 - **Criação das Partições do Data LakeHouse** 

`Insira no vetor nomes_das_camadas todos os nomes e quantidade de camadas necessárias para esse caso:`

In [0]:
nomes_camadas = [
    "audit", 
    "landing_zone", 
    "bronze", 
    "silver", 
    "gold"
]

A seguir, código para criar as camadas separadamente

In [0]:
if datalakehouse_foi_criado_agora:
  for camada in nomes_camadas:
    spark.sql(f"CREATE SCHEMA IF NOT EXISTS {camada};")  

<br>

---

<br>

### **Resultado Final**

Aqui é um log simples para mostrar se deu certo ou não toda a construção da arquitetura planejada.


In [0]:
# Código está comentado por ser apenas uma demonstração. Para visualizar o resultado, retire o identificador de comentário e execute novamente

if datalakehouse_foi_criado_agora:
    print(f"[INFO] O Data LakeHouse '{nome_datalakehouse}' foi criado com sucesso!")
else:
    print(f"[INFO] O Data LakeHouse '{nome_datalakehouse}' já existe, escolha outro nome!")
