# Configuração do Ambiente no Databricks

Este notebook é responsável pela **configuração inicial do ambiente**
necessário para a execução do MVP de Engenharia de Dados.

Aqui são realizadas as etapas de criação de catálogo, schemas e volumes,
garantindo organização, isolamento do projeto e persistência adequada
dos dados no Databricks.

## Plataforma Utilizada

O MVP foi desenvolvido utilizando o **Databricks Free Edition**,
que oferece recursos suficientes para a construção de pipelines de dados
baseados em Apache Spark e Delta Lake.

Devido às restrições da versão gratuita, foi utilizado o **Unity Catalog**
e **Volumes** para armazenamento dos dados, em substituição ao DBFS público.


## Criação do Catálogo

O catálogo foi criado para centralizar e organizar todos os objetos
relacionados ao MVP, facilitando governança e rastreabilidade dos dados.


In [0]:
%sql
CREATE CATALOG IF NOT EXISTS mvp_bank;
USE CATALOG mvp_bank;



## Criação dos Schemas

Foram criados schemas específicos para separar as diferentes camadas do pipeline:

- `landing`: ingestão e transformação inicial dos dados
- `gold`: camada analítica e Data Warehouse


In [0]:
%sql

CREATE SCHEMA IF NOT EXISTS landing;
USE SCHEMA landing;

## Criação do Volume de Armazenamento

O volume `bank_mkt_volume` foi criado para armazenar os arquivos físicos
do Data Lake, organizados nas subpastas Bronze, Silver e Gold.

Essa abordagem garante persistência e compatibilidade com as restrições
do Databricks Free Edition.


In [0]:
%sql
CREATE VOLUME IF NOT EXISTS bank_mkt_volume;


## Organização do Projeto

Para organizar o projeto, foi criado um catálogo exclusivo chamado `mvp_bank`,
permitindo isolar os objetos do MVP de outros projetos.

Dentro desse catálogo, foram definidos:
- Schema `landing`: camadas Bronze e Silver
- Schema `gold`: Data Warehouse em esquema estrela
- Volume `bank_mkt_volume`: armazenamento físico dos arquivos


In [0]:
%sql
SHOW VOLUMES;


database,volume_name
landing,bank_mkt_volume


In [0]:
%sql
CREATE CATALOG IF NOT EXISTS mvp_bank;


## Estrutura de Pastas do Data Lake

A estrutura de pastas criada no volume segue o padrão de camadas do Data Lake:

- `/bronze`: dados brutos
- `/silver`: dados tratados
- `/gold`: dados prontos para análise

Essa organização facilita manutenção, rastreabilidade e escalabilidade
do pipeline de dados.


In [0]:
dbutils.fs.mkdirs("dbfs:/Volumes/mvp_bank/landing/bank_mkt_volume/bronze")
dbutils.fs.mkdirs("dbfs:/Volumes/mvp_bank/landing/bank_mkt_volume/silver")
dbutils.fs.mkdirs("dbfs:/Volumes/mvp_bank/landing/bank_mkt_volume/gold")

display(dbutils.fs.ls("dbfs:/Volumes/mvp_bank/landing/bank_mkt_volume"))

path,name,size,modificationTime
dbfs:/Volumes/mvp_bank/landing/bank_mkt_volume/bronze/,bronze/,0,1764445722367
dbfs:/Volumes/mvp_bank/landing/bank_mkt_volume/gold/,gold/,0,1764445722367
dbfs:/Volumes/mvp_bank/landing/bank_mkt_volume/silver/,silver/,0,1764445722367


## Conclusão

Com a configuração do ambiente concluída, o Databricks está preparado
para a execução do pipeline de dados completo, permitindo a ingestão,
transformação, modelagem e análise dos dados de risco de crédito
de forma estruturada e reprodutível.
