# Task_002 - Criar Volumes no Schema 00_landing

Este notebook cria volumes no schema `00_landing` para organizar diferentes tipos de dados do projeto Smart Claims.

## Volumes a serem criados:
- `claims` - Volume para dados e imagens de sinistros (CSV, imagens, metadata)
- `sql_server` - Volume para dados extra√≠dos do SQL Server (CSV: claims, customers, policies)
- `telematics` - Volume para dados de telemetria veicular (arquivos Parquet)
- `training_imgs` - Volume para imagens de treinamento de modelos de Machine Learning (PNG)

## O que s√£o Volumes no Unity Catalog?
- **Volumes** s√£o containers de arquivos no Unity Catalog
- Permitem armazenar arquivos n√£o estruturados ou semi-estruturados (CSV, JSON, Parquet, imagens, etc.)
- Fornecem governan√ßa e controle de acesso granular
- S√£o a alternativa moderna ao DBFS para armazenamento de arquivos
- Permitem organizar dados por tipo ou origem antes do processamento

## Nota sobre Upload
Ap√≥s criar os volumes neste notebook, voc√™ pode fazer upload dos arquivos diretamente via **UI do Databricks**:
1. Navegue at√©: Catalog ‚Üí smart_claims_dev ‚Üí 00_landing
2. Clique no volume desejado
3. Clique em **Upload** ou **Add files**
4. Selecione os arquivos/pastas do seu sistema local



## Parte 1: Garantir que o Cat√°logo e Schema existem

Primeiro, vamos garantir que estamos usando o cat√°logo correto e que o schema 00_landing existe.



In [None]:
-- Usar o cat√°logo smart_claims_dev
USE CATALOG smart_claims_dev

-- Verificar se o schema 00_landing existe
SHOW SCHEMAS IN smart_claims_dev LIKE '00_landing'



## Parte 2: Criar Volumes no Schema 00_landing

**COMANDO: CREATE VOLUME**

O que faz:
- Cria um volume dentro de um schema para armazenar arquivos
- Volumes s√£o containers para arquivos n√£o estruturados ou semi-estruturados
- Permitem controle de acesso granular atrav√©s do Unity Catalog
- Suportam diferentes tipos de arquivo (CSV, JSON, Parquet, imagens PNG/JPG, etc.)

**Documenta√ß√£o oficial:** [Unity Catalog - CREATE VOLUME](https://docs.databricks.com/en/connect/unity-catalog/create-volume.html)



In [None]:
-- Criar volume para dados de sinistros (claims)
-- Este volume armazenar√°: imagens de sinistros (JPG), metadata (CSV) e outros arquivos relacionados
CREATE VOLUME IF NOT EXISTS smart_claims_dev.00_landing.claims
COMMENT 'Volume para armazenar dados e imagens de sinistros (CSV, imagens JPG, metadata)'



In [None]:
-- Criar volume para dados do SQL Server
-- Este volume armazenar√°: claims.csv, customers.csv, policies.csv extra√≠dos do SQL Server
CREATE VOLUME IF NOT EXISTS smart_claims_dev.00_landing.sql_server
COMMENT 'Volume para armazenar dados extra√≠dos do SQL Server (CSV: claims, customers, policies)'



In [None]:
-- Criar volume para dados de telemetria (telematics)
-- Este volume armazenar√°: arquivos Parquet com dados de telemetria veicular
CREATE VOLUME IF NOT EXISTS smart_claims_dev.00_landing.telematics
COMMENT 'Volume para armazenar dados de telemetria veicular (arquivos Parquet)'



In [None]:
-- Criar volume para imagens de treinamento (training_imgs)
-- Este volume armazenar√°: imagens PNG classificadas para treinamento de modelos ML
CREATE VOLUME IF NOT EXISTS smart_claims_dev.00_landing.training_imgs
COMMENT 'Volume para armazenar imagens de treinamento de modelos de Machine Learning (PNG)'


## Parte 3: Verificar Volumes Criados

Vamos verificar se todos os volumes foram criados com sucesso.



In [None]:
-- Listar todos os volumes no schema 00_landing
SHOW VOLUMES IN smart_claims_dev.00_landing



## Parte 4: Como Fazer Upload dos Arquivos

Ap√≥s criar os volumes, voc√™ pode fazer upload dos arquivos diretamente via **UI do Databricks**:

### Passo a Passo:

1. **Acesse o Unity Catalog:**
   - No Databricks Workspace, clique em **Catalog** (no menu lateral)
   - Expanda: **smart_claims_dev** ‚Üí **00_landing**

2. **Para cada volume, fa√ßa upload dos arquivos:**
   
   **Volume `claims`:**
   - Clique no volume `claims`
   - Clique em **Upload** ou **Add files**
   - Selecione a pasta `data/claims/` ou seus arquivos individuais
   - Suba as imagens (JPG) e o arquivo de metadata (CSV)
   
   **Volume `sql_server`:**
   - Clique no volume `sql_server`
   - Clique em **Upload** ou **Add files**
   - Selecione os arquivos da pasta `data/sql_server/`
   - Suba: `claims.csv`, `customers.csv`, `policies.csv`
   
   **Volume `telematics`:**
   - Clique no volume `telematics`
   - Clique em **Upload** ou **Add files**
   - Selecione todos os arquivos Parquet da pasta `data/telematics/`
   
   **Volume `training_imgs`:**
   - Clique no volume `training_imgs`
   - Clique em **Upload** ou **Add files**
   - Selecione todas as imagens PNG da pasta `data/training_imgs/`

### Estrutura Esperada ap√≥s Upload:

```
smart_claims_dev
  ‚îî‚îÄ‚îÄ 00_landing
      ‚îú‚îÄ‚îÄ claims/
      ‚îÇ   ‚îú‚îÄ‚îÄ images/        (JPG files)
      ‚îÇ   ‚îî‚îÄ‚îÄ metadata/      (CSV files)
      ‚îú‚îÄ‚îÄ sql_server/
      ‚îÇ   ‚îú‚îÄ‚îÄ claims.csv
      ‚îÇ   ‚îú‚îÄ‚îÄ customers.csv
      ‚îÇ   ‚îî‚îÄ‚îÄ policies.csv
      ‚îú‚îÄ‚îÄ telematics/
      ‚îÇ   ‚îî‚îÄ‚îÄ *.parquet      (m√∫ltiplos arquivos)
      ‚îî‚îÄ‚îÄ training_imgs/
          ‚îî‚îÄ‚îÄ *.png          (m√∫ltiplas imagens)
```


## Parte 5: Resumo dos Volumes Criados

‚úÖ **4 volumes criados com sucesso no schema 00_landing:**

1. **`claims`** - Dados e imagens de sinistros
2. **`sql_server`** - Dados extra√≠dos do SQL Server (CSV)
3. **`telematics`** - Dados de telemetria veicular (Parquet)
4. **`training_imgs`** - Imagens para treinamento de ML (PNG)

### Pr√≥ximos Passos

Ap√≥s fazer upload dos arquivos via UI, voc√™ pode:

- **Task_003**: Criar tabelas Delta na camada `01_bronze` a partir dos arquivos nos volumes
- **Task_004**: Processar e transformar os dados (Bronze ‚Üí Silver ‚Üí Gold)
- Usar os volumes para leitura direta em notebooks e pipelines

### Documenta√ß√£o de Refer√™ncia

- [Unity Catalog - CREATE VOLUME](https://docs.databricks.com/en/connect/unity-catalog/create-volume.html)
- [Unity Catalog - Volumes Overview](https://docs.databricks.com/en/connect/unity-catalog/volumes.html)
- [Upload Files to Volumes](https://docs.databricks.com/en/connect/unity-catalog/volumes.html#upload-files)


## Parte 4: Carregar Arquivos CSV nos Volumes

### M√©todo 1: Usando Python para Upload de Arquivos

Para fazer upload dos arquivos CSV para os volumes, voc√™ tem duas op√ß√µes:

1. **Upload via UI do Databricks**: Arraste e solte os arquivos na interface
2. **Upload via c√≥digo Python**: Use o c√≥digo abaixo em uma c√©lula Python



In [None]:
# ============================================================
# UPLOAD DE ARQUIVOS CSV PARA OS VOLUMES USANDO DBUTILS
# Execute esta c√©lula Python para fazer upload dos arquivos
# ============================================================

# IMPORTANTE: Ajuste os caminhos abaixo para corresponder ao seu ambiente
# Op√ß√£o 1: Se os arquivos est√£o em um reposit√≥rio Git conectado ao Databricks
repo_path = "/Workspace/Repos/your_username/smart_claims_dev/data"  # Ajuste conforme necess√°rio

# Op√ß√£o 2: Se voc√™ fez upload manual para DBFS primeiro
dbfs_path = "dbfs:/FileStore/uploads"  # Ajuste conforme necess√°rio

# Caminhos dos volumes no Unity Catalog
volume_paths = {
    'claims': '/Volumes/smart_claims_dev/00_landing/claims_volume/claims.csv',
    'customers': '/Volumes/smart_claims_dev/00_landing/customers_volume/customers.csv',
    'policies': '/Volumes/smart_claims_dev/00_landing/policies_volume/policies.csv'
}

# M√©todo 1: Se os arquivos est√£o em um reposit√≥rio ou caminho local acess√≠vel
try:
    # Copiar de reposit√≥rio para volumes
    dbutils.fs.cp(f"{repo_path}/claims.csv", volume_paths['claims'])
    dbutils.fs.cp(f"{repo_path}/customers.csv", volume_paths['customers'])
    dbutils.fs.cp(f"{repo_path}/policies.csv", volume_paths['policies'])
    print("‚úÖ Arquivos copiados com sucesso do reposit√≥rio para os volumes!")
except Exception as e:
    print(f"‚ö†Ô∏è Erro ao copiar do reposit√≥rio: {str(e)}")
    print("   Tentando m√©todo alternativo via DBFS...")
    
    # M√©todo 2: Se os arquivos est√£o no DBFS
    try:
        dbutils.fs.cp(f"{dbfs_path}/claims.csv", volume_paths['claims'])
        dbutils.fs.cp(f"{dbfs_path}/customers.csv", volume_paths['customers'])
        dbutils.fs.cp(f"{dbfs_path}/policies.csv", volume_paths['policies'])
        print("‚úÖ Arquivos copiados com sucesso do DBFS para os volumes!")
    except Exception as e2:
        print(f"‚ö†Ô∏è Erro ao copiar do DBFS: {str(e2)}")
        print("\nüìù Alternativas:")
        print("   1. Fa√ßa upload manual via UI do Databricks (recomendado)")
        print("   2. Ajuste os caminhos acima para corresponder ao seu ambiente")
        print("   3. Use dbutils.fs.put() para fazer upload direto via c√≥digo")



In [None]:
# ============================================================
# UPLOAD VIA DBFS E C√ìPIA PARA VOLUMES
# ============================================================

# Passo 1: Fazer upload dos arquivos para DBFS (usar UI ou dbutils)
# dbutils.fs.put("dbfs:/FileStore/uploads/claims.csv", "conte√∫do_do_arquivo")

# Passo 2: Copiar de DBFS para os volumes
# dbutils.fs.cp("dbfs:/FileStore/uploads/claims.csv", "/Volumes/smart_claims_dev/00_landing/claims_volume/claims.csv")
# dbutils.fs.cp("dbfs:/FileStore/uploads/customers.csv", "/Volumes/smart_claims_dev/00_landing/customers_volume/customers.csv")
# dbutils.fs.cp("dbfs:/FileStore/uploads/policies.csv", "/Volumes/smart_claims_dev/00_landing/policies_volume/policies.csv")

print("üìù Descomente e execute os comandos acima ap√≥s fazer upload dos arquivos para DBFS")



## Parte 5: Verificar Arquivos nos Volumes

Ap√≥s fazer upload dos arquivos, verifique se eles est√£o nos volumes:



In [None]:
# Listar arquivos no volume de claims
print("=== Arquivos no volume claims_volume ===")
try:
    files = dbutils.fs.ls("/Volumes/smart_claims_dev/00_landing/claims_volume/")
    for file in files:
        print(f"  - {file.name} ({file.size} bytes)")
except Exception as e:
    print(f"  ‚ö†Ô∏è Erro ao listar: {str(e)}")

print("\n=== Arquivos no volume customers_volume ===")
try:
    files = dbutils.fs.ls("/Volumes/smart_claims_dev/00_landing/customers_volume/")
    for file in files:
        print(f"  - {file.name} ({file.size} bytes)")
except Exception as e:
    print(f"  ‚ö†Ô∏è Erro ao listar: {str(e)}")

print("\n=== Arquivos no volume policies_volume ===")
try:
    files = dbutils.fs.ls("/Volumes/smart_claims_dev/00_landing/policies_volume/")
    for file in files:
        print(f"  - {file.name} ({file.size} bytes)")
except Exception as e:
    print(f"  ‚ö†Ô∏è Erro ao listar: {str(e)}")



## Parte 6: Ler Arquivos dos Volumes como DataFrames (Opcional)

Ap√≥s os arquivos estarem nos volumes, voc√™ pode ler diretamente como DataFrames Spark:



In [None]:
# Ler arquivos CSV dos volumes como DataFrames Spark
# Descomente ap√≥s fazer upload dos arquivos

# df_claims = spark.read \
#     .option("header", "true") \
#     .option("inferSchema", "true") \
#     .csv("/Volumes/smart_claims_dev/00_landing/claims_volume/claims.csv")

# df_customers = spark.read \
#     .option("header", "true") \
#     .option("inferSchema", "true") \
#     .csv("/Volumes/smart_claims_dev/00_landing/customers_volume/customers.csv")

# df_policies = spark.read \
#     .option("header", "true") \
#     .option("inferSchema", "true") \
#     .csv("/Volumes/smart_claims_dev/00_landing/policies_volume/policies.csv")

# Mostrar preview dos dados
# print("=== Preview: Claims ===")
# df_claims.show(5, truncate=False)
# print(f"\nTotal de registros: {df_claims.count()}")

# print("\n=== Preview: Customers ===")
# df_customers.show(5, truncate=False)
# print(f"\nTotal de registros: {df_customers.count()}")

# print("\n=== Preview: Policies ===")
# df_policies.show(5, truncate=False)
# print(f"\nTotal de registros: {df_policies.count()}")

print("üìù Descomente o c√≥digo acima ap√≥s fazer upload dos arquivos para os volumes")

