# Task_002 - Criar Volumes e Carregar Dados no Schema 00_landing

Este notebook cria volumes no schema `00_landing` e carrega os arquivos CSV da pasta `data` para dentro dos volumes.

## Arquivos a serem carregados:
- `claims.csv` ‚Üí Volume para dados de sinistros
- `customers.csv` ‚Üí Volume para dados de clientes
- `policies.csv` ‚Üí Volume para dados de ap√≥lices

## O que s√£o Volumes no Unity Catalog?
- **Volumes** s√£o containers de arquivos no Unity Catalog
- Permitem armazenar arquivos n√£o estruturados ou semi-estruturados (CSV, JSON, Parquet, etc.)
- Fornecem governan√ßa e controle de acesso granular
- S√£o a alternativa moderna ao DBFS para armazenamento de arquivos



## Parte 1: Garantir que o Cat√°logo e Schema existem

Primeiro, vamos garantir que estamos usando o cat√°logo correto e que o schema 00_landing existe.



In [None]:
-- Usar o cat√°logo smart_claims_dev
USE CATALOG smart_claims_dev;

-- Verificar se o schema 00_landing existe
SHOW SCHEMAS IN CATALOG smart_claims_dev LIKE '00_landing';



## Parte 2: Criar Volumes no Schema 00_landing

**COMANDO: CREATE VOLUME**

O que faz:
- Cria um volume dentro de um schema para armazenar arquivos
- Volumes s√£o containers para arquivos n√£o estruturados ou semi-estruturados
- Permitem controle de acesso granular atrav√©s do Unity Catalog
- Suportam diferentes tipos de arquivo (CSV, JSON, Parquet, etc.)



In [None]:
-- Criar volume para dados de sinistros (claims)
CREATE VOLUME IF NOT EXISTS smart_claims_dev.`00_landing`.claims_volume
COMMENT 'Volume para armazenar arquivos CSV de sinistros';



In [None]:
-- Criar volume para dados de clientes (customers)
CREATE VOLUME IF NOT EXISTS smart_claims_dev.`00_landing`.customers_volume
COMMENT 'Volume para armazenar arquivos CSV de clientes';



In [None]:
-- Criar volume para dados de ap√≥lices (policies)
CREATE VOLUME IF NOT EXISTS smart_claims_dev.`00_landing`.policies_volume
COMMENT 'Volume para armazenar arquivos CSV de ap√≥lices';



## Parte 3: Verificar Volumes Criados



In [None]:
-- Listar todos os volumes no schema 00_landing
SHOW VOLUMES IN smart_claims_dev.`00_landing`;



## Parte 4: Carregar Arquivos CSV nos Volumes

### M√©todo 1: Usando Python para Upload de Arquivos

Para fazer upload dos arquivos CSV para os volumes, voc√™ tem duas op√ß√µes:

1. **Upload via UI do Databricks**: Arraste e solte os arquivos na interface
2. **Upload via c√≥digo Python**: Use o c√≥digo abaixo em uma c√©lula Python



In [None]:
# ============================================================
# UPLOAD DE ARQUIVOS CSV PARA OS VOLUMES USANDO DBUTILS
# Execute esta c√©lula Python para fazer upload dos arquivos
# ============================================================

# IMPORTANTE: Ajuste os caminhos abaixo para corresponder ao seu ambiente
# Op√ß√£o 1: Se os arquivos est√£o em um reposit√≥rio Git conectado ao Databricks
repo_path = "/Workspace/Repos/your_username/smart_claims_dev/data"  # Ajuste conforme necess√°rio

# Op√ß√£o 2: Se voc√™ fez upload manual para DBFS primeiro
dbfs_path = "dbfs:/FileStore/uploads"  # Ajuste conforme necess√°rio

# Caminhos dos volumes no Unity Catalog
volume_paths = {
    'claims': '/Volumes/smart_claims_dev/00_landing/claims_volume/claims.csv',
    'customers': '/Volumes/smart_claims_dev/00_landing/customers_volume/customers.csv',
    'policies': '/Volumes/smart_claims_dev/00_landing/policies_volume/policies.csv'
}

# M√©todo 1: Se os arquivos est√£o em um reposit√≥rio ou caminho local acess√≠vel
try:
    # Copiar de reposit√≥rio para volumes
    dbutils.fs.cp(f"{repo_path}/claims.csv", volume_paths['claims'])
    dbutils.fs.cp(f"{repo_path}/customers.csv", volume_paths['customers'])
    dbutils.fs.cp(f"{repo_path}/policies.csv", volume_paths['policies'])
    print("‚úÖ Arquivos copiados com sucesso do reposit√≥rio para os volumes!")
except Exception as e:
    print(f"‚ö†Ô∏è Erro ao copiar do reposit√≥rio: {str(e)}")
    print("   Tentando m√©todo alternativo via DBFS...")
    
    # M√©todo 2: Se os arquivos est√£o no DBFS
    try:
        dbutils.fs.cp(f"{dbfs_path}/claims.csv", volume_paths['claims'])
        dbutils.fs.cp(f"{dbfs_path}/customers.csv", volume_paths['customers'])
        dbutils.fs.cp(f"{dbfs_path}/policies.csv", volume_paths['policies'])
        print("‚úÖ Arquivos copiados com sucesso do DBFS para os volumes!")
    except Exception as e2:
        print(f"‚ö†Ô∏è Erro ao copiar do DBFS: {str(e2)}")
        print("\nüìù Alternativas:")
        print("   1. Fa√ßa upload manual via UI do Databricks (recomendado)")
        print("   2. Ajuste os caminhos acima para corresponder ao seu ambiente")
        print("   3. Use dbutils.fs.put() para fazer upload direto via c√≥digo")



In [None]:
# ============================================================
# UPLOAD VIA DBFS E C√ìPIA PARA VOLUMES
# ============================================================

# Passo 1: Fazer upload dos arquivos para DBFS (usar UI ou dbutils)
# dbutils.fs.put("dbfs:/FileStore/uploads/claims.csv", "conte√∫do_do_arquivo")

# Passo 2: Copiar de DBFS para os volumes
# dbutils.fs.cp("dbfs:/FileStore/uploads/claims.csv", "/Volumes/smart_claims_dev/00_landing/claims_volume/claims.csv")
# dbutils.fs.cp("dbfs:/FileStore/uploads/customers.csv", "/Volumes/smart_claims_dev/00_landing/customers_volume/customers.csv")
# dbutils.fs.cp("dbfs:/FileStore/uploads/policies.csv", "/Volumes/smart_claims_dev/00_landing/policies_volume/policies.csv")

print("üìù Descomente e execute os comandos acima ap√≥s fazer upload dos arquivos para DBFS")



## Parte 5: Verificar Arquivos nos Volumes

Ap√≥s fazer upload dos arquivos, verifique se eles est√£o nos volumes:



In [None]:
# Listar arquivos no volume de claims
print("=== Arquivos no volume claims_volume ===")
try:
    files = dbutils.fs.ls("/Volumes/smart_claims_dev/00_landing/claims_volume/")
    for file in files:
        print(f"  - {file.name} ({file.size} bytes)")
except Exception as e:
    print(f"  ‚ö†Ô∏è Erro ao listar: {str(e)}")

print("\n=== Arquivos no volume customers_volume ===")
try:
    files = dbutils.fs.ls("/Volumes/smart_claims_dev/00_landing/customers_volume/")
    for file in files:
        print(f"  - {file.name} ({file.size} bytes)")
except Exception as e:
    print(f"  ‚ö†Ô∏è Erro ao listar: {str(e)}")

print("\n=== Arquivos no volume policies_volume ===")
try:
    files = dbutils.fs.ls("/Volumes/smart_claims_dev/00_landing/policies_volume/")
    for file in files:
        print(f"  - {file.name} ({file.size} bytes)")
except Exception as e:
    print(f"  ‚ö†Ô∏è Erro ao listar: {str(e)}")



## Parte 6: Ler Arquivos dos Volumes como DataFrames (Opcional)

Ap√≥s os arquivos estarem nos volumes, voc√™ pode ler diretamente como DataFrames Spark:



In [None]:
# Ler arquivos CSV dos volumes como DataFrames Spark
# Descomente ap√≥s fazer upload dos arquivos

# df_claims = spark.read \
#     .option("header", "true") \
#     .option("inferSchema", "true") \
#     .csv("/Volumes/smart_claims_dev/00_landing/claims_volume/claims.csv")

# df_customers = spark.read \
#     .option("header", "true") \
#     .option("inferSchema", "true") \
#     .csv("/Volumes/smart_claims_dev/00_landing/customers_volume/customers.csv")

# df_policies = spark.read \
#     .option("header", "true") \
#     .option("inferSchema", "true") \
#     .csv("/Volumes/smart_claims_dev/00_landing/policies_volume/policies.csv")

# Mostrar preview dos dados
# print("=== Preview: Claims ===")
# df_claims.show(5, truncate=False)
# print(f"\nTotal de registros: {df_claims.count()}")

# print("\n=== Preview: Customers ===")
# df_customers.show(5, truncate=False)
# print(f"\nTotal de registros: {df_customers.count()}")

# print("\n=== Preview: Policies ===")
# df_policies.show(5, truncate=False)
# print(f"\nTotal de registros: {df_policies.count()}")

print("üìù Descomente o c√≥digo acima ap√≥s fazer upload dos arquivos para os volumes")

