# **ETAPA 2 - IMPORTAÇÃO DAS BASES DE DADOS**

<br>

---

<br>

Agora será feito a importação dos dados para a camada especificada do Data LakeHouse que já está pronta.

*`Esse é um modelo modular, complete as informações necessárias nos trechos que estão destacados em vermelho assim como esse, seguindo o padrão snake_case.`*

<br> 

***AVISO**: Esse Notebook foi feito com base na estrutura do Databricks Free Edition, que utiliza catálogos.*

<br><br>

---

<br>

### Parte 1 - **Importação das Bibliotecas Necessárias**

In [0]:
# import pyspark 
import urllib
import os

<br>

---

<br>

### Parte 2 - **Importação do Arquivo para o Data Lakehouse**

`Insira nas variáveis:` <br>
`--> nome_datalakehouse --> nome do Data Lakehouse destino` <br>
`--> nome_camada --> o nome da camada destino dos dados totalmente brutos` <br>
`--> nome_volume --> o nome do volume que guardará os arquivos com esses dados`

In [0]:
nome_datalakehouse = "dataexperts"
nome_camada = "landing_zone"
nome_volume = "vendas"

O código a seguir cria o volume se ele ainda não existir:

In [0]:
spark.sql(f"""CREATE VOLUME IF NOT EXISTS {nome_datalakehouse}.{nome_camada}.{nome_volume}""")

`Insira nos vetores todos os nomes dos arquivos que deseja importar e a origem deles, seguindo a mesma ordem:`

In [0]:
arquivos = [
    "categoria_produto.csv",
    "cliente.csv",
    "data.csv",
    "localidade.csv",
    "produto.csv",
    "vendas_part1.csv",
    "vendas_part2.csv",
    "vendas_part3.csv",
    "vendas_part4.csv"
]

origem_arquivos = [
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
    "https://raw.githubusercontent.com/andrerosa1977/dataexperts2026/main/",
]

O código a seguir verifica se o arquivo já existe no Data Lakehouse:
- Se sim, apenas pula para o próximo download (se ainda exitir arquivos na fila em espera)
- Se não, tenta baixar o arquivo da origem.
Logo após, caso o download dê certo ou não, passa para a próximo download.

In [0]:
destino_dados = f"/Volumes/{nome_datalakehouse}/{nome_camada}/{nome_volume}/"

for arquivo, origem in zip(arquivos, origem_arquivos):
    caminho_destino = os.path.join(destino_dados, arquivo)

    if os.path.exists(caminho_destino):
        print(f"[LOG] Arquivo {arquivo} já existe. Pulando download.")
        continue

    try:
        urllib.request.urlretrieve(origem + arquivo, caminho_destino)
        print(f"[LOG] Csv {arquivo} baixado com sucesso!")
    except Exception as e:
        print(f"[LOG] Erro ao baixar o arquivo {arquivo}: {e}")

<br>

---

<br>

### **Resultado Final**

O código a seguir é uma das maneiras simples de se mostrar se deu certo ou não a importação dos arquivos.


In [0]:
# Código está comentado por ser apenas uma demonstração. Para visualizar o resultado, retire o identificador de comentário e execute novamente

display(dbutils.fs.ls(f"/Volumes/{nome_datalakehouse}/{nome_camada}/{nome_volume}/"))


O código a seguir mostra um arquivo como exemplo:

In [0]:
# Código está comentado por ser apenas uma demonstração. Para visualizar o resultado, retire o identificador de comentário e execute novamente

arquivo_exemplo = f"/Volumes/{nome_datalakehouse}/{nome_camada}/{nome_volume}/{arquivos[0]}"

dataframe_arquivo_exemplo = spark.read.csv(arquivo_exemplo, header=True)

display(dataframe_arquivo_exemplo)