###Importar arquivos para DBFS Landingzone

Para baixar um arquivo de um repositório do GitHub e armazená-lo no Databricks, siga os passos descritos a seguir:


In [0]:
# Importa a biblioteca para manipulação de URLs e download de arquivos.
import urllib.request

# Define a URL do arquivo no GitHub. 
# Aqui, o arquivo CSV está hospedado em um repositório público.
url = 'https://github.com/andrerosa77/trn-pyspark/raw/main/dados_2012.csv'

# Define um caminho temporário na instância do cluster do Databricks.
# O arquivo será inicialmente salvo neste local antes de ser movido para o DBFS.
temp_path = '/tmp/dados_2012.csv'

# Realiza o download do arquivo da URL especificada e o salva no caminho temporário.
urllib.request.urlretrieve(url, temp_path)

# Define o caminho de destino no Databricks File System (DBFS).
# Este é o local onde o arquivo será armazenado no ambiente Databricks, estruturado em uma landing zone.
dbfs_path = '/mnt/lhdw/landingzone/vendas/pendente/dados_2012.csv'

# Usa a função `dbutils.fs.cp` para copiar o arquivo do caminho temporário local para o DBFS.
# A sintaxe f'file:{temp_path}' indica o caminho local temporário.
# A sintaxe f'dbfs:{dbfs_path}' representa o caminho final no DBFS.
dbutils.fs.cp(f'file:{temp_path}', f'dbfs:{dbfs_path}')

# Exibe uma mensagem de sucesso indicando o local onde o arquivo foi salvo no DBFS.
print(f"Arquivo baixado: {dbfs_path}")


Arquivo baixado: /mnt/lhdw/landingzone/vendas/pendente/dados_2012.csv


##Listar Arquivos no Databricks File System (DBFS)

In [0]:
# lista todos os arquivos e subdiretórios presentes no caminho especificado no Databricks File System (DBFS).
dbutils.fs.ls("/mnt/lhdw/landingzone/vendas/pendente/")


Out[14]: [FileInfo(path='dbfs:/mnt/lhdw/landingzone/vendas/pendente/dados_2012.csv', name='dados_2012.csv', size=22400712, modificationTime=1733862793000)]

Magic command no Databricks que lista todos os arquivos e subdiretórios no caminho especificado no Databricks File System (DBFS):


In [0]:
%fs ls /mnt/lhdw/landingzone/vendas/pendente/

path,name,size,modificationTime
dbfs:/mnt/lhdw/landingzone/vendas/pendente/dados_2012.csv,dados_2012.csv,22400712,1733862793000


## Diferença dos comandos
Enquanto dbutils.fs.ls retorna uma lista de objetos FileInfo manipulável em Python, o %fs exibe os resultados diretamente no notebook em um formato tabular.

O %fs é útil para visualização, mas caso você precise manipular os resultados em lógica condicional ou iterar sobre os arquivos, dbutils.fs.ls é mais apropriado.