##### DBFS e dbutils Documentação 
https://docs.databricks.com/pt/dbfs/index.html

https://docs.databricks.com/pt/dev-tools/databricks-utils.html

##### Arquitetura Azure

https://learn.microsoft.com/pt-br/azure/architecture/solution-ideas/articles/azure-databricks-modern-analytics-architecture

https://learn.microsoft.com/pt-br/azure/architecture/solution-ideas/articles/ingest-etl-stream-with-adb

In [0]:
# Mostra todos os módulos disponíveis dentro do dbutils
dbutils.help()

In [0]:
dbutils.fs.help()

#### Principais comandos do dbutils.fs
| Comando                  | Descrição                                |
| ------------------------ | ---------------------------------------- |
| `ls(path)`               | Lista os arquivos e pastas do caminho    |
| `cp(from, to)`           | Copia arquivos ou pastas                 |
| `mv(from, to)`           | Move arquivos ou pastas                  |
| `rm(path, recurse=True)` | Remove arquivos/pastas                   |
| `mkdirs(path)`           | Cria diretórios                          |
| `head(file)`             | Mostra os primeiros bytes de um arquivo  |
| `put(path, contents)`    | Cria/escreve um arquivo de texto simples |


In [0]:
# Lista o conteúdo da raiz do sistema de arquivos
dbutils.fs.ls('/')

In [0]:
# Lista arquivos dentro de um volume do Unity Catalog
display(dbutils.fs.ls('/Volumes/workspace/default/udemy-course/arquivos_csv/'))

In [0]:
# Visualiza os primeiros bytes de um arquivo CSV
dbutils.fs.head('/Volumes/workspace/default/udemy-course/arquivos_csv/Clientes.csv')

In [0]:
# Lista de arquivos a serem excluídos (exemplo)
excluir = [
    "/FileStore/categories.csv",
    "/FileStore/customers.csv",
    "/FileStore/order_items.csv",
    "/FileStore/orders.csv",
    "/FileStore/products.csv",
    "/FileStore/staffs.csv",
    "/FileStore/stocks.csv",
    "/FileStore/stores.csv",
]

# Loop para deletar os arquivos
for apagar_arquivos in excluir:
    dbutils.fs.rm(apagar_arquivos)

In [0]:
# Visualizar diretórios existentes no FileStore
display(dbutils.fs.ls('/Volumes/workspace/default/udemy-course/'))

In [0]:
# Criar uma nova pasta 
dbutils.fs.mkdirs('/Volumes/workspace/default/udemy-course/Bikes_new')

#### Visualizando Os Dados

In [0]:
# Ler o arquivo CSV e criar um DataFrame
spark.read.csv("/Volumes/workspace/default/udemy-course/Bike Store/customers.csv", header=True, inferSchema=True)


In [0]:
# - header=True: usa a primeira linha do arquivo como nomes das colunas
# - inferSchema=True: tenta detectar automaticamente os tipos de dados de cada coluna
# - display(): mostra os dados em uma visualização interativa 
display(spark.read.csv("/Volumes/workspace/default/udemy-course/Bike Store/customers.csv", header=True, inferSchema=True))

In [0]:
# Salvando Dados em um DF 
df = spark.read.csv("/Volumes/workspace/default/udemy-course/Bike Store/customers.csv", header=True, inferSchema=True)

#### Tipos de visualizações 

In [0]:
df

In [0]:
df.show()

In [0]:
display(df)

In [0]:
# Visualizar algumas colunas sem salvar em um DF
colunas = ["customer_id", "first_name", "email", "state"]
display(df.select(colunas))

In [0]:
df.select('customer_id','email').show()

In [0]:
display(df.select('customer_id','email'))   

In [0]:
# Salvando em um novo DF ou subscrevendo
colunas = ["customer_id", "first_name", "email", "state"]
dfFiltrado = df.select(colunas)

In [0]:
# DF filtrado
dfFiltrado.show(5)

In [0]:
# DF original
df.show(5)

In [0]:
# Sobrescrevendo DF (Se necessario) 
df =  df.select('first_name','email','city')

In [0]:
df.show(5)

In [0]:
dbutils.fs.ls('/')

In [0]:
dbutils.fs.ls('/databricks-datasets')

In [0]:
display(dbutils.fs.ls('/databricks-datasets/wine-quality/'))

In [0]:
spark.read.csv('dbfs:/databricks-datasets/wine-quality/winequality-white.csv',header=True , inferSchema=True , sep=';').show(5)

In [0]:
display(dbutils.fs.ls('/databricks-datasets/COVID/coronavirusdataset/'))

In [0]:
arquivo = "dbfs:/databricks-datasets/COVID/coronavirusdataset/Region.csv"
display(spark.read.csv(arquivo, header=True, inferSchema=True))
