## DBFS e dbutils Documentação 

O **DBFS (Databricks File System)** é um sistema de arquivos distribuído utilizado pelo Databricks para facilitar o armazenamento e o acesso a dados em nuvem. Ele permite que usuários interajam com arquivos e diretórios de forma semelhante a um sistema de arquivos tradicional, integrando-se com diferentes fontes de armazenamento.

O **dbutils** é um conjunto de utilitários fornecido pelo Databricks que permite gerenciar arquivos, acessar segredos, controlar jobs e interagir com o ambiente Databricks diretamente de notebooks. Com o `dbutils.fs`, por exemplo, é possível listar, copiar, mover e remover arquivos no DBFS de maneira simples e programática.

https://docs.databricks.com/pt/dbfs/index.html

https://docs.databricks.com/pt/dev-tools/databricks-utils.html

In [0]:
# O dbutils fornece utilitários para interagir com o sistema de arquivos, notebooks, jobs e outros recursos do Databricks.
dbutils.help()

In [0]:
# O método dbutils.fs.help() exibe uma lista de comandos disponíveis no utilitário de sistema de arquivos (fs) do Databricks, juntamente com uma breve descrição de cada comando. Use este método para consultar rapidamente as operações suportadas, como copiar, mover, listar, criar diretórios, remover arquivos e visualizar conteúdo de arquivos no DBFS.
dbutils.fs.help()

In [0]:
# O método dbutils.fs.ls(path) lista os arquivos e diretórios no caminho especificado do DBFS (Databricks File System). Retorna uma lista de objetos FileInfo, cada um contendo informações como nome, caminho, tamanho e se é diretório. Útil para explorar e gerenciar arquivos e pastas no ambiente Databricks.
dbutils.fs.ls('/')

In [0]:
path = "/Volumes/workspace/default/tutorial"

In [0]:
display(dbutils.fs.ls(path))

In [0]:
# Criando uma lista e deletando arquivos
# Lista de caminhos de arquivo a serem excluídos
files = [
    f"{path}/bike-store/categories.csv",
    f"{path}/bike-store/customers.csv",
    f"{path}/bike-store/order_items.csv",
    f"{path}/bike-store/orders.csv",
    f"{path}/bike-store/products.csv",
    f"{path}/bike-store/staffs.csv",
    f"{path}/bike-store/stocks.csv",
    f"{path}/bike-store/stores.csv",
]

# for (passar por todos arquivos) e exclui
for file_to_remove in files:
    dbutils.fs.rm(file_to_remove)

In [0]:
#criando nova pasta 
dbutils.fs.mkdirs(f'{path}/avalia')


In [0]:
display(dbutils.fs.ls(f'{path}/avalia'))

## Visualizando os dados

A visualização dos dados é uma etapa fundamental na análise exploratória, permitindo compreender melhor a estrutura, qualidade e principais características do conjunto de dados. No Databricks, é possível visualizar dados de diferentes formas, seja exibindo tabelas diretamente, mostrando amostras ou utilizando comandos específicos para facilitar a interpretação e o diagnóstico dos dados antes de avançar para etapas mais complexas de análise.

In [0]:
path = "/Volumes/workspace/default/tutorial/bike-store"

In [0]:
# Ler o arquivo CSV e criar um DataFrame
# inferSchema = inserir automaticamente os tipos de dados (numero,texto,data etc....)
# header = Se a primeira linha for o cabeçalho coloque como True
df = spark.read.csv(f"{path}/customers.csv", header=True, inferSchema=True)


In [0]:
display(df)

### Tipos de visualizações

In [0]:
df

In [0]:
df.show()

In [0]:
display(df)

In [0]:
# Ver algumas colunas sem salvar em um DF
colunas = ["customer_id", "first_name", "email", "state"]
display(df.select(colunas))

In [0]:
df.select('customer_id','email').show()

In [0]:
display(df.select('customer_id','email'))   

## Sobrescrevendo DF

Ao trabalhar com DataFrames no Spark, é comum precisarmos modificar, filtrar ou transformar os dados para atender a diferentes necessidades de análise. Uma prática recorrente é sobrescrever um DataFrame, ou seja, criar uma nova versão do conjunto de dados a partir de operações realizadas sobre o original. Isso permite manter o fluxo de trabalho organizado, facilitar a reutilização de dados já processados e garantir que apenas as informações relevantes estejam disponíveis para as próximas etapas da análise.

In [0]:
#salvando em um novo DF ou subscrevendo
colunas = ["customer_id", "first_name", "email", "state"]
dfFiltrado = df.select(colunas)

In [0]:
dfFiltrado.show(5)

In [0]:
df.show(5)

In [0]:
df =  df.select('first_name','email','city')

In [0]:
df.show(5)

## Localizando Base de Dados Para Treino

Ao iniciar projetos de ciência de dados ou aprendizado de máquina, é fundamental identificar e acessar bases de dados adequadas para o treinamento e validação dos modelos. Existem diversos repositórios públicos que disponibilizam conjuntos de dados de diferentes domínios, facilitando a experimentação e o desenvolvimento de soluções analíticas. A seguir, destacamos algumas fontes populares para localizar bases de dados para treino.

https://www.kaggle.com

In [0]:
dbutils.fs.ls('/')

In [0]:
# datasets publico que o databricks disponibiliza para treinar
display(dbutils.fs.ls('/databricks-datasets'))

In [0]:
display(dbutils.fs.ls('/databricks-datasets/wine-quality/'))

In [0]:
display(spark.read.csv('/databricks-datasets/wine-quality/winequality-white.csv',header=True , inferSchema=True , sep=';'))

In [0]:
display(dbutils.fs.ls('/databricks-datasets/COVID/coronavirusdataset/'))

In [0]:
Arquivo ="/databricks-datasets/COVID/coronavirusdataset/TimeProvince.csv"
spark.read.csv(Arquivo,header=True , inferSchema=True ).show(5)


## Renomeando arquivo

Renomear arquivos é uma tarefa comum ao organizar projetos e fluxos de trabalho em ambientes de análise de dados. No Databricks, é possível alterar o nome de arquivos diretamente pela interface do notebook ou utilizando comandos específicos, facilitando a manutenção, padronização e identificação dos arquivos ao longo do desenvolvimento. Essa prática contribui para um ambiente mais organizado e eficiente, especialmente em projetos colaborativos ou com grande volume de dados.

In [0]:
dbutils.fs.mv("/Volumes/workspace/default/tutorial/anac/V_OCORRENCIA_AMPLA.csv", "/Volumes/workspace/default/tutorial/anac/V_OCORRENCIA_AMPLA.csv" , recurse = True)

# dbutils.fs.mv("arquivo caminho completo do que quer mudar", "nome + caminho como novo nome", recurse=True) para alterar tudo dentro da pasta que for nescessário