# はじめに

Databricksでファイルを取り扱う際には、Databricks File System(DBFS)を理解する必要があります。

本ノートブックでは、DBFSの概要をご説明するとともに、具体的な使用例をデモします。

<table>
  <tr><th>作者</th><th>Databricks Japan</th></tr>
  <tr><td>日付</td><td>2021/02/03</td></tr>
  <tr><td>バージョン</td><td>1.0</td></tr>
  <tr><td>クラスター</td><td>7.4ML</td></tr>
</table>
<img style="margin-top:25px;" src="https://sajpstorage.blob.core.windows.net/workshop20210205/databricks-logo-small-new.png" width="140">

# Databricks File System(DBFS)

Databricks File System(DBFS)はDatabricksのワークスペースにマウントされる分散ファイルシステムです。Databricksクラスターから利用することができます。DBFSはクラウドのオブジェクトストレージを抽象化するものであり、以下のメリットをもたらします：<br><br>

- オブジェクトストレージ(S3/Azure Blob Storageなど)追加の認証情報なしにオブジェクトストレージにアクセスすることができる
- ストレージURLではなく、ディレクトリ、ファイルの文法に従ってファイルにアクセスできる
- ファイルはオブジェクトストレージで永続化されるので、クラスタが削除されてもデータが残る

詳細はこちらを参照ください。

[Databricks File System (DBFS) — Databricks Documentation](https://docs.databricks.com/data/databricks-file-system.html)

## DBFS root

DBFSにおけるデフォルトの場所は「DBFS root」と呼びます。DBFS rootにはいくつかのデータが格納されています。<br><br>

- /FileStore: インポートされたデータファイル、生成されたグラフプロット、アップロードされたライブラリが格納されます。[詳細はこちら](https://docs.databricks.com/data/filestore.html)
- /databricks-datasets: サンプルのデータセットが格納されます。[詳細はこちら](https://docs.databricks.com/data/databricks-datasets.html)
- /databricks-results: クエリ結果の全データをダウンロードする際に生成されるファイルが格納されます。
- /databricks/init: クラスタノードのinit scriptが格納されます。
- /user/hive/warehouse: Databricksで管理するHiveテーブルのメタデータ及びテーブルデータが格納されます。

**注意**
マウントポイント`/mnt`に書き込まれるデータはDBFS rootの外となります。DBFS rootに書き込み権限があったとしても、マウントしたオブジェクトストレージにデータを書き込むことをお勧めします。

## UIからDBFSにアクセス

1. 画面左のDataアイコン![](https://sajpstorage.blob.core.windows.net/workshop20210205/data-icon.png)をクリックします。
2. 画面上部の「DBFS」ボタンをクリックすることでDBFSの階層構造を参照できます。 <br>
**注意** 管理者の方によって「DBFS browser」が有効になっていることを確認ください。
![](https://sajpstorage.blob.core.windows.net/workshop20210205/browse.png)

この他にも、CLI、DBFS API(REST)、Databricksファイルシステムユーティリティ、Spark API、ローカルファイルAPIからもDBFSにアクセスできます。

## DBFSとローカルドライバーノードのパス

Databricksでファイルを操作する際には、DBFSにアクセスしているのか、ローカルのクラスタードライバーノードのファイルシステムにアクセスしているのかを意識する必要があります。

ノートブックからファイルシステムにアクセスする際には、`%fs`、`%sh`といったマジックコマンド、Databrikcsファイルシステムユーティリティ`dbutils.fs`などを使用します。

APIやコマンドによって、パスを指定した際、DBFSを参照するのか、ローカルファイルシステムを参照するのかのデフォルトの挙動が異なりますので注意ください。

<table>
  <tr><th>コマンド</th><th>デフォルト</th><th>DBFSへのアクセス</th><th>ローカルファイルシステムへのアクセス</th></tr>
  <tr><td>%fs</td><td>DBFS root</td><td></td><td>パスの先頭に`file:/`を追加</td></tr>
  <tr><td>%sh</td><td>ローカルドライバノード</td><td>パスの先頭に`/dbfs`を追加</td><td></td></tr>
  <tr><td>dbutils.fs</td><td>DBFS root</td><td></td><td>パスの先頭に`file:/`を追加</td></tr>
  <tr><td>pythonのos.コマンド</td><td>ローカルドライバノード</td><td>パスの先頭に`/dbfs`を追加</td><td></td></tr>
  
</table>

In [0]:
%fs ls /tmp

path,name,size
dbfs:/tmp/KnowledgeRepo/,KnowledgeRepo/,0
dbfs:/tmp/Lakehouse/,Lakehouse/,0
dbfs:/tmp/Network.html,Network.html,3837
dbfs:/tmp/POS_CASH_balance.csv,POS_CASH_balance.csv,392703158
dbfs:/tmp/akermany/,akermany/,0
dbfs:/tmp/amrali/,amrali/,0
dbfs:/tmp/antoine.amend@databricks.com/,antoine.amend@databricks.com/,0
dbfs:/tmp/anton.gross@databricks.com/,anton.gross@databricks.com/,0
dbfs:/tmp/application_train.csv,application_train.csv,166133370
dbfs:/tmp/ashley.trainor/,ashley.trainor/,0


In [0]:
%sh ls /dbfs/tmp

In [0]:
%fs ls file:/tmp

path,name,size
file:/tmp/rstudio-rsession/,rstudio-rsession/,4096
file:/tmp/hsperfdata_root/,hsperfdata_root/,4096
file:/tmp/driver-daemon-params,driver-daemon-params,19
file:/tmp/systemd-private-a439691a9ff84cf08a99b1cbeafa06fc-ntp.service-qj52Mh/,systemd-private-a439691a9ff84cf08a99b1cbeafa06fc-ntp.service-qj52Mh/,4096
file:/tmp/.Test-unix/,.Test-unix/,4096
file:/tmp/systemd-private-a439691a9ff84cf08a99b1cbeafa06fc-systemd-resolved.service-4LaPDJ/,systemd-private-a439691a9ff84cf08a99b1cbeafa06fc-systemd-resolved.service-4LaPDJ/,4096
file:/tmp/.XIM-unix/,.XIM-unix/,4096
file:/tmp/custom-spark.conf,custom-spark.conf,328
file:/tmp/chauffeur-daemon-params,chauffeur-daemon-params,22
file:/tmp/chauffeur-daemon.pid,chauffeur-daemon.pid,4


In [0]:
%sh ls /tmp

# デモ

FileStoreはファイルを保存したファイルをブラウザから直接参照できる特別なフォルダです。以下のような使い方が可能です。<br><br>

1. HTMLやJavaScriptを保存してブラウザから直接アクセスする。アクセスする際には`DisplayHTML`を使う。
2. 出力結果を保存してローカルのデスクトップにファイルを保存する。

## `displayHTML()`で使うJavaScriptライブラリをダウンロードし、一旦ドライバのローカルディスクに保存します。

In [0]:
%scala
import sys.process._

In [0]:
%scala
"sudo apt-get -y install wget" !!

In [0]:
%scala
"wget -P /tmp http://d3js.org/d3.v3.min.js" !!

## `file:/tmp`のファイル一覧を表示し、ローカルディスクにファイルが保存されたことを確認します。

In [0]:
%scala
display(dbutils.fs.ls("file:/tmp/d3.v3.min.js"))

path,name,size
file:/tmp/d3.v3.min.js,d3.v3.min.js,151725


## ローカルの`/tmp`に保存されているファイルをブラウザから直接参照できるように、`/FileStore/customjs`にコピーします

In [0]:
%scala
dbutils.fs.mkdirs("/FileStore/customjs")
dbutils.fs.cp("file:/tmp/d3.v3.min.js", "/FileStore/customjs/d3.v3.min.js")

## `/FileStore/customjs`のファイル一覧を表示し、ファイルがコピーされたことを確認します

In [0]:
%scala
display(dbutils.fs.ls("/FileStore/customjs"))

path,name,size
dbfs:/FileStore/customjs/d3.v3.min.js,d3.v3.min.js,151725


## 保存したJavaScriptライブラリをブラウザから参照する際には、`/files`から参照することになるので、パスは`/files/customjs/d3.v3.min.js`となります

In [0]:
%scala
displayHTML(s"""
<!DOCTYPE html>
<meta charset="utf-8">
<body>
<script src="/files/customjs/d3.v3.min.js"></script>
<script>
var width = 200
var height = 200
var vertices = d3.range(100).map(function(d) {
  return [Math.random() * width, Math.random() * height];
});

var lineFunction = d3.svg.line()
                         .x(function(d) { return d[0]; })
                         .y(function(d) { return d[1]; })
                         .interpolate("linear");

//The SVG Container
var svgContainer = d3.select("body").append("svg")
                                    .attr("width", 200)
                                    .attr("height", 200);

//The line SVG Path we draw
var lineGraph = svgContainer.append("path")
                            .attr("d", lineFunction(vertices))
                            .attr("stroke", "blue")
                            .attr("stroke-width", 2)
                            .attr("fill", "none");
</script>
  """)