# はじめに

ラボコンテンツ（このノートブック）の実行に必要な Spark クラスタとして汎用コンピューティングクラスタを準備しノートブックにアタッチします。

## 汎用コンピューティングクラスタの準備

プロビジョニング or サーバレスで汎用コンピューティングクラスタを準備します。

なおこのノートブックの実行において プロビジョニング or サーバレス は不問です。


### プロビジョニング 汎用コンピューティング クラスタ

プロビジョニング汎用コンピューティングを利用する場合は `Databricks Runtime のバージョン` を `Runtime: 13.3 LTS` 以上を指定してください。

またコストの観点からもハンズオンコンテンツの実行においては低スペックな`ノードタイプ（例：Standard_D4ads_v5）` かつ `シングルノード` で十分です。

</br><img src="../images/basis.1.png" width="600"/>  
</br><img src="../images/basis.2.png" width="600"/>  

### サーバレス  汎用コンピューティング クラスタ
サーバレス汎用コンピューティングを利用する場合は明示的なデプロイは不要です。

## 汎用コンピューティングクラスタのアタッチ

準備した汎用コンピューティングクラスタをこのノートブックにアタッチします。

ノートブックの右肩にあるクラスターリストから準備したクラスターを選択します。停止しているプロビジョニング汎用コンピューティングを選択した場合はそのタイミングで起動が開始されます。 

</br><img src="../images/basis.3.png" width="600"/>  
 

# ノートブックの基本

ここでは Databricks での開発における主要ツールとなる[ノートブック](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/)の基本を学習します。

## セルの実行

セル内に記述された処理の実行はセルの左上にある `セルの実行` もしくは各種ショートカットキーを使用します。  
</br><img src="../images/basis.4.png" width="600"/>  

In [0]:
print("Hello Databricks")

## ノートブック言語の設定

上記のセルはノートブックのデフォルト言語が Python に設定されているため Python コードとして実行されます。  

Databricks のノートブックは Python、SQL、Scala、R がサポートされます。  

デフォルト言語はノートブック左上のリストから選択・変更がいつでも可能です。  

</br><img src="../images/basis.5.png" width="600"/>  

## マジックコマンド
ここでは代表的なマジックコマンドを紹介します。

### %[lang] : 言語マジック
言語マジックコマンドはノートブックのデフォルト言語以外の言語でコード実行する指示します。
* <strong><code>&#37;python</code></strong>
* <strong><code>&#37;sql</code></strong>
* <strong><code>&#37;scala</code></strong>
* <strong><code>&#37;r</code></strong>

ノートブックのデフォルト言語は主要言語を維持し他の言語でコードを実行する必要がある場合にのみ言語マジックを使用するのが推奨です。

In [0]:
# Python がデフォルト言語でマジックコマンドの指示なしに SQL を実行すると Python としてのシンタックスエラーとなります 

# SELECT "Hello Databricks SQL"; 

In [0]:
%sql -- Python がデフォルト言語で SQL を実行したい場合はマジックコマンドで言語を指定します 
SELECT "Hello Databricks SQL"; 


### %md : Markdown

マジックコマンド **&percnt;md** により、セル内でマークダウンを記述します。
* このセルをダブルクリックして編集を開始します
* 編集を終了するには **`Esc`** キーを押します

以下は代表的な例です。

# タイトル1
## タイトル2
### タイトル3

これは **太字** の単語を含むテキストです。

これは順序付きリストです
1. 1つ
1. 2つ
1. 3つ

これは順不同リストです
* りんご
* 桃
* バナナ

リンク/埋め込みHTML： <a href="https://en.wikipedia.org/wiki/Markdown" target="_blank">Markdown - Wikipedia</a>

画像：
![Spark Engines](https://files.training.databricks.com/images/Apache-Spark-Logo_TM_200px.png)

テーブル：

| 名前   | 値    |
|--------|-------|
| Yi     | 1     |
| Ali    | 2     |
| Selina | 3     |

### %run : 別のノートブックのインライン実行

**%run** マジックコマンドを使用してノートブックから別のノートブックを実行します。  

実行するノートブックは相対パスで指定します。  

別のノートブックはインラインで実行されるため別のノートブックで定義したオブジェクトは呼び出し元のノートブックから利用できます。  

この仕組みによりノートブックをモジュール化できます。

In [0]:
# このノートブック内で定義されてない変数の参照はエラー

# print("sample_dataset_path = " + sample_dataset_path)

In [0]:
%run ../include/handson.h

In [0]:
# 呼び出した先のノートブック内で定義されている変数は参照可能
print("sample_dataset_path = " + sample_dataset_path)

### %pip : ライブラリのインストール

[ノートブックスコープのライブラリ](https://learn.microsoft.com/ja-jp/azure/databricks/libraries/notebooks-python-libraries)は **%pip** を使用してインストールします。  

**関連：**
- [クラスタースコープのライブラリのインストール](https://learn.microsoft.com/ja-jp/azure/databricks/libraries/cluster-libraries)
- [サーバーレスコンピュートへのライブラリのインストール](https://learn.microsoft.com/ja-jp/azure/databricks/compute/serverless/dependencies)


In [0]:
%pip install matplotlib

In [0]:
import matplotlib.pyplot as plt

# X軸の定義
x = [1, 2, 3, 4, 5, 6]

# Y軸の定義
y1 = [100, 50, 150, 300, 100, 100 ]
y2 = [200, 300, 200, 400, 200, 300]
y3 = [500, 400, 300, 600, 100, 400]

# figureを生成
fig = plt.figure()

# axをfigureに設定
ax = fig.add_subplot(1, 1, 1)

# axに折れ線を設定
ax.plot(x, y1, "-", c="Blue", linewidth=1, marker='o', alpha=1)
ax.plot(x, y2, "-", c="Red", linewidth=1, marker='o', alpha=1)
ax.plot(x, y3, "-", c="Green", linewidth=1, marker='o', alpha=1)

# 表示
plt.show()


### %sh : シェルコードの実行

**%sh** を使用してシェル コードをノートブック内で実行します。シェル コードはドライバー上で処理されます。  

In [0]:
%sh
ls -la /tmp

シェル実行は[初期化スクリプト（クラスタ起動時に共通の環境変数、Spark 構成パラメータやライブラリ追加などを行う）](https://learn.microsoft.com/ja-jp/azure/databricks/init-scripts/)にて各ノードで実行するのが通常です。  

以下のサンプルは個別のシェル実行の一例です。  

Databricks でのデータ保管先となる[オブジェクトストレージはファイルに対する追記や更新をサポートしない](https://learn.microsoft.com/ja-jp/azure/databricks/files/#volumes-limitations)ため、ローカルでファイル操作をした結果をシェル実行によりオブジェクトストレージコピーします。

In [0]:
import os
os.environ["object_storage"] = sample_dataset_path

In [0]:
%sh
# CSVファイル
output_file="sample.csv"
object_storage_path=$(printf "%s/%s" "$object_storage" "$output_file")

# ヘッダー
echo "Name,Age,Location" > $object_storage_path

# データ(オブジェクトストレージ上のファイルへの追記は不可「Operation not supported」)
echo "Alice,30,Tokyo" >> $object_storage_path
echo "Bob,25,Osaka" >> $object_storage_path
echo "Charlie,35,Nagoya" >> $object_storage_path

cat $object_storage_path

In [0]:
%sh
# CSVファイル
output_file="sample.csv"
object_storage_path=$(printf "%s/%s" "$object_storage" "$output_file")
local_path="/tmp/${output_file}}"

# ヘッダー
echo "Name,Age,Location" > $local_path
# データ
echo "Alice,30,Tokyo" >> $local_path
echo "Bob,25,Osaka" >> $local_path
echo "Charlie,35,Nagoya" >> $local_path

# ローカルで加工したファイルをオブジェクトストレージへコピー
cp $local_path $object_storage_path
cat $object_storage_path

## ファイル操作
[Databricks Utilities（dbutils）](https://learn.microsoft.com/ja-jp/azure/databricks/dev-tools/databricks-utils) のファイル システム ユーティリティ（dbutils.fs.ls）を使用しファイルを操作します。 

### UC Volume の操作
dbutils.fs.ls("/Volumes/\<catalog-name\>/\<schema-name\>/\<volume-name\>/\<path\>")

In [0]:
volume_path = sample_dataset_path
print("volume_path = " + volume_path)

files = dbutils.fs.ls(volume_path)
display(files)

### ワークスペースファイルの操作（サーバーレスは未サポート）
dbutils.fs.ls("file:/Workspace/Users/\<user-name\>/\<path\>")

In [0]:
username = spark.sql("SELECT current_user()").collect()[0][0]
workspace_files_path = f"file:/Workspace/Users/{username}/"
print("workspace_files_path = " + workspace_files_path)

files = dbutils.fs.ls(workspace_files_path)
display(files)

### クラウドストレージの操作
dbutils.fs.ls("abfss://\<container-name\>@\<storage-account-name\>.dfs.core.windows.net/\<path\>")

In [0]:
catalog_desc = spark.sql("DESCRIBE CATALOG EXTENDED o9o9dbw")

for row in catalog_desc.collect(): 
  if row["info_name"] == "Storage Root":
    cloud_storage_path = row["info_value"]
    break

print("cloud_storage_path = " + cloud_storage_path)
# 該当の外部ロケーションに対して READ FILES 権限が必要
files = dbutils.fs.ls(cloud_storage_path)
display(files)

### 参考
- [Azure Databricks 上のファイルを操作する](https://learn.microsoft.com/ja-jp/azure/databricks/files/)
- [Databricksのファイルシステムを可能な限りわかりやすく解説](https://qiita.com/taka_yayoi/items/075c6b3aeafac54c8ac4)

## ノートブック間でのコード共有する

ソースコードファイルをモジュールとしてノートブックにインポートすることでコードを共有できます。  

#### 参考
- [Databricks ノートブック間でコードを共有する](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/share-code)

In [0]:
from package.demo import *
print(hello("databricks"))

## ノートブックを通じた共同作業
ノートブックの右肩にある `共有` によって共同作業者へノートブックへのアクセス制御が可能です。

| 能力                                      | 権限なし | 読み取り可能 | 実行可能 | 編集可能 | 管理可能 |
|-------------------------------------------|----------|--------------|----------|----------|----------|
| セルの表示                                |          | x            | x        | x        | x        |
| Comment (コメント)                        |          | x            | x        | x        | x        |
| %run またノートブック ワークフローを使用して実行する |          | x            | x        | x        | x        |
| ノートブックのアタッチとデタッチ          |          |              | x        | x        | x        |
| コマンドの実行                            |          |              | x        | x        | x        |
| セルの編集                                |          |              |          | x        | x        |
| アクセス許可の変更                        |          |              |          |          | x        |

またコメントによって共同作業者とのディスカッションも可能です。

#### 参考
- [Databricks ノートブックを使用して共同作業する](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/notebooks-collaborate)

## ノートブックのインポート・エクスポート
ノートブックは次の形式でインポートやエクスポートが可能です。  
</br><img src="../images/basis.6.png" width="600"/>  

| フォーマット | 解説 |
|----------|----------|
| DBCアーカイブ | 独自のアーカイブファイル |
| ソース ファイル | 拡張子が .scala、.py、.sql、または .r のソース コード ステートメントのみを含むファイル（フォルダの場合は ZIP ファイル） |
| HTML | 拡張子が .html の Azure Databricks ノートブック |
| R Markdown | 拡張子が の .Rmd の R マークダウンファイル |
| IPython | 拡張子が の .ipynb のノートブックファイル |

#### 参考
- [Databricks ノートブックのエクスポートとインポート](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/notebook-export-import)

## ノートブックの UI パラメータ
パラメータを受け取る UI をノートブックに追加します。

#### 参考
- [Databricks ウィジェット](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/widgets)
- [widgets ユーティリティ (dbutils.widgets)](https://learn.microsoft.com/ja-jp/azure/databricks/dev-tools/databricks-utils#dbutils-widgets)

In [0]:
# 下記のコード実行によりノートブックの上部にパラメータを指定する UI が追加されます。
dbutils.widgets.dropdown("state", "CA", ["CA", "IL", "MI", "NY", "OR", "VA"])

In [0]:
dbutils.widgets.get("state")

In [0]:
dbutils.widgets.remove("state")

Jupyter Widgets（ipywidgets）を利用することでインタラクティブな実行をサポートすることもできます。
#### 参考
- [ipywidgets ウィジェット](https://learn.microsoft.com/ja-jp/azure/databricks/notebooks/ipywidgets)
- [Jupyter Widgets（ipywidgets）](https://ipywidgets.readthedocs.io/en/stable/)

In [0]:
import ipywidgets as widgets
from ipywidgets import interact

# Load a dataset
sparkDF = spark.read.csv("/databricks-datasets/bikeSharing/data-001/day.csv", header="true", inferSchema="true")

# In this code, `(bins=(3, 10)` defines an integer slider widget that allows values between 3 and 10.
@interact(bins=(3, 10))
def plot_histogram(bins):
  pdf = sparkDF.toPandas()
  pdf.hist(column='temp', bins=bins)

In [0]:
import ipywidgets as widgets

# Create button widget. Clicking this button loads a sampled dataframe from UC table.
button = widgets.Button(description="Load dataframe sample")

# Output widget to display the loaded dataframe
output = widgets.Output()

def load_sample_df(table_name):
  return spark.sql(f"SELECT * FROM {table_name} LIMIT 1000")

def on_button_clicked(_):
    with output:
      output.clear_output()
      df = load_sample_df('samples.tpch.region')
      print(df.toPandas())

# Register the button's callback function to query UC and display results to the output widget
button.on_click(on_button_clicked)

display(button, output)