# Databricksにおけるライブラリの取り扱い

本ノートブックでは、Databricksにおけるライブラリの形態及び利用方法をご説明します。

<table>
  <tr><th>作者</th><th>Databricks Japan</th></tr>
  <tr><td>日付</td><td>2021/02/10</td></tr>
  <tr><td>バージョン</td><td>1.0</td></tr>
  <tr><td>クラスター</td><td>7.4ML</td></tr>
</table>
<img style="margin-top:25px;" src="https://sajpstorage.blob.core.windows.net/workshop20210205/databricks-logo-small-new.png" width="140">

[Libraries — Databricks Documentation](https://docs.databricks.com/libraries/index.html)

## Databricksにおけるライブラリの形態

Databricksにおいては、以下の3つのライブラリの形態があります。

1. ワークスペースライブラリ
2. クラスターライブラリ
3. ノートブックスコープライブラリ

### 1. ワークスペースライブラリ

ワークスペースライブラリは、後述するクラスターライブラリをインストールする際にローカルのリポジトリとして動作します。お客様固有のカスタムライブラリを保持したり、環境を標準化する目的で特定バージョンのライブラリを保持するために用いられます。

ノートブックやジョブで使用する前にワークスペースライブラリをインストールしておく必要があります。

`Shared`フォルダにあるワークスペースライブラリは、ワークスペースの全ユーザから利用できます。一方、ユーザーフォルダ内のワークスペースライブラリは、そのユーザーからのみ利用可能です。

#### ワークスペースライブラリの作成

1. Workspace上で、Create > Libraryを選択します。<br>
![](https://docs.databricks.com/_images/create-library.png)

2. ダイアログが表示されますので、ライブラリソースに従って設定します。<br>
![](https://docs.databricks.com/_images/select-library-aws.png)

PyPIの場合、`<library>==<version>`という形式で、バージョン番号を指定できます。

### 2. クラスターライブラリ

クラスターライブラリは、クラスター上で動作する全てのノートブックで利用できるライブラリです。クラスターライブラリはPyPIやMavenなどから直接インストールすることもできますし、上述のワークスペースライブラリからインストールすることも可能です。

#### クラスターライブラリのインストール

クラスターライブラリをインストールするには以下の2つの選択肢があります。

1. 既にインストールされているワークスペースライブラリからクラスターにインストールする
2. 特定のクラスターにのみライブラリをインストールする

**注意** クラスターにライブラリをインストールする際、クラスターにノートブックがアタッチされていると、当該のノートブックからライブラリが参照できない場合があります。その場合には、ノートブックのdetach/attachを行なってください。

#### ワークスペースライブラリからのインストール

**注意** Databricks Runtime 7.2以降では、ワークスペースライブラリからクラスターにインストールされた順にライブラリが処理されます。ライブラリ間に依存関係がある場合には、クラスターにインストールする順番に注意してください。

インストールは、クラスターUIもしくはライブラリUIから実行することができます。

##### クラスターUIからのインストール

1. サイドバーのClustersアイコン![](https://docs.databricks.com/_images/clusters-icon.png)をクリックします。
2. クラスター名をクリックします
3. **Libraries**タブをクリックします
4. **Install New**をクリックします
5. Library Sourceのボタンから**Workspace**を選択します
6. ワークスペースライブラリを選択します
7. **Install**をクリックします
8. 全てのクラスターにライブラリをインストールする際には、libraryをクリックし、**Install automatically on all clusters**チェックボックスをチェックし、**Confirm**をクリックします

##### ライブラリUIからのインストール

1. ワークスペースライブラリを選択します
2. ライブラリをインストールするクラスターを選択します

### 3. ノートブックスコープライブラリ

ノートブックスコープライブラリは、あなたが実行しているノートブックのセッション内でのみ有効となるライブラリです。ノートブックスコープライブラリは、同じクラスタで動作している他のノートブックには影響を及ぼしません。このライブラリは永続化されず、セッションの都度インストールする必要があります。

ノートブック特有のライブラリが必要な場合に、ノートブックスコープライブラリを使用します。<br>

- **Databricks Runtime ML 6.4以降**においては、`%pip`、`%conda`のマジックコマンドを用いてインストールすることで、ノートブックスコープライブラリとなります。**Databricks Runtime 7.1以降**では、`%pip`を使用します。
- ライブラリユーティリティを用いても、ノートブックスコープライブラリをインストールできますが、`%pip`と互換性が無いことにご注意ください。Databricksでは、`%pip`を使用することを推奨しています。
- ライブラリユーティリティは、**Databricks Runtime**でのみサポートされており、**Databricks ML Runtime**ではサポートされていません。

#### ノートブックスコープライブラリの要件
マジックコマンドによるライブラリのインストールは、Databricks Runtime 7.1、Databricks Runtime 7.1 ML以降でのみサポートされています。

#### ドライバーノードに関する留意点
ノートブックスコープライブラリのインストールは、クラスタ上の全ワーカーノードにライブラリをインストールするため、ドライバーノードにおいて多くのトラフィックが発生する場合があります。10以上のノードを持つクラスターを構成する際には、ドライバーノードが以下のスペックを満たすことをお勧めしています。<br><br>

- 100CPUノードのクラスターの場合、`i3.8xlarge`をお使いください
- 10GPUノードのクラスターの場合、`p2.xlarge`をお使いください

#### `%pip`、`%conda`の使い分け

[Anaconda \| Understanding Conda and Pip](https://www.anaconda.com/blog/understanding-conda-and-pip)

Databricks Runtimeでは、`%pip`を使ってノートブックスコープライブラリをインストールできます。また、Databricks Runtime MLでは、`%pip`に加えて`%conda`を使用することもできます。Databricksでは、特別な理由がない限り`%pip`を使用することを推奨しています。

**注意**
- ノートブックの一番最初に`%pip`、`%conda`を記述してください。`%pip`、`%conda`が実行された後に、ノートブックの内部状態がリセットされます。変数や関数を宣言した後に`%pip`、`%conda`を実行するとそれらは消去されてしまいます。
- 一つのノートブックで`%pip`、`%conda`を混在させなくてはいけない場合には、競合を避けるために以下のリンク先をご一読ください。

[Notebook\-scoped Python libraries — Databricks Documentation](https://docs.databricks.com/libraries/notebooks-python-libraries.html#pip-conda-interactions)

#### `%pip`によるライブラリのインストール

In [0]:
%pip install matplotlib

#### `%pip`によるライブラリのアンインストール

In [0]:
%pip uninstall -y matplotlib

#### インストールされているライブラリの一覧取得

In [0]:
%pip freeze > /dbfs/tmp/requirements.txt

In [0]:
%fs head /tmp/requirements.txt

#### requirementファイルによるライブラリのインストール

In [0]:
# インストールして問題がないかご確認ください
#%pip install -r /dbfs/tmp/requirements.txt

#### `%conda`によるライブラリのインストール

**注意** Anaconda, Inc.は2020年9月に[利用規約](https://www.anaconda.com/terms-of-service)をアップデートしています。新たな利用規約によりcommercial licenseが必要になる場合があります。[こちら](https://www.anaconda.com/blog/anaconda-commercial-edition-faq)で詳細を確認してください。この変更を受けて、Databricks Runtime ML 8.0において、Condaパッケージマネージャのデフォルトチャネル設定を削除しています。`%conda`でライブラリをインストールする際には、利用規約に適合していることを確認の上、チャネルを指定してください。

In [0]:
%conda install boto3 -c conda-forge

#### `%conda`によるライブラリのアンインストール

In [0]:
%conda uninstall boto3

In [0]:
%conda list

#### 環境の保存及び再利用

In [0]:
%conda env export -f /dbfs/tmp/myenv.yml

In [0]:
#%conda env update -f /dbfs/tmp/myenv.yml

### Pythonにおけるライブラリインストールの選択肢

`%conda`は`%pip`と同じように動作しますが、`%conda`におけるURLの指定は`--channel`で行います。

<table>
  <tr><th>Pythonパッケージソース</th><th>`%pip`によるノートブックスコープライブラリ</th><th>ライブラリユーティリティによるノートブックスコープライブラリ</th><th>クラスターライブラリ</th></tr>
  <tr><td>PyPI</td><td>`%pip install`を使用</td><td>`dbutils.library.installPyPI`を使用</td><td>sourceにPyPIを指定</td></tr>
  <tr><td>プライベートPyPI</td><td>`--index-url`オプションとともに`%pip install`を使用</td><td>repoオプションとともに`dbutils.library.installPyPI`を使用</td><td>未サポート</td></tr>
  <tr><td>GitHubのようなVCS</td><td>パッケージ名にリポジトリURLを指定して`%pip install`を使用</td><td>未サポート</td><td>パッケージ名にリポジトリURLを指定してsourceにPyPIを指定</td></tr>
  <tr><td>プライベートVCS</td><td>パッケージ名にリポジトリURL(Basic認証含む)を指定して`%pip install`を使用</td><td>未サポート</td><td>未サポート</td></tr>
  <tr><td>DBFS</td><td>`%pip install`を使用</td><td>`dbutils.library.install(dbfs_path)`を使用</td><td>sourceにDBFS/S3を指定</td></tr>
</table>

## libifyによるカスタムライブラリの利用

ローカルでカスタムライブラリを構築している場合、カスタムライブラリをDatabricksに移行したいというケースが想定されます。その際の手順としては以下の二つがあります。

1. wheelを作成して、ワークスペースライブラリとしてインストール<br>
[Python でパッケージを開発して配布する標準的な方法 \- Qiita](https://qiita.com/propella/items/803923b2ff02482242cd)
2. [libify · PyPI](https://pypi.org/project/libify/)をインストールし、ノートブック間のimportを実現する

ここでは、2の方法をデモで説明します。importされるノートブックは`my_lib/my_module_1`となります。

**注意** libifyで呼び出す・呼び出されるノートブック名に日本語を含めることはできません。

In [0]:
# 事前にlibifyをクラスターライブラリとしてインストールしてください
import libify

In [0]:
# caller
mod1 = libify.importer(globals(), 'my_lib/my_module_1')

In [0]:
mod1.test()

## END