- 概要
- 詳細
- demo
- 気になる部分
- デメリット
- おまけ
--
- Databricks社が運営
- Apache Sparkベースの分析サービス
- 最近はAzure版が強い?
- SEOの問題か検索でよく出てくる
--
- Databricks社
- Apache Sparkの開発者が設立
- 現在でも多数の貢献
- Spark関連アプリケーション、ライブラリが多数
--
- 環境構築が簡単
- クラスタ作成
- コード書く
- 実行
- spark configや環境変数は設定可能
- クラスタの状態やログなどを画面表示
--
- Notebook形式
- Python, Scala, R, SQLなどに対応
- コード補完なども少しは
--
- Sparkの最新機能がいち早く使用可能
- MLflow
- Delta Lake
- Notebookの定期実行可能
- APIが充実
--
- 無料版はあるがお試しスペック
- メモリ6GB、インスタンス1、ジョブ実行不可
- EMRの2,3割増し?のお値段
- https://databricks.com/product/aws-pricing/instance-types
- https://aws.amazon.com/jp/emr/pricing/
--
- GUIで追加
- ノートブック上でPythonコードで追加
--
- 叩ける
- 「
%sh
」でいける
- 「
--
- Koalasというライブラリがある
- PandasライクにSparkのDFを触れる
- Databricks製
--
- 日本語が化ける
- 基本的にNotebook形式のみ
- システムへの組み込みは不向き
- クラスタが不安定なことがある
--
- Hiveのテーブルのコメント
- 他のNotebook呼び出しの引数
- ノートブック名(ファイル名)
--
- インポート、エクスポートは可能だがDatabricks上ではNotebookに変換される
--
- ノートブック形式
- 他のノートブック呼び出しが微妙
- 「
%run
」、「dbutils.notebook.run
」を使用 - 引数が文字列のみ
- 「
- Git連携微妙
- 対応策 : databrick-connect
- databricks上のsparkが使用されるようになる
--
- 現場ではたまに重くなりクラスタ再起動を行っている
- 原因は不明
- AWSやノートブック自体が原因の可能性も?
--
- 幾つかChrome拡張あります
- https://chrome.google.com/webstore/search/databricks?hl=ja
--