# Databricks 接続テスト

このNotebookは、ローカル環境からDatabricks Connectを使用してDatabricksクラスターに接続するためのテスト用です。

## トークンの使い分けについて（重要）
社内ポリシーに基づき、本環境（ローカル開発・個人分析）からの接続には**個人用アクセストークン**を使用してください。

> **個人用アクセストークン**
> 個人アクセストークンはTableauDesktopなど個人利用する際にお使いください。
> 複数人で利用、自部以外の人に共有する際の接続方法としては利用しないでください。
>
> **アプリケーション用アクセストークン**
> アプリケーションからDatabricksに接続するためのトークンを発行しています。
> Dashboardでの共有や自分以外の人にデータを共有する際は各ツール内で設定されている接続情報を利用してください。
> (Trocco, Tableau Server等に埋め込まれています)

本Notebookでの検証作業は「個人利用」に該当するため、ご自身で発行したトークンをご利用ください。

## 事前準備
1. `pip install databricks-connect databricks-sdk` が完了していること（requirements.txtに追加済み）
2. Databricksの以下の情報を取得していること
    - **Workspace URL** (例: `https://adb-xxxx.xx.azuredatabricks.net`)
    - **Access Token** (User Settings -> Developer -> Access tokens で生成)
    - **Cluster ID** (Compute -> 各クラスターの詳細 -> More info -> Resource ID ではなく Cluster ID)

In [None]:
import os
from databricks.connect import DatabricksSession
from databricks.sdk.core import Config

# 接続情報を設定してください
# 本番環境や共有環境では環境変数やプロファイル(.databrickscfg)を使用することを推奨しますが、
# 手元のテストではここに直接入力して確認できます。
DATABRICKS_HOST = "https://<your-workspace-url>"
DATABRICKS_TOKEN = "<your-personal-access-token>" # ここには個人用アクセストークンを入力
DATABRICKS_CLUSTER_ID = "<your-cluster-id>"

# 環境変数にセット（Databricks Connectが参照します）
os.environ['DATABRICKS_HOST'] = DATABRICKS_HOST
os.environ['DATABRICKS_TOKEN'] = DATABRICKS_TOKEN
os.environ['DATABRICKS_CLUSTER_ID'] = DATABRICKS_CLUSTER_ID

In [None]:
# Sparkセッションの作成
spark = DatabricksSession.builder.getOrCreate()

print("Spark Session Created Successfully!")

In [None]:
# 簡単なDataFrame操作のテスト
try:
    df = spark.range(10)
    print("Generated DataFrame:")
    df.show()
except Exception as e:
    print(f"Error: {e}")

In [None]:
# SQLクエリのテスト
try:
    # catalogsのリストを取得してみる
    spark.sql("SHOW CATALOGS").show()
except Exception as e:
    print(f"Error: {e}")