# ハンズオンデータの準備

Sparkでワークスペースファイルを読み込むので、サーバレスコンピュートではなく汎用コンピュートを使用。

[ワークスペースファイルとは？ \| Databricks Documentation](https://docs.databricks.com/aws/ja/files/workspace#%E5%88%B6%E9%99%90)

In [0]:
# ハンズオンで使用するカタログとスキーマを指定
catalog_name = "takaakiyayoi_catalog"
schema_name = "agents_lab"

In [0]:
# カタログの作成
spark.sql(f"CREATE CATALOG IF NOT EXISTS {catalog_name}")
spark.sql(f"GRANT USE CATALOG ON CATALOG {catalog_name} TO `account users`")
# スキーマの作成
spark.sql(f"CREATE SCHEMA IF NOT EXISTS {catalog_name}.{schema_name}")
spark.sql(f"GRANT USE SCHEMA, SELECT ON SCHEMA {catalog_name}.{schema_name} TO `account users`")

In [0]:
import os

# ワークスペースファイルとして保存されているCSVを読み込み
cust_service_data_df = spark.read.format("csv").load(f"file:{os.getcwd()}/data/cust_service_data.csv", header=True, inferSchema=True)
policies_df = spark.read.format("csv").load(f"file:{os.getcwd()}/data/policies.csv", header=True, inferSchema=True)
product_docs_df = spark.read.format("csv").load(f"file:{os.getcwd()}/data/product_docs.csv", header=True, inferSchema=True, multiline='true')

display(cust_service_data_df)
display(policies_df)
display(product_docs_df)

# Unity Catalogのテーブルに保存
cust_service_data_df.write.mode("overwrite").saveAsTable(f"{catalog_name}.{schema_name}.cust_service_data")
policies_df.write.mode("overwrite").saveAsTable(f"{catalog_name}.{schema_name}.policies")
product_docs_df.write.mode("overwrite").saveAsTable(f"{catalog_name}.{schema_name}.product_docs")