# Databricks でデータエンジニアリングの実績

## 概要

Databricks でデータエンジニアリングの**実践方法**を学ぶためのコンテンツです。
Databricks **Free Edition** での実行を想定し、次のノートブックで構成されています。

| # | ファイル名                     | 役割 / 目的                                       |
| - | ------------------------- | --------------------------------------------- |
| 1 | 00\_README                | コンテンツの目的・構成、前提条件、実行手順を説明                      |
| 2 | 01\_config                | カタログ名など共通設定・パラメータを一元管理                        |
| 3 | 02\_medalion              | メダリオンアーキテクチャ（Bronze/Silver/Gold）に基づく処理フローの実装例 |
| 4 | 02\_medalion\_data        | 上記処理で使用するサンプルデータの定義・投入                        |
| 5 | 03\_data\_quality\_checks | データ品質チェック（NOT NULL／一意性／型検証 など）の実装例            |


## メダリオンアーキテクチャについて


メダリオンアーキテクチャは、データレイクを **Bronze → Silver → Gold** の3層に分け、段階的にデータの品質と用途適合性を高めていくデータアーキテクチャの設計パターンです。**マルチホップアーキテクチャ**とも呼ばれますが、個人的な意見としては馴染みがあるメダリオンアーキテクチャの方がわかりやすいと感じています。

![alt text](.images/building-data-pipelines-with-delta-lake-120823.png)

出所： [メダリオンアーキテクチャ (medallion architecture) | Databricks](https://www.databricks.com/jp/glossary/medallion-architecture)


## なぜメダリオンアーキテクチャが必要となるのか

日本では「データレイク → DWH → データマート」という三層で語られることが多いですが、これはシステム構成とデータアーキテクチャを同じ軸で扱ってしまい、混乱を招きがちです。私は、データアーキテクチャを再考する機会として、メダリオンアーキテクチャ（Bronze / Silver / Gold）と向き合うべきだと考えています。製品・サービス名はシステムアーキテクチャの話として切り分け、データアーキテクチャでは「どの層のデータか」を主語にする。これにより、「データレイク層はレイク製品でなければならない」「レイク層でDWH製品を使う」といった誤解を避けられます

In [None]:
## メダリオンアーキテクチャの活用方法

企業のデータ環境を **Bronze → Silver → Gold** の3層だけで表現するのは現実的ではありません。そこで私は、この3層を土台にしつつ、さらに細分化した「**詳細レイヤー**」の設計を推奨します。

たとえば **Bronze 層**では、ファイルが配置される最初の段から、最小限のデータ品質を満たす段までを **5つの詳細レイヤー** に分割しています。各レイヤーの流れは、本ディレクトリ同梱のノートブックで体験できます。

![アーキテクチャ概念図](.images/data_arichitecture.png)

詳しくは以下の記事でも解説しています。

* [誰も教えてくれないメダリオンアーキテクチャの デザインメソッド：JEDA データエンジニア分科会 #1 #Python - Qiita](https://qiita.com/manabian/items/57373e833df5b4f65184)

なお、上記のアーキテクチャ図は **Silver / Gold** の細分化を省略していますが、実運用ではこの2層にも適切な詳細レイヤー設計が必要です。細分化を行わないまま便宜的に多くのデータを “Gold” と呼んでしまうと、**ユーザーからの問い合わせ時にどのデータなのかが曖昧になり、確認の手戻り＝コミュニケーションコスト** が増大します。**Silver / Gold の詳細レイヤーは、組織の役割・ガバナンス・提供先（BI、データプロダクト、外部共有など）に合わせて各組織で設計**してください。

![詳細レイヤー例](.images/data.png)


In [None]:
# end