# PySpark によるデータ品質に関する処理の開発実践

1. データ品質概要
2. PySpark(Python) によるデータ品質処理方法
3. データ品質処理の実績

## 1. データ品質概要

### 1-1. データ品質とは

データ品質とは、業務の現実を適切に反映されたデータを利用者のニーズを満たす程度。複数の定義があるが、データの利用時の要求を満たすことができるかが共通の観点のようである。

データ品質を、DMBOK を出版している DAMA では次のように定義されている。

> data quality <br>
> The degree to which data is accurate, complete, timely, consistent with all requirements and business rules, and relevant for a given use.

引用元：The DAMA Dictionary of Data Management, 2nd Edition:

> データ品質 <br>
> データが正確で、完全で、タイムリーで、すべての要件とビジネスルールと一致しており、特定の用途に関連している度合い。

上記の翻訳

DMBOK 2nd では次のような記述がある。

> データ品質の度合いはデータ利用者の期待と要求を満たす度合いである。

引用元：データマネジメント知識体系ガイド 第二版 第13章 データ品質 1.3 本質的な概念


SQuaRE（Systems and software Quality Requirements and Evaluation）では、次のように定義されている。

> 明示された条件下で使用するとき、明示されたニーズ及び暗黙のニーズをデータの特性が満足する度合い

引用元：JIS X 25012 ソフトウェア製品の品質要求及び評価（ＳＱｕａＲＥ）－データ品質モデル

### 1-2. データ品質の方法論

データ品質の方法論を、チーム、ドメイン、グローバルなどの組織の規模に関わらず、次のように実施。

- データ品質方針の策定を行い、優先順位が高いデータに対してデータ品質保証を、データ品質保証をプロジェクトとしてではなく、継続的な業務として実施する。
- データ品質SLAやデータの認証を定めることで、組織内でのデータ品質に対するコンセンサスを得て、3M（ムリ・ムダ・ムラ）を取り除きながら、データオーナーと共にデータ品質保証を依頼する。
- 組織のあるべき姿を成熟度モデル評価軸に落とし込み、その成熟度モデルに照らし合わせながら組織の改革改善に取り組む。


データ品質問題を発生させる原因は次のようなものがあり、データ品質ソリューションのITシステム導入のみでの対応できないことに注意が必要。

-   リーダーシップの欠如
-   システム設計
-   データ入力プロセス
-   データ処理機能
-   問題の修復

データ品質に関する参考となるリンク集であるが、データ品質に関わる際には、概論に関する記事を読んだうえでデータマネジメント協会日本支部の資料をベースに実践していくことが推奨。

- 概論
  - [データ ガバナンスの概要 - Cloud Adoption Framework](https://docs.microsoft.com/ja-jp/azure/cloud-adoption-framework/scenarios/cloud-scale-analytics/govern)
  - [データ品質 - Cloud Adoption Framework](https://docs.microsoft.com/ja-jp/azure/cloud-adoption-framework/scenarios/cloud-scale-analytics/govern-data-quality)
  - [標準ガイドライン群 | 政府CIOポータル](https://cio.go.jp/guides)
    - データ品質管理ガイドブック
- 方法論
  - [データマネジメント協会 日本支部 データ品質分科会 成果物](https://www.dama-japan.org/PublishedMaterials.html)
    - DAMAJ_DQM_ワークシート_Ver2.0
    - DQMワークシートVer2.0_チュートリアル
- データ品質方針
  - [Data Quality - Stichting Dama (dama-nl.org)](https://www.dama-nl.org/data_quality/)
  - [Uber's Journey Toward Better Data Culture From First Principles | Uber Blog](https://www.uber.com/en-US/blog/ubers-journey-toward-better-data-culture-from-first-principles/)
  - [Data Quality Policy Data Management Wiki](https://datamanagement.wiki/data_management/data_quality/data_quality_policy)
  - [データ コントラクト - Cloud Adoption Framework | Microsoft Docs](https://docs.microsoft.com/ja-jp/azure/cloud-adoption-framework/scenarios/cloud-scale-analytics/architectures/data-contracts)
- データ監視
  - [データの監視 - Cloud Adoption Framework](https://docs.microsoft.com/ja-jp/azure/cloud-adoption-framework/scenarios/cloud-scale-analytics/manage-observability)
  - [Data Quality Monitoring Data Management Wiki](https://datamanagement.wiki/data_management/data_quality/data_quality_monitoring)
- データ品質の改善
  - [Data Cleansing Data Management Wiki](https://datamanagement.wiki/data_management/data_quality/data_cleansing)
- データ品質のメトリック
  - [データ品質メトリック - Cloud Adoption Framework](https://docs.microsoft.com/ja-jp/azure/cloud-adoption-framework/scenarios/cloud-scale-analytics/govern-data-quality#data-quality-metrics)
  - [List of Conformed Dimensions of Data Quality | Conformed Dimensions of Data Quality](http://dimensionsofdataquality.com/alldimensions)
  - [Code for Information Quality 2019 (dama-nl.org)](https://www.dama-nl.org/wp-content/uploads/2020/09/DDQ-Dimensions-of-Data-Quality-Research-Paper-version-1.2-d.d.-3-Sept-2020.pdf)
- 関連書籍
  - [データマネジメント知識体系ガイド 第二版](https://www.amazon.co.jp/データマネジメント知識体系ガイド-第二版-DAMA-International/dp/4296100491)
  - [The Practitioner's Guide to Data Quality Improvement (oreilly.com)](https://learning.oreilly.com/library/view/the-practitioners-guide/9780123737175/)
  - [Executing Data Quality Projects (oreilly.com)](https://learning.oreilly.com/library/view/executing-data-quality/9780123743695/)

### 1-3. データ品質のメトリック

データ品質のメトリックを整理する際には、SQuaRE が参考になる。下記表では、`JIS X 25012 ソフトウェア製品の品質要求及び評価（ＳＱｕａＲＥ）－データ品質モデル` に記載されている データ品質特性、および、定義を引用している。

| 番号 | データ品質特性   | データ品質特性（英語） | 定義                                                         |
| ---- | ---------------- | ---------------------- | ------------------------------------------------------------ |
| 1    | 正確性           | Accuracy               | 特定の利用状況において，意図した概念又は事象の属性の真の値を正しく表現する属性をデータがもつ度合い。 |
| 2    | 完全性           | Completeness           | 実体に関連する対象データが，特定の利用状況において，全ての期待された属性及び関係する実体インスタンスに対する値をもつ度合い。 |
| 3    | 一貫性           | Consistency            | 特定の利用状況において，矛盾がないという属性及び他のデータと首尾一貫しているという属性をデータがもつ度合い。 |
| 4    | 信ぴょう（憑）性 | Credibility            | 特定の利用状況において，利用者によって真（実）で信頼できるとみなされる属性をデータがもつ度合い。 |
| 5    | 最新性           | Currentness            | 特定の利用状況において，データが最新の値である属性をもつ度合い。 |
| 6    | アクセシビリティ | Accessibility          | 特に，幾つかの障害が原因で，支援技術又は特別の機器構成を必要とする人々が，特定の利用状況において，データにアクセスできる度合い。 |
| 7    | 標準適合性       | Compliance             | 特定の利用状況において，データ品質に関係する，規格，協定又は規範，及び類似の規則を遵守する属性をデータがもつ度合い。 |
| 8    | 機密性           | Confidentiality        | 特定の利用状況において，承認された利用者によってだけ利用でき，解釈できることを保証する属性をデータがもつ度合い。 |
| 9    | 効率性           | Efficiency             | 特定の利用状況において，適切な量及び種類の資源を使用することによって処理することができ，期待された水準の性能を提供できる属性をデータがもつ度合い。 |
| 10   | 精度             | Precision              | 正確な属性，又は特定の利用状況において弁別を提供する属性をデータがもつ度合い。 |
| 11   | 追跡可能性       | Traceability           | 特定の利用状況において，データへのアクセス及びデータに実施された変更の監査証跡を提供する属性をデータがもつ度合い。 |
| 12   | 理解性           | Understandability      | 利用者がデータを読み，説明することができる属性で，特定の利用状況において，適切な言語，シンボル及び単位で表現された属性をデータがもつ度合い。 |
| 13   | 可用性           | Availability           | 特定の利用状況において，承認された利用者及び／又はアプリケーションがデータを検索できる属性をデータがもつ度合い。 |
| 14   | 移植性           | Portability            | 特定の利用状況において，既存の品質を維持しながら，データを一つのシステムから他のシステムに実装したり，置き換えたり，移動したりできる属性をデータがもつ度合い。 |
| 15   | 回復性           | Recoverability         | 特定の利用状況において，故障発生の場合でさえ，明示された水準の操作及び品質を継続し，維持することを可能にする属性をデータがもつ度合い。 |


データ品質特性にデータ品質評価方法（データ品質測定量の名称）を対応させることで、ソフトウェアでの実装につながる。データ品質評価方法に対して、ソフトウェアでの実装方法（例えば、Great Expectations を用いる場合には、利用する Expectations）を合わせて検討。

| データ品質特性   | データ品質評価方法（データ品質測定量の名称）                              |
| ---------------- | ------------------------------------------------------------ |
| 正確性           | 業務モデルとデータ仕様書に基づいたカラムの値の正確性の確認   |
| 正確性           | データ仕様書と実際のデータに基づいたカラムの値の正確性の確認 |
| 正確性           | ソースシステムの承認                                         |
| 正確性           | 区切りテキストファイルからデータ読み込み可否の確認           |
| 正確性           | JSONファイルからデータ読み込み可否の確認                     |
| 正確性           | XMLファイルからデータ読み込み可否の確認                      |
| 正確性           | NULL値の割合の確認                                           |
| 正確性           | 他データセットとの結合可否データ割合の確認                   |
| 正確性           | データの妥当性の確認                                         |
| 完全性           | カラムの値の完全性の確認                                     |
| 完全性           | データの網羅性の確認                                         |
| 一貫性           | 一意性制約（大文字と小文字の区別なし）の検証                 |
| 一貫性           | 一意性制約（大文字と小文字の区別あり）の検証                 |
| 一貫性           | 参照整合性（外部キー制約）の検証                             |
| 一貫性           | ソースシステムとのデータの一致の確認                         |
| 一貫性           | 集計値と想定値の比較による確認                               |
| 一貫性           | 母集団の比較による確認                                       |
| 一貫性           | 時系列での比較による確認                                     |
| 一貫性           | データプロファイリングに基づいた一貫性の確認                 |
| 信ぴょう（憑）性 | データオーナーの有無の確認                                   |
| 信ぴょう（憑）性 | データのSLAの確認                                            |
| 信ぴょう（憑）性 | データのトレーサビリティの確認                               |
| 信ぴょう（憑）性 | データリネージによる確認                                     |
| 信ぴょう（憑）性 | データのライフサイクルの確認                                 |
| 最新性           | 最新性の確認                                                 |
| 最新性           | データ連携処理情報の可視化                                   |
| アクセシビリティ | アクセシビリティの確認                                       |
| アクセシビリティ | データ取得の容易性の確認                                     |
| アクセシビリティ | データ利用の即時性の確認                                     |
| アクセシビリティ | データへのアクセス認証の可否の確認                           |
| アクセシビリティ | データへのアクセス権限付与の可否の確認                       |
| アクセシビリティ | データ蓄積期間の確認                                         |
| 標準適合性       | 標準適合性の確認                                             |
| 標準適合性       | ドメイン制約（チェック制約）の検証                           |
| 標準適合性       | 非NULL制約の検証                                             |
| 標準適合性       | スキーマの一致の確認                                         |
| 標準適合性       | データの型と桁数を確認                                       |
| 標準適合性       | データ型の変換可否の確認                                     |
| 機密性           | 機密性の確認                                                 |
| 機密性           | コンプライアンス遵守の確認                                   |
| 効率性           | 効率性の確認                                                 |
| 精度             | データの精度の妥当性確認                                     |
| 精度             | データの桁数の確認                                           |
| 精度             | データの粒度の確認                                           |
| 追跡可能性       | 追跡可能性の確認                                             |
| 理解性           | 理解性の確認                                                 |
| 可用性           | 可用性の確認                                                 |
| 移植性           | 移植性の確認                                                 |
| 回復性           | 回復性の確認                                                 |


規制によりデータ品質要件が求められる場合がある。製薬業界ではデータインテグリティ（Data integrity）の確保が求められており、データの品質要件としてALCOA+の原則（次表の項目）が定義されている。

| 用語            | 用語_ja-jp |
| --------------- | ---------- |
| Attributable    | 帰属性     |
| Legible         | 判読性     |
| Contemporaneous | 同時性     |
| Original        | 原本性     |
| Accurate        | 正確性     |
| Complete        | 完全性     |
| Consistent      | 一貫性     |
| Enduring        | 不朽性     |
| Available       | 利用可能性 |

参考書籍、および、参考リンク

-   [Q&Aで学ぶデータインテグリティ　第2版](https://www.jiho.co.jp/shop/list/detail/tabid/272/pdid/53876/Default.aspx)
-   [データインテグリティ対応　～データの不正・改ざんを防ぐために～ | アジレント・テクノロジー株式会社 (chem-agilent.com)](https://www.chem-agilent.com/contents.php?id=1005557)
-   [データインテグリティの確立 | アジレント・テクノロジー株式会社 (chem-agilent.com)](https://www.chem-agilent.com/contents.php?id=1005713)


特定の協会や社団法人などの組織により公開されている情報が参考になることもある。IoT領域におけるセンシングデータのデータ品質の指標が、一般社団法人データ社会推進協議会により、次のような品質測定量が[センシングデータのデータ品質評価基準策定に向けた提案](https://data-society-alliance.org/survey-research/data-quality-evaluation-standards/)にて公開されている。

| 区分       | 番号 | デバイス依存の品質測定量 | 説明                                                         |
| ---------- | ---- | ------------------------ | ------------------------------------------------------------ |
| 設計情報   | ①    | デバイスの情報           | デバイスに入力された物理量(光、音など)の計測原理、処理方式等の把握レベル |
|            | ②    | 故障のしにくさ           | デバイスの稼働レベル                                         |
|            | ③    | 耐久性                   | 寿命部品の低下レベル                                         |
|            | ④    | セキュリティの対策       | セキュリティ対策の実施レベル                                 |
|            | ⑤    | 通信の安定性             | 通信が途絶、遅延なく動作するレベル                           |
| 設置・調整 | ⑥    | 設置方法の適切さ         | 条件にあった適切な設置の実施レベル                           |
| 運用・保守 | ⑦    | システムの安定稼働       | 安定稼働の計画レベル                                         |
|            | ⑧    | システムの環境監視       | 設置状況の把握レベル                                         |
|            | ⑨    | アップデートの適切さ     | 適切なソフトウェアバージョンの運用レベル                     |

引用元：[センシングデータのデータ品質評価基準策定に向けた提案 - 一般社団法人データ社会推進協議会](https://data-society-alliance.org/wp-content/uploads/2022/01/220118-D69-sensing-data-quality-evaluation-standards-wp-tecst.pdf)

## 2. PySpark(Python) によるデータ品質処理方法

Spark(+Delta Lake)にてデータ品質保証を行うには、次のような方法がある。

1. Delta Lake の機能を利用する方法
2. PySpark によるデータ品質処理を実施する方法
3. Python ライブラリを利用する方法
4. Spark プロバイダーの機能を利用する方法

データエンジニアリング時にデータ品質要件を満たさないデータが含まれる場合には、次の対応方法がある。データエンジニアリング後のデータを利用するシステム（ダウンストリーム）へのデータ提供が実施されないような仕組みが必要。

- 無効なレコードを保持
- 無効なレコードを分割
- エラー終了

Python ライブラリを用いる方法では、下記のライブラリがある。

1. Great Expectations

その他Python ライブラリには次のものがあるが、2022年8月17日時点で、利用する上での懸念事項があり。

| #    | ライブラリ | 懸念事項                                                     |
| ---- | ---------- | ------------------------------------------------------------ |
| 1    | Deequ      | Scala でのみ動作すること                                     |
| 2    | PyDeequ    | 開発のサイクルが Deequ より遅く、Spark の最新バージョンへ対応がされない可能性があること |
| 3    | pandera    | 開発のロードマップが不明確            |


データ品質を確認する際によく利用する下記の項目値を、Spark では、[DESCRIBE TABLE - Spark 3.3.0 Documentation (apache.org)](https://spark.apache.org/docs/latest/sql-ref-syntax-aux-describe-table.html) の実行結果から取得することができる。

- テーブルの行
- データ型
- 平均サイズ
- 最小値
- 最大値
- 個別の値の数
- Null 値の数


Spark 以外のデータソースの統計情報を取得する方法が、Denodo 社のドキュメントが参考になる。

- [ビューの統計情報の収集 — Virtual DataPort 管理ガイド (denodo.com)](https://community.denodo.com/docs/html/browse/8.0/jp/vdp/administration/optimizing_queries/cost-based_optimization/gathering_the_statistics_of_views#tables-statements-or-functions-executed-by-virtual-dataport-to-obtain-statistics)

Spark プロバイダーの機能を利用する方法では、次の方法がある。

**1. Databicks の Delta Live Table における expectations（データ品質チェック）機能**

参考リンク

- [Delta Live Tables を使用してデータ品質を管理する - Azure Databricks | Microsoft Learn](https://learn.microsoft.com/ja-jp/azure/databricks/workflows/delta-live-tables/delta-live-tables-expectations)

## 3. データ品質処理の実績

### 3-1. Delta Lake の機能を利用する方法

Delta Lake では、データ品質に関する次の機能が利用できる。

- Delta Lake で利用可能な機能
  - 制約
    - Delta Lake による機能
      - 利用可能
        - [NOT NULL 制約](https://docs.delta.io/latest/delta-constraints.html#not-null-constraint)
        - [CHECK 制約](https://docs.delta.io/latest/delta-constraints.html#check-constraint)
      - 利用不可（2022年8月1日時点）
        - 一意性制約
        - 主キー制約
        - 参照整合性制約
      - Databricks Unity Catalogで実施可能
        - [一意性制約](https://docs.microsoft.com/ja-jp/azure/databricks/spark/latest/spark-sql/language-manual/sql-ref-syntax-ddl-create-table-constraint#parameters)
        - [主キー制約](https://docs.microsoft.com/ja-jp/azure/databricks/spark/latest/spark-sql/language-manual/sql-ref-syntax-ddl-create-table-constraint#parameters)

  - データ型の検証
    - [スキーマの適用](https://docs.delta.io/latest/delta-batch.html#schema-validation)
- Databricks でのみ利用可能な機能
  - データへの権限付与
    - [動的ビュー関数](https://docs.microsoft.com/ja-jp/azure/databricks/security/access-control/table-acls/object-privileges#dynamic-view-functions) を利用


参考リンク

- [Announcing Delta 2.0: Bringing Everything to Open Source - The Databricks Blog](https://www.databricks.com/jp/blog/2022/06/30/open-sourcing-all-of-delta-lake.html)
- [Delta Lake Roadmap | Delta Lake](https://delta.io/roadmap/)

### 3-2. PySpark によるデータ品質処理を実施する方法

PySpark によるデータ品質処理を行うために、次の手順を実。

1. データ品質検証を実施
2. エラーレコードのデータフレームを作成
3. データ品質検証内容のカラムを追加

Databricks でのデータ品質処理の実施例が次のリンクにて紹介されている。

- [Automating Data Quality Processes at Reckitt – Databricks](https://www.databricks.com/jp/session_na21/automating-data-quality-processes-at-rb)
- [GitHub - richchad/data_quality_databricks: Examples of metadata driven SQL processes implemented in Databricks](https://github.com/richchad/data_quality_databricks)

#### 1. 一意性制約の検証の実践

In [0]:
# id 列で一意性違反のデータフレームを作成
data = [
    {'id': 1, 'name': 'a', 'age': 10},
    {'id': 1, 'name': 'b', 'age': 20},
    {'id': 3, 'name': 'c', 'age': 30},
]

tgt_df = spark.createDataFrame(data)

tgt_df.display()

age,id,name
10,1,a
20,1,b
30,3,c


In [0]:
# 1. データ品質検証を実施
# 指定したカラムの値で集計したレコード数が１件を超えるカラム値のデータフレームを取得
from pyspark.sql.functions import count, col, lit

unique_cols = [
    'id',
    #     'name',
]

duplicated_col_values_df = (
    tgt_df.groupBy(unique_cols)
    .agg(count(lit(1)).alias("_duplicte_count"))
    .where(col("_duplicte_count") > 1)
    .drop('_duplicte_count')
)

# エラーレコードの存在チェックによりデータ品質検証結果を確認
print(duplicated_col_values_df.count() == 0)
duplicated_col_values_df.display()

id
1


In [0]:
# 2. エラーレコードのデータフレームを作成
# 重複しているレコードを保持したデータフレームを取得
dupliated_data_df = tgt_df.join(duplicated_col_values_df, unique_cols, 'inner')
dupliated_data_df.display()

id,age,name
1,10,a
1,20,b


In [0]:
# 3. データ品質検証内容のカラムを追加
# エラーレコードのデータフレームに、データ品質検証内容を保持した`_data_quality_check_conditions`列を追加
from pyspark.sql.functions import array, struct

values = [
    lit('check_unique_key_constraint').alias('dq_check_name'),
    lit(False).alias('is_succeeded'),
    array([lit(col) for col in unique_cols]).alias('dq_check_cols'),
]


dq_checked_df = dupliated_data_df.withColumn(
    '_data_quality_check_conditions',
    array(struct(values)),
)

dq_checked_df.display()

id,age,name,_data_quality_check_conditions
1,10,a,"List(List(check_unique_key_constraint, false, List(id)))"
1,20,b,"List(List(check_unique_key_constraint, false, List(id)))"


In [0]:
# 補足
# ２つ以上の検証結果を付与したい場合には、`array_union`を利用する
from pyspark.sql.functions import array_union

values = [
    lit('add_test').alias('dq_check_name'),
    lit(False).alias('is_succeeded'),
    array([lit(col) for col in unique_cols]).alias('dq_check_cols'),
]


tgt_df_columns = dq_checked_df.columns
if '_data_quality_check_conditions' in tgt_df_columns:
    dq_checked_df_2 = dq_checked_df.withColumn(
        '_data_quality_check_conditions',
        array_union(
            col('_data_quality_check_conditions'),
            array(struct(values)),
        ),
    )

dq_checked_df_2.display()

id,age,name,_data_quality_check_conditions
1,10,a,"List(List(check_unique_key_constraint, false, List(id)), List(add_test, false, List(id)))"
1,20,b,"List(List(check_unique_key_constraint, false, List(id)), List(add_test, false, List(id)))"


### 3-3. Python ライブラリを利用する方法

#### 1. Great Expectations による方法

##### Great Expectations とは

Great Expectations (GE) とは、データに対する検証、ドキュメント化、および、プロファイリングにより、データ品質の保証と改善を支援する OSS の Python ライブラリである。


GE に関する基本的な記事として、次の記事が公開されている。

| #    | 記事                                                       | 概要                   |
| ---- | ------------------------------------------------------------ | ---------------------- |
| 1    | [Welcome](https://docs.greatexpectations.io/docs/)           | 概要                   |
| 2    | [Getting started with Great Expectations](https://docs.greatexpectations.io/docs/tutorials/getting_started/tutorial_overview) | チュートリアル         |
| 3    | [Glossary of Terms](https://docs.greatexpectations.io/docs/glossary) | 用語集                 |
| 4    | [Customize your deployment Great Expectations](https://docs.greatexpectations.io/docs/reference/customize_your_deployment) | 利用するための考慮事項 |
| 5    | [Explore Expectations](https://greatexpectations.io/expectations/) | Expectation 一覧       |
| 6    | [Community Page • Great Expectations](https://greatexpectations.io/community) | コミュニティ関連       |
| 7    | [Case studies from Great Expectations](https://greatexpectations.io/case-studies/) | ケーススタディ         |



GE を利用する基本的な手順は次のようになっている。データに対する品質保証条件を Expectations として定義に基づき、データソースへの検証を行い、検証結果をドキュメント化することができる。

1. セットアップ
2. データへの接続
3. Expectations の作成
4. データの検証


検証できるデータソースには次のものがある。

- SQLAlchemy 経由によるデータベース
- Pandas Dataframe
- Spark Dataframe

データソースごとに利用できる Expection が異なり、次のドキュメントにて整理されている。

- [Expectation implementations by backend | Great Expectations](https://docs.greatexpectations.io/docs/reference/expectations/implemented_expectations/)

GE を利用する方法として、CLIによる方法とノートブック型環境による方法がある。ノートブック型環境による方法を実施する際には、次のドキュメントが参考となる。

-   [How to instantiate a Data Context without a yml file](https://docs.greatexpectations.io/docs/guides/setup/configuring_data_contexts/how_to_instantiate_a_data_context_without_a_yml_file/)
-   [How to quickly explore Expectations in a notebook | Great Expectations](https://docs.greatexpectations.io/docs/guides/miscellaneous/how_to_quickly_explore_expectations_in_a_notebook/)
-   [How to pass an in-memory DataFrame to a Checkpoint | Great Expectations](https://docs.greatexpectations.io/docs/guides/validation/checkpoints/how_to_pass_an_in_memory_dataframe_to_a_checkpoint/)


データ検証後に、ドキュメントを作成するだけでなく、次のような [Action](https://docs.greatexpectations.io/docs/terms/action) を設定可能。

-   [How to trigger Email as a Validation Action](https://docs.greatexpectations.io/docs/guides/validation/validation_actions/how_to_trigger_email_as_a_validation_action)
-   [How to collect OpenLineage metadata using a Validation Action](https://docs.greatexpectations.io/docs/guides/validation/validation_actions/how_to_collect_openlineage_metadata_using_a_validation_action)
-   [How to trigger Opsgenie notifications as a Validation Action](https://docs.greatexpectations.io/docs/guides/validation/validation_actions/how_to_trigger_opsgenie_notifications_as_a_validation_action)
-   [How to trigger Slack notifications as a Validation Action](https://docs.greatexpectations.io/docs/guides/validation/validation_actions/how_to_trigger_slack_notifications_as_a_validation_action)
-   [How to update Data Docs after validating a Checkpoint](https://docs.greatexpectations.io/docs/guides/validation/validation_actions/how_to_update_data_docs_as_a_validation_action)

**Greate Exceptions を利用するための事前準備**

**1. Great Expectations のインストール**

In [0]:
%pip install great_expectations -q

**2. データ（データフレーム）の準備**

In [0]:
schema = '''
`VendorID` INT,
`tpep_pickup_datetime` TIMESTAMP,
`tpep_dropoff_datetime` TIMESTAMP,
`passenger_count` INT,
`trip_distance` DOUBLE,
`RatecodeID` INT,
`store_and_fwd_flag` STRING,
`PULocationID` INT,
`DOLocationID` INT,
`payment_type` INT,
`fare_amount` DOUBLE,
`extra` DOUBLE,
`mta_tax` DOUBLE,
`tip_amount` DOUBLE,
`tolls_amount` DOUBLE,
`improvement_surcharge` DOUBLE,
`total_amount` DOUBLE,
`congestion_surcharge` DOUBLE
'''

src_files = [
    "/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-01.csv.gz",
    #     "/databricks-datasets/nyctaxi/tripdata/yellow/yellow_tripdata_2019-02.csv.gz",
]

tgt_df = (
    spark.read.format("csv").schema(schema).option("header", "true").option("inferSchema", "false").load(src_files)
)

##### 基本的なデータ品質検証の実施

次の記事を参考にしている。

- [How to Use Great Expectations in Databricks | Great Expectations](https://docs.greatexpectations.io/docs/deployment_patterns/how_to_use_great_expectations_in_databricks/)

**Great Expectations のセットアップ**

In [0]:
import datetime

from ruamel import yaml

import great_expectations as ge
from great_expectations.core.batch import RuntimeBatchRequest
from great_expectations.data_context import BaseDataContext
from great_expectations.data_context.types.base import (
    DataContextConfig,
    FilesystemStoreBackendDefaults,
)

In [0]:
# 検証結果を永続的に保存する場合には、`/dbfs`ディレクトリに配置すること
root_directory = "/tmp/great_expectations"
root_directory_in_spark_api = f"file:{root_directory}"

In [0]:
# root_directory の初期化
dbutils.fs.rm(root_directory_in_spark_api, True)

try:
    # ディレクトリを確認
    display(dbutils.fs.ls(root_directory_in_spark_api))
except:
    print('Directory is empty.')

In [0]:
# Great expectaions 利用時のエントリーポイントである Data Context を定義
# https://docs.greatexpectations.io/docs/terms/data_context/

# great_expectations.yml を参照せずに定義を実施
data_context_config = DataContextConfig(
    store_backend_defaults=FilesystemStoreBackendDefaults(root_directory=root_directory),
)
context = BaseDataContext(project_config=data_context_config)

# 利用状況の情報共有を提供を停止
# https://docs.greatexpectations.io/docs/reference/anonymous_usage_statistics/
context.anonymous_usage_statistics.enabled = False

In [0]:
# ディレクトリを確認
display(dbutils.fs.ls(root_directory_in_spark_api))

path,name,size,modificationTime
file:/tmp/great_expectations/expectations/,expectations/,4096,1664967160455
file:/tmp/great_expectations/profilers/,profilers/,4096,1664967160467
file:/tmp/great_expectations/uncommitted/,uncommitted/,4096,1664967160459
file:/tmp/great_expectations/checkpoints/,checkpoints/,4096,1664967160463


**データへの接続**

In [0]:
datasource_name = "taxi_datasource"
dataconnector_name = "databricks_df"
data_asset_name = "nyctaxi_tripdata_yellow_yellow_tripdata"
tgt_deploy_env = "prod"

In [0]:
datasource_config = {
    # データソースを定義
    # https://docs.greatexpectations.io/docs/terms/datasource
    "name": datasource_name,
    "class_name": "Datasource",
    # execution_engine を定義
    # https://docs.greatexpectations.io/docs/terms/execution_engine/
    "execution_engine": {
        "module_name": "great_expectations.execution_engine",
        "class_name": "SparkDFExecutionEngine",
    },
    # データコネクターを定義
    # https://docs.greatexpectations.io/docs/terms/data_connector/
    "data_connectors": {
        dataconnector_name: {
            "module_name": "great_expectations.datasource.data_connector",
            "class_name": "RuntimeDataConnector",
            "batch_identifiers": [
                "some_key_maybe_pipeline_stage",
                "some_other_key_maybe_run_id",
            ],
        }
    },
}
context.add_datasource(**datasource_config)

In [0]:
batch_request = RuntimeBatchRequest(
    datasource_name=datasource_name,
    data_connector_name=dataconnector_name,
    data_asset_name=data_asset_name,
    batch_identifiers={
        "some_key_maybe_pipeline_stage": tgt_deploy_env,
        "some_other_key_maybe_run_id": f"my_run_name_{datetime.date.today().strftime('%Y%m%d')}",
    },
    runtime_parameters={"batch_data": tgt_df},
)

**Expectations を作成**

In [0]:
expectation_suite_name = "nyctaxi_tripdata_yellow_yellow_tripdata"

In [0]:
context.create_expectation_suite(
    expectation_suite_name=expectation_suite_name,
    overwrite_existing=True,
)

In [0]:
# expectations にファイルが作成されたことを確認
expectations_file_path = f'{root_directory_in_spark_api}/expectations/{expectation_suite_name}.json'
print(dbutils.fs.head(expectations_file_path))

In [0]:
# Validator
# https://docs.greatexpectations.io/docs/terms/validator
validator = context.get_validator(
    batch_request=batch_request,
    expectation_suite_name=expectation_suite_name,
)

# exception を追加する際に検証を実施しないように設定
validator.interactive_evaluation = False

In [0]:
# exception を追加
_ = validator.expect_column_values_to_not_be_null(
    column="passenger_count",
)

_ = validator.expect_column_values_to_be_between(
    column="congestion_surcharge",
    min_value=0,
    max_value=1000,
    meta={
        "notes": {"format": "markdown", "content": "Example notes about this expectation. **Markdown** `Supported`."}
    },
)

_ = validator.expect_column_values_to_be_between(
    column="passenger_count",
    min_value=0,
    max_value=1000,
)

In [0]:
# expectations を保存
validator.save_expectation_suite(discard_failed_expectations=False)

In [0]:
# expectations がファイルに追記されたことを確認
print(dbutils.fs.head(expectations_file_path))

**データの検証**

In [0]:
checkpoint_config_name = "nyctaxi_tripdata_yellow_yellow_tripdata__checkpoint"

In [0]:
# チェックポイントを定義
checkpoint_config = {
    "name": checkpoint_config_name,
    "config_version": 1,
    "class_name": "SimpleCheckpoint",
    "expectation_suite_name": expectation_suite_name,
    "run_name_template": "%Y%m%d-%H%M%S-yctaxi_tripdata_yellow_yellow_tripdata",
}
context.add_checkpoint(**checkpoint_config)

In [0]:
# checkpoints にファイルが作成されたことを確認
checkpoints_file_path = f'{root_directory_in_spark_api}/checkpoints/{checkpoint_config_name}.yml'
print(dbutils.fs.head(checkpoints_file_path))

In [0]:
checkpoint_result = context.run_checkpoint(
    checkpoint_name=checkpoint_config_name,
    validations=[
        {
            "batch_request": batch_request,
            "expectation_suite_name": expectation_suite_name,
        }
    ],
)

In [0]:
# uncommitted/validations にディレクトリが作成されたことを確認
checkpoints_file_path = f'{root_directory_in_spark_api}/uncommitted/validations/{expectation_suite_name}'
display(dbutils.fs.ls(checkpoints_file_path))

# uncommitted/data_docs/local_site にファイルとディレクトリが作成されたことを確認
checkpoints_file_path = f'{root_directory_in_spark_api}/uncommitted/data_docs/local_site'
display(dbutils.fs.ls(checkpoints_file_path))

path,name,size,modificationTime
file:/tmp/great_expectations/uncommitted/validations/nyctaxi_tripdata_yellow_yellow_tripdata/20221005-105243-yctaxi_tripdata_yellow_yellow_tripdata/,20221005-105243-yctaxi_tripdata_yellow_yellow_tripdata/,4096,1664967233484


path,name,size,modificationTime
file:/tmp/great_expectations/uncommitted/data_docs/local_site/expectations/,expectations/,4096,1664967233636
file:/tmp/great_expectations/uncommitted/data_docs/local_site/index.html,index.html,34478,1664967234624
file:/tmp/great_expectations/uncommitted/data_docs/local_site/validations/,validations/,4096,1664967233748
file:/tmp/great_expectations/uncommitted/data_docs/local_site/static/,static/,4096,1664967233756


**検証結果を確認**

In [0]:
# 品質チェック結果を表示
checkpoint_result["success"]

In [0]:
# 品質チェック結果の HTML ファイルをを表示
first_validation_result_identifier = checkpoint_result.list_validation_result_identifiers()[0]
first_run_result = checkpoint_result.run_results[first_validation_result_identifier]

docs_path = first_run_result['actions_results']['update_data_docs']['local_site']

html = dbutils.fs.head(
    docs_path,
)

displayHTML(html)

Unnamed: 0,Unnamed: 1
Evaluated Expectations,3
Successful Expectations,3
Unsuccessful Expectations,0
Success Percent,100%

Unnamed: 0,Unnamed: 1
Great Expectations Version,0.15.26
Run Name,20221005-105243-yctaxi_tripdata_yellow_yellow_tripdata
Run Time,2022-10-05T10:52:43Z

Unnamed: 0,Unnamed: 1
ge_load_time,20221005T105243.905665Z

Unnamed: 0,Unnamed: 1
batch_data,SparkDataFrame
data_asset_name,nyctaxi_tripdata_yellow_yellow_tripdata

Status,Expectation,Observed Value
,values must be greater than or equal to 0 and less than or equal to 1000.,0% unexpected

Status,Expectation,Observed Value
,values must never be null.,100% not null
,values must be greater than or equal to 0 and less than or equal to 1000.,0% unexpected


##### 品質エラーがある場合の動作検証

In [0]:
# エラーとなる expectation を追加
validator.expect_column_values_to_not_be_null(
    column="congestion_surcharge",
)

validator.save_expectation_suite(discard_failed_expectations=False)

In [0]:
checkpoint_result = context.run_checkpoint(
    checkpoint_name=checkpoint_config_name,
    validations=[
        {
            "batch_request": batch_request,
            "expectation_suite_name": expectation_suite_name,
        }
    ],
)

In [0]:
# 品質チェック結果のを表示
checkpoint_result["success"]

In [0]:
# 品質チェック結果の HTML ファイルをを表示
first_validation_result_identifier = checkpoint_result.list_validation_result_identifiers()[0]
first_run_result = checkpoint_result.run_results[first_validation_result_identifier]

docs_path = first_run_result['actions_results']['update_data_docs']['local_site']

html = dbutils.fs.head(
    docs_path,
)

displayHTML(html)

Unnamed: 0,Unnamed: 1
Evaluated Expectations,4
Successful Expectations,3
Unsuccessful Expectations,1
Success Percent,75%

Unnamed: 0,Unnamed: 1
Great Expectations Version,0.15.26
Run Name,20221005-105355-yctaxi_tripdata_yellow_yellow_tripdata
Run Time,2022-10-05T10:53:55Z

Unnamed: 0,Unnamed: 1
ge_load_time,20221005T105355.828468Z

Unnamed: 0,Unnamed: 1
batch_data,SparkDataFrame
data_asset_name,nyctaxi_tripdata_yellow_yellow_tripdata

Status,Expectation,Observed Value
Sampled Unexpected Values,Unnamed: 1_level_1,Unnamed: 2_level_1
,values must be greater than or equal to 0 and less than or equal to 1000.,0% unexpected
,values must never be null.  4855978 unexpected values found. ≈63.33% of 7667792 total rows.  Sampled Unexpected Values  null,≈36.67% not null
Sampled Unexpected Values,,
,,

Sampled Unexpected Values
""

Status,Expectation,Observed Value
,values must never be null.,100% not null
,values must be greater than or equal to 0 and less than or equal to 1000.,0% unexpected


##### データプロファイリング

次の記事を参考にしている。

- [Great Expectation on Databricks. Run great_expectations on the hosted… | by Probhakar | Medium](https://probhakar-95.medium.com/great-expectation-on-databricks-8777042e00de)

In [0]:
from great_expectations.profile.basic_dataset_profiler import BasicDatasetProfiler
from great_expectations.dataset.sparkdf_dataset import SparkDFDataset
from great_expectations.render.renderer import *
from great_expectations.render.view import DefaultJinjaPageView

In [0]:
basic_dataset_profiler = BasicDatasetProfiler()

In [0]:
# creating GE wrapper around spark dataframe
from great_expectations.dataset.pandas_dataset import PandasDataset

gdf = PandasDataset(tgt_df.limit(1000).toPandas())

下記のコードにより、spark データフレームでも実行できるか、パフォーマンスに課題あり。

```python
from great_expectations.dataset.sparkdf_dataset import SparkDFDataset
gdf = SparkDFDataset(
    tgt_df
    .limit(1000)
)

print(gdf.spark_df.count())
gdf.spark_df.display()
```

In [0]:
# データを確認
print(gdf.count())
gdf.head()

Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge
0,1,2019-01-01 00:46:40,2019-01-01 00:53:20,1,1.5,1,N,151,239,1,7.0,0.5,0.5,1.65,0.0,0.3,9.95,
1,1,2019-01-01 00:59:47,2019-01-01 01:18:59,1,2.6,1,N,239,246,1,14.0,0.5,0.5,1.0,0.0,0.3,16.3,
2,2,2018-12-21 13:48:30,2018-12-21 13:52:40,3,0.0,1,N,236,236,1,4.5,0.5,0.5,0.0,0.0,0.3,5.8,
3,2,2018-11-28 15:52:25,2018-11-28 15:55:45,5,0.0,1,N,193,193,2,3.5,0.5,0.5,0.0,0.0,0.3,7.55,
4,2,2018-11-28 15:56:57,2018-11-28 15:58:33,5,0.0,2,N,193,193,2,52.0,0.0,0.5,0.0,0.0,0.3,55.55,


In [0]:

from great_expectations.profile.basic_dataset_profiler import BasicDatasetProfiler

# データをプロファイリング
expectation_suite, validation_result = gdf.profile(BasicDatasetProfiler)

In [0]:
from great_expectations.render.renderer import (
    ProfilingResultsPageRenderer,
    ExpectationSuitePageRenderer,
)
from great_expectations.render.view import DefaultJinjaPageView

profiling_result_document_content = ProfilingResultsPageRenderer().render(validation_result)
expectation_based_on_profiling_document_content = ExpectationSuitePageRenderer().render(expectation_suite)

In [0]:
profiling_result_document_content

In [0]:
# HTML を生成
profiling_result_HTML = DefaultJinjaPageView().render(profiling_result_document_content)  # type string or str
expectation_based_on_profiling_HTML = DefaultJinjaPageView().render(expectation_based_on_profiling_document_content)

In [0]:
displayHTML(profiling_result_HTML)

Unnamed: 0,Unnamed: 1
Number of variables,18
Number of observations  expect_table_row_count_to_be_between,1000
Missing cells,5.56%

Unnamed: 0,Unnamed: 1
int,6
float,9
string,1
datetime,2
bool,0
unknown,0

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,2
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.2%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,870
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,87.0%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Minimum  expect_column_min_to_be_between,.2f
Maximum  expect_column_max_to_be_between,.2f

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,896
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,89.6%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Minimum  expect_column_min_to_be_between,.2f
Maximum  expect_column_max_to_be_between,.2f

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,7
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.7%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,365
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,36.5%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
0.05  expect_column_quantile_values_to_be_between,0.46
Q1  expect_column_quantile_values_to_be_between,1.0
Median  expect_column_quantile_values_to_be_between expect_column_median_to_be_between,1.88
Q3  expect_column_quantile_values_to_be_between,3.58
0.95  expect_column_quantile_values_to_be_between,8.9

Unnamed: 0,Unnamed: 1
Mean  expect_column_mean_to_be_between,2.9
Minimum  expect_column_min_to_be_between,0.0
Maximum  expect_column_max_to_be_between,31.57

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,3
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.3%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,2
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.2%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%
Leading or trailing whitespace (n),0

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,79
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,7.9%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
0.05  expect_column_quantile_values_to_be_between,48
Q1  expect_column_quantile_values_to_be_between,113
Median  expect_column_quantile_values_to_be_between expect_column_median_to_be_between,161
Q3  expect_column_quantile_values_to_be_between,236
0.95  expect_column_quantile_values_to_be_between,262

Unnamed: 0,Unnamed: 1
Mean  expect_column_mean_to_be_between,163.7
Minimum  expect_column_min_to_be_between,4.0
Maximum  expect_column_max_to_be_between,264.0

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,118
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,11.8%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
0.05  expect_column_quantile_values_to_be_between,41
Q1  expect_column_quantile_values_to_be_between,100
Median  expect_column_quantile_values_to_be_between expect_column_median_to_be_between,162
Q3  expect_column_quantile_values_to_be_between,236
0.95  expect_column_quantile_values_to_be_between,263

Unnamed: 0,Unnamed: 1
Mean  expect_column_mean_to_be_between,161.6
Minimum  expect_column_min_to_be_between,4.0
Maximum  expect_column_max_to_be_between,265.0

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,4
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.4%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,84
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,8.4%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
0.05  expect_column_quantile_values_to_be_between,4.0
Q1  expect_column_quantile_values_to_be_between,6.5
Median  expect_column_quantile_values_to_be_between expect_column_median_to_be_between,9.5
Q3  expect_column_quantile_values_to_be_between,15.5
0.95  expect_column_quantile_values_to_be_between,29.5

Unnamed: 0,Unnamed: 1
Mean  expect_column_mean_to_be_between,12.54
Minimum  expect_column_min_to_be_between,-2.5
Maximum  expect_column_max_to_be_between,82.5

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,3
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.3%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,2
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.2%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,190
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,19.0%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
0.05  expect_column_quantile_values_to_be_between,0.0
Q1  expect_column_quantile_values_to_be_between,0.0
Median  expect_column_quantile_values_to_be_between expect_column_median_to_be_between,1.26
Q3  expect_column_quantile_values_to_be_between,2.46
0.95  expect_column_quantile_values_to_be_between,5.35

Unnamed: 0,Unnamed: 1
Mean  expect_column_mean_to_be_between,1.71
Minimum  expect_column_min_to_be_between,0.0
Maximum  expect_column_max_to_be_between,25.0

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,3
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.3%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,2
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,0.2%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,300
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,30.0%
Missing (n)  expect_column_values_to_not_be_null,0
Missing (%)  expect_column_values_to_not_be_null,0.0%

Unnamed: 0,Unnamed: 1
0.05  expect_column_quantile_values_to_be_between,6.3
Q1  expect_column_quantile_values_to_be_between,8.8
Median  expect_column_quantile_values_to_be_between expect_column_median_to_be_between,12.36
Q3  expect_column_quantile_values_to_be_between,19.1
0.95  expect_column_quantile_values_to_be_between,37.55

Unnamed: 0,Unnamed: 1
Mean  expect_column_mean_to_be_between,15.7
Minimum  expect_column_min_to_be_between,-3.8
Maximum  expect_column_max_to_be_between,83.8

Unnamed: 0,Unnamed: 1
Distinct (n)  expect_column_unique_value_count_to_be_between,--
Distinct (%)  expect_column_proportion_of_unique_values_to_be_between,--
Missing (n)  expect_column_values_to_not_be_null,1000
Missing (%)  expect_column_values_to_not_be_null,100.0%


##### リソースのクリーンアップ

In [0]:
dbutils.fs.rm(root_directory_in_spark_api, True)