# Great expectations (GE) 初體驗

官網: https://greatexpectations.io/

![](images/ge_overview.png)

要使用`great_expections`首先得先安裝這個模組:
    
```python
pip install great_expections
```



## 步驟

### Step1. 載入 great_expectations

In [None]:
import great_expectations as ge

### Step2. 加載一些數據

讓我們使用titanic的數據來進行學習。

In [None]:
my_df = ge.read_csv("data/titanic.csv")

print(my_df.info())
print(my_df.head())

`ge.read_csv()`方法的行為與`pandas.read_csv()`完全相同。其他Pandas IO的方法也有類似wrapper版本(read_excel，read_table，read_parquet，read_pickle，read_json等等）。

當然你也可以將Pandas的Dataframe物件轉換成GE的Dataframe物件:

In [None]:
import pandas as pd

pd_df = pd.read_csv("data/titanic.csv")
print(type(pd_df))

# convert to great_expectation dataframe
ge_df = ge.from_pandas(pd_df)

print(type(ge_df))

print(ge_df.info())

print(ge_df.head())

以上的手法會將Pandas的`DataFrame`轉換為great_expectations新`PandasDataset`物件。除了`PandasDataset`物件可以訪問**Great Expectations**的方法外，這兩個類別是完全相同的。

### Step3. 探索數據並添加對它的期望`expectation`

Great Expections的模組預先設定了許多`Expectation`的類別可以幫助用來驗證資料集Dataset裡頭的資料是否符合**預期**。

這些`Expectation`可以被分類為:

> 想要了解每一個expection的使用方法, 請查閱官網: [Glossary of Expectations](https://docs.greatexpectations.io/en/latest/reference/glossary_of_expectations.html)

#### Table shape (驗證資料集的型狀)

* expect_column_to_exist: 欄位是否存在
* expect_table_columns_to_match_ordered_list: 資料集的欄位排列順序是否符合預期
* expect_table_columns_to_match_set: 資料集的欄位集是否符合預期
* expect_table_row_count_to_be_between: 資料集的筆數是否在某個預期的筆數區間, 比如 1000 ~ 5000
* expect_table_row_count_to_equal: 資料集的總筆數是否與預期的一樣
* expect_table_row_count_to_equal_other_table: 資料集的總筆數與別一個資料集是否一致

#### Missing values, unique values, and types (驗證內容值、獨特值與資料型別)

* expect_column_values_to_be_unique: 欄位裡頭的值是否都是相同的值
* expect_column_values_to_not_be_null: 欄位裡頭的值是否都不為null值
* expect_column_values_to_be_null: 欄位裡頭的值是否為null值
* expect_column_values_to_be_of_type: 預期欄位的值是否為指定數據類型
* expect_column_values_to_be_in_type_list: 預期欄位的值是否為指定數據類型列表裡的數據類型

#### Sets and ranges (數字集合與區間)

* expect_column_values_to_be_in_set: 預期欄位的值是否都在指定的值集中
* expect_column_values_to_not_be_in_set: 預期欄位的值是否都不在指定的值集中
* expect_column_values_to_be_between: 預期欄位的值會落在特定的值區間內
* expect_column_values_to_be_increasing: 預期欄位的值會遞增
* expect_column_values_to_be_decreasing: 預期欄位的值會遞減

#### String matching (字串模式檢查)

* expect_column_value_lengths_to_be_between: 預期欄位的值的字串長度是否指定的值區間內
* expect_column_value_lengths_to_equal: 預期欄位的值的字串長度是否指定的長度
* expect_column_values_to_match_regex: 預期欄位的值吻合指定的regular expression
* expect_column_values_to_not_match_regex: 預期欄位的值不吻合指定的regular expression
* expect_column_values_to_match_regex_list: 預期欄位的值吻合指定的regular expression列表
* expect_column_values_to_not_match_regex_list: 預期欄位的值不吻合指定的regular expression列表
* expect_column_values_to_match_like_pattern: 預期欄位的值吻合指定的like pattern
* expect_column_values_to_not_match_like_pattern: 預期欄位的值不吻合指定的like pattern
* expect_column_values_to_match_like_pattern_list: 預期欄位的值吻合指定的like pattern列表
* expect_column_values_to_not_match_like_pattern_list: 預期欄位的值不吻合指定的like pattern列表

#### Datetime and JSON parsing (日期/時間與JSON的解析)

* expect_column_values_to_match_strftime_format: 預期欄位的值吻合指定的strftime的格式
* expect_column_values_to_be_dateutil_parseable: 預期欄位的值可以被dateutil模組所解析
* expect_column_values_to_be_json_parseable: 預期欄位的值可以被JSON所解析
* expect_column_values_to_match_json_schema: 預期欄位的值符合指定的JSON schema

#### Aggregate functions (聚合檢查)

* expect_column_distinct_values_to_be_in_set: 預期欄位內distinct後的值是否都在指定的值集中
* expect_column_distinct_values_to_contain_set: 預期欄位內distinct後的值是否有包含指定的值集
* expect_column_distinct_values_to_equal_set: 預期欄位內distinct後的值是否與指定的值集相同
* expect_column_mean_to_be_between: 預期欄位的值的平均數會落在特定的值區間內
* expect_column_median_to_be_between: 預期欄位的值的中位數會落在特定的值區間內
* expect_column_quantile_values_to_be_between: 預期欄位的值的分位數會落在特定的值區間內
* expect_column_stdev_to_be_between: 預期欄位的值的標準差會落在特定的值區間內
* expect_column_unique_value_count_to_be_between:預期欄位的獨特值的筆數會落在特定的值區間內
* expect_column_proportion_of_unique_values_to_be_between: 預期欄位的獨特值的比率會落在特定的比率區間內
* expect_column_most_common_value_to_be_in_set: 預期欄位內多數常見值是否都在指定的值集中
* expect_column_max_to_be_between: 預期欄位的值的最大數值會落在特定的值區間內
* expect_column_min_to_be_between: 預期欄位的值的最小數值會落在特定的值區間內
* expect_column_sum_to_be_between: 預期欄位的值的總合值會落在特定的值區間內

#### Multi-column (多欄位檢驗)

* expect_column_pair_values_A_to_be_greater_than_B: 預期欄位A的值比欄位B的值大
* expect_column_pair_values_to_be_equal: 預期兩個欄位的值是相等的
* expect_column_pair_values_to_be_in_set: 預期欄位A的值與欄位B的值會在指定的值集中
* expect_select_column_values_to_be_unique_within_record: 預期每一筆record都是unique的
* expect_multicolumn_sum_to_equal: 預期多個欄位的加總值會相等
* expect_column_pair_cramers_phi_value_to_be_less_than: 期望column_A中的值獨立於column_B中的值
* expect_compound_columns_to_be_unique: 期望這些列在一起是唯一的

#### Distributional functions (數值分佈檢驗)

expect_column_kl_divergence_to_be_less_than: 預期指定列相對於分區對象的Kulback-Leibler（KL）散度（相對熵）低於提供的閾值
expect_column_bootstrapped_ks_test_p_value_to_be_greater_than: 預期列值的分佈類似於提供的連續分區。
expect_column_chisquare_test_p_value_to_be_greater_than: 預期列值的分佈類似於提供的分類分區。
expect_column_parameterized_distribution_ks_test_p_value_to_be_greater_than: 預期列值的分佈類似於scipy分佈。

在Great Expection的模組中，每個`Expectation`方法名稱都以名稱`expect_`開頭，因此你可以使用自動完成功能快速訪問完整列表：
![](images/expectation_autocomplete.gif)

調用`Expectation`時，Great Expectation將立即根據你的數據對其進行驗證。返回的物件將包含**結果**和**意外值**列表。這種即時反饋可幫助你快速降低非預期的數值，從而消除了在數據探索中的許多猜測。

![](images/expectation_notebook_interactive_loop.gif)

In [None]:
validate_result = my_df.expect_column_values_to_be_in_set("Sex", ["male", "female"])

print(type(validate_result))

print(validate_result)

提示：在大多數情況下都會遇到數據問題，但是我們很難保證100％符合預期。在這些情況下，請考慮使用`mostly`參數。此參數是一個選項，它允許你控制要在數據驗證中內置一些容錯的空間。

![](images/interactive_mostly.gif)

In [None]:
validate_result = my_df.expect_column_values_to_be_in_set("PClass", ["1st", "2nd", "3rd"], mostly=.99)

print(type(validate_result))

print(validate_result)

### Step4. 檢視你的Expectations設定

在Jupyter Notebook中運行Expectations時，`my_df`將建立一個運行中的Expectations列表。預設情況下，`Great Expectations`將識別並替換重複的Expectations，以便僅存儲最新版本的設定。

你可以通過運行以下命令獲取`Great Expectations`的設定文件, 以下的程式碼將會返回一個[`Expection Suite`物件](https://docs.greatexpectations.io/en/latest/reference/core_concepts/expectations/expectations.html#reference-core-concepts-expectations-expectation-suites)。

In [None]:
expection_suite = my_df.get_expectation_suite()

print(type(expection_suite))

print(expection_suite)

預設情況下，`get_expectation_suite()`僅在最近一次驗證時返回帶有`success=True`的`expectation`設定。你可以使用以下方法來調整這個行為：

In [None]:
expection_suite = my_df.get_expectation_suite(discard_failed_expectations=False)

print(type(expection_suite))

print(expection_suite)

### Step5. 保存你的Expectation Suite。

`Expectation Suite`可以序列化為JSON物件，因此你可以像這樣保存`Expectation Suite`：

In [None]:
import json

with open( "my_expectation_config.json", "w") as my_file:
    my_file.write(
        json.dumps(my_df.get_expectation_suite().to_json_dict())
    )

隨著開發更多的Expectation Suite，你可能會需要一種手法來命名和組織它們，更不用說持續利用這些expections規則來與數據進行匹配，進行驗證並跟踪驗證結果。

想要了解更多使用Great Expection的細解, 請詳見官網: [Getting started with Great Expectations – v3 (Batch Request) API](https://docs.greatexpectations.io/en/latest/guides/tutorials/getting_started_v3_api.html)