# **Expectations**

In [155]:
# Create a data context
from great_expectations.data_context import FileDataContext
context = FileDataContext.create(project_root_dir='./')

Insight : Pertama dibuat `konteks data` pada `Great Expectations` menggunakan fungsi `FileDataContext` guna `mengakses` dan `memanipulasi` data yang digunakan untuk `memvalidasi` kualitasnya. Direktori projek ini disimpan pada `project_root_dir='./'`.

In [156]:
# Give a name to a Datasource. This name must be unique between Datasources.
datasource_name = 'clean_data'
datasource = context.sources.add_pandas(datasource_name)

# Give a name to a data asset
asset_name = 'clean'
path_to_data = 'P2M3_amri_hakim_data_clean.csv'
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=path_to_data)

# Build batch request
batch_request = asset.build_batch_request()

Insight : Memberikan nama pada sumber data yaitu `clean_data` dan nama asetnya adalah `clean` dengan mengambil file `data` CSV yang sudah `clean`. Lalu `batch request` dibangun dari aset yang sudah ditentukan sebelumnya guna `menyiapkan` data untuk dilakukan `validasi` menggunakan `Great Expectations`.

In [157]:
# Creat an expectation suite
expectation_suite_name = 'expectation-data'
context.add_or_update_expectation_suite(expectation_suite_name)

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)

# Check the validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,ordernumber,quantityordered,priceeach,orderlinenumber,sales,orderdate,days_since_lastorder,status,productline,msrp,...,customername,phone,addressline1,city,postalcode,country,contactlastname,contactfirstname,dealsize,id
0,10107,30,95.7,2,2871.0,24/02/2018,828,Shipped,Motorcycles,95,...,Land of Toys Inc.,2125557818,897 Long Airport Avenue,NYC,10022,USA,Yu,Kwai,Small,0
1,10121,34,81.35,5,2765.9,07/05/2018,757,Shipped,Motorcycles,95,...,Reims Collectables,26.47.1555,59 rue de l'Abbaye,Reims,51100,France,Henriot,Paul,Small,1
2,10134,41,94.74,2,3884.34,01/07/2018,703,Shipped,Motorcycles,95,...,Lyon Souveniers,+33 1 46 62 7555,27 rue du Colonel Pierre Avia,Paris,75508,France,Da Cunha,Daniel,Medium,2
3,10145,45,83.26,6,3746.7,25/08/2018,649,Shipped,Motorcycles,95,...,Toys4GrownUps.com,6265557265,78934 Hillside Dr.,Pasadena,90003,USA,Young,Julie,Medium,3
4,10168,36,96.66,1,3479.76,28/10/2018,586,Shipped,Motorcycles,95,...,Technics Stores Inc.,6505556809,9408 Furth Circle,Burlingame,94217,USA,Hirano,Juri,Medium,4


Insight :  Membuat `expectation suite` dengan nama `expectation-data` dan dibuat `validatornya`. Nantinya `validator` ini digunakan untuk `memvalidasi` data menggunakan `Great Expectations`.

In [158]:
# Expectation 1 : Column `id` must be unique

validator.expect_column_values_to_be_unique('id')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 2747,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Insight : Pertama dicek kolom `id` untuk memvalidasi keunikannya menggunakan fungsi Great Expectations `expect_column_values_to_be_unique`. Dan pada `output` menunjukkan sukses dengan nilai `true` artinya values pada kolom `id` merupakan nilai yang `unik`.

In [159]:
# Expectation 2 : Column `priceeach` must be less than $ 4000k and more than $ 10k

validator.expect_column_values_to_be_between(
    column='days_since_lastorder', min_value=10, max_value=4000
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 2747,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Insight : Kedua memvalidasi kolom `days_since_lastorder` menggunakan `expect_column_values_to_be_between`. Fungsi tersebut `memvalidasi` apakah value pada kolom `days_since_lastorder` mempunyai nilai minimal dan nilai maksimal yang sesuai dengan ekspektasi yaitu `min_value=10` dan `max_value=4000`. Dan hasil ekspektasinya adalah `true` bahwa pada kolom tersebut mempunya value minimal `10` dan maksimal `4000`.

In [160]:
# Expectation 3 : Column `status` must contain one of the following 6 things :
# Shipped
# In Process
# On Hold
# Resolved
# Cancelled
# Disputed

validator.expect_column_values_to_be_in_set('status', ['Shipped', 'In Process', 'On Hold', 'Resolved', 'Cancelled', 'Disputed'])

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 2747,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Insight : Ketiga adalah memvalidasi kolom `status` apakah kolom tersebut mempunyai `6 nilai` yang telah ditentukan pada fungsi `expect_column_values_to_be_in_set`. Dan pada hasil yaitu `true`, yang artinya adalah values pada kolom `status` mempunyai keenam nilai yang diekspektasikan.

In [161]:
# Expectation 4 : Column `priceeach` must in form of integer or float

validator.expect_column_values_to_be_in_type_list('priceeach', ['integer', 'float'])

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "float64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Insight : Keempat, memvalidasi `tipe data` pada kolom `priceeach` apakah dia `integer` atau `float` menggunakan fungsi `expect_column_values_to_be_in_type_list`. Pada hasil yaitu `true`, artinya kolom tersebut memiliki tipe data antara `integer` atau `float`. Dalam hal ini, kolom tersebut adalah `float`.

In [162]:
validator.expect_column_values_to_match_strftime_format('orderdate', '%d/%m/%Y')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 2747,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Insight : Kelima, memvalidasi kolom `orderdate` apakah format value pada kolom tersebut sesuai ekspektasi atau tidak menggunakan fungsi `expect_column_values_to_match_strftime_format`. Ekspektasinya adalah `'%d/%m/%Y'`. Maka pada hasil, format pada kolom tersebut sesuai dengan ditunjukkan nilai `true`.

In [163]:
validator.expect_column_mean_to_be_between('sales', min_value=1000, max_value=4000)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 3553.0475828176195
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Insight : Keenam adalah memvalidasi rata-rata values pada kolom `sales` menggunakan fungsi `expect_column_mean_to_be_between`. Diatur `min_value=1000` dan `max_value=4000`. Hasilnya adalah `true` bahwa rata-rata value kolom `sales` memiliki nilai minimal rata-rata `1000` dan nilai maksimal rata-rata `4000`.

In [164]:
validator.expect_column_value_lengths_to_be_between('addressline1', min_value=10, max_value=50)

Calculating Metrics:   0%|          | 0/9 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 2747,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Insight : Ketujuh adalah memvalidasi panjang value pada kolom `addressline1` dengan menggunakan fungsi `expect_column_value_lengths_to_be_between` dan diatur ekspektasi `min_value=10` dan `max_value=50`. Pada hasil yaitu `true` yang mana kolom tersebut mempunyai panjang value minimal `10` dan maksimalnya `50`.

In [165]:
# Save into Expectation Suite

validator.save_expectation_suite(discard_failed_expectations=False)

Insight : `Menyimpan` expectation suite menggunakan fungsi `save_expectation_suite`. Dan pada parameter `discard_failed_expectations=False` guna untuk menyimpan ekspektasi yang `gagal`. 

# **Checkpoint**

In [166]:
# Create a checkpoint

checkpoint_1 = context.add_or_update_checkpoint(
    name = 'checkpoint_1',
    validator = validator,
)

Insight : Membuat `checkpoint` pada `Grat Expectations` dengan parameter nama `checkpoint_1` dan parameter validator yaitu `validator` menggunakan fungsi `add_or_update_checkpoint`.

In [167]:
# Run a checkpoint

checkpoint_result = checkpoint_1.run()

Calculating Metrics:   0%|          | 0/40 [00:00<?, ?it/s]

Insight Melakukan `run` pada `checkpoint_1`.

# **Build Docs**

In [168]:
# Build data docs

context.build_data_docs()

{'local_site': 'file://d:\\Bootcamp DS Hacktiv8\\FTDS\\Phase 2\\M3\\p2-ftds029-rmt-m3-amrihakim9\\gx\\uncommitted/data_docs/local_site/index.html'}

Insight : Melakukan `build` pada `context` yang sudah dibuat untuk `dianalisis` pada `Great Expectations` yang sudah dilakukan. Build ini disimpan pada folder lokal dengan nama `index.html`.