
---

Program ini dirancang untuk memvalidasi apakah data memenuhi poin-poin ekspektasi yang diharapkan. Library yang digunakan adalah Great Expectations.

---

# import library

In [5]:
# Create a data context

from great_expectations.data_context import FileDataContext

context = FileDataContext.create(project_root_dir='./')

# Connect to A `Datasource`

In [None]:
# Give a name to a Datasource. This name must be unique between Datasources.
datasource_name = 'csv-data'
datasource = context.sources.add_pandas(datasource_name)

# Give a name to a data asset
asset_name = 'Supermarket Sales'
path_to_data = r'C:\Users\asus\Documents\iyan nitip\Hacktiv\Phase 2\Milestone\p2-ftds021-hck-m3-mseptianz\m3\data\P2M3_zamzani_data_raw.csv'
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=path_to_data)

# Build batch request
batch_request = asset.build_batch_request()

# Create an Expectation Suite

In [7]:
# Creat an expectation suite
expectation_suite_name = 'expectation-trip-dataset'
context.add_or_update_expectation_suite(expectation_suite_name)

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)

# Check the validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,Invoice ID,Branch,City,Customer type,Gender,Product line,Unit price,Quantity,Tax 5%,Total,Date,Time,Payment,cogs,gross margin percentage,gross income,Rating
0,750-67-8428,A,Yangon,Member,Female,Health and beauty,74.69,7,26.1415,548.9715,1/5/2019,13:08,Ewallet,522.83,4.761905,26.1415,9.1
1,226-31-3081,C,Naypyitaw,Normal,Female,Electronic accessories,15.28,5,3.82,80.22,3/8/2019,10:29,Cash,76.4,4.761905,3.82,9.6
2,631-41-3108,A,Yangon,Normal,Male,Home and lifestyle,46.33,7,16.2155,340.5255,3/3/2019,13:23,Credit card,324.31,4.761905,16.2155,7.4
3,123-19-1176,A,Yangon,Member,Male,Health and beauty,58.22,8,23.288,489.048,1/27/2019,20:33,Ewallet,465.76,4.761905,23.288,8.4
4,373-73-7910,A,Yangon,Normal,Male,Sports and travel,86.31,7,30.2085,634.3785,2/8/2019,10:37,Ewallet,604.17,4.761905,30.2085,5.3


# Data Dictionary

| Column Name | Description |
|---|---|
| Invoice id | Computer generated sales slip invoice identification number |
| Branch | Branch of supercenter (3 branches are available identified by A, B and C) |
| City | Location of supercenters |
| Customer type | Type of customers, recorded by Members for customers using member card and Normal for without member card |
| Gender | Gender type of customer |
| Product Line | General item categorization groups - Electronic accessories, Fashion accessories, Food and beverages, Health and beauty, Home and lifestyle, Sports and travel |
| Unit price | Price of each product in $ |
| Quantity | Number of products purchased by customer |
| Tax | 5% tax fee for customer buying |
| Date | Date of purchase (Record available from January 2019 to March 2019) |
| Time | Purchase time (10am to 9pm) |
| Payment | Payment used by customer for purchase (3 methods are available – Cash, Credit card and Ewallet) |
| COGS | Cost of goods sold |
| Gross margin percentage | Gross margin percentage |
| Gross income | Gross income |
| Rating | Customer stratification rating on their overall shopping experience (On a scale of 1 to 10) |


# Expectation 

## 1. To be Unique

Fungsi ini digunakan untuk memastikan bahwa setiap nilai dalam kolom Invoice ID adalah unik, artinya tidak ada duplikasi ID. Pengujian ini penting untuk menjaga integritas data, karena ID yang unik biasanya diperlukan untuk memastikan bahwa setiap transaksi atau faktur dapat diidentifikasi secara individual tanpa kebingunguan atau kesalahan pengolahan. Jika ada duplikasi, itu bisa menunjukkan adanya masalah dalam data, seperti kesalahan dalam proses input atau duplikasi transaksi

In [None]:
validator.expect_column_values_to_be_unique('Invoice ID')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## 2. To be between min_value and max_value

Fungsi ini digunakan  untuk memastikan bahwa semua nilai dalam kolom Rating berada dalam rentang yang valid, yaitu antara 4 dan 10. Pengujian ini penting untuk memvalidasi bahwa nilai rating yang diberikan sesuai dengan batasan yang ditentukan, misalnya, jika rating hanya boleh diberikan dalam kisaran nilai 4 hingga 10.

In [26]:
validator.expect_column_values_to_be_between('Rating', 4, 10)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## 3. To be in set
Fungsi ini berguna untuk memastikan bahwa semua nilai dalam kolom ``Gender`` hanya berisi dua pilihan yang valid, yaitu `Female` dan `Male`. Memvalidasi bahwa data dalam kolom tersebut sesuai dengan kategori yang telah ditentukan dan mencegah adanya nilai yang tidak sesuai atau tidak terduga

In [27]:
validator.expect_column_values_to_be_in_set('Gender',['Female','Male'])

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## 4. To be of Type
Fungsi ini digunakan untuk memastikan bahwa semua nilai dalam kolom `Product line` memiliki tipe data yang sesuai, yaitu tipe string (str). Pengujian ini penting untuk memastikan konsistensi tipe data dalam kolom tersebut, yang membantu mencegah kesalahan saat pengolahan atau analisis data

In [28]:
validator.expect_column_values_to_be_of_type('Product line', 'str')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## 5. expect_table_row_count_to_be_between
Fungsi ini digunakan untuk memastikan bahwa jumlah baris dalam tabel berada dalam rentang yang diharapkan, yaitu antara 100 dan 1000 baris. memvalidasi bahwa dataset yang digunakan memiliki ukuran yang sesuai dan tidak terlalu kecil atau terlalu besar. Jika jumlah baris terlalu sedikit, data yang digunakan mungkin tidak representatif atau tidak mencakup seluruh informasi yang diperlukan. Sebaliknya, jika jumlah baris terlalu banyak, ini bisa menunjukkan masalah dengan data yang berlebihan

In [None]:
validator.expect_table_row_count_to_be_between(min_value=100, max_value=1000)

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 1000
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## 6. Distinct values to contain set
Fungs ini digunakan untuk memvalidasi apakah kolom `Payment` mencakup semua nilai unik yang diharapkan dalam sebuah set. Hal ini berguna untuk memastikan kelengkapan kategori data, menjaga konsistensi, dan mencegah kesalahan dalam analisis atau laporan bisnis, serta memastikan bahwa data yang diterima sesuai dengan aturan atau ekspektasi yang ditetapkan.

In [32]:
validator.expect_column_distinct_values_to_contain_set("Payment", {"Ewallet", "Cash", "Credit card"})

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": [
      "Cash",
      "Credit card",
      "Ewallet"
    ],
    "details": {
      "value_counts": [
        {
          "value": "Cash",
          "count": 344
        },
        {
          "value": "Credit card",
          "count": 311
        },
        {
          "value": "Ewallet",
          "count": 345
        }
      ]
    }
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## 7. Value lengths to equal

Fungsi ini berfungsi untuk memastikan bahwa setiap nilai dalam kolom `Invoice ID` memiliki panjang yang konsisten, yaitu 11 karakter. Hal ini penting untuk menjaga integritas data, mencegah kesalahan input, dan memastikan bahwa format data sesuai dengan yang diharapkan.

In [None]:
validator.expect_column_value_lengths_to_equal(column="Invoice ID",  value=11)


Calculating Metrics:   0%|          | 0/9 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

# Check Point

In [41]:
# Create a checkpoint

checkpoint_1 = context.add_or_update_checkpoint(
    name = 'checkpoint_1',
    validator = validator,
)

In [42]:
# Run a checkpoint

checkpoint_result = checkpoint_1.run()

Calculating Metrics: 0it [00:00, ?it/s]

# Data Docs

In [43]:
# Build data docs

context.build_data_docs()

{'local_site': 'file://c:\\Users\\asus\\Documents\\iyan nitip\\Hacktiv\\Phase 2\\Milestone\\p2-ftds021-hck-m3-mseptianz\\m3\\gx\\uncommitted/data_docs/local_site/index.html'}