# Introduction

**Milestone 3**

Nama : Khalif Prabowo Santoso

Batch: 029 - HCK

Great Expectations dilakukan untuk memastikan kualitas data tetap konsisten dan sesuai standar yang telah ditentukan sebelum digunakan dalam proses analisis atau pemodelan lebih lanjut. Melalui validasi otomatis, Great Expectations membantu mendeteksi anomali seperti nilai null, tipe data yang tidak sesuai, kolom yang hilang, atau distribusi data yang menyimpang, sehingga meminimalkan risiko kesalahan analisis akibat kualitas data yang buruk.

# Import Libraries

In [49]:
import pandas as pd
import great_expectations as gx
from great_expectations.checkpoint import Checkpoint
from great_expectations.core.batch import RuntimeBatchRequest

# Data Loading

In [50]:
print(gx.__version__)

0.18.19


# Data Loading

In [51]:
# 1. Load the data (clean version) into a Pandas DataFrame
df = pd.read_csv('data/Data_Clean.csv')

# 2. Load the GE context
context = gx.get_context()

# 3. Add a Datasource for Runtime operations (for interactive validator creation)
context.add_or_update_datasource(
    name="runtime_pandas_datasource",
    class_name="Datasource",
    execution_engine={"class_name": "PandasExecutionEngine"},
    data_connectors={
        "default_runtime_data_connector_name": {
            "class_name": "RuntimeDataConnector",
            "batch_identifiers": ["default_identifier_name"]
        }
    }
)

# 4. Define the Expectation Suite name
expectation_suite_name = 'P2M3_Data_Suite_Khalif'

# 5. Add or update the Expectation Suite to the context
context.add_or_update_expectation_suite(expectation_suite_name)

# 6. Create a RuntimeBatchRequest to get a validator from the DataFrame
batch_request_for_validator = RuntimeBatchRequest(
    datasource_name= "runtime_pandas_datasource",
    data_connector_name= "default_runtime_data_connector_name",
    data_asset_name= "P2M3_Data_Khalif", 
    runtime_parameters= {"batch_data": df}, 
    batch_identifiers= {"default_identifier_name": "id"}
)

# 7. Create a validator using the RuntimeBatchRequest and Expectation Suite
validator = context.get_validator(
    batch_request = batch_request_for_validator,
    expectation_suite_name = expectation_suite_name
)

# Validation

## Validation 1 : To Be Unique

In [52]:
# Validator column to be unique
validator.expect_column_values_to_be_unique(column="id")

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 8341,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan Hasilnya:
1. Data Quality: Nilai unexpected_count adalah 0 dan unexpected_percent juga 0.0%, menunjukkan bahwa semua data (8341 elemen) sesuai dengan ekspektasi yang telah didefinisikan. Ini adalah indikator kuat bahwa proses ETL dan pembersihan data efektif.

2. Kelengkapan Data: Nilai missing_count adalah 0 dan missing_percent juga 0.0%, yang berarti tidak ada nilai yang hilang (missing values) dalam data yang divalidasi. Ini memastikan integritas dan kelengkapan dataset.

3. Kesiapan Data: Dengan tidak adanya unexpected values dan missing values, data watchsales yang dihasilkan dari proses ETL berada dalam kondisi 'Clean' dan siap sepenuhnya untuk tahap analisis mendalam serta visualisasi.

4. ETL Effectiveness: Hasil ini secara langsung memvalidasi keberhasilan proyek ETL. Data yang dihasilkan benar-benar "bersih" seperti yang menjadi tujuan utama.

## Validation 2 : To Be Between Min Value And Max Value

In [53]:
validator.expect_column_values_to_be_between(column="price", min_value=1.0, max_value=1900000.0)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 8341,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan Hasilnya:
1. Sudah True (Sudah Sesuai Dengan Rule Yang Dibuat), Yaitu Hasil Value Pada 'Price' Sudah Berada Dalam Min - Max Value.
2. Data Quality: Nilai unexpected_count adalah 0 dan unexpected_percent juga 0.0%, menunjukkan bahwa semua data (8341 elemen) sesuai dengan ekspektasi yang telah didefinisikan. Ini adalah indikator kuat bahwa proses ETL dan pembersihan data efektif.
3. Kelengkapan Data: Nilai missing_count adalah 0 dan missing_percent juga 0.0%, yang berarti tidak ada nilai yang hilang (missing values) dalam data yang divalidasi. Ini memastikan integritas dan kelengkapan dataset.
4. Kesiapan Data: Dengan tidak adanya unexpected values dan missing values, data watchsales yang dihasilkan dari proses ETL berada dalam kondisi 'Clean' dan siap sepenuhnya untuk tahap analisis mendalam serta visualisasi.
5. ETL Effectiveness: Hasil ini secara langsung memvalidasi keberhasilan proyek ETL. Data yang dihasilkan benar-benar "bersih" seperti yang menjadi tujuan utama.

## Validation 3 : To Be In Set

In [54]:
validator.expect_column_values_to_be_in_set("movement", print(df['movement'].unique()))

['Quartz' 'Automatic' 'Manual winding' 'Solar' 'Smartwatch']


Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 8341,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan Hasilnya:
1. Sudah True (Sudah Sesuai Dengan Rule Yang Dibuat), Yaitu Hasil Value Unique Pada 'Movement' Sudah Sesuai Terhadap Data Yang Didefinisikan.
2. Data Quality: Nilai unexpected_count adalah 0 dan unexpected_percent juga 0.0%, menunjukkan bahwa semua data (8341 elemen) sesuai dengan ekspektasi yang telah didefinisikan. Ini adalah indikator kuat bahwa proses ETL dan pembersihan data efektif.
3. Kelengkapan Data: Nilai missing_count adalah 0 dan missing_percent juga 0.0%, yang berarti tidak ada nilai yang hilang (missing values) dalam data yang divalidasi. Ini memastikan integritas dan kelengkapan dataset.
4. Kesiapan Data: Dengan tidak adanya unexpected values dan missing values, data watchsales yang dihasilkan dari proses ETL berada dalam kondisi 'Clean' dan siap sepenuhnya untuk tahap analisis mendalam serta visualisasi.
5. ETL Effectiveness: Hasil ini secara langsung memvalidasi keberhasilan proyek ETL. Data yang dihasilkan benar-benar "bersih" seperti yang menjadi tujuan utama.

## Validation 4 : To Be In Type List

In [55]:
validator.expect_column_values_to_be_in_type_list("price", ["float"])

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "float64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan Hasilnya, Data Sudah Sesuai Dan Dikategorikan Sebagai 'Float'. Sehingga Kolom ini siap digunakan untuk analisis visualisasi numerik, seperti:
1. Distribusi Harga
2. Perhitungan min, max, mean

## Validation 5 : Row Count To Be Between

In [56]:
validator.expect_table_row_count_to_be_between(8341)

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 8341
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Validation 6 : Column Count To Equal

In [57]:
validator.expect_table_column_count_to_equal(11)

Calculating Metrics:   0%|          | 0/3 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 11
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan Hasilnya:
1. Validasi struktur data lolos yaitu benar terdapat 11 Columns 
2. Sehingga: Proses downstream (cleaning, transformasi, visualisasi) aman dari error karena kolom hilang atau berlebih.

## Validation 7 : Table Columns To Match Ordered List

In [58]:
validator.expect_table_columns_to_match_ordered_list(
    column_list=["id", "brand", "movement", "case_material", "bracelet_material", "condition", "scope_of_delivery", "gender", "price", "availability", "watches_sold"]
)

Calculating Metrics:   0%|          | 0/2 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": [
      "id",
      "brand",
      "movement",
      "case_material",
      "bracelet_material",
      "condition",
      "scope_of_delivery",
      "gender",
      "price",
      "availability",
      "watches_sold"
    ]
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan Hasilnya:
1. Columns di dalam tabel memiliki urutan dan nama yang persis seperti yang diharapkan.
2. Tidak ada kolom yang hilang, tidak ada kolom tambahan, dan tidak ada pergeseran posisi.
3. Sehingga Struktur tabel kamu sepenuhnya valid dan sesuai ekspektasi, artinya bisa dilanjutkan ke tahapan analisis atau modeling, tanpa perlu khawatir ada gangguan dari struktur data.

# Validator Save

In [59]:
validator.save_expectation_suite(discard_failed_expectations=False)

Menyimpan semua expectations yang sudah dibuat ke dalam expectation suite di Great Expectations.

# Validation Checkpoint

In [60]:
# 1. Add a Datasource that can read directly from your data files (for Checkpoint)
context.add_or_update_datasource(
    name="file_system_datasource",
    class_name="Datasource",
    module_name="great_expectations.datasource",
    execution_engine={"class_name": "PandasExecutionEngine"},
    data_connectors={
        "default_inferred_data_connector_name": {
            "class_name": "InferredAssetFilesystemDataConnector",
            "base_directory": "data", 
            "default_regex": {
                "pattern": "(.*)\\.csv", 
                "group_names": ["data_asset_name"], 
            },
        }
    },
)

# 2. Define the Checkpoint name
name_check = 'Checkpoint_P2M3'

# 3. Add or update the Checkpoint
checkpoint = context.add_or_update_checkpoint(
    name=name_check,
    validations=[
        {
            "batch_request": {
                "datasource_name": "file_system_datasource", 
                "data_connector_name": "default_inferred_data_connector_name",
                "data_asset_name": "Data_Clean"
            },
            "expectation_suite_name": expectation_suite_name, 
        }
    ],
    action_list=[
        {
            "name": "store_validation_result",
            "action": {"class_name": "StoreValidationResultAction"},
        },
        {
            "name": "update_data_docs",
            "action": {"class_name": "UpdateDataDocsAction"},
        },
    ]
)

In [61]:
# Menjalankan Function Checkpoint Yang Di Define Diatas
checkpoint.run()

Calculating Metrics:   0%|          | 0/25 [00:00<?, ?it/s]

{
  "run_id": {
    "run_name": null,
    "run_time": "2025-08-04T20:14:03.342200+07:00"
  },
  "run_results": {
    "ValidationResultIdentifier::P2M3_Data_Suite_Khalif/__none__/20250804T131403.342200Z/bd5ddc1024dfa4fc563b6137c973d6f5": {
      "validation_result": {
        "success": true,
        "results": [
          {
            "success": true,
            "expectation_config": {
              "expectation_type": "expect_column_values_to_be_unique",
              "kwargs": {
                "column": "id",
                "batch_id": "bd5ddc1024dfa4fc563b6137c973d6f5"
              },
              "meta": {}
            },
            "result": {
              "element_count": 8341,
              "unexpected_count": 0,
              "unexpected_percent": 0.0,
              "partial_unexpected_list": [],
              "missing_count": 0,
              "missing_percent": 0.0,
              "unexpected_percent_total": 0.0,
              "unexpected_percent_nonmissing": 0.0,
     

Semua hasil pemeriksaan di atas menunjukkan bahwa validasi yang telah disimpan berhasil, artinya validasi untuk dataset yang telah dibersihkan ini berhasil.

# Data Docs

In [62]:
# Build Data Docs
context.build_data_docs()

{'local_site': 'file:///var/folders/ct/s2wc2gy11hj_h3hfr7l8v3nh0000gn/T/tmp89jzf7jp/index.html'}

In [63]:
# Open Data Docs
context.open_data_docs()

# Conclusion

Berdasarkan Hasil Semua Validasi:
1. Terlihat Sudah True.
2. Dimulai Dari:
- Validation 1: Column To be Unique - Success
- Validation 2: Column To Be Between Min Value And Max Value - Success
- Validation 3: Column To Be In Set - Success
- Validation 4: Column To Be In Type List - Success
- Validation 5: Column Row Count To Be Between - Success
- Validation 6: Column Count To Equal - Success
- Validation 7: Column To Match Ordered List - Success
3. Hasil Ini Bisa Dibuktikan Dengan Hasil Docs Yang Sudah Di Screeshot Kedalam P2M3_Khalif_GX_Result