# Introduction

Nama : Bagas Distyo Utomo

Batch : RMT-41

Di notebook ini saya akan melakukan data validasi dengan menggunakan Great Expectation pada data sales Nike yang sudah dibersihkan sebelumnya. Pertama melakukan instalasi Great Expectation package

# Install Great Expectation Package

In [1]:
# Install the library

!pip install -q "great-expectations==0.18.19"

Setelah diinstal, selanjutnya membuat data context

# Create Data Context

In [2]:
# Create a data context

from great_expectations.data_context import FileDataContext

context = FileDataContext.create(project_root_dir='./')

Tujuan dari kode tersebut adalah untuk membuat dan menginisialisasi konfigurasi proyek Great Expectations di direktori. Selanjutnya connect ke datasource.

# Connect to a Datasource

In [3]:
# Give a name to a Datasource. This name must be unique between Datasources.
datasource_name = 'milestone3'
datasource = context.sources.add_pandas(datasource_name)

# Give a name to a data asset
asset_name = 'dataclean'
path_to_data = 'https://raw.githubusercontent.com/bagasdistyo/dataset/refs/heads/main/P2M3_bagas_distyo_data_clean.csv'
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=path_to_data)

# Build batch request
batch_request = asset.build_batch_request()

Setelah connect ke datasource, selanjutnya adalah membuat Expectation Suite

# Create Expectation Suite

In [4]:
# Creat an expectation suite
expectation_suite_name = 'expectation-sales-dataset'
context.add_or_update_expectation_suite(expectation_suite_name)

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)

# Check the validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,id,month,region,main_category,sub_category,product_line,price_tier,units_sold,revenue_usd,online_sales_percentage,retail_price
0,1,November,India,Equipment,Bags,Gym Sack,Budget,48356,14506800,73,300
1,2,January,India,Equipment,Accessories,Hats,Budget,9842,2066820,50,210
2,3,October,India,Apparel,Tops,Tech Fleece,Mid-Range,25079,1755530,90,70
3,4,December,Greater China,Footwear,Cricket,Vapor Cricket,Premium,41404,8694840,58,210
4,5,May,Greater China,Equipment,Socks,Performance Socks,Premium,33569,5371040,53,160


Kode tersebut membuat expectation suite bernama 'expectation-sales-dataset' sebagai tempat untuk menyimpan aturan validasi data. Kemudian, membuat validator, yaitu objek yang menghubungkan data (batch_request) dengan expectation suite tersebut, sehingga memungkinkan untuk melakukan analisis dan validasi. Output validator.head() menampilkan preview dari data yang akan divalidasi, dalam hal ini berisi 5 baris pertama dari dataset penjualan.

# Expectation

Selanjutnya saya akan melakukan validasi dengan beberapa expectation, yaitu :
- to be unique
- to be between min_value and max_value
- to be in set
- to be in type list
- column count to be between
- row count to be between
- to be of type

In [6]:
# Expectation 1 : Column `id` must be unique

validator.expect_column_values_to_be_unique('id')




Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_unique",
    "kwargs": {
      "column": "id",
      "batch_id": "milestone3-dataclean"
    },
    "meta": {}
  },
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Di sini saya memeriksa apakah nilai pada kolom id bersifat unik, untuk memastikan tidak ada data yang duplikat. Hasil dari expectation ini menunjukkan success: true, yang berarti semua nilai id bersifat unik. Dengan demikian, tidak ditemukan data duplikat berdasarkan kolom id.

In [8]:
# Expectation 2 : Column `online_sales_percentage	` must be less than 100 percent

validator.expect_column_values_to_be_between(
    column='online_sales_percentage', min_value=0, max_value=100
)




Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_between",
    "kwargs": {
      "column": "online_sales_percentage",
      "min_value": 0,
      "max_value": 100,
      "batch_id": "milestone3-dataclean"
    },
    "meta": {}
  },
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Di sini saya memeriksa apakah nilai pada kolom online_sales_percentage berada dalam rentang 0 hingga 100, untuk memastikan tidak ada persentase penjualan online yang tidak masuk akal (misalnya di bawah 0% atau lebih dari 100%). Hasilnya menunjukkan success: true, artinya semua nilai berada dalam rentang yang valid. Dengan demikian, data pada kolom tersebut dapat dianggap wajar dan tidak mengandung anomali.

In [16]:
# Expectation 3 : Column `price_tier` must contain one of the following 6 things :
# 1 = Budget
# 2 = Mid-Range
# 3 = Premium


validator.expect_column_values_to_be_in_set('price_tier', ['Budget','Mid-Range','Premium'])




Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_in_set",
    "kwargs": {
      "column": "price_tier",
      "value_set": [
        "Budget",
        "Mid-Range",
        "Premium"
      ],
      "batch_id": "milestone3-dataclean"
    },
    "meta": {}
  },
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Di sini saya memeriksa apakah nilai pada kolom price_tier termasuk dalam salah satu dari tiga kategori yang valid: Budget, Mid-Range, atau Premium. Hasilnya menunjukkan success: true, yang berarti semua nilai dalam kolom price_tier sesuai dengan salah satu dari kategori yang ditentukan. Dengan demikian, tidak ada nilai yang tidak valid atau di luar kategori yang diharapkan pada kolom tersebut.

In [18]:
# Expectation 4 : Column `revenue_usd` must in form of integer or float

validator.expect_column_values_to_be_in_type_list('revenue_usd', ['int64', 'float64'])




Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_in_type_list",
    "kwargs": {
      "column": "revenue_usd",
      "type_list": [
        "int64",
        "float64"
      ],
      "batch_id": "milestone3-dataclean"
    },
    "meta": {}
  },
  "result": {
    "observed_value": "int64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Di sini saya memeriksa apakah nilai pada kolom revenue_usd memiliki tipe data int64 atau float64 dengan menggunakan expect_column_values_to_be_in_type_list. Hasilnya menunjukkan success: true, yang berarti semua nilai pada kolom revenue_usd memiliki tipe data yang sesuai, yaitu int64. Dengan demikian, kolom ini sudah valid sesuai dengan tipe data yang diharapkan, yaitu integer atau float.

In [19]:
# Expectation 5 : Memastikan jumlah kolom dalam tabel berada antara 10 dan 11

validator.expect_table_column_count_to_be_between(min_value=10, max_value=11)




Calculating Metrics:   0%|          | 0/3 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_table_column_count_to_be_between",
    "kwargs": {
      "min_value": 10,
      "max_value": 11,
      "batch_id": "milestone3-dataclean"
    },
    "meta": {}
  },
  "result": {
    "observed_value": 11
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Di sini saya memeriksa apakah jumlah kolom dalam tabel berada antara 10 dan 11, menggunakan expect_table_column_count_to_be_between. Hasilnya menunjukkan success: true, yang berarti jumlah kolom dalam tabel yang diuji adalah 11, yang sesuai dengan rentang yang diharapkan (antara 10 dan 11). Dengan demikian, tabel memiliki jumlah kolom yang valid sesuai dengan ekspektasi.

In [20]:
# Expectation 6 : Memastikan jumlah baris dalam tabel berada antara 1000 dan 2000
validator.expect_table_row_count_to_be_between(min_value=1000, max_value=2000)




Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_table_row_count_to_be_between",
    "kwargs": {
      "min_value": 1000,
      "max_value": 2000,
      "batch_id": "milestone3-dataclean"
    },
    "meta": {}
  },
  "result": {
    "observed_value": 1000
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Di sini saya memeriksa apakah jumlah baris dalam tabel berada antara 1000 dan 2000 menggunakan expect_table_row_count_to_be_between. Hasilnya menunjukkan success: true, yang berarti jumlah baris yang ditemukan dalam tabel adalah 1000, yang berada tepat pada batas minimal yang ditentukan (1000 baris). Dengan demikian, tabel memenuhi ekspektasi jumlah baris yang diinginkan.

In [21]:
# Expectation 7 : Memastikan bahwa nilai dalam kolom 'retail_price' adalah integer
validator.expect_column_values_to_be_of_type('retail_price', 'int64')

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_of_type",
    "kwargs": {
      "column": "retail_price",
      "type_": "int64",
      "batch_id": "milestone3-dataclean"
    },
    "meta": {}
  },
  "result": {
    "observed_value": "int64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Di sini saya memeriksa apakah semua nilai dalam kolom retail_price adalah tipe data integer (lebih spesifiknya int64). Hasilnya menunjukkan success: true, yang berarti semua nilai dalam kolom tersebut sudah sesuai dengan tipe data yang diharapkan, yaitu int64 (integer). Dengan kata lain, tidak ada nilai yang bertipe data selain integer dalam kolom tersebut.

In [22]:
# Save into Expectation Suite

validator.save_expectation_suite(discard_failed_expectations=False)

Setelah menyimpan validator expectation suite, selanjutnya adalah membuat checkpoint

# Create Checkpoint

In [23]:
# Create a checkpoint

checkpoint_1 = context.add_or_update_checkpoint(
    name = 'checkpoint_1',
    validator = validator,
)

In [24]:
# Run a checkpoint

checkpoint_result = checkpoint_1.run()

Calculating Metrics:   0%|          | 0/30 [00:00<?, ?it/s]

Setelah itu, membuat Data Docs untuk mendokumentasikan dan memvisualisasikan hasil dari expectations yang telah dibuat, sehingga memudahkan pemahaman dan pemantauan kualitas data.

In [25]:
# Build data docs

context.build_data_docs()

{'local_site': 'file:///content/gx/uncommitted/data_docs/local_site/index.html'}