# **Import Libraries**

In [4]:
# Import Library Packages
import pandas as pd
import great_expectations as ge
from great_expectations.data_context import FileDataContext

# **Create Data Context**

In [5]:
# Create data context
context = FileDataContext.create(project_root_dir='./')

# **Create Data Source and Asset**

In [6]:
# Create data source
datasource = context.sources.add_pandas('main-datasource')

# Create data asset
path = './data/P2M3_iriel_aureleo_data_clean.csv'
asset = datasource.add_csv_asset('mobile-device-usage', filepath_or_buffer=path)

# Build batch request
batch_request = asset.build_batch_request()

# **Create an Expectation Suite**

In [7]:
# Create an expectation suite
context.add_or_update_expectation_suite('gx_val_suite')

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = 'gx_val_suite'
)

validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,age,attrition,businesstravel,dailyrate,department,distancefromhome,education,educationfield,employeecount,employeenumber,...,relationshipsatisfaction,standardhours,stockoptionlevel,totalworkingyears,trainingtimeslastyear,worklifebalance,yearsatcompany,yearsincurrentrole,yearssincelastpromotion,yearswithcurrmanager
0,41,Yes,Travel_Rarely,1102,Sales,1,2,Life Sciences,1,1,...,1,80,0,8,0,1,6,4,0,5
1,49,No,Travel_Frequently,279,Research & Development,8,1,Life Sciences,1,2,...,4,80,1,10,3,3,10,7,1,7
2,37,Yes,Travel_Rarely,1373,Research & Development,2,2,Other,1,4,...,2,80,0,7,3,3,0,0,0,0
3,33,No,Travel_Frequently,1392,Research & Development,3,4,Life Sciences,1,5,...,3,80,0,8,3,3,8,7,3,0
4,27,No,Travel_Rarely,591,Research & Development,2,1,Medical,1,7,...,4,80,1,6,3,3,2,2,2,2


# **Expectation**

## Expectation 1: to be unique
Validasi Nilai Unik pada Kolom `employeenumber`

In [8]:
validator.expect_column_values_to_be_unique("employeenumber")

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Kolom `employeenumber` berfungsi sebagai identifikasi unik untuk setiap karyawan, mirip seperti Primary Key. Karena setiap karyawan seharusnya hanya memiliki satu baris data, maka nilainya harus unik dan tidak boleh ada duplikat.

Kolom `employeenumber` telah berhasil divalidasi menggunakan expectation `expect_column_values_to_be_unique`, dan menghasilkan status `"success": true`. Dari total 1.470 baris data, tidak ditemukan adanya nilai duplikat maupun nilai kosong, yang ditunjukkan oleh `unexpected_count = 0` dan `missing_count = 0`. Hal ini menunjukkan bahwa seluruh nilai dalam kolom tersebut bersifat unik dan valid, sehingga `employeenumber` dapat digunakan sebagai **kolom identifikasi utama (primary key)** dalam proses analisis dan pipeline data. Validasi ini memastikan integritas data pada level individu karyawan tetap terjaga dan tidak terjadi redundansi.

## Expectation 2: to be between min_value and max_value

Validasi Rentang Umur pada Kolom `age`

In [9]:
validator.expect_column_values_to_be_between(
    column="age", min_value=18, max_value=60
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Kolom `age` menunjukkan usia karyawan. Untuk memastikan tidak ada data anomali, dilakukan validasi agar usia berada dalam rentang 18 hingga 60 tahun, yaitu usia kerja aktif yang wajar pada kebanyakan perusahaan.

Kolom `age` berhasil melewati proses validasi dengan menggunakan expectation `expect_column_values_to_be_between` dalam rentang nilai 18 hingga 60. Seluruh 1.470 baris data memiliki nilai usia yang berada dalam batas yang ditentukan, tanpa ditemukan nilai yang berada di luar rentang maupun nilai kosong. Hasil ini ditunjukkan dengan `unexpected_count = 0` dan `missing_count = 0`, serta status validasi `"success": true`. Artinya, data pada kolom `age` telah memenuhi kriteria kualitas untuk digunakan sebagai variabel numerik yang valid, serta mencerminkan rentang usia kerja yang wajar dalam lingkungan profesional.

## Expectation 3: to be in set

Validasi Kesesuaian Nilai pada Kolom `gender`

In [10]:
validator.expect_column_values_to_be_in_set(
    column="gender", value_set=["Male", "Female"]
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Kolom `gender` hanya boleh berisi dua nilai yang valid, yaitu “Male” dan “Female”. Validasi ini dilakukan untuk memastikan tidak ada kesalahan input atau nilai tak dikenal (seperti typo).

Kolom `gender` berhasil divalidasi menggunakan expectation `expect_column_values_to_be_in_set` dengan nilai yang diizinkan adalah "Male" dan "Female". Hasil validasi menunjukkan bahwa seluruh 1.470 data berada dalam set yang telah ditentukan, tanpa ada nilai yang menyimpang atau kosong (`unexpected_count = 0`, `missing_count = 0`). Dengan status `"success": true`, ini menandakan bahwa data pada kolom `gender` telah terstandarisasi dengan baik dan tidak mengandung kesalahan input seperti typo atau kategori tidak dikenal. Validasi ini penting untuk menjaga konsistensi analisis demografis dan segmentasi berbasis gender dalam laporan HR.

## Expectation 4: to be in type list
Validasi Tipe Data pada Kolom `monthlyincome`

In [11]:
validator.expect_column_values_to_be_of_type(
    column="monthlyincome", type_="int64"
)

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "int64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Kolom `monthlyincome` menunjukkan jumlah pendapatan bulanan dan harus bertipe numerik (integer). Validasi ini penting agar kolom ini bisa digunakan dalam perhitungan statistik dan agregasi tanpa error.

Kolom `monthlyincome` telah divalidasi menggunakan expectation `expect_column_values_to_be_of_type` untuk memastikan bahwa seluruh data pada kolom tersebut bertipe `int64`. Hasil validasi menunjukkan bahwa tipe data yang teramati (`observed_value`) adalah int64, sesuai dengan ekspektasi, dan validasi berhasil dengan status `"success": true`. Validasi ini memastikan bahwa kolom `monthlyincome` dapat digunakan secara aman dalam proses perhitungan numerik seperti agregasi statistik, segmentasi berdasarkan penghasilan, atau analisis regresi, tanpa risiko kesalahan tipe data yang dapat mengganggu proses analitik lanjutan.


## Expectation 5: to be max between

Validasi Batas Maksimum pada Kolom `trainingtimeslastyear`

In [None]:
validator.expect_column_max_to_be_between(
    column="trainingtimeslastyear", min_value=1, max_value=10
)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 6
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Expectation ini digunakan untuk memastikan bahwa nilai maksimum dari jumlah pelatihan yang diikuti karyawan dalam setahun (`trainingtimeslastyear`) berada dalam batas yang wajar, yaitu antara 1 hingga 10 kali. 

Hasil validasi menunjukkan bahwa nilai maksimum berada dalam rentang yang ditentukan, dan validasi berhasil dijalankan dengan status `"success": true"`. Hal ini menandakan bahwa data pelatihan tidak mengandung nilai ekstrem yang mencurigakan dan secara logis sesuai dengan kebijakan pelatihan di perusahaan. Validasi ini penting untuk menjamin akurasi saat melakukan analisis hubungan antara frekuensi pelatihan dan tingkat retensi atau performa karyawan.

## Expectation 6: to match regex

Validasi Format Nilai pada Kolom `over18`

In [13]:
validator.expect_column_values_to_match_regex(
    column="over18", regex="^Y$"
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Kolom `over18` seharusnya hanya berisi nilai "Y" (Yes). Validasi regex memastikan tidak ada nilai selain "Y" yang lolos ke data, misalnya nilai kosong, null, atau typo seperti "YES".

Kolom `over18` divalidasi menggunakan expectation `expect_column_values_to_match_regex` dengan pola ekspresi reguler `^Y$`, yang berarti hanya menerima nilai "Y" secara eksplisit dan tidak mengizinkan variasi lain. Hasil validasi menunjukkan bahwa seluruh 1.470 baris data sesuai dengan pola yang ditentukan, tanpa ada nilai yang menyimpang ataupun kosong (`unexpected_count = 0`, `missing_count = 0`). Status `"success": true"` menegaskan bahwa data dalam kolom ini telah terstandarisasi dengan baik. Validasi ini penting untuk menjaga konsistensi dalam data kategori biner dan mencegah kesalahan logika akibat nilai yang tidak seragam.

## Expectation 7: to be not null

Validasi Ketidakbolehan Nilai Kosong pada Kolom `jobrole`

In [14]:
validator.expect_column_values_to_not_be_null("jobrole")

Calculating Metrics:   0%|          | 0/6 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Expectation ini digunakan untuk memastikan bahwa seluruh baris pada kolom `jobrole` memiliki nilai yang terisi dan tidak terdapat nilai kosong (null). Kolom ini sangat penting karena merepresentasikan posisi atau jabatan karyawan, yang merupakan variabel kunci dalam analisis segmentasi dan perilaku attrition. Hasil validasi menunjukkan bahwa dari total 1.470 baris data, tidak ditemukan nilai kosong (`unexpected_count = 0`), dan validasi berhasil dengan status `"success": true"`. Hal ini menunjukkan bahwa informasi jabatan telah lengkap dan siap digunakan dalam analisis lebih lanjut, termasuk dalam visualisasi peran kerja terhadap tingkat keluar-masuk karyawan.

# **Save Expectation Suite**

In [15]:
# Simpan suite 
validator.save_expectation_suite(discard_failed_expectations=False)

# **Checkpoint**

In [16]:
checkpoint = context.add_or_update_checkpoint(
    name="gx_val_checkpoint",
    validator=validator
)

checkpoint_result = checkpoint.run()

Calculating Metrics:   0%|          | 0/37 [00:00<?, ?it/s]

# **Create Data Docs**

In [17]:
# Buat dokumentasi HTML hasil validasi
context.build_data_docs()

{'local_site': 'file://c:\\Users\\USER\\Documents\\Hacktiv8\\P2\\M3\\p2-ftds027-hck-m3-irielarleo\\gx\\uncommitted/data_docs/local_site/index.html'}

# **Conclution**

Notebook ini digunakan untuk melakukan validasi kualitas data menggunakan **Great Expectations** terhadap dataset `P2M3_iriel_aureleo_data_clean.csv`, yang telah melalui proses pembersihan dan normalisasi sebelumnya. Validasi dilakukan melalui **7 jenis expectation** yang semuanya berhasil dijalankan dengan status `"success": true"`, tanpa ditemukan nilai yang melanggar aturan validasi.

Adapun jenis expectation yang digunakan mencakup:

- **Unik** – untuk memastikan kolom `employeenumber` berfungsi sebagai primary key.

- **Nilai dalam rentang** – untuk memastikan usia (`age`) berada dalam batas usia kerja yang wajar.

- **Nilai dalam set tertentu** – untuk menjamin bahwa nilai `gender` hanya terdiri dari "Male" atau "Female".

- **Tipe data** – untuk memastikan `monthlyincome` bertipe numerik (int64).

- **Batas maksimum nilai** – pada `trainingtimeslastyear`, agar tidak terdapat anomali dalam frekuensi pelatihan.

- **Format nilai dengan regex** – memastikan bahwa kolom `over18` hanya berisi "Y" sebagai bentuk standar.

- **Tidak mengandung nilai kosong** – pada kolom `jobrole`, untuk menjamin kelengkapan informasi jabatan.

Seluruh expectation dipilih agar mencakup beragam aspek validasi (keunikan, rentang, kategori, tipe data, nilai maksimum, format, dan missing value). Dengan hasil validasi yang sukses, dapat disimpulkan bahwa data telah memenuhi standar kualitas.