# Milestone 3 - Penjelasan Kode Great Expectations

Nama  : Riko Fadilah Alam

Batch : RMT-043

Dokumen ini menjelaskan alur kerja dari notebook Great Expectations (GX). Tujuannya adalah untuk memvalidasi kualitas dan integritas data yang telah dibersihkan pada dataset (`P2M3_riko_fadilah_data_clean.csv`).



In [1]:
# Import Libraries
import great_expectations as gx
import pandas as pd


In [2]:
# Inisialisasi dan Konfigurasi GX

# Mendapatkan Data Context
context = gx.get_context()

# Menambahkan 'datasource' sebagai sumber data
datasource = context.sources.add_or_update_pandas(name="my_pandas_datasource")

# Menambahkan data asset, yang merujuk ke file data clean untuk divalidasi.
data_asset = datasource.add_csv_asset(
    name="employee_data_asset",
    filepath_or_buffer="P2M3_riko_fadilah_data_clean.csv" 
)

# Membuat Expectation Suite untuk menyimpan expectations yang akan dibuat.
context.add_or_update_expectation_suite(
    expectation_suite_name="milestone3_expectation_suite" 
)
# Membuat validator untuk data asset yang telah dibuat.
validator = context.get_validator(
    batch_request=data_asset.build_batch_request(),
    expectation_suite_name="milestone3_expectation_suite"
)


In [3]:
# Expectation 1: Memastikan semua nilai di kolom 'employeenumber' unik.
validator.expect_column_values_to_be_unique('employeenumber')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Great expectaion berjalan dengan baik tanpa kesalahan. Kolom employeenumber berfungsi sebagai ID unik atau kunci primer (primary key) untuk setiap karyawan. Menjaga keunikan kolom ini sangat krusial untuk integritas data. Jika ada duplikasi pada kolom ini, artinya ada satu atau lebih karyawan yang datanya tercatat ganda. Hal ini akan merusak semua analisis yang bergantung pada hitungan individu, seperti jumlah total karyawan, perhitungan rata-rata gaji, atau analisis demografi. Validasi ini memastikan setiap baris data merepresentasikan satu individu yang berbeda.

In [4]:
# Expectation 2: Memastikan nilai di kolom 'age' berada di antara 18 dan 65, rentang ini yang umum bekerja di usia kerja.
validator.expect_column_values_to_be_between('age', min_value=18, max_value=65)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

 Great expectaion berjalan dengan baik tanpa kesalahan. Ini adalah contoh penerapan aturan bisnis (business rule) pada data. Secara umum, usia legal untuk bekerja adalah 18 tahun dan usia pensiun sekitar 65 tahun. Expectation ini mencegah masuknya data yang tidak masuk akal (anomali)akibat kesalahan input, misalnya usia 5 tahun atau 200 tahun. Dengan memastikan semua data usia berada dalam rentang yang logis, kita menjaga agar analisis statistik terkait usia (seperti rata-rata atau median) tidak menjadi bias atau salah.

In [5]:
# Expectation 3: Memastikan nilai di kolom 'gender' hanya terdiri dari 'Female' atau 'Male'.
validator.expect_column_values_to_be_in_set('gender', ['Female', 'Male'])


Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

  Great expectaion berjalan dengan baik tanpa kesalahan. Untuk kolom dengan nilai pilihan yang terbatas seperti gender ini sangat mungkin terjadi kesalahan penulisan. Variasi seperti ini akan membuat data terpecah saat diagregasi. Dengan membatasi nilainya hanya pada 'Female' dan 'Male', kita memastikan bahwa proses grouping dan filtering pada analisis akan berjalan akurat dan konsisten.

In [6]:
# Expectation 4: Memastikan kolom 'monthlyincome' adalah tipe data numerik (integer atau float).
validator.expect_column_values_to_be_in_type_list('monthlyincome', ['int64', 'float64'])


Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "int64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Great expectaion berjalan dengan baik tanpa kesalahan. Ini adalah validasi tipe data. Kolom pendapatan (monthlyincome) akan sering digunakan dalam perhitungan matematis (seperti mencari rata-rata, median, atau korelasi). Dengan memastikan tipe datanya numerik akan mencegah error saat melakukan analisis. Jika ada kesalahan pada data yang masuk seperti 'N/A', '-' atau 'Rp 5.000.000', maka akan menyebabkan error kalkulasi pada saat analisis dan visualisasi. 

In [12]:
# Expectation 5: Memastikan karakter pada kolom 'jobrole' berada di antara 5 dan 50 karakter.
validator.expect_column_value_lengths_to_be_between('jobrole', min_value=5, max_value=50)

Calculating Metrics:   0%|          | 0/9 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Great expectaion berjalan dengan baik tanpa kesalahan. Ini adalah validasi kewajaran data (data sanity check). Ekspektasi ini berasumsi bahwa sebuah nama peran pekerjaan yang sah memiliki panjang karakter yang masuk akal. Ini sangat efektif untuk menangkap kesalahan input yang aneh, seperti string kosong, satu karakter karena salah tekan tombol, atau teks yang sangat panjang akibat data yang rusak (corrupted).

In [8]:
# Expectation 6: Memvalidasi rata-rata dari 'percentsalaryhike' berada di rentang yang wajar (10-25).
validator.expect_column_mean_to_be_between('percentsalaryhike', 10, 25)


Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 15.209523809523809
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Great expectaion berjalan dengan baik tanpa kesalahan. Ini adalah contoh validasi statistik agregat. Berbeda dari yang lain yang memeriksa baris per baris, expectation ini memeriksa "kesehatan" dataset secara keseluruhan. Jika rata-rata kenaikan gaji tiba-tiba berada di luar rentang yang diharapkan (misalnya menjadi 5% atau 50%), ini bisa menjadi detektor anomali tingkat tinggi. Ini menandakan kemungkinan adanya kesalahan besar saat memasukkan data atau adanya perubahan kebijakan yang sangat signifikan yang perlu diselidiki.

In [10]:
# Expectation 7: Memastikan kolom 'over18' hanya berisi karakter 'Y' menggunakan ekspresi reguler (regex).
# Ini memvalidasi konsistensi data kategorikal biner.
validator.expect_column_values_to_match_regex('over18', r'^Y$')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 1470,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Great expectaion berjalan dengan baik tanpa kesalahan.  Ini adalah validasi format yang sangat presisi menggunakan Regular Expression (regex). Untuk kolom flag biner seperti over18, kita mengharapkan format yang absolut: hanya satu karakter dan karakter itu harus 'Y'. Validasi ini lebih ketat daripada to_be_in_set karena ia juga mencegah adanya kesalahan yang tidak terlihat seperti spasi di awal atau akhir (' Y '). Ini menjamin konsistensi data pada level tertinggi.

In [11]:
# Menyimpan Hasil Validasi
# Menyimpan semua expectation yang telah didefinisikan ke dalam sebuah 'Expectation Suite'.Suite ini dapat digunakan kembali di masa depan untuk memvalidasi data baru dengan aturan yang sama.
validator.save_expectation_suite(discard_failed_expectations=False)