# Import library

In [1]:
import pandas as pd
import great_expectations as gx

# Load data

In [2]:
# Load data hasil cleaning dari pipeline Airflow
df = pd.read_csv('P2M3_Rangga_Kiat_data_clean.csv')

# Inisialisasi Great Expectations dataset
df_ge = gx.dataset.PandasDataset(df)

In [3]:
df_ge.info()

<class 'great_expectations.dataset.pandas_dataset.PandasDataset'>
RangeIndex: 10999 entries, 0 to 10998
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   id                   10999 non-null  int64 
 1   warehouse_block      10999 non-null  object
 2   mode_of_shipment     10999 non-null  object
 3   customer_care_calls  10999 non-null  int64 
 4   customer_rating      10999 non-null  int64 
 5   cost_of_the_product  10999 non-null  int64 
 6   prior_purchases      10999 non-null  int64 
 7   product_importance   10999 non-null  object
 8   gender               10999 non-null  object
 9   discount_offered     10999 non-null  int64 
 10  weight_in_gms        10999 non-null  int64 
 11  reached_on_time_y_n  10999 non-null  int64 
dtypes: int64(8), object(4)
memory usage: 1.0+ MB


# Validasi Data (7 Expectations)

## 1.

In [4]:
#  Expectation to be unique (untuk kolom ID)

print(df_ge.expect_column_values_to_be_unique('id'))

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_unique",
    "kwargs": {
      "column": "id",
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "element_count": 10999,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}


- Pengecekan ini bertujuan untuk memastikan bahwa setiap baris data memiliki identitas unik melalui fungsi expect_column_values_to_be_unique pada kolom id. Status validasi menunjukkan `success: true`.
- Dari total 10.999 baris data yang diperiksa (element_count), tingkat kegagalan atau data yang tidak unik adalah 0 (unexpected_count) artinya Tidak ditemukan data kosong (missing_count: 0), yang berarti setiap transaksi pengiriman memiliki identitas yang lengkap.


* Sebagai perusahaan logistik, sangat krusial untuk menjamin bahwa satu paket hanya tercatat satu kali. Keberhasilan validasi ini menjamin bahwa laporan jumlah pengiriman paket yang akan dibaca oleh Manajer Logistik tidak akan mengalami pembengkakan angka akibat data ganda (double counting), Uniknya nilai ID memastikan sistem pelacakan (tracking) paket berfungsi dengan benar, karena tidak ada tumpang tindih identitas antar pengiriman yang berbeda.

## 2.

In [5]:
#  Expectation to be between min_value and max_value (Rating 1-5)

print(df_ge.expect_column_values_to_be_between('customer_rating', min_value=1, max_value=5))

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_between",
    "kwargs": {
      "column": "customer_rating",
      "min_value": 1,
      "max_value": 5,
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "element_count": 10999,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}


- Pengecekan ini menggunakan fungsi expect_column_values_to_be_between untuk memastikan bahwa semua nilai dalam kolom customer_rating berada pada rentang skala 1 hingga 5, Status validasi menunjukkan success: true, data seluruhnya mematuhi batasan nilai minimum 1 dan maksimum 5 yang telah ditetapkan.
- dengan menjamin bahwa data kepuasan pelanggan valid secara logika. Keberhasilan ini memastikan bahwa Divisi Customer Experience mendapatkan angka yang jujur untuk menganalisis apakah keterlambatan pengiriman benar-benar berdampak pada rating rendah
* dengan ini bisa menjaga integritas metrik kepuasan pelanggan. Jika terdapat nilai di luar rentang 1-5, hal tersebut menandakan adanya bug pada sistem input aplikasi, yang dapat merusak analisis korelasi antara diskon dan rating pelanggan.

## 3.

In [6]:
#  Expectation to be in set (Gender F atau M)

print(df_ge.expect_column_values_to_be_in_set('gender', ['F', 'M']))

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_in_set",
    "kwargs": {
      "column": "gender",
      "value_set": [
        "F",
        "M"
      ],
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "element_count": 10999,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}


- Pengecekan ini menggunakan fungsi expect_column_values_to_be_in_set untuk memastikan bahwa data pada kolom gender hanya berisi nilai yang telah ditentukan dalam standar kategori perusahaan, yaitu 'F' (Female) atau 'M' (Male), Status validasi menunjukkan success: true.
- tidak ditemukan nilai asing atau kesalahan ketik (typo). Tingkat kegagalan data adalah 0% (unexpected_count: 0), dan tidak ada (missing_count: 0), yang berarti profil demografi setiap pelanggan tercatat dengan lengkap dalam database.

* dengan begini Divisi Marketing dapat melakukan segmentasi pelanggan dengan akurat. Jika terdapat nilai di luar set (misal: huruf kecil 'f' atau 'm', atau teks lain), proses pengelompokan data di dashboard akan terbagi-bagi dan menghasilkan informasi yang membingungkan, jika visualisasi seperti Pie Chart di Kibana akan langsung menampilkan dua kategori bersih ('F' & 'M'), sehingga memudahkan Manajer Logistik dalam membaca tren pengiriman berdasarkan profil pelanggan.

## 4.

In [7]:
# Expectation to be in type list (Memastikan tipe data integer)

print(df_ge.expect_column_values_to_be_in_type_list('cost_of_the_product', ['int64', 'int']))

{
  "success": true,
  "expectation_config": {
    "expectation_type": "_expect_column_values_to_be_in_type_list__aggregate",
    "kwargs": {
      "column": "cost_of_the_product",
      "type_list": [
        "int64",
        "int"
      ],
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "observed_value": "int64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}


- Pengecekan ini menggunakan fungsi `expect_column_values_to_be_in_type_list` untuk memastikan bahwa kolom `cost_of_the_product` memiliki tipe data numerik yang tepat, yaitu int64 atau int, Status validasi menunjukkan `success: true` dengan nilai teramati (observed_value) adalah int64, artinya Sistem mengonfirmasi bahwa seluruh nilai dalam kolom ini tersimpan sebagai bilangan bulat (integer), bukan sebagai teks (string) atau objek lainnya, hal ini berguna untuk memastikan kapasitas penyimpanan data yang besar dan presisi yang akurat 

* dengan ini bisa menjamin data biaya siap untuk diolah secara matematis. Tipe data integer memungkinkan untuk melakukan operasi agregasi seperti menghitung total pendapatan, rata-rata biaya per pengiriman, atau margin keuntungan tanpa risiko error teknis.

* Visualisasi di Kibana sangat bergantung pada tipe data yang tepat. Dengan tipe numerik yang tervalidasi, Manajer Logistik dapat menggunakan fitur filter rentang harga dan membuat grafik tren biaya produk terhadap ketepatan waktu pengiriman secara instan.

## 5.

In [8]:
# Expectation column values to not be null (untuk kolom warehouse block tidak boleh kosong)

print(df_ge.expect_column_values_to_not_be_null('warehouse_block'))

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_not_be_null",
    "kwargs": {
      "column": "warehouse_block",
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "element_count": 10999,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}


- pengecekan ini menggunakan fungsi `expect_column_values_to_not_be_null` untuk memastikan bahwa tidak ada data yang kosong (Null) pada kolom warehouse_block. Ini merupakan salah satu dari 3 pengecekan tambahan untuk menjamin kualitas data operasional.
- ditemukan 0 data kosong (unexpected_count: 0), seluruh entri pengiriman memiliki informasi lokasi asal gudang yang lengkap, sehingga tidak ada informasi yang terputus dalam rantai data, status validasi menunjukkan success: true.

* dengan menjamin setiap paket dapat dilacak asal gudangnya. Jika ada kolom yang kosong, Manajer Logistik tidak akan bisa mengidentifikasi blok gudang mana yang kinerjanya buruk atau blok mana yang paling sering mengalami keterlambatan pengiriman.




* Keberhasilan validasi ini memastikan bahwa grafik "Beban Kerja per Blok Gudang" di Kibana nanti akan akurat dan mencakup seluruh transaksi tanpa ada yang terlewat.

## 6.

In [9]:
# Expectation column proportion of unique values to be between (Variasi pengiriman)
'''
menggunakan parameter (min_value=0.0001), dan menetapkan nilainya rendah  hanya untuk memastikan 
setidaknya ada lebih dari satu jenis mode transportasi 
(misal: tidak hanya 'Ship' semua, tapi ada 'Flight' juga).
'''

print(df_ge.expect_column_proportion_of_unique_values_to_be_between('mode_of_shipment', min_value=0.0001))


{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_proportion_of_unique_values_to_be_between",
    "kwargs": {
      "column": "mode_of_shipment",
      "min_value": 0.0001,
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "observed_value": 0.0002727520683698518,
    "element_count": 10999,
    "missing_count": null,
    "missing_percent": null
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}


- Pengecekan ini menggunakan fungsi `expect_column_proportion_of_unique_values_to_be_between`, Tujuannya adalah memastikan bahwa data dalam kolom `mode_of_shipment` memiliki keragaman nilai yang cukup (tidak hanya berisi satu jenis transportasi saja), status validasi menunjukkan `success: true` dengan nilai proporsi (observed_value) sebesar 0.00027. 
- Nilai proporsi yang berada di atas ambang batas minimum (0.0001) mengonfirmasi bahwa dataset mengandung berbagai kategori moda transportasi (seperti Ship, Flight, Road).Validasi ini berhasil membuktikan bahwa data tidak mengalami bias ekstrem atau kegagalan sistem yang menyebabkan seluruh baris hanya terisi oleh satu nilai yang sama.


* dengan mendeteksi jika terjadi anomali data di mana seluruh pengiriman tiba-tiba tercatat hanya menggunakan satu moda transportasi saja (misal: hanya Flight). Ini berfungsi sebagai early warning jika ada kegagalan sensor atau sistem input di lapangan.

## 7.

In [10]:
# Expectation column values to match regex (Format Warehouse A-F)

'''
regex: "^[A-F]$": Ini adalah rumus pencarian (pola). Tanda ^ artinya mulai, [A-F] artinya huruf A sampai F, dan $ artinya selesai. J
adi, dengan ini bisa memastikan isinya tepat satu huruf dan tidak ada karakter aneh lain.
'''

print(df_ge.expect_column_values_to_match_regex('warehouse_block', r'^[A-F]$'))

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_match_regex",
    "kwargs": {
      "column": "warehouse_block",
      "regex": "^[A-F]$",
      "result_format": "BASIC"
    },
    "meta": {}
  },
  "result": {
    "element_count": 10999,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}


- Pengecekan ini menggunakan fungsi `expect_column_values_to_match_regex` untuk memastikan bahwa setiap kode di kolom `warehouse_block ` mematuhi format standar perusahaan, yaitu hanya satu huruf kapital antara A sampai F, Status validasi menunjukkan `success: true`.


* dengan memastikan data lokasi gudang sudah sesuai dengan fisik gudang yang dimiliki SwiftSend. Jika muncul blok 'Z' atau '123', itu adalah data sampah yang bisa merusak akurasi laporan distribusi barang.

# kesimpulan

1. **Unique ID**: Menjamin tidak ada paket ganda, sehingga laporan jumlah pengiriman 100% akurat.
2. **Rating (1-5)**: Memastikan data kepuasan pelanggan masuk akal dan tidak ada angka "sampah" di luar skala.
3. **Gender (F/M)**: Menjaga standar kategori pelanggan agar tim marketing bisa melakukan analisis demografi dengan mudah.
4. **Tipe Data (Integer)**: Memastikan harga produk berupa angka agar dashboard bisa menghitung total pendapatan dan rata-rata biaya.
5. **Non-Null (Gudang)**: Menjamin setiap paket memiliki info asal gudang agar tidak ada "paket misterius" yang tidak terlacak lokasinya.
6. **Variasi Moda (Shipment)**: Memastikan data beragam (laut, udara, darat) dan mendeteksi jika ada error sistem yang membuat data seragam.
7. **Format Kode (Regex)**: Memastikan kode blok gudang sesuai standar perusahaan (A-F), menjaga kerapihan label di dashboard visualisasi.