# 1. Import libraries

In [12]:
import pandas as pd
import great_expectations as gx

# 2. Load Data

In [13]:
# Import data clean
df = pd.read_csv('data/P2M3_ilham_maulud_data_clean.csv')

context = gx.get_context()

In [14]:
data_source = context.data_sources.add_pandas("pandas")
data_asset = data_source.add_dataframe_asset(name="pd dataframe asset")

batch_definition = data_asset.add_batch_definition_whole_dataframe("batch definition")
batch = batch_definition.get_batch(batch_parameters={"dataframe": df})

# 3. 7 Expectations 

## 3.1 To be unique

In [None]:
# Cek kolom invoice_id apakah unik atau tidak
expect1 = gx.expectations.ExpectColumnValuesToBeUnique(column="invoice_id")

In [None]:
# Cek kolom total antara min dan max nya
expect2 = gx.expectations.ExpectColumnValuesToBeBetween(column="total", min_value=0)

In [None]:
# Memastikan semua nilai di kolom customer_type hanya berada didalam daftar tertentu
expect3 = gx.expectations.ExpectColumnValuesToBeInSet(column="customer_type", value_set=["Member", "Normal"])

In [None]:
# Memastikan semua nilai di kolom quantity bertipe data integer
expect4 = gx.expectations.ExpectColumnValuesToBeInTypeList(column="quantity", type_list=["int", "int64"])

In [None]:
# Cek rentang di kolom rating
expect5 = gx.expectations.ExpectColumnMeanToBeBetween(column="rating", min_value=5, max_value=10)

In [None]:
# Memastikan kolom unit_price tidak ada nilai kosong (null/NaN).
expect6 = gx.expectations.ExpectColumnValuesToNotBeNull(column="unit_price")

In [None]:
# Memastikan median dari kolom quantity berada di antara 1 sampai 10.
expect7 = gx.expectations.ExpectColumnMedianToBeBetween(column="quantity", min_value=1, max_value=10)

In [None]:
# Cek hasil
results = []
for exp in [expect1, expect2, expect3, expect4, expect5, expect6, expect7]:
    result = batch.validate(exp)
    results.append(result)

# Tampilkan hasil validasi
for r in results:
    print(r)

Calculating Metrics: 100%|██████████| 10/10 [00:00<00:00, 422.25it/s]
Calculating Metrics: 100%|██████████| 10/10 [00:00<00:00, 448.49it/s]
Calculating Metrics: 100%|██████████| 10/10 [00:00<00:00, 618.51it/s]
Calculating Metrics: 100%|██████████| 1/1 [00:00<00:00, 181.81it/s] 
Calculating Metrics: 100%|██████████| 4/4 [00:00<00:00, 305.08it/s]
Calculating Metrics: 100%|██████████| 8/8 [00:00<00:00, 601.46it/s] 


Calculating Metrics: 100%|██████████| 4/4 [00:00<00:00, 291.34it/s] 

{
  "success": true,
  "expectation_config": {
    "type": "expect_column_values_to_be_unique",
    "kwargs": {
      "batch_id": "pandas-pd dataframe asset",
      "column": "invoice_id"
    },
    "meta": {}
  },
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_counts": [],
    "partial_unexpected_index_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}
{
  "success": true,
  "expectation_config": {
    "type": "expect_column_values_to_be_between",
    "kwargs": {
      "batch_id": "pandas-pd dataframe asset",
      "column": "total",
      "min_value": 0.0
    },
    "meta": {}
  },
  "result": {
    "element_count": 1000,
    "unexpected_count": 0,




Penjelasan output:

1. invoice_id uniqueness

Semua 1000 invoice ID unik, tidak ada duplikasi. Menandakan setiap transaksi tercatat dengan baik dan dapat dijadikan primary key.

2. total values between 0 and above minimum 0

Semua nilai total ≥ 0, tidak ada transaksi negatif. Valid untuk analisis penjualan dan perhitungan revenue.

3. customer_type values in set ["Member", "Normal"]

Semua nilai valid sesuai kategori yang diharapkan. Tidak ada typo atau nilai aneh, memudahkan segmentasi pelanggan.

4. quantity values in type list ["int", "int64"]

Semua nilai bertipe integer (int64). Memastikan kuantitas dapat dihitung, dijumlahkan, atau dianalisis tanpa error.

5. rating mean between 5 dan 10

Rata-rata rating pelanggan = 6.9727, berada dalam range yang diharapkan. Menunjukkan kepuasan pelanggan secara keseluruhan baik, tidak terlalu rendah.

6. unit_price not null

Tidak ada nilai kosong pada harga unit. Semua transaksi memiliki informasi harga, penting untuk perhitungan total dan revenue.

7. quantity median between 1 dan 10

Median quantity = 5, sesuai ekspektasi. Menunjukkan distribusi pembelian yang wajar, tidak ada anomali ekstrem.

Kesimpulan dari output yang dihasilkan:

Dataset sudah cukup bersih dan konsisten untuk dianalisis lebih lanjut. Tidak ada masalah besar seperti duplikasi ID, nilai kosong, atau tipe data yang salah. Hal ini membuat proses Exploratory Data Analysis (EDA) dan pembuatan dashboard di Kibana bisa dilakukan dengan lebih lancar dan hasilnya dapat diandalkan.
