# Milestone 3 - Great Expectations
---
Name: Rhesa Akbar Elvarettano  

Batch: SBY-003

Objectives:
Tujuan utama dari notebook ini adalah untuk melakukan pengamatan dasar terhadap dataset yang digunakan dalam engineering process. Dataset mentah diperoleh dari Kaggle yaitu Customer Shooping trends. Pada notebook ini juga menampilkan the automated validation process menggunakan Python's great expectation library.

Dataset: https://www.kaggle.com/datasets/iamsouravbanerjee/customer-shopping-trends-dataset


In [1]:
# Install the library

!pip install -q great-expectations

# 1 - Instantiate the Data Context

In [2]:
# Create a data context

from great_expectations.data_context import FileDataContext

context = FileDataContext.create(project_root_dir='./')

Pertama, kita perlu membuat konteks data file untuk menyimpan the expectations.

# 2 - Connect to a Datasource

In [4]:
# Give a name to a Datasource. This name must be unique between Datasources.
datasource_name = 'csv_customer_shopping_trends_data'
datasource = context.sources.add_pandas(datasource_name)

# Give a name to a data asset
asset_name = 'customer_shopping_trends'
path_to_data = 'P2M3_rhesa_akbar_data_clean.csv'
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=path_to_data)

# Build batch request
batch_request = asset.build_batch_request()

Kemudian, dihubungkan ke datasource & data asset untuk data yg perlu diperiksa (inspect).

# 3 - Create an Expectation Suite

In [5]:
# Create an expectation suite
expectation_suite_name = 'expectation_customer_shopping_trends_dataset'
context.add_or_update_expectation_suite(expectation_suite_name)

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)

# Check the validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,customer_id,age,gender,item_purchased,category,purchase_amount_usd,location,size,color,season,review_rating,subscription_status,shipping_type,discount_applied,promo_code_used,previous_purchases,preferred_payment_method,frequency_of_purchases
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Free Shipping,Yes,Yes,31,PayPal,Annually


Membuat expectation suit untuk mengumpulkan aturan yang harus diikuti oleh data.

## 3.1 - Expectation Column `customer_id` must be unique

In [6]:
# Expectation 1 - Column `customer_id` must be unique
validator.expect_column_values_to_be_unique('customer_id')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "meta": {},
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Data harus memiliki unique identifier untuk setiap baris agar dapat diidentifikasi dan dibedakan. Dalam kumpulan data ini, kolom `customer_id` bertindak sebagai unique identifier untuk setiap baris data, dan oleh karena itu nilai-nilainya harus unik. Seperti yang terlihat di atas, the expectation untuk kolom tersebut berhasil, yang mengindikasikan bahwa nilai dalam kolom tersebut memang unik.

## 3.2 - Expectation Column `age` values need to be between 16 until 99

In [7]:
# Expectation 2 - Column `age` values need to be between 16 until 99
validator.expect_column_values_to_be_between(
    column='age', min_value=16, max_value=99
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "meta": {},
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Di dalam dataset, terdapat kolom `age`. Diharapkan nilai kolom `age` tidak boleh negatif atau terlalu besar. Untuk memastikan data tersebut bermakna dalam konteks customer shopping trends, kami menetapkan nilai `age` maksimum menjadi 99 dan nilai `age` minimum menjadi 16 (the legal age in the US). Setelah diperiksa, nilai kolom `age` berada dalam kisaran yang diharapkan yaitu 16 hingga 99, memenuhi kriteria yang ditentukan.

## 3.3 - Expectation Column `gender` needs to include both gender

In [8]:
# Expectation 3 - Column `gender` needs to include both gender (male and female)
validator.expect_column_values_to_be_in_set(
    column='gender', value_set=['Male', 'Female']
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "meta": {},
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Kolom `gender diharapkan` mencakup kedua jenis kelamin (pria dan wanita) karena keduanya mewakili target pasar untuk merek tersebut. Memastikan keragaman dalam kumpulan data memungkinkannya untuk mewakili pasar secara keseluruhan dengan lebih baik. Setelah diperiksa, kami mengonfirmasi bahwa kolom `gender` berisi data untuk pria dan wanita, memenuhi `the expectation` yang ditentukan.

## 3.4 - Expectation Column `category` distinct values needs to equals a list

In [9]:
# Expectation 5 - Column 'category' distinct values needs to equals
# the following list: ['Clothing', 'Footwear', 'Outerwear', 'Accessories'] 
validator.expect_column_distinct_values_to_equal_set(
    column='category',
    value_set=['Clothing', 'Footwear', 'Outerwear', 'Accessories']
)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "meta": {},
  "result": {
    "observed_value": [
      "Accessories",
      "Clothing",
      "Footwear",
      "Outerwear"
    ],
    "details": {
      "value_counts": [
        {
          "value": "Accessories",
          "count": 1240
        },
        {
          "value": "Clothing",
          "count": 1737
        },
        {
          "value": "Footwear",
          "count": 599
        },
        {
          "value": "Outerwear",
          "count": 324
        }
      ]
    }
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Nilai yang berbeda pada kolom `category` diharapkan sesuai dengan daftar berikut ini: Clothing, Footwear, Outerwear, and Accessories. Persyaratan ini memastikan bahwa `category` dalam kumpulan data selaras dengan penawaran produk tertentu dari brand, sehingga hanya membatasi pada empat jenis ini. Setelah diperiksa, kami mengonfirmasi bahwa kolom tersebut hanya berisi nilai dari daftar ini, yang mengindikasikan bahwa data telah sesuai dengan yang `expectation`.

## 3.5 - Expectation Column `purchase_amount_usd` needs to be numerical

In [10]:
# Expectation 4 - Column `purchase_amount_usd` needs to be consists of numerical values
validator.expect_column_values_to_be_in_type_list(
    column='purchase_amount_usd', type_list=['int', 'float']
)

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": false,
  "meta": {},
  "result": {
    "observed_value": "int64"
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Nilai kolom `purchase_amount_usd` diharapkan dalam bentuk `numerik` karena nilai tersebut mewakili jumlah uang dalam USD. Karena jumlah pembelian biasanya berupa nilai numerik, maka nilai kolom haruslah bertipe data numerik agar dapat diproses secara akurat. Setelah diperiksa, kami mengonfirmasi bahwa semua nilai dalam kolom tersebut adalah `numerik (int64)`, sesuai dengan tipe data yang `expectation`.

## 3.6 - Expectation Column `location` unique value needs to be equal to 50 

In [11]:
# Expectation 7 - Column `location` unique value needs to be equal to 50 
# to ensure there's data for every states in the US
validator.expect_column_unique_value_count_to_be_between(
    column='location',
    min_value=50,
    max_value=50
)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "meta": {},
  "result": {
    "observed_value": 50
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Nilai unik dari kolom `location` harus sama dengan 50 untuk memastikan bahwa setiap data untuk setiap negara bagian di AS. Setelah diperiksa, jumlah nilai unik untuk kolom `location` adalah tepat 50, sehingga sesuai dengan yang `expectation`.

## 3.7 - Expectation Column `size` value length needs to be between 1 - 2


In [12]:
# Expectation 6 - Column `size` value length needs to be between 1 - 2 (S - XL only)
validator.expect_column_value_lengths_to_be_between(
    column='size',
    min_value=1,
    max_value=2
)

Calculating Metrics:   0%|          | 0/9 [00:00<?, ?it/s]

{
  "success": true,
  "meta": {},
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Mengingat bahwa company menawarkan `size` barang mulai dari S hingga XL saja, kita perlu memastikan bahwa nilai dalam kolom `size` berada dalam kisaran ini. Salah satu cara untuk memverifikasi hal ini adalah dengan memeriksa bahwa panjang setiap nilai berada dalam kisaran 1 hingga 2 characters. Setelah diperiksa, kami mengonfirmasi bahwa semua nilai dalam kolom memenuhi kriteria ini, sehingga sesuai dengan yang `expectation`.

# 4 - Saving into the Expectations Suite

In [12]:
# Save into Expectation Suite

validator.save_expectation_suite(discard_failed_expectations=False)

Terakhir, kita akan menyimpan aturan ke the expectation suite.