# Import Libraries

In [2]:
import pandas as pd
import great_expectations as ge
from great_expectations.data_context import FileDataContext

In [4]:
# Create data context
context = FileDataContext.create(project_root_dir='./')

In [5]:
# Create data source
datasource = context.sources.add_pandas('main-datasource')

# Create data asset
path = './data/P2M3_Sesilia_Virdha_data_clean.csv'
asset = datasource.add_csv_asset('mobile-device-usage', filepath_or_buffer=path)

# Build batch request
batch_request = asset.build_batch_request()

In [6]:
# Create an expectation suite
context.add_or_update_expectation_suite('gx_val_suite')

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = 'gx_val_suite'
)

validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,customer_id,age,gender,item_purchased,category,purchase_amount_usd,location,size,color,season,review_rating,subscription_status,shipping_type,discount_applied,promo_code_used,previous_purchases,payment_method,frequency_of_purchases
0,1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Free Shipping,Yes,Yes,31,PayPal,Annually


# Expectations

## Expectation 1

In [7]:
validator.expect_column_values_to_be_unique("customer_id")

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

expectation dari Great Expectations yang digunakan untuk memastikan bahwa setiap nilai dalam kolom customer_id bersifat unik yang artinya tidak ada duplikasi. Maka dapat dilihat dari hasil expectation yang berhasil dengan total jumlah data yang dicek adalah 3900 entri. Tidak ada data yang tidak sesuai harapan atau melanggar aturan. Dan 0% data yang melanggar aturan.

## Expectation 2

In [8]:
validator.expect_column_values_to_be_between(
    column="age", min_value=18, max_value=70
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Fungsi ini digunakan untuk memastikan bahwa nilai dalam kolom age berada di antara 18 dan 70. Maka dapat dilihat dari hasil expectation yang berhasil dengan total jumlah data yang dicek adalah 3900 entri. Tidak ada data yang tidak sesuai harapan atau melanggar aturan. Dan 0% data yang melanggar aturan.

## Expectation 3

In [10]:
validator.expect_column_values_to_be_in_set(
    column="size", value_set=["S", "M", "L", "XL"]
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Untuk memvalidasi bahwa semua nilai dalam kolom size termasuk dalam daftar nilai yang diperbolehkan, yaitu "S", "M", "L", dan "XL".Maka dapat dilihat dari hasil expectation yang berhasil dengan total jumlah data yang dicek adalah 3900 entri. Tidak ada data yang tidak sesuai harapan atau melanggar aturan. Dan 0% data yang melanggar aturan.

## Expectation 4

In [15]:
validator.Expect_Column_Values_To_Be_Of_Type(
    column="season",
    type_="object"
)

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "object_"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Untuk memastikan bahwa semua nilai di kolom season memiliki tipe data object. Maka didapatkan hasil validasi berhasil, Kolom season memang memiliki tipe data sesuai yang diharapkan, yaitu object.

## Expectation 5

In [12]:
validator.Expect_Column_Most_Common_Value_To_Be_In_Set(
    column="gender",
    value_set=["Male", "Female"],
    ties_okay=True
)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": [
      "Male"
    ]
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Untuk memastikan bahwa nilai yang paling sering muncul (modus) dalam kolom gender termasuk dalam set nilai yang diizinkan, yaitu "Male" atau "Female". Validasi berhasil, nilai yang paling sering muncul dalam kolom gender yaitu "Male" dan berada dalam daftar yang diizinkan, yaitu "Male" atau "Female"

## Expectation 6

In [17]:
validator.Expect_Column_Max_To_Be_Between(
    column="age",
    min_value=1,
    max_value=100
)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 70
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

memvalidasi bahwa nilai maksimum (tertinggi) dalam kolom age berada di antara 1 dan 100 (inklusif secara default). Maka didapatkan hasil validasi berhasil, nilai maksimal dalam kolom age yaitu 70

## Expectation 7

In [19]:
validator.Expect_Column_Mean_To_Be_Between(
    column="purchase_amount_usd",
    min_value=1,
    max_value=1000
)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 59.76435897435898
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Untuk memvalidasi bahwa nilai rata-rata (mean) dari kolom purchase_amount_usd berada di antara 1 dan 1000. Rata-rata pembelian dalam USD di dataset kamu adalah sekitar 59.76, yang sudah sesuai dengan batasan minimum 1 dan maksimum 1000 yang sudah tetapkan.