# Milestone 3

**Name**  : Alfarabi

**Batch** : BSD-005

Dataset : [Customer Shopping Trends](https://www.kaggle.com/datasets/iamsouravbanerjee/customer-shopping-trends-dataset?select=shopping_trends_updated.csv)

**Problem Statement** : In the context of analyzing data from the “Customer Shopping Trends” dataset, our goal is to understand and identify shopping patterns that can provide valuable insights into consumer behavior. We want to mine this data to identify buying trends, product preferences, and factors that influence customer purchasing decisions. By doing so, we can provide strategic recommendations to companies regarding customer segmentation, inventory optimization, and customer experience improvement to support sustainable business growth and improve customer retention.

**Objective** : Analyze purchasing patterns, product preferences, and factors that influence customer purchasing decisions to provide strategic recommendations for improving customer experience and operational efficiency.

In [1]:
# Create a data context

from great_expectations.data_context import FileDataContext

context = FileDataContext.create(project_root_dir='./')

In [2]:
# Give a name to a Datasource. This name must be unique between Datasources.
datasource_name = 'csv-dataset-mei'
datasource = context.sources.add_pandas(datasource_name)

# Give a name to a data asset
asset_name = 'shopping-trend'
path_to_data = 'P2M3_Alfarabi_data_clean.csv'
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=path_to_data)

# Build batch request
batch_request = asset.build_batch_request()

In [3]:
# Creat an expectation suite
expectation_suite_name = 'expectation-shopping-trend-dataset'
context.add_or_update_expectation_suite(expectation_suite_name)

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)

# Check the validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0.1,Unnamed: 0,customer_id,age,gender,item_purchased,category,purchase_amount_usd,location,size,color,season,review_rating,subscription_status,shipping_type,discount_applied,promo_code_used,previous_purchases,payment_method,frequency_of_purchases
0,0,1,55,Male,Blouse,Clothing,53.0,Kentucky,L,Gray,Winter,3.1,Yes,Express,Yes,Yes,14,Venmo,Fortnightly
1,1,2,19,Male,Sweater,Clothing,64.0,Maine,L,Maroon,Winter,3.1,Yes,Express,Yes,Yes,2,Cash,Fortnightly
2,2,3,50,Male,Jeans,Clothing,73.0,Massachusetts,S,Maroon,Spring,3.1,Yes,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,3,4,21,Male,Sandals,Footwear,90.0,Rhode Island,M,Maroon,Spring,3.5,Yes,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,4,5,45,Male,Blouse,Clothing,49.0,Oregon,M,Turquoise,Spring,2.7,Yes,Free Shipping,Yes,Yes,31,PayPal,Annually


1. **Objective**: Validasi ini bertujuan untuk memastikan bahwa setiap entri dalam kolom customer_id unik. Hal ini sangat penting dalam konteks data pelanggan karena duplikat ID pelanggan dapat menyebabkan kebingungan dalam mengidentifikasi dan mengelola informasi pelanggan.

In [4]:
# Memastikan bahwa setiap nilai dalam kolom 'customer_id' adalah unik.
validator.expect_column_values_to_be_unique('customer_id')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

2. **Objective**: Validasi ini bertujuan untuk memastikan bahwa semua nilai dalam kolom 'age' berada dalam rentang yang masuk akal, yaitu antara 18 dan 100. Ini dapat digunakan untuk memvalidasi data demografis di mana usia responden atau subjek harus berada dalam kisaran usia yang diharapkan.

In [5]:
# Memeriksa apakah setiap nilai dalam kolom 'age' berada dalam rentang 18 hingga 100.
validator.expect_column_values_to_be_between('age', min_value=18, max_value=100)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

3. **Objective**: Memastikan bahwa semua nilai dalam kolom 'gender' sesuai dengan set nilai yang diharapkan, yaitu 'Male' atau 'Female'. Ini penting untuk menjaga kualitas data dan memastikan bahwa kolom 'gender' hanya berisi nilai-nilai yang valid dan terdefinisi dengan jelas.

In [6]:
# Memastikan bahwa semua nilai dalam kolom 'gender' adalah 'Male' atau 'Female'.
validator.expect_column_values_to_be_in_set('gender', ['Male', 'Female'])

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

4. **Objective**: Memastikan bahwa semua nilai dalam kolom location bertipe object. Dalam konteks pandas, tipe object biasanya digunakan untuk kolom yang mengandung string atau campuran jenis data. Validasi ini penting untuk memastikan konsistensi data dan mencegah kesalahan tipe data dalam proses analisis atau manipulasi data lebih lanjut.

In [7]:
# Memastikan kolom 'location' bertipe object.
validator.expect_column_values_to_be_of_type('location', 'object')

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "object_"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

5. **Objective**: Memastikan bahwa kolom 'category' tidak mengandung nilai null. Validasi ini penting untuk memastikan integritas data karena nilai null dalam kolom kategori dapat menunjukkan data yang hilang atau tidak lengkap, yang dapat mempengaruhi analisis atau proses bisnis yang menggunakan data tersebut.

In [8]:
# Memastikan bahwa tidak ada nilai null dalam kolom 'category'.
validator.expect_column_values_to_not_be_null('category')

Calculating Metrics:   0%|          | 0/6 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3900,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

6. **Objective**: Memeriksa apakah ada nilai minimum yang tidak sesuai dengan rentang yang diharapkan (1 hingga 50) dalam kolom 'previous_purchases'. Rentang ini mungkin relevan untuk mengidentifikasi anomali data atau masalah dalam pengumpulan data terkait pembelian sebelumnya.

In [9]:
# Memastikan bahwa nilai minimum dalam kolom 'previous_purchases' berada di antara 1 dan 50.
validator.expect_column_min_to_be_between(column='previous_purchases', min_value=1, max_value=50)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 1
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

7. **Objective**: Memverifikasi bahwa median dari kolom 'purchase_amount_usd' berada di antara nilai 1 dan 100. Tujuan utama dari validasi ini adalah untuk memastikan bahwa sebagian besar nilai pembelian berada dalam rentang yang dapat dianggap wajar dan sesuai dengan harapan.

In [10]:
# Memastikan kolom 'purchase_amount_usd' berada di antara nilai 1 dan 100.
validator.expect_column_median_to_be_between(column='purchase_amount_usd', min_value=1, max_value=100)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 60.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}