Nama        : Nadia Nabilla Shafira

Batch       : HCK-009

Objectives  : Project ini dibuat untuk melakukan Exploratory Data Analysis yang diotomatisasi dengan Apache Airflow pada data Consumer Behavior and Shopping Habits menggunakan database NoSQL yang nantinya divisualisasikan menggunakan Kibana. Adapun file ini berisi validasi dari data yang dimiliki sesuai dengan rules tertentu menggunakan Great Expectations.

# Import Libraries

In [6]:
from great_expectations.data_context import FileDataContext

# Initiate Data Context
> Pada tahap ini, akan dilakukan pembuatan root directory dari project Great Expectations.

In [7]:
context = FileDataContext.create(project_root_dir='./')

# Connect to A `Datasource`
> Pada tahap ini akan dilakukan penyiapan data source dan data asset yang akan divaldiasi dengan Great Expectations.

In [8]:
# define nama data source
datasource_name = 'P2M3'

# membuat data source
datasource = context.sources.add_pandas(datasource_name)

# define nama aset
asset_name = 'P2M3_data'
# define path file CSV yang akan divalidasi
path_to_data = r'C:\Users\Nadia Nabilla\HACKTIV8\P2\p2-ftds009-hck-m3-nadianshafira\P2M3_nadia_nabilla_data_clean.csv'
# menambahkan aset data ke data source yang telah ditentukan
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=path_to_data)

# membangun permintaan batch yang akan digunakan untuk menguji aset data
batch_request = asset.build_batch_request()

# Expectation Suite

## Create an Expectation Suite

In [9]:
# membuat expectation suite
expectation_suite_name = 'expectation_p2m3'
context.add_or_update_expectation_suite(expectation_suite_name)

# membuat validator dengan expectation suite yang telah dibuat
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)

# Cek validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,customer_id,age,gender,item_purchased,category,purchase_amount_(usd),location,size,color,season,review_rating,subscription_status,shipping_type,discount_applied,promo_code_used,previous_purchases,payment_method,frequency_of_purchases
0,1,55,Male,Blouse,Clothing,53.0,Kentucky,L,Gray,Winter,3.1,Yes,Express,Yes,Yes,14,Venmo,Fortnightly
1,2,19,Male,Sweater,Clothing,64.0,Maine,L,Maroon,Winter,3.1,Yes,Express,Yes,Yes,2,Cash,Fortnightly
2,3,50,Male,Jeans,Clothing,73.0,Massachusetts,S,Maroon,Spring,3.1,Yes,Free Shipping,Yes,Yes,23,Credit Card,Weekly
3,4,21,Male,Sandals,Footwear,90.0,Rhode Island,M,Maroon,Spring,3.5,Yes,Next Day Air,Yes,Yes,49,PayPal,Weekly
4,5,45,Male,Blouse,Clothing,49.0,Oregon,M,Turquoise,Spring,2.7,Yes,Free Shipping,Yes,Yes,31,PayPal,Annually


## Expectations

### 1. to be unique
> Kolom `customer_id` seharusnya memiliki nilai yang unik untuk masing-masing baris data, karena `customer_id` merupakan identifier seorang customer. Untuk memastikan hal tersebut dapat dilakukan validasi `to be unique`.

In [11]:
validator.expect_column_values_to_be_unique('customer_id')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3894,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan output di atas, dapat diketahui bahwa kolom `customer_id` memiliki nilai yang unik untuk masing-masing barisnya.

### 2. to be between min_value and max_value
> Kolom `review_rating` seharusnya memiliki rentang nilai antara 0 hingga 5. Untuk memastikan hal tersebut dapat dilakukan validasi `to be between min_value and max_value`.

In [12]:
validator.expect_column_values_to_be_between(column='review_rating', min_value=0.0, max_value=5.0)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3894,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan output di atas, dapat diketahui bahwa kolom `review_rating` memiliki nilai antara 0 dan 5.

### 3. to be in set
> Kolom `category` seharusnya memiliki 4 unique values, yaitu `Clothing`, `Footwear`, `Outerwear`, dan `Accessories`. Untuk memastikan hal tersebut dapat dilakukan validasi `to be in set`.

In [13]:
validator.expect_column_values_to_be_in_set('category', value_set=['Clothing', 'Footwear', 'Outerwear', 'Accessories'])

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3894,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan output di atas, dapat diketahui bahwa `Clothing`, `Footwear`, `Outerwear`, `Accessories` merupakan values dari kolom `category`.

### 4. to be in type list
> Kolom `category` seharusnya memiliki 4 unique values, yaitu `Clothing`, `Footwear`, `Outerwear`, dan `Accessories`. Untuk memastikan hal tersebut dapat dilakukan validasi `to be in set`.

In [14]:
validator.expect_column_values_to_be_of_type('item_purchased', 'list')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": false,
  "result": {
    "element_count": 3894,
    "unexpected_count": 3894,
    "unexpected_percent": 100.0,
    "partial_unexpected_list": [
      "Blouse",
      "Sweater",
      "Jeans",
      "Sandals",
      "Blouse",
      "Sneakers",
      "Shirt",
      "Shorts",
      "Coat",
      "Handbag",
      "Shoes",
      "Shorts",
      "Coat",
      "Dress",
      "Coat",
      "Skirt",
      "Sunglasses",
      "Dress",
      "Sweater",
      "Pants"
    ],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 100.0,
    "unexpected_percent_nonmissing": 100.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan output di atas, dapat diketahui bahwa kolom `item_purchased` bukan merupakan sebuah list. begitupun kolom lainnya bukan merupakan sebuah list.

### 5. to be of type
> Kolom `age` seharusnya memiliki tipe data integer. Untuk memastikan hal tersebut dapat dilakukan validasi `to be of type`.

In [15]:
validator.expect_column_values_to_be_of_type('age', 'int64')

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "int64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan output di atas, dapat diketahui bahwa kolom `age` bertipe data integer.

### 6. lengths to be between
> Kolom `size` seharusnya memiliki value yang panjangnya tidak lebih dari 2 karakter, karena kolom `size` memiliki unique values `S`, `M`, `L`, dan `XL`. Untuk memastikan hal tersebut dapat dilakukan validasi `lengths to be between`.

In [16]:
validator.expect_column_value_lengths_to_be_between('size', min_value=1, max_value=2)

Calculating Metrics:   0%|          | 0/9 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3894,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan output di atas, dapat diketahui bahwa panjang karakter pada unique values dari kolom `size` adalah antara 1 dan 2.

### 7. not to be null
> Kolom `payment_method` seharusnya tidak memiliki missing values. Untuk memastikan hal tersebut dapat dilakukan validasi `not to be null`.

In [17]:
validator.expect_column_values_to_not_be_null('payment_method')

Calculating Metrics:   0%|          | 0/6 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 3894,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Berdasarkan output di atas, dapat diketahui bahwa kolom `payment_method` tidak memiliki missing values.

## Menyimpan Expectation Suite

In [18]:
validator.save_expectation_suite(discard_failed_expectations=False)

# Checkpoint

In [19]:
Checkpoint = context.add_or_update_checkpoint(
    name = 'Checkpoint',
    validator = validator,
)

In [20]:
checkpoint_result = Checkpoint.run()

Calculating Metrics:   0%|          | 0/44 [00:00<?, ?it/s]

# Data Docs

In [21]:
context.build_data_docs()

{'local_site': 'file://c:\\Users\\Nadia Nabilla\\HACKTIV8\\P2\\p2-ftds009-hck-m3-nadianshafira\\gx\\uncommitted/data_docs/local_site/index.html'}