In [None]:
import pandas as pd
import numpy as np

### a. Install Great Expectation Package

In [None]:
# Install library

!pip install -q great-expectations

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.4/5.4 MB[0m [31m8.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.2/49.2 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m113.7/113.7 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m22.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m526.7/526.7 kB[0m [31m18.7 MB/s[0m eta [36m0:00:00[0m
[?25h

### b. Instantiate Data Context

In [None]:
# membuat data context

from great_expectations.data_context import FileDataContext

context = FileDataContext.create(project_root_dir='./')

### c. Connect to A Datasource

- Datasource adalah sumber data yang digunakan untuk membaca dan memproses data dalam Great Expectations.
Nama unik ini akan digunakan untuk merujuk ke datasource ini di dalam context.

- Data asset adalah representasi logis dari kumpulan data dalam datasource.
Dalam hal ini, data asset adalah data perilaku pelanggan Amazon yang disimpan dalam file CSV.
Path ke data CSV ditentukan oleh 'path_to_data'.

- Membuat batch request.
Batch request digunakan untuk menentukan subset data tertentu yang ingin dianalisis atau divalidasi dalam Great Expectations.
Batch request ini dibangun berdasarkan data asset yang telah ditentukan sebelumnya.

In [None]:
# Memberikan nama unik untuk Datasource
datasource_name = 'csv-data-amazon-customer-behaviour'
datasource = context.sources.add_pandas(datasource_name)

# Memberikan nama untuk data asset
asset_name = 'amazon-customer-behaviour'
path_to_data = 'amazon_data_new.csv'
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=path_to_data)

# Membuat batch request
batch_request = asset.build_batch_request()


  and should_run_async(code)



### d. Create an Expectation Suite

- Expectation suite adalah kumpulan dari ekspektasi yang digunakan untuk memvalidasi data.
Nama expectation suite ditentukan oleh 'expectation_suite_name'.

- Membuat validator menggunakan expectation suite yang telah dibuat sebelumnya.
Validator digunakan untuk memvalidasi batch data sesuai dengan expectation suite yang ditentukan.

- Fungsi 'head()' digunakan untuk menampilkan beberapa baris pertama dari data yang divalidasi,
sehingga dapat memverifikasi bahwa data telah dimuat dengan benar.

In [None]:
# Membuat expectation suite
expectation_suite_name = 'expectation-amazon-dataset'
context.add_or_update_expectation_suite(expectation_suite_name)

# Membuat validator menggunakan expectation suite di atas
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)

# Memeriksa validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,timestamp,age,gender,purchase_frequency,purchase_categories,personalized_recommendation_frequency,browsing_frequency,product_search_method,search_result_exploration,customer_reviews_importance,...,review_left,review_reliability,review_helpfulness,personalized_recommendation_frequency.1,recommendation_helpfulness,rating_accuracy,shopping_satisfaction,service_appreciation,improvement_areas,customer_id
0,2023-06-04 13:28:19-05:30,23,Female,Few times a month,Beauty and Personal Care,Yes,Few times a week,Keyword,Multiple pages,1,...,Yes,Occasionally,Yes,2,Yes,1,1,Competitive prices,Reducing packaging waste,1
1,2023-06-04 14:30:44-05:30,23,Female,Once a month,Clothing and Fashion,Yes,Few times a month,Keyword,Multiple pages,1,...,No,Heavily,Yes,2,Sometimes,3,2,Wide product selection,Reducing packaging waste,2
2,2023-06-04 17:04:56-05:30,24,Prefer not to say,Few times a month,Groceries and Gourmet Food;Clothing and Fashion,No,Few times a month,Keyword,Multiple pages,2,...,No,Occasionally,No,4,No,3,3,Competitive prices,Product quality and accuracy,3
3,2023-06-04 17:13:00-05:30,24,Female,Once a month,Beauty and Personal Care;Clothing and Fashion;...,Sometimes,Few times a month,Keyword,First page,5,...,Yes,Heavily,Yes,3,Sometimes,3,4,Competitive prices,Product quality and accuracy,4
4,2023-06-04 17:28:06-05:30,22,Female,Less than once a month,Beauty and Personal Care;Clothing and Fashion,Yes,Few times a month,Filter,Multiple pages,1,...,No,Heavily,Yes,4,Yes,2,2,Competitive prices,Product quality and accuracy,5


##  Expectation 1

***Memastikan nilai pada kolom 'customer_id' adalah unik***


`expect_column_values_to_be_unique` digunakan untuk memvalidasi bahwa setiap nilai dalam kolom 'customer_id'
adalah unik, yang berarti tidak ada nilai yang terduplikasi.

In [None]:
validator.expect_column_values_to_be_unique('customer_id')




Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_unique",
    "kwargs": {
      "column": "customer_id",
      "batch_id": "csv-data-amazon-customer-behaviour-amazon-customer-behaviour"
    },
    "meta": {}
  },
  "result": {
    "element_count": 506,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Expectation 2


***Memastikan jumlah baris dalam tabel berada di antara nilai minimum dan maksimum yang ditentukan.***

`expect_table_row_count_to_be_between` digunakan untuk memvalidasi bahwa jumlah baris dalam tabel
tidak kurang dari 1 dan tidak lebih dari 600.

In [None]:
validator.expect_table_row_count_to_be_between(
    min_value=1,
    max_value=600
)




Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_table_row_count_to_be_between",
    "kwargs": {
      "min_value": 1,
      "max_value": 600,
      "batch_id": "csv-data-amazon-customer-behaviour-amazon-customer-behaviour"
    },
    "meta": {}
  },
  "result": {
    "observed_value": 506
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Expectation 3

 ***Memastikan nilai pada kolom 'browsing_frequency' tidak ada dalam set nilai tertentu.***

`expect_column_values_to_not_be_in_set` digunakan untuk memvalidasi bahwa nilai dalam kolom 'browsing_frequency'
tidak termasuk dalam set nilai yang ditentukan, yaitu ['Occasionally', 'Moderately', 'Never'].
Ini berguna untuk memastikan bahwa kolom tersebut tidak mengandung nilai-nilai yang tidak diinginkan atau tidak valid.

In [None]:
validator.expect_column_values_to_not_be_in_set(
    column="browsing_frequency",
    value_set=['Occasionally', 'Moderately', 'Never']
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_not_be_in_set",
    "kwargs": {
      "column": "browsing_frequency",
      "value_set": [
        "Occasionally",
        "Moderately",
        "Never"
      ],
      "batch_id": "csv-data-amazon-customer-behaviour-amazon-customer-behaviour"
    },
    "meta": {}
  },
  "result": {
    "element_count": 506,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Expectation 4

***Memastikan bahwa nilai pada kolom 'shopping_satisfaction' sesuai dengan salah satu tipe data dalam daftar tipe yang ditentukan.***

`expect_column_values_to_be_in_type_list` digunakan untuk memvalidasi bahwa nilai dalam kolom 'shopping_satisfaction'
harus memiliki tipe data yang sesuai dengan salah satu tipe dalam daftar ['str', 'int', 'float'].
Ini membantu memastikan bahwa kolom tersebut tidak mengandung nilai dengan tipe data yang tidak sesuai.

In [None]:
validator.expect_column_values_to_be_in_type_list(
    column='shopping_satisfaction', type_list= ["str","int","float"]
)




Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_be_in_type_list",
    "kwargs": {
      "column": "shopping_satisfaction",
      "type_list": [
        "str",
        "int",
        "float"
      ],
      "batch_id": "csv-data-amazon-customer-behaviour-amazon-customer-behaviour"
    },
    "meta": {}
  },
  "result": {
    "observed_value": "int64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Expectation 5

***Memastikan bahwa nilai pada kolom 'personalized_recommendation_frequency' tidak boleh null.***

`expect_column_values_to_not_be_null` digunakan untuk memvalidasi bahwa setiap nilai dalam kolom 'personalized_recommendation_frequency'
harus ada (tidak boleh null). Ini membantu memastikan bahwa kolom tersebut tidak mengandung nilai yang hilang atau tidak lengkap.

In [None]:
validator.expect_column_values_to_not_be_null('personalized_recommendation_frequency')







Calculating Metrics:   0%|          | 0/6 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_values_to_not_be_null",
    "kwargs": {
      "column": "personalized_recommendation_frequency",
      "batch_id": "csv-data-amazon-customer-behaviour-amazon-customer-behaviour"
    },
    "meta": {}
  },
  "result": {
    "element_count": 506,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Expectation 6

 ***Memastikan bahwa kolom 'search_result_exploration' ada dalam tabel.***

`expect_column_to_exist` digunakan untuk memvalidasi bahwa kolom dengan nama yang ditentukan ('search_result_exploration')
ada dalam tabel data. Ini memastikan bahwa kolom yang diperlukan tersedia untuk analisis atau pemrosesan lebih lanjut.

In [None]:
validator.expect_column_to_exist('search_result_exploration')




Calculating Metrics:   0%|          | 0/2 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_column_to_exist",
    "kwargs": {
      "column": "search_result_exploration",
      "batch_id": "csv-data-amazon-customer-behaviour-amazon-customer-behaviour"
    },
    "meta": {}
  },
  "result": {},
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Expectation 7

***Memastikan bahwa jumlah kolom dalam tabel sama dengan nilai yang ditentukan.***

`expect_table_column_count_to_equal` digunakan untuk memvalidasi bahwa tabel memiliki tepat 24 kolom.
Ini membantu memastikan bahwa struktur tabel sesuai dengan yang diharapkan dan tidak ada kolom yang hilang atau tambahan.

In [None]:
validator.expect_table_column_count_to_equal(
    value=24
)




Calculating Metrics:   0%|          | 0/3 [00:00<?, ?it/s]

{
  "success": true,
  "expectation_config": {
    "expectation_type": "expect_table_column_count_to_equal",
    "kwargs": {
      "value": 24,
      "batch_id": "csv-data-amazon-customer-behaviour-amazon-customer-behaviour"
    },
    "meta": {}
  },
  "result": {
    "observed_value": 24
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### e. Saving the defined expectation suite.


`save_expectation_suite` digunakan untuk menyimpan suite ekspektasi ke dalam konteks yang ada, termasuk ekspektasi yang gagal.


In [None]:
# Simpan Expectation Suite

validator.save_expectation_suite(discard_failed_expectations=False)

### f. Creating or updating a checkpoint named 'checkpoint_1'

`add_or_update_checkpoint` digunakan untuk membuat checkpoint baru atau memperbarui yang sudah ada,
memastikan bahwa validator dan ekspektasi suite terkait disimpan dan siap digunakan.

In [None]:
# Buat Checkpoint

checkpoint_1 = context.add_or_update_checkpoint(
    name = 'checkpoint_1',
    validator = validator,
)

### g. Running the created checkpoint.


`run` digunakan untuk mengeksekusi checkpoint dan memvalidasi data berdasarkan ekspektasi yang telah didefinisikan.


In [None]:
# Jalankan Checkpoint

checkpoint_result = checkpoint_1.run()

Calculating Metrics:   0%|          | 0/23 [00:00<?, ?it/s]

### h. Building data documentation for the defined expectations.

`build_data_docs` digunakan untuk membuat dokumentasi visual yang menunjukkan hasil validasi terhadap data berdasarkan ekspektasi.
"""

In [None]:
# Bangun Data Docs

context.build_data_docs()

{'local_site': 'file:///content/gx/uncommitted/data_docs/local_site/index.html'}