---
# **Restaurant Customer Satisfaction Analysis**

Name: Iznia Azyati


**Objective:** 
Notebook ini digunakan untuk validasi data menggunakan Great Expectation.

---

## **Install Great Expectation Package**

Sebelum melakukan validasi data dengan Great Expectation Packages, kita harus install Great Expectation, kemudian membuat data context dan menghubungkannya dengan sumber data. Kemudian kita harus memasukkan file csv kita sebagai aset dan menambahkannya ke sumber data.

In [1]:
# Install the library

!pip install -q great-expectations

## **Import Library**

In [7]:
from great_expectations.data_context import FileDataContext


## **Set Up**

In [8]:
# Create a data context
context = FileDataContext.create(project_root_dir='./')

In [10]:
# Define the name of the data source and convert it to lowercase
datasource_name = 'csv-restaurant-iznia'

# Add a pandas data source with the specified name to the context
datasource = context.sources.add_pandas(datasource_name)


# Define the name of the dataset asset and convert it to lowercase
asset_name = 'Milestone3-Iznia'

# Specify the path to the raw CSV file containing the dataset
path_to_data = 'P2M3_Iznia_Azyati_data_cleaned.csv'

# Add a CSV asset with the specified name and file path to the data source
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=path_to_data)

# Build a batch request to load the dataset into memory
batch_request = asset.build_batch_request()

## **Creating Expectation Suite and Validator**

Kemudian kita membuat Expectation Suite yang berfungsi sebagai kumpulan pernyataan yang dapat diverifikasi mengenai data. Rangkaian ini menggabungkan berbagai Ekspektasi ke dalam gambaran data yang komprehensif. Nama Expectation Suite dapat disesuaikan asalkan tetap unik dalam proyek tertentu. Validator digunakan untuk berinteraksi dengan kumpulan data dan menghasilkan Rangkaian Harapan ini. Setiap kali Ekspektasi dievaluasi menggunakan validator.expect_*, Ekspektasi tersebut langsung mengalami validasi terhadap dataset.

In [37]:
# Creating Expectation suite
expectation_suite_name = 'expectation-restaurant-dataset'
context.add_or_update_expectation_suite(expectation_suite_name)

# Creating validator
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)

# Displaying Validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,customer_id,age,gender,income,visit_frequency,average_spend,preferred_cuisine,time_of_visit,group_size,dining_occasion,meal_type,online_reservation,delivery_order,loyalty_program_member,wait_time,service_rating,food_rating,ambiance_rating,high_satisfaction
0,654,35,Male,83380,Weekly,27.829142,Chinese,Breakfast,3,Business,Takeaway,False,True,True,43.523929,2,5,4,False
1,655,19,Male,43623,Rarely,115.408622,American,Dinner,1,Casual,Dine-in,False,False,False,57.524294,5,5,3,False
2,656,41,Female,83737,Weekly,106.693771,American,Dinner,6,Celebration,Dine-in,False,True,False,48.682623,3,4,5,False
3,657,43,Male,96768,Rarely,43.508508,Indian,Lunch,1,Celebration,Dine-in,False,False,False,7.552993,4,5,1,False
4,658,55,Female,67937,Monthly,148.084627,Chinese,Breakfast,1,Business,Takeaway,False,False,True,37.789041,2,3,5,False


## **Expectations**

Ekspektasi adalah pernyataan yang dapat diverifikasi tentang source data, mirip dengan pernyataan dalam pengujian unit Python tradisional. Ini menawarkan bahasa yang fleksibel dan deklaratif untuk menggambarkan perilaku data yang diantisipasi. Pada dasarnya, Ekspektasi menguraikan apa yang kita antisipasi dari data, yang berfungsi sebagai tolok ukur untuk memvalidasi data aktual

### **Expectation 1: Column To be Unique**

Code ini digunakan untuk memastikan bahwa setiap nilai di kolom 'customer_id' adalah unik. Kita menggunakannya dalam proyek untuk menjaga integritas dan konsistensi data, karena memiliki nilai yang tidak unik di kolom ini dapat menyebabkan kesalahan atau inkonsistensi dalam proses hilir yang mengandalkan 'customer_id' sebagai pengidentifikasi unik.

In [38]:
# Expectation 1 : Column `customer_id` must be unique as it is our primary key and an identifier for each unique orders

validator.expect_column_values_to_be_unique("customer_id")


Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 1500,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  }
}

### **Expectation 2: Column Values to be Between**

Code ini menggunakan metode `expect_column_values_to_be_between` dari library Great Expectations untuk memvalidasi apakah semua nilai di kolom `age` berada dalam rentang yang ditentukan. Dalam hal ini, rentang ditentukan oleh nilai minimum 18 dan nilai maksimum 80.

In [39]:
#Expectation 2: Column 'age' to be between 18 and 80

validator.expect_column_values_to_be_between("age", 18, 80)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 1500,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  }
}

### **Expectation 3: Column Values to Be in Set**

Code ini menggunakan metode `expect_column_values_to_be_in_set` dari library Great Expectations untuk memvalidasi apakah semua nilai di kolom `gender` termasuk dalam kumpulan nilai yang telah ditentukan sebelumnya. Dalam hal ini, rangkaian nilai yang diharapkan mencakup 'Male' dan 'Female'.

In [40]:
# Expectation 3: Column 'gender' to be in set ['Male', 'Female']

validator.expect_column_values_to_be_in_set("gender", ["Male", "Female"])


Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 1500,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  }
}

### **Expectation 4: Column Values to be of Type**

Code ini menggunakan metode `expect_column_values_to_be_in_type_list` dari library Great Expectations untuk memvalidasi apakah semua nilai di kolom 'income' termasuk dalam tipe data tertentu. Dalam hal ini, tipe data yang diharapkan adalah 'int64' dan 'float64'.

In [41]:
# Expectation 4: Column 'income' to be in type list ['int64', 'float64']

validator.expect_column_values_to_be_in_type_list("income", ["int64", "float64"])

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "observed_value": "int64"
  }
}

### **Expectation 5: Column Values to be of Match Regex**

In [42]:
# Expectation 5: Column 'visit_frequency' to match regex '^(Daily|Weekly|Monthly|Rarely)$'

validator.expect_column_values_to_match_regex("visit_frequency", "^(Daily|Weekly|Monthly|Rarely)$")


Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 1500,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  }
}

### **Expectation 6: Column Values to be of Not Match Regex List**

In [43]:
# Expectation 6: Column 'preferredcuisine' values to not match regex list ['[^a-zA-Z]']

validator.expect_column_values_to_not_match_regex_list("preferred_cuisine", regex_list=['[^a-zA-Z]'])


Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "element_count": 1500,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  }
}

### **Expectation 7: Column Median to be of Between**

In [45]:
# Cell 6: Expectation 6: Column 'average_spend' median to be between 20 and 150

validator.expect_column_median_to_be_between("average_spend", 20, 150)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "success": true,
  "meta": {},
  "result": {
    "observed_value": 104.62640814349791
  }
}

## **Save Expectation**

In [46]:
# Save the expectation suite
validator.save_expectation_suite(discard_failed_expectations=False)

## **Checkpoint**

In [47]:
# Create a checkpoint

checkpoint_1 = context.add_or_update_checkpoint(
    name = 'checkpoint_1',
    validator = validator,
)

In [48]:
# Run the checkpoint
checkpoint_result = checkpoint_1.run()


Calculating Metrics:   0%|          | 0/39 [00:00<?, ?it/s]

## **Data Docs**

In [49]:
# Build data docs
context.build_data_docs()

# Save and display the results
print("Expectations results:")
print(checkpoint_result)

Expectations results:
{
  "run_id": {
    "run_name": null,
    "run_time": "2024-07-22T17:58:35.443957+07:00"
  },
  "run_results": {
    "ValidationResultIdentifier::expectation-restaurant-dataset/__none__/20240722T105835.443957Z/csv-restaurant-iznia-Milestone3-Iznia": {
      "validation_result": {
        "success": true,
        "meta": {
          "great_expectations_version": "0.18.19",
          "expectation_suite_name": "expectation-restaurant-dataset",
          "run_id": {
            "run_name": null,
            "run_time": "2024-07-22T17:58:35.443957+07:00"
          },
          "batch_spec": {
            "reader_method": "read_csv",
            "reader_options": {
              "filepath_or_buffer": "P2M3_Iznia_Azyati_data_cleaned.csv"
            }
          },
          "batch_markers": {
            "ge_load_time": "20240722T105835.475207Z",
            "pandas_data_fingerprint": "1db49c707252f35801c32ce3e35746c0"
          },
          "active_batch_definition": {


## **Conclusion**

Berdasarkan validasi yang dilakukan menggunakan library Great Expectations, setiap aspek dari data memenuhi ekspektasi dan dianggap **benar**.

- Kolom `customer_id` berisi nilai-nilai unik, memastikan integritas dan keunikan data.
- Nilai kolom `age` berada dalam rentang yang diharapkan yaitu antara 18 hingga 80.
- Kolom `gender` berisi nilai-nilai yang secara eksklusif berasal dari set ['Male', 'Female'] seperti yang diharapkan.
- Nilai kolom `income` adalah dari tipe data int dan float, memastikan konsistensi tipe data.
- Nilai kolom `visit_frequency` sesuai dengan pola regex yang ditentukan '^(Daily|Weekly|Monthly|Rarely)$', menjaga konsistensi dalam representasi frekuensi.
- Nilai kolom `preferred_cuisine` tidak sesuai dengan daftar regex yang ditentukan ['[^a-zA-Z]'], memastikan format teks yang tepat.
- Nilai `median kolom average_spend` berada dalam rentang yang diharapkan yaitu antara 20 hingga 150.

Secara keseluruhan, validasi ini menkonfirmasi bahwa data memenuhi standar kualitas dan dapat digunakan untuk analisis atau proses lebih lanjut. 