================================================================================
# Milestone 3
**Great Expectations**

Nama    : Angga Fadhlurrahman Prianto

Batch   : HCK-026

================================================================================

## Import Libraries

In [1]:
import pandas as pd

## Data Loading

In [2]:
data = pd.read_csv("data\P2M3_Angga_data_clean.csv")

data.head()

Unnamed: 0,id,suburb,address,rooms,type,price,method,sellerg,date,postcode,regionname,propertycount,distance,councilarea
0,1,Abbotsford,49 Lithgow St,3,h,1490000.0,S,Jellis,2017-04-01,3067,Northern Metropolitan,4019,3.0,Yarra City Council
1,2,Abbotsford,59A Turner St,3,h,1220000.0,S,Marshall,2017-04-01,3067,Northern Metropolitan,4019,3.0,Yarra City Council
2,3,Abbotsford,119B Yarra St,3,h,1420000.0,S,Nelson,2017-04-01,3067,Northern Metropolitan,4019,3.0,Yarra City Council
3,4,Aberfeldie,68 Vida St,3,h,1515000.0,S,Barry,2017-04-01,3040,Western Metropolitan,1543,7.5,Moonee Valley City Council
4,5,Airport West,92 Clydesdale Rd,2,h,670000.0,S,Nelson,2017-04-01,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council


## Create Data Context

In [3]:
# Create a data context

from great_expectations.data_context import FileDataContext

# Create default context
# from great_expectations import get_context

context = FileDataContext.create(project_root_dir='./')

In [4]:
# create data source
data_source = context.sources.add_pandas(name="pandas_data_source")

# create data asset
path = "data\P2M3_Angga_data_clean.csv"
asset = data_source.add_csv_asset("top-100-videos", filepath_or_buffer=path)

# build batch request
batch_request = asset.build_batch_request()

## Create an Expectation Suite

In [5]:
# Create an Expectation Suite
context.add_or_update_expectation_suite("sample_validation")

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = "sample_validation"
)

# Check the validator
validator.head()

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0,id,suburb,address,rooms,type,price,method,sellerg,date,postcode,regionname,propertycount,distance,councilarea
0,1,Abbotsford,49 Lithgow St,3,h,1490000.0,S,Jellis,2017-04-01,3067,Northern Metropolitan,4019,3.0,Yarra City Council
1,2,Abbotsford,59A Turner St,3,h,1220000.0,S,Marshall,2017-04-01,3067,Northern Metropolitan,4019,3.0,Yarra City Council
2,3,Abbotsford,119B Yarra St,3,h,1420000.0,S,Nelson,2017-04-01,3067,Northern Metropolitan,4019,3.0,Yarra City Council
3,4,Aberfeldie,68 Vida St,3,h,1515000.0,S,Barry,2017-04-01,3040,Western Metropolitan,1543,7.5,Moonee Valley City Council
4,5,Airport West,92 Clydesdale Rd,2,h,670000.0,S,Nelson,2017-04-01,3042,Western Metropolitan,3464,10.4,Moonee Valley City Council


## Expectation

### To Be Unique Column (id)
Disini saya melakukan validasi dengan `Great Expectations` `To Be Unique` pada column `id`, hal ini merupakan langkah dasar yang penting untuk menjaga integritas dan kualitas data. Dengan kita memastikan bahwa setiap baris memiliki identifikasi unik, kita dapat memastikan bahwa data tetap konsisten dan siap digunakan dalam proses analisis data atau pengolahan data yang lebih mendalam lagi.

In [6]:
validator.expect_column_values_to_be_unique('id')

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 63021,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### To Be Between Min_value and Max_value
Pada validasi `to be between min_value and max_value` ini juga merupakan `validation` yang penting untuk menjaga konsistensi data dan kualitas dari data itu sendiri. Dengan saya melakukan validasi ini, saya dapat mencegah terjadinya kesalahan input data dan memastikan data yang masuk tetap realistis dan sesuai dengan standart atau requirement yang diinginkan. Dengan melakukan validasi ini saya juga menjaga data agar pada saat proses analisis atau pemodelan data dapatkan hasil yang akurat.

In [7]:
validator.expect_column_values_to_be_between('price', min_value=10000, max_value=15000000)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 63021,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

In [8]:
validator.expect_column_values_to_be_between('rooms', min_value=1, max_value=35)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 63021,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### To Be In Set
Pada proses validasi `To Be In Set` dapat digunakan dalam beberapa hal, seperti berguna untuk memvalidasi data tetap terstruktur sesuai dengan kategory yang relevan, data yang konsisten dan memastikan data dari kesalahan input atau nilai yang tidak valid, dan yang terakhir memastikan data kita relevan dan sesuai dengan requirement atau standart bisnis yang telah ditentukan. Maka dengan melakukan validasi ini saya memastikan bahwa data yang digunakan dalam analisis atau pengolahan lebih lanjut memiliki kualitas yang tingg dan dapat dipercaya.

In [9]:
validator.expect_column_values_to_be_in_set('type', ['h', 'u', 't'])

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 63021,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### To Be In Type List
Proses ini penting dilakukan untuk memastikan data memiliki tipe data yang sesuai.

In [10]:
validator.expect_column_values_to_be_in_type_list('price', ['integer', 'float'])

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "float64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

In [11]:
validator.expect_column_values_to_be_in_type_list('distance', ['integer', 'float'])

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": "float64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### To Be Not Null
Alasan saya melakukan validasi ini adalah untuk memastikan bahwa setiap column pada dataset saya tidak terdapat data yang kosong atau missing, hal ini sangat perlu dilakukan agar pada saat pengolahan dataset nanti nya akurat dan dapat dipercaya.

In [12]:
validator.expect_column_values_to_not_be_null('suburb')

Calculating Metrics:   0%|          | 0/6 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 63021,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

In [13]:
validator.expect_column_values_to_not_be_null('price')

Calculating Metrics:   0%|          | 0/6 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "element_count": 63021,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### To Be Median Between
Alasan saya melakukan validasi ini terdapat beberapa faktor utama yaitu :
* untuk menjaga distribusi data disetiap column nya seimbang.
* untuk mendeteksi terjadinya anomali global pada dataset.

dari kedua faktor ini sangat mempengaruhi proses analisis data atau pada saat melakukan proses modeling pada data, maka dari itu saya melakukan `great expectations` ini.

In [14]:
validator.Expect_Column_Median_To_Be_Between(column="price", min_value=10000, max_value=15000000)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": 830000.0
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### Distinct Values To Contain Set
Alasan saya melakukan validation ini yaitu, dapat digunakan untuk memastikan bahwa kolom tertentu selalu mengandung nilai-nilai yang diharapkan ada atau bahkan jika beberapa nilai lain juga diperbolehkan. Ini sangat berguna dalam konteks kontrol kualitas data kategori.

In [15]:
validator.Expect_Column_Distinct_Values_To_Contain_Set(
    column="rooms",
    value_set=[1, 4]
)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "success": true,
  "result": {
    "observed_value": [
      1,
      2,
      3,
      4,
      5,
      6,
      7,
      8,
      9,
      10,
      11,
      12,
      16,
      31
    ],
    "details": {
      "value_counts": [
        {
          "value": 1,
          "count": 2111
        },
        {
          "value": 2,
          "count": 13247
        },
        {
          "value": 3,
          "count": 27949
        },
        {
          "value": 4,
          "count": 15747
        },
        {
          "value": 5,
          "count": 3434
        },
        {
          "value": 6,
          "count": 424
        },
        {
          "value": 7,
          "count": 61
        },
        {
          "value": 8,
          "count": 29
        },
        {
          "value": 9,
          "count": 5
        },
        {
          "value": 10,
          "count": 7
        },
        {
          "value": 11,
          "count": 1
        },
        {
          "value": 12,
  