
    =================================================
    
   

    Nama  : Dery Rai Ambhara


    Program ini dibuat untuk membangun konteks data (data context) menggunakan Great Expectations, sebuah perangkat lunak open-source yang 
    digunakan untuk mengelola, memantau, dan menguji kualitas data.
    
    =================================================

In [3]:
# Create a data context

from great_expectations.data_context import FileDataContext
import pandas as pd
from great_expectations.dataset import PandasDataset
import os


context = FileDataContext.create(project_root_dir='C:\\Users\\IRFAN\\hacktiv8\\projectm3\\csv')



In [4]:
# Local CSV file path
local_csv_path = 'C:\\Users\\IRFAN\\hacktiv8\\projectm3\\csv\\P2M3_Dery_data_clean.csv'

# Extracting the file name without extension to use as asset_name
asset_name = os.path.splitext(os.path.basename(local_csv_path))[0]

# Give a unique name to the datasource
datasource_name = 'csv-m3'

# Adding the datasource
datasource = context.sources.add_pandas(datasource_name)

# Adding the CSV asset to the datasource
asset = datasource.add_csv_asset(asset_name, filepath_or_buffer=local_csv_path)

# Building batch request
batch_request = asset.build_batch_request()


**Insight** : file csv yang berada di `C:\\Users\\IRFAN\\hacktiv8\\projectm3\\csv\\P2M3_Dery_data_clean.csv` bernama `P2M3_Dery_data_clean.csv` akan di load untuk dimonitoring . lalu akan di ambil file csv tanpa ekstensinya dengan cara `os.path.basename` dan dipisahkan ekstensi file menggunakan `os.path.splitext`, kemudian disimpan di dalam variable `asset_name`. lalu data CSV yang akan ditambahkan ke konteks Great Expectations dengan nama `csv-m3` dan disimpan pada variable `datasource_name`. `Asset` ini adalah representasi dari file CSV yang akan dimonitor. lalu pada `batch_request` digunakan untuk memeriksa data dalam file csv untuk melakukan pemeriksaaan dan validasi pada data.

In [5]:
# Creat an expectation suite
expectation_suite_name = 'expectation-dataset'
context.add_or_update_expectation_suite(expectation_suite_name)

# Create a validator using above expectation suite
validator = context.get_validator(
    batch_request = batch_request,
    expectation_suite_name = expectation_suite_name
)
df = pd.read_csv(local_csv_path)
df['no_index'] = df.index
# Check the validator
validator.head()



Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

Unnamed: 0.1,Unnamed: 0,unnamed:_0,hours_studied,attendance,parental_involvement,access_to_resources,extracurricular_activities,sleep_hours,previous_scores,motivation_level,...,family_income,teacher_quality,school_type,peer_influence,physical_activity,learning_disabilities,parental_education_level,distance_from_home,gender,exam_score
0,0,0,23,84,Low,High,No,7,73,Low,...,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,1,1,19,64,Low,Medium,No,8,59,Low,...,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,2,2,24,98,Medium,Medium,Yes,7,91,Medium,...,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,3,3,29,89,Low,Medium,Yes,8,98,Medium,...,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,4,4,19,92,Medium,Medium,Yes,6,65,Medium,...,Medium,High,Public,Neutral,4,No,College,Near,Female,70


**Insight** : membuat, mengatur, dan memeriksa validator menggunakan Great Expectations, dengan cara menentukan nama untuk suite ekspektasi (expectation suite) yang akan dibuat, lalu menambahkan atau memperbarui suite ekspektasi dengan nama yang telah ditentukan. selanjutnya pada `validator` membuat objek validator dengan menggunakan permintaan batch (batch request) yang telah dibangun sebelumnya dan suite ekspektasi yang telah dibuat. setelah itu fungsi akan dipanggil pada `validator.head()` untuk memeriksa beberapa baris pertama dari data yang telah dimuat ke dalam validator
dengan melakukan langkah semua ini dapat memastikan bahwa data memenuhi aturan atau ekspektasi tertentu sebelum dilanjutkan ke tahap analisis atau penggunaan selanjutnya. 

## Expectations

#### To be unique

In [6]:
batch_data = PandasDataset(df)

# Membuat expectation bahwa nilai dalam kolom 'no_index'
batch_data.expect_column_values_to_be_unique('no_index') #membuat column baru untuk melakukan unique values
validation_results = batch_data.validate()

validation_results

{
  "results": [
    {
      "result": {
        "element_count": 6607,
        "missing_count": 0,
        "missing_percent": 0.0,
        "unexpected_count": 0,
        "unexpected_percent": 0.0,
        "unexpected_percent_total": 0.0,
        "unexpected_percent_nonmissing": 0.0,
        "partial_unexpected_list": []
      },
      "exception_info": {
        "raised_exception": false,
        "exception_message": null,
        "exception_traceback": null
      },
      "meta": {},
      "expectation_config": {
        "expectation_type": "expect_column_values_to_be_unique",
        "meta": {},
        "kwargs": {
          "column": "no_index",
          "result_format": "BASIC"
        }
      },
      "success": true
    }
  ],
  "evaluation_parameters": {},
  "meta": {
    "great_expectations_version": "0.18.3",
    "expectation_suite_name": "default",
    "run_id": {
      "run_name": null,
      "run_time": "2024-09-16T14:28:03.797835+07:00"
    },
    "batch_kwargs": {
     

**Insight** : Melakukan expect_column_values_to_be_unique pada kolom yang barusaja ditambahkan `no_index`. berikut hasilnya :
-  Hasilnya menunjukkan bahwa semua nilai element_count": 6607 dalam kolom tersebut unik, Jumlah nilai yang hilang dalam kolom 0 dan umlah nilai yang tidak terduga (non-unik) yang ditemukan dalam kolom 0. validasi berhasil dan kolom tersebut memenuhi harapan bahwa nilainya harus unik `"success": true,`

#### To be between min_value and max_value

In [14]:
validator.expect_column_mean_to_be_between('sleep_hours', 3, 10)

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "result": {
    "observed_value": 7.029060087785682
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "success": true
}

**Insight** : Melakukan validator.expect_column_mean_to_be_between pada column `sleep_hours` dengan range 3 - 10. Berikut hasilnya:
-  Hasil pemeriksaan menunjukkan bahwa rata-rata kolom `'sleep_hours'` adalah 7.02, yang artinya nilai rata-rata yang berada pada column `sleep_hours` berada pada range `3-10`, dan pemeriksaan berlangsung dengan sukses. `"success": true,`

#### To be  in set

In [39]:
validator.expect_column_values_to_be_in_set(
    column="gender",
    value_set=["Male", "Female"]
)

Calculating Metrics:   0%|          | 0/8 [00:00<?, ?it/s]

{
  "result": {
    "element_count": 6607,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": [],
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "success": true
}


**Insight** : Melakukan validator.expect_column_most_common_value_to_be_in_set pada column `gender`, dengan mencari mayoritas pada column tersebut. berikut hasilnya :

- Validasi sukses dan menunjukkan bahwa bahwa nilai yang paling umum (most common value) dalam kolom `'gender'` adalah `"Male" dan "Female"`, yang memang termasuk dalam himpunan nilai yang diharapkan pemeriksaan berlangsung dengan sukses `"success": true`, 

#### To be in Type list

In [34]:
validator.expect_column_values_to_be_in_type_list(
    column="exam_score",
    type_list=["int64"]
)

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "result": {
    "observed_value": "int64"
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "success": true
}

**Insight** Melakukan validator.expect_column_values_to_be_of_type pada column `exam_score`
- Hasil pemeriksaan menunjukkan bahwa semua nilai dalam kolom `exam_score` tersebut adalah tipe data 'int64'

#### median_to_be_between

In [36]:
validator.expect_column_median_to_be_between('sleep_hours',min_value=0, max_value=10 )

Calculating Metrics:   0%|          | 0/4 [00:00<?, ?it/s]

{
  "result": {
    "observed_value": 7.0
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "success": true
}

**Insight** : Melakukan validator.expect_column_median_to_be_between pada column `sleep_hours`. Berikut hasilnya :
- Hasil pemeriksaan menunjukkan bahwa nilai median dalam kolom `sleep_hours` adalah `7`, yang berada dalam rentang yang diharapkan antara 0 dan 10   pemeriksaan berlasung dengan sukses `"success": true,`

#### row_count_to_be_between

In [37]:
validator.expect_table_row_count_to_be_between(0, 10000)

Calculating Metrics:   0%|          | 0/1 [00:00<?, ?it/s]

{
  "result": {
    "observed_value": 6607
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "success": true
}

**Insight** : Melakukan validator.expect_table_row_count_to_be_between pada dataset `P2M3_dery_data_clean.csv`. Berikut hasilnya :
- Hasil pemeriksaan menunjukkan bahwa jumlah baris dalam tabel adalah `6607`, yang berada dalam rentang yang diharapkan antara 0 dan 10000. yang artinya bahwa pemeriksaan berlangsung dengan sukses. `"success": true`

#### column_values_to_be_null

In [38]:
validator.expect_column_values_to_not_be_null('exam_score')

Calculating Metrics:   0%|          | 0/6 [00:00<?, ?it/s]

{
  "result": {
    "element_count": 6607,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "partial_unexpected_list": []
  },
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  },
  "meta": {},
  "success": true
}

**insight** : Melakukan validator.expect_column_values_to_not_be_null pada column `exam_score`. memverifikasi bahwa setiap entri dalam kolom `exam_score` memiliki nilai yang tidak null. berikut hasilnya :
- pemeriksaan data pada kolom 'exam_score' berhasil dilakukan tanpa masalah. Tidak ada nilai yang tidak diharapkan (NULL) dalam kolom tersebut. Jumlah total baris yang diperiksa adalah 6607 , dengan persentase nilai NULL sebesar 0.0%, `"success": true,`