=================================================

Milestone 3 - Great Expectations

Nama  : Muhammad Aliansyah Ramadhan

Batch : RMT-035

<p> Notebook ini dibuat untuk melakukan validasi kualitas data menggunakan Great Expectations. Validasi ini bertujuan untuk memastikan bahwa data memenuhi standar yang ditetapkan sebelum digunakan untuk analisis lebih lanjut. </p>
=================================================


# Import Libraries

In [2]:
import pandas as pd
import great_expectations as ge

# Data Loading

In [3]:
# Muat DataFrame dari CSV
df_clean = pd.read_csv(r'C:\Users\Alew\OneDrive - upi.edu\Hacktiv8\phase2\project_m3\dags\P2M3_aliansyahr_data_clean.csv')

In [4]:
ge_df = ge.from_pandas(df_clean)

# Great Expectations

## Membuat dan Memvalidasi Unique Identifier untuk Setiap Karyawan

Kode ini dilakukan untuk membuat unique identifier bagi setiap pegawai dengan menggunakan kolom 'No' sebagai identifikasi yang unik, sehingga memastikan tidak ada duplikasi dan memudahkan analisis dalam dataset pegawai.

In [6]:
ge_df.expect_column_values_to_be_unique('no')

{
  "success": true,
  "result": {
    "element_count": 689,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Validasi Nilai Kolom 'monthly_salary' Menggunakan Great Expectations

Kode ini dilakukan untuk memvalidasi bahwa nilai dalam kolom 'monthly_salary' berada dalam rentang antara 500 dan 10.000, sehingga memastikan gaji pegawai realistis dan sesuai dengan standar yang telah ditetapkan.

In [18]:
# Expect 'monthly_salary' to be between 500 and 10000
ge_df.expect_column_values_to_be_between('monthly_salary', min_value=500, max_value=10000)

{
  "success": true,
  "result": {
    "element_count": 689,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Memvalidasi Nilai Kolom 'Gender' Sesuai dengan Set yang Ditetapkan

Kode ini dilakukan untuk memastikan bahwa nilai dalam kolom 'gender' hanya berisi dari set yang ditentukan, yaitu ['Male', 'Female'], sehingga menjamin konsistensi dan keakuratan data terkait identitas gender pegawai.

In [19]:
# Expect 'gender' to only have values from the set ['Male', 'Female']
ge_df.expect_column_values_to_be_in_set('gender', ['Male', 'Female'])

{
  "success": true,
  "result": {
    "element_count": 689,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Memastikan Tipe Data Kolom 'Overtime Hours' Adalah Numeric (int64)

Kode ini dilakukan untuk memverifikasi bahwa semua nilai dalam kolom 'overtime_hours' adalah bertipe numerik (int64), sehingga memastikan integritas dan keakuratan data dalam analisis jam lembur pegawai.

In [28]:
# Expect 'overtime_hours' to be of numeric type
ge_df.expect_column_values_to_be_of_type('overtime_hours', 'int64')

{
  "success": true,
  "result": {
    "observed_value": "int64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Memastikan Nilai Kolom 'Years' Lebih Besar atau Sama dengan 0

Kode ini dilakukan untuk memastikan bahwa semua nilai dalam kolom 'years' adalah lebih besar dari atau sama dengan 0, sehingga menjamin bahwa data yang tercatat mengenai masa kerja pegawai tidak mengandung nilai negatif yang tidak valid.

In [22]:
# Expect 'years' to be greater than or equal to 0
ge_df.expect_column_values_to_be_between('years', min_value=0)

{
  "success": true,
  "result": {
    "element_count": 689,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Memastikan Nilai Kolom 'Center' Hanya Mengandung 'West' dan 'Main'

Kode ini dilakukan untuk memastikan bahwa nilai dalam kolom 'center' hanya berasal dari set yang ditentukan, yaitu ['West', 'Main', 'North', 'South', 'East'], sehingga menjamin konsistensi dan validitas data lokasi pegawai yang tercatat dalam dataset.

In [23]:
# Expect 'center' to contain only 'West', 'Main'
ge_df.expect_column_values_to_be_in_set('center', ['West', 'Main', 'North', 'South', 'East'])

{
  "success": true,
  "result": {
    "element_count": 689,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Memastikan Kolom 'Job Rate' Bertipe Float

Kode ini dilakukan untuk memverifikasi bahwa nilai dalam kolom 'job_rate' memiliki tipe data float, sehingga memastikan integritas data dan mencegah kesalahan analisis yang mungkin terjadi akibat nilai yang tidak sesuai.

In [26]:
# Expect 'job_rate' to be an float
ge_df.expect_column_values_to_be_of_type('job_rate', 'float64')

{
  "success": true,
  "result": {
    "observed_value": "float64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

## Memvalidasi Dataset Terhadap Semua Ekspektasi yang Didefinisikan

Kode ini dilakukan untuk melakukan validasi dataset terhadap semua harapan yang telah didefinisikan sebelumnya, dengan tujuan untuk memastikan bahwa data memenuhi semua kriteria yang telah ditentukan dan untuk menampilkan hasil validasi sebagai umpan balik tentang kualitas data.

In [29]:
# Validate the dataset against all defined expectations
results = ge_df.validate()

# Display the validation results
print(results)


{
  "success": true,
  "results": [
    {
      "success": true,
      "expectation_config": {
        "expectation_type": "expect_column_values_to_be_unique",
        "kwargs": {
          "column": "unique_employee_id",
          "result_format": "BASIC"
        },
        "meta": {}
      },
      "result": {
        "element_count": 689,
        "missing_count": 0,
        "missing_percent": 0.0,
        "unexpected_count": 0,
        "unexpected_percent": 0.0,
        "unexpected_percent_total": 0.0,
        "unexpected_percent_nonmissing": 0.0,
        "partial_unexpected_list": []
      },
      "meta": {},
      "exception_info": {
        "raised_exception": false,
        "exception_message": null,
        "exception_traceback": null
      }
    },
    {
      "success": true,
      "expectation_config": {
        "expectation_type": "expect_column_values_to_be_between",
        "kwargs": {
          "column": "monthly_salary",
          "min_value": 500,
          "max_value

## Kesimpulan:

Hasil validasi dataset menunjukkan bahwa semua harapan yang ditetapkan berhasil terpenuhi, dengan persentase keberhasilan 100%. Artinya, data yang ada dalam kondisi baik tanpa masalah, siap untuk digunakan dalam analisis lebih lanjut.