```
=================================================
Employee Performance Analysis

Nama  : Dian

Notebook ini diubat untuk memverifikasi bahwa data tersebut benar secara struktural dan sintaksis serta mengikuti format atau pola yang telah ditetapkan sebelumnya. Seluruh proses ini dilakukan dengan menggunakan bantuan modul dari GreatExpectations.
=================================================
```

___

# Validasi Data Menggunakan Great Expectations

> Validasi data adalah proses memeriksa kesesuaian data dengan standar atau aturan tertentu. Tujuannya adalah memastikan data benar secara struktur, format, dan pola, sehingga menghasilkan analisis yang akurat dan keputusan yang tepat. Dalam konteks kinerja pegawai, langkah-langkah validasi sebagai berikut :

1. Periksa keunikan nilai kolom `employee_id`.  
2. Validasi rentang skor kinerja agar berada di antara 1 hingga 5 `(performance_score)`.  
3. Pastikan kolom `job_title` hanya berisi nilai yang valid.  
4. Verifikasi tipe data untuk skor kepuasan pegawai `(employee_satisfaction_score)`.  
5. Periksa panjang karakter untuk kolom `job_title`.  
6. Validasi tingkat pendidikan agar sesuai standar `(education_level)`.  
7. Pastikan kolom `hire_date` bisa di-parse sebagai tanggal yang valid.

Dengan langkah-langkah validasi ini, kualitas data kinerja pegawai akan meningkat, meminimalisit kesalahan analisis, dan membantu pengambilan keputusan yang lebih baik.

## Import Modules

> Mengimpor modul yang dibutuhkan.

In [3]:
import pandas as pd
import great_expectations as gx

## Data Loading

> Tahapan ini dilakukan untuk membaca data yang sudah bersih.

In [4]:
df = pd.read_csv('dags/clean_data.csv')
df.head()

Unnamed: 0,employee_id,department,gender,age,job_title,hire_date,years_at_company,education_level,performance_score,monthly_salary,work_hours_per_week,projects_handled,overtime_hours,sick_days,remote_work_frequency,team_size,training_hours,promotions,employee_satisfaction_score,resigned
0,1,IT,Male,55,Specialist,2022-01-19,2,High School,5,6750.0,33,32,22,2,0,14,66,0,2.63,False
1,2,Finance,Male,29,Developer,2024-04-18,0,High School,5,7500.0,34,34,13,14,100,12,61,2,1.72,False
2,3,Finance,Male,55,Specialist,2015-10-26,8,High School,3,5850.0,37,27,6,3,50,10,1,0,3.17,False
3,4,Customer Support,Female,48,Analyst,2016-10-22,7,Bachelor,2,4800.0,52,10,28,12,100,10,0,1,1.86,False
4,5,Engineering,Female,36,Analyst,2021-07-23,3,Bachelor,2,4800.0,38,11,29,13,100,15,9,1,1.25,False


## Data Preparation

> Tahapan ini dilakukan untuk mengkonversi dataframe ke great expectations. Konversi ini dilakukan agar kompatibel dengan fungsi-fungsi yang ada pada modul Great Expectations sehingga proses validasi berlangsung secara maksimal tanpa terjadinya error.

In [5]:
ge_df = gx.from_pandas(df)
ge_df.info()

<class 'great_expectations.dataset.pandas_dataset.PandasDataset'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 20 columns):
 #   Column                       Non-Null Count   Dtype  
---  ------                       --------------   -----  
 0   employee_id                  100000 non-null  int64  
 1   department                   100000 non-null  object 
 2   gender                       100000 non-null  object 
 3   age                          100000 non-null  int64  
 4   job_title                    100000 non-null  object 
 5   hire_date                    100000 non-null  object 
 6   years_at_company             100000 non-null  int64  
 7   education_level              100000 non-null  object 
 8   performance_score            100000 non-null  int64  
 9   monthly_salary               100000 non-null  float64
 10  work_hours_per_week          100000 non-null  int64  
 11  projects_handled             100000 non-null  int64  
 12  overtime_hours               10

Konversi berhasil dilakukan (ditunjukkan dengan hasil: `<class 'great_expectations.dataset.pandas_dataset.PandasDataset'>`).

## Expectations

### Expectation 1: To be Unique

> Tahap ini dilakukan untuk memastikan kolom `employee_id` tidak memiliki nilai duplikat.

In [6]:
id_v = ge_df.expect_column_values_to_be_unique("employee_id")
id_v

{
  "success": true,
  "result": {
    "element_count": 100000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Hasil ini (ditunjukkan dengan <mark>"success": true</mark>) menunjukkan bahwa semua nilai di kolom `employee_id` unik dan tidak ada duplikat.

### Expectation 2: To be Between

> Tahap ini dilakukan untuk memastikan kolom `performance_score` berada dalam rentang 1-5.

In [7]:
ps_v = ge_df.expect_column_values_to_be_between("performance_score", min_value=1, max_value=5) 
ps_v

{
  "success": true,
  "result": {
    "element_count": 100000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Hasil ini (ditunjukkan dengan <mark>"success": true</mark>) menunjukkan bahwa semua nilai di kolom `performance_score` berada dalam rentang 1-5.

### Expectation 3: To be in Set

> Tahap ini dilakukan untuk memastikan kolom  `job_title` hanya berisi nilai yang valid ("Analyst", "Consultant", "Developer", "Engineer", "Manager", "Specialist", "Technician").

In [8]:
jt_v= ge_df.expect_column_values_to_be_in_set("job_title", ["Analyst", "Consultant", "Developer", "Engineer", "Manager", "Specialist", "Technician"])
jt_v

{
  "success": true,
  "result": {
    "element_count": 100000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Hasil ini (ditunjukkan dengan <mark>"success": true</mark>) menunjukkan bahwa semua nilai di kolom `job_title` hanya berisi nilai yang valid ("Analyst", "Consultant", "Developer", "Engineer", "Manager", "Specialist", "Technician").

### Expectation 4: To be in Type List

> Tahap ini dilakukan untuk memastikan kolom `employee_satisfaction_score` berisi nilai desimal.

In [9]:
ess_v= ge_df.expect_column_values_to_be_in_type_list("employee_satisfaction_score", ["float64"])
ess_v

{
  "success": true,
  "result": {
    "observed_value": "float64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Hasil ini (ditunjukkan dengan <mark>"success": true</mark>) menunjukkan bahwa semua nilai di kolom `employee_satisfaction_score` berisi nilai desimal.

### Expectation 5: expect_column_value_lengths_to_be_between

> Tahap ini dilakukan untuk memastikan kolom `job_title` berisi teks dengan panjang yang sesuai dan tidak berlebihan.

In [10]:
jt_l_v=ge_df.expect_column_value_lengths_to_be_between(
    column="job_title",
    min_value=3,
    max_value=50
)
jt_l_v

{
  "success": true,
  "result": {
    "element_count": 100000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Hasil ini (ditunjukkan dengan <mark>"success": true</mark>) menunjukkan bahwa semua nilai di kolom `job_title` berisi teks dengan panjang yang sesuai dan tidak berlebihan.

### Expectation 6: expect_column_values_to_match_regex

> Tahap ini dilakukan untuk memastikan kolom `education_level` berisi nilai yang valid (High 'School', 'Bachelor', 'Master', 'PhD').


In [11]:
edu_v = ge_df.expect_column_values_to_match_regex(column="education_level", regex=r"^(High School|Bachelor|Master|PhD)$")
edu_v

{
  "success": true,
  "result": {
    "element_count": 100000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Hasil ini (ditunjukkan dengan <mark>"success": true</mark>) menunjukkan bahwa semua nilai di kolom `education_level` berisi nilai yang valid (High 'School', 'Bachelor', 'Master', 'PhD').

### Expectation 7: expect_column_values_to_be_dateutil_parseable

> Tahap ini memastikan kolom `hire_date` berisi tanggal yang valid.

In [12]:
hd_v = ge_df.expect_column_values_to_be_dateutil_parseable(column='hire_date')
hd_v

{
  "success": true,
  "result": {
    "element_count": 100000,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

Hasil ini (ditunjukkan dengan <mark>"success": true</mark>) menunjukkan bahwa semua nilai di kolom `hire_date` berisi tanggal yang valid.

# Kesimpulan

> Berdasarkan seluruh hasil proses validasi, data dinyatakan valid sehingga siap digunakan untuk analisis lebih lanjut.