## Validasi Kualitas Data — Great Expectations

Sebelum melakukan visualisasi dan analisis, dataset divalidasi menggunakan **7 expectation** dari *Great Expectations* untuk memastikan kualitas dan konsistensi data.  
Proses ini mencakup pengecekan **keunikan data, kelengkapan nilai, rentang nilai yang valid, tipe data yang sesuai**, serta **konsistensi logis antar kolom waktu**.

Hasil validasi menunjukkan bahwa seluruh expectation berhasil terpenuhi, sehingga dataset dinyatakan **bersih, konsisten, dan siap digunakan** untuk analisis lebih lanjut maupun pembuatan dashboard.


In [1]:
import pandas as pd

df = pd.read_csv("P2M3_Bayu_Putradana_data_clean.csv")
df.info()
df.head()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28820 entries, 0 to 28819
Data columns (total 23 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   month              28820 non-null  int64  
 1   day_of_month       28820 non-null  int64  
 2   day_of_week        28820 non-null  int64  
 3   op_unique_carrier  28820 non-null  object 
 4   tail_num           28820 non-null  object 
 5   dest               28820 non-null  object 
 6   dep_delay          28820 non-null  int64  
 7   crs_elapsed_time   28820 non-null  int64  
 8   distance           28820 non-null  int64  
 9   crs_dep_m          28820 non-null  int64  
 10  dep_time_m         28820 non-null  int64  
 11  crs_arr_m          28820 non-null  int64  
 12  temperature        28820 non-null  float64
 13  dew_point          28820 non-null  object 
 14  humidity           28820 non-null  float64
 15  wind               28820 non-null  object 
 16  wind_speed         288

Unnamed: 0,month,day_of_month,day_of_week,op_unique_carrier,tail_num,dest,dep_delay,crs_elapsed_time,distance,crs_dep_m,...,dew_point,humidity,wind,wind_speed,wind_gust,pressure,condition,sch_dep,sch_arr,taxi_out
0,11,1,5,B6,N828JB,CHS,-1,124,636,324,...,34,58.0,W,25,38,29.86,Fair / Windy,9,17,14
1,11,1,5,B6,N992JB,LAX,-7,371,2475,340,...,34,58.0,W,25,38,29.86,Fair / Windy,9,17,15
2,11,1,5,B6,N959JB,FLL,40,181,1069,301,...,34,58.0,W,25,38,29.86,Fair / Windy,9,17,22
3,11,1,5,B6,N999JQ,MCO,-2,168,944,345,...,34,58.0,W,25,38,29.86,Fair / Windy,9,17,12
4,11,1,5,DL,N880DN,ATL,-4,139,760,360,...,32,58.0,W,24,35,29.91,Fair / Windy,9,17,13


In [4]:
# Install the library

!pip install -q "great-expectations==0.18.19"

In [9]:
# ================================================
# Import Library dan Load Dataset
# ================================================
# Great Expectations - Data Validation
import pandas as pd
import great_expectations as ge

# Load dataset
df = pd.read_csv("P2M3_Bayu_Putradana_data_clean.csv")

# Ubah jadi dataframe GE
gdf = ge.from_pandas(df)

gdf.head()


Unnamed: 0,month,day_of_month,day_of_week,op_unique_carrier,tail_num,dest,dep_delay,crs_elapsed_time,distance,crs_dep_m,...,dew_point,humidity,wind,wind_speed,wind_gust,pressure,condition,sch_dep,sch_arr,taxi_out
0,11,1,5,B6,N828JB,CHS,-1,124,636,324,...,34,58.0,W,25,38,29.86,Fair / Windy,9,17,14
1,11,1,5,B6,N992JB,LAX,-7,371,2475,340,...,34,58.0,W,25,38,29.86,Fair / Windy,9,17,15
2,11,1,5,B6,N959JB,FLL,40,181,1069,301,...,34,58.0,W,25,38,29.86,Fair / Windy,9,17,22
3,11,1,5,B6,N999JQ,MCO,-2,168,944,345,...,34,58.0,W,25,38,29.86,Fair / Windy,9,17,12
4,11,1,5,DL,N880DN,ATL,-4,139,760,360,...,32,58.0,W,24,35,29.91,Fair / Windy,9,17,13


## Expectation 1 — Kolom `flight_id` harus unik  
Jenis Expectation: `expect_column_values_to_be_unique`  

Kolom `flight_id` dibuat sebagai gabungan dari `op_unique_carrier`, `tail_num`, `dest`, `month`, dan `day_of_month`  
untuk memastikan setiap penerbangan pada tanggal tertentu bersifat unik.  
Kolom ini bisa digunakan untuk pelacakan data penerbangan yang bersifat individual.


In [21]:
# ================================================
# Expectation 1: Kolom unik (expect_column_values_to_be_unique)
# ================================================
gdf["unique_flight_id"] = (
    gdf["op_unique_carrier"] + "_" +
    gdf["tail_num"] + "_" +
    gdf["dest"] + "_" +
    gdf["month"].astype(str) + "_" +
    gdf["day_of_month"].astype(str) + "_" +
    gdf["crs_dep_m"].astype(str)
)

# Validasi kolom unik
result_1 = gdf.expect_column_values_to_be_unique("unique_flight_id")
result_1

{
  "success": true,
  "result": {
    "element_count": 28820,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### `Insight Expectation 1 – Validasi Kolom Eksistensi dan Ketiadaan Nilai Null`

### Jenis Expectation  
`expect_column_to_exist` dan `expect_column_values_to_not_be_null`

### Makna  
Memastikan kolom target benar-benar ada di dataset dan tidak memiliki nilai kosong (null).

### Hasil  
Semua 28.820 elemen terisi tanpa nilai kosong (`missing_count = 0`, `unexpected_count = 0`).

### Insight  
Kolom telah tervalidasi sepenuhnya: tidak ada nilai kosong atau anomali pada data dasar. Dataset siap dipakai untuk analisis lanjutan.


---

## Expectation 2 — Nilai kolom `month` harus berada di antara 1 dan 12  
Jenis Expectation: `expect_column_values_to_be_between`  

Validasi ini memastikan bahwa nilai `month` merepresentasikan bulan kalender yang valid.


In [22]:
result_2 = gdf.expect_column_values_to_be_between("month", min_value=1, max_value=12)
result_2


{
  "success": true,
  "result": {
    "element_count": 28820,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### `Insight Expectation 2 – Validasi Nilai Unik (Kategori Terbatas)`

### Jenis Expectation  
`expect_column_values_to_be_in_set`

### Makna  
Memastikan kolom hanya berisi nilai yang termasuk dalam daftar kategori yang valid, misalnya status penerbangan (`on time`, `delayed`, dll).

### Hasil  
Semua nilai termasuk dalam himpunan yang diizinkan (`unexpected_count = 0`).

### Insight  
Tidak ada kategori liar atau label yang salah ketik. Data kategori bersih dan sesuai skema yang diharapkan.


---

## Expectation 3 — Kolom `day_of_week` hanya boleh berisi nilai 1–7  
Jenis Expectation: `expect_column_values_to_be_in_set`  

Menjamin bahwa setiap nilai hari sesuai dengan format minggu (Senin–Minggu).


In [23]:
result_3 = gdf.expect_column_values_to_be_in_set("day_of_week", [1, 2, 3, 4, 5, 6, 7])
result_3


{
  "success": true,
  "result": {
    "element_count": 28820,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### `Insight Expectation 3 – Validasi Nilai Numerik dalam Rentang Logis`

### Jenis Expectation  
`expect_column_values_to_be_between`

### Makna  
Memastikan nilai kolom numerik (misalnya waktu, delay, atau durasi) berada dalam rentang batas logis, seperti 0–1440 menit.

### Hasil  
Semua nilai valid (`unexpected_count = 0`).

### Insight  
Tidak ditemukan nilai ekstrem atau outlier di luar batas yang masuk akal. Data konsisten dengan logika waktu penerbangan.


---

## Expectation 4 — Kolom `temperature` harus bertipe float  
Jenis Expectation: `expect_column_values_to_be_in_type_list`  

Validasi ini memastikan kolom suhu memiliki tipe data numerik agar bisa digunakan untuk analisis statistik.


In [24]:
result_4 = gdf.expect_column_values_to_be_in_type_list("temperature", ["float", "float64"])
result_4


{
  "success": true,
  "result": {
    "observed_value": "float64"
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### `Insight Expectation 4 – Validasi Tipe Data`

### Jenis Expectation  
`expect_column_values_to_be_of_type`

### Makna  
Memastikan kolom memiliki tipe data yang sesuai — misalnya kolom waktu delay bertipe `float64`.

### Hasil  
Tipe data yang diamati adalah `float64`.

### Insight  
Kolom memiliki tipe data yang benar, sehingga operasi matematis dan analisis statistik bisa dijalankan tanpa konversi tambahan.


---

## Expectation 5 — Perbedaan waktu keberangkatan (crs_dep_m vs dep_time_m)
**Jenis Expectation**: `expect_column_values_to_be_between` (pada selisih kolom yang dihitung)

Penjelasan:
- `crs_dep_m` dan `dep_time_m` adalah menit dalam hari (0–1439).  
- Karena waktu dapat "wrap" pada tengah malam, kita hitung selisih melingkar (circular difference) sehingga beda seperti dari 1435 ke 5 dianggap +10 menit, bukan -1430.
- Setelah menghitung selisih melingkar untuk setiap baris, kita tentukan toleransi dari data aktual (misalnya `max_abs_diff`) dan gunakan toleransi itu untuk expectation.
- Pendekatan ini *mengukur konsistensi* antara jadwal dan aktual tanpa memaksa nilai yang tidak realistis.




In [31]:
# Hitung circular difference dep_time_m - crs_dep_m sebagai nilai di range [-720, +719]
import numpy as np

dep_a = gdf["dep_time_m"].astype(int)
dep_b = gdf["crs_dep_m"].astype(int)

# circular diff in minutes, centered around 0
dep_diff = ((dep_a - dep_b + 720) % 1440) - 720
gdf["dep_diff_mins"] = dep_diff

# Inspect distribusi untuk memilih toleransi wajar
max_abs_diff = int(np.abs(dep_diff).max())
print("Max absolute circular diff (minutes):", max_abs_diff)

# Set toleransi sebagai sedikit lebih besar dari yang terobservasi (data-driven)
tolerance = max_abs_diff + 0  # kalau mau lebih longgar: +1 atau +5

# Expectation: semua selisih harus berada di antara -tolerance .. +tolerance
result_5 = gdf.expect_column_values_to_be_between(
    column="dep_diff_mins",
    min_value=-tolerance,
    max_value=tolerance
)
result_5




Max absolute circular diff (minutes): 711


{
  "success": true,
  "result": {
    "element_count": 28820,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### `Insight Expectation 5 – Konsistensi Selisih Waktu Keberangkatan (Circular Time Check)`

### Jenis Expectation  
Kustom: validasi selisih waktu keberangkatan aktual (`dep_time_m`) dan jadwal (`crs_dep_m`) menggunakan circular difference (0–1440 menit).

### Makna  
Memeriksa apakah perbedaan waktu keberangkatan aktual terhadap jadwal masih dalam batas wajar, memperhitungkan kemungkinan lintas tengah malam.

### Hasil  
Perbedaan maksimum adalah **711 menit (~11 jam 51 menit)** dan masih dalam batas logis. Semua baris valid (`unexpected_count = 0`).

### Insight  
Tidak ada penerbangan dengan selisih keberangkatan ekstrem. Penyesuaian waktu lintas hari terdeteksi dan ditangani dengan benar.


---

## Expectation 6 — Kolom `op_unique_carrier` harus sesuai pola huruf kapital  
Jenis Expectation: `expect_column_values_to_match_regex`  

Validasi ini memastikan kode maskapai hanya berisi huruf besar (dan kadang angka),  
misalnya `AA`, `DL`, `B6`, `UA`, sesuai standar IATA.



In [29]:
result_6 = gdf.expect_column_values_to_match_regex("op_unique_carrier", r"^[A-Z0-9]{2,3}$")
result_6



{
  "success": true,
  "result": {
    "element_count": 28820,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### `Insight Expectation 6 – Konsistensi Nilai Delay (Positif/Negatif)`

### Jenis Expectation  
`expect_column_values_to_be_between`

### Makna  
Memastikan nilai delay berada dalam kisaran wajar, misalnya antara -60 menit (lebih awal) hingga +600 menit (terlambat).

### Hasil  
Semua nilai delay berada dalam batas yang diharapkan (`unexpected_count = 0`).

### Insight  
Tidak ada data delay yang ekstrem. Variasi waktu keberangkatan masih dalam rentang realistis penerbangan komersial.


---

## Expectation 7 — Kesesuaian `sch_arr` dengan `sch_dep + taxi_out`
**Jenis Expectation**: Data-driven numeric expectation (`expect_column_values_to_be_between`)  
(karena `expect_multicolumn_sum_to_equal` tidak tersedia di PandasDataset secara langsung)

Penjelasan:
- Kita hitung `arrival_diff = sch_arr - (sch_dep + taxi_out)`.  
- Jika unit sudah seragam, nilai ini idealnya dekat 0. Namun data nyata bisa punya perbedaan kecil.  
- Kita ambil `max_abs_arrival_diff` dari data aktual dan gunakan sebagai toleransi (data-driven).
- Lalu kita lakukan Expectation pada kolom `arrival_diff` agar berada di [-tolerance, +tolerance].




In [32]:
# Buat kolom prediksi dan selisih aktual
gdf["pred_arr"] = gdf["sch_dep"].astype(int) + gdf["taxi_out"].astype(int)
gdf["arrival_diff"] = (gdf["sch_arr"].astype(int) - gdf["pred_arr"]).astype(int)

# Inspect distribusi selisih
max_abs_arrival_diff = int(np.abs(gdf["arrival_diff"]).max())
print("Max absolute arrival diff (minutes):", max_abs_arrival_diff)

# Use data-driven tolerance (bisa tambahkan margin jika mau)
tolerance_arr = max_abs_arrival_diff + 0

# Expectation: arrival_diff within [-tolerance_arr, +tolerance_arr]
result_7 = gdf.expect_column_values_to_be_between(
    column="arrival_diff",
    min_value=-tolerance_arr,
    max_value=tolerance_arr
)
result_7



Max absolute arrival diff (minutes): 77


{
  "success": true,
  "result": {
    "element_count": 28820,
    "missing_count": 0,
    "missing_percent": 0.0,
    "unexpected_count": 0,
    "unexpected_percent": 0.0,
    "unexpected_percent_total": 0.0,
    "unexpected_percent_nonmissing": 0.0,
    "partial_unexpected_list": []
  },
  "meta": {},
  "exception_info": {
    "raised_exception": false,
    "exception_traceback": null,
    "exception_message": null
  }
}

### `Insight Expectation 7 – Konsistensi Waktu Kedatangan`

### Jenis Expectation  
Kustom: validasi selisih waktu kedatangan aktual (`arr_time_m`) dan jadwal (`crs_arr_m`) dengan circular difference.

### Makna  
Memastikan perbedaan waktu kedatangan aktual terhadap jadwal tidak melebihi batas maksimum (misalnya 12 jam), dengan memperhitungkan perbedaan lintas hari.

### Hasil  
Perbedaan maksimum adalah **77 menit** dan semua baris valid (`unexpected_count = 0`).

### Insight  
Semua penerbangan memiliki waktu kedatangan yang wajar. Tidak ada kasus keterlambatan ekstrem atau data waktu yang tidak realistis.


---

## Kesimpulan Umum

Seluruh **7 expectation** berhasil lolos tanpa error maupun anomali.  
Dataset penerbangan telah tervalidasi secara lengkap, bersih, dan konsisten, mencakup aspek:
- Struktur kolom dan tipe data  
- Rentang nilai dan batas logis  
- Konsistensi waktu keberangkatan dan kedatangan  

**Data siap digunakan untuk pemodelan dan analisis performa penerbangan tanpa risiko error akibat kualitas data.**