📄 **Notebook `1_preprocessing_data.ipynb`**

Notebook ini merupakan tahap awal dari proyek **Electricity Load Forecasting with Hybrid Singular Spectrum Analysis - Deep Learning**, yang berfokus pada proses *pembersihan dan persiapan data* sebelum digunakan oleh model seperti **LSTM, BiLSTM, GRU**, dan versi **Hybrid SSA**-nya.

---

🎯 **Tujuan**

Melakukan preprocessing data beban listrik mentah agar siap digunakan untuk modeling, meliputi:
1. Import dan konfigurasi library  
2. Konfigurasi path dan parameter  
3. Memuat metadata & dataset mentah  
4. Membersihkan, merapikan, dan men-*scaling* data  

---

📋 **Struktur Notebook**

| Bagian | Deskripsi |
|:-------|:-----------|
| **1. LIBRARY** | Mengimpor semua library yang digunakan |
| **2. CONFIGURATION** | Menentukan path file, parameter, dan direktori hasil |
| **3. LOAD METADATA** | Menampilkan informasi umum tentang dataset |
| **4. PREPROCESSING DATA** | Meliputi cleaning, transformasi format, dan scaling |

---

**Penulis**


**Nama:** Sabrina Aziz Aulia  
**Institusi:** Universitas Negeri Semarang  
**Tahun:** 2025  
**Email:** [saazizau@gmail.com](mailto:saazizau@gmail.com)


---
# **LIBRARY**
---

In [1]:
# ============================
# Standard Library
# ============================
import os

# ============================
# Data Manipulation
# ============================
import pandas as pd

---
# **CONFIGURATION**
---

Bagian ini berisi konfigurasi dasar untuk menentukan lokasi file input dan output yang digunakan selama proses preprocessing.

- **`METADATA_PATH`** — path menuju file data mentah yang akan diproses.  
- **`OUTPUT_PATH`** — direktori tempat hasil preprocessing (data yang sudah dibersihkan dan di-scaling) akan disimpan.

Selain itu, notebook juga secara otomatis membuat folder `processed/` apabila belum ada, untuk memastikan seluruh hasil preprocessing tersimpan dengan rapi.

In [51]:
# ============================
# Configuration
# ============================
METADATA_PATH = "../data/mentah/data_asli.csv" # Pastikan File telah ditambahkan
OUTPUT_PATH = "../data/processed"

# Membuat direktori jika belum ada
os.makedirs(OUTPUT_PATH, exist_ok=True)
print(f"Output directory ready: {OUTPUT_PATH}")

Output directory ready: ../data/processed


---
# **LOAD METADATA**
---

Tahap ini bertujuan untuk memuat dan menampilkan sebagian data mentah guna memastikan format, struktur kolom, serta kualitas awal dataset.

Dataset berisi beban listrik per **30 menit** untuk setiap hari selama tahun **2016–2020**, dengan format kolom seperti berikut:

| Kolom | Keterangan |
|:------|:------------|
| `TANGGAL` | Tanggal pencatatan beban listrik |
| `0:30` – `24:00:00` | Nilai beban listrik (MW) setiap 30 menit |

Langkah ini penting untuk memastikan bahwa data sudah terimpor dengan benar sebelum dilakukan tahap pembersihan (*preprocessing*).

In [5]:
# ============================
# Load Metadata
# ============================

# Membaca data mentah
df_ori = pd.read_csv(METADATA_PATH)

# Menampilkan 5 baris pertama untuk inspeksi awal
df_ori.head()


Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
0,1/1/2016,2627.09,2581.7,2541.64,2508.88,2441.47,2431.78,2405.08,2439.08,2488.98,...,3287.33,3215.55,3188.21,3116.81,2936.44,2813.57,2735.01,2626.53,2547.63,2491.52
1,1/2/2016,2417.18,2380.87,2337.29,2305.8,2285.3,2274.78,2264.06,2301.8,2386.39,...,3498.41,3485.59,3397.64,3303.84,3155.47,3004.23,2918.52,2831.73,2716.71,2653.55
2,1/3/2016,2615.6,2553.66,2517.67,2484.72,2449.99,2431.28,2437.87,2459.41,2530.18,...,3509.18,3491.66,3422.45,3300.37,3116.6,2938.12,2821.52,2737.06,2660.29,2621.35
3,1/4/2016,2561.25,2524.05,2489.83,2458.68,2430.86,2428.82,2445.47,2483.77,2606.86,...,3774.2,3747.2,3652.98,3511.8,3347.55,3159.81,3039.81,2960.62,2895.21,2815.81
4,1/5/2016,2747.51,2714.91,2661.52,2647.0,2620.74,2605.9,2576.43,2606.14,2726.89,...,3377.88,3363.25,3307.97,3232.88,3105.57,2954.72,2850.36,2770.53,2718.37,2646.29


In [6]:
# Informasi umum dataset
print("Ukuran data:", df_ori.shape)
print("\nKolom yang tersedia:")
print(df_ori.columns.tolist())

# Cek tipe data
df_ori.info()


Ukuran data: (3291, 49)

Kolom yang tersedia:
['TANGGAL', '0:30', '1:00', '1:30', '2:00', '2:30', '3:00', '3:30', '4:00', '4:30', '5:00', '5:30', '6:00', '6:30', '7:00', '7:30', '8:00', '8:30', '9:00', '9:30', '10:00', '10:30', '11:00', '11:30', '12:00', '12:30', '13:00', '13:30', '14:00', '14:30', '15:00', '15:30', '16:00', '16:30', '17:00', '17:30', '18:00', '18:30', '19:00', '19:30', '20:00', '20:30', '21:00', '21:30', '22:00', '22:30', '23:00', '23:30', '24:00:00']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3291 entries, 0 to 3290
Data columns (total 49 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   TANGGAL   3289 non-null   object
 1   0:30      3244 non-null   object
 2   1:00      3244 non-null   object
 3   1:30      3244 non-null   object
 4   2:00      3244 non-null   object
 5   2:30      3244 non-null   object
 6   3:00      3244 non-null   object
 7   3:30      3244 non-null   object
 8   4:00      3244 non-null   object
 

---
# **PREPROCESSING DATA**
---

Tahap ini bertujuan untuk membersihkan dan menyiapkan dataset agar siap digunakan pada tahap modeling dengan model LSTM, BiLSTM, GRU, serta versi Hybrid SSA-nya.

Langkah ini dilakukan dengan membuat salinan data mentah terlebih dahulu untuk menjaga integritas dataset asli:

In [8]:
df_preprocessing_0 = df_ori.copy()

Tahap ini terdiri dari dua proses utama:

1. **Pembersihan**: memastikan data bebas dari kesalahan umum seperti nilai kosong, format angka tidak konsisten, serta duplikasi tanggal.  
2. **Transformasi**: mengubah data dari interval 30 menit menjadi interval **1 jam**, sekaligus menjadikannya **univariat** agar sesuai dengan format input model deep learning (LSTM, BiLSTM, GRU, dan variannya).

Langkah ini memastikan dataset memiliki kualitas tinggi dan struktur yang seragam untuk tahap modeling berikutnya.

---
## **1. Pembersihan**
---

In [9]:
df_preprocessing_0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3291 entries, 0 to 3290
Data columns (total 49 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   TANGGAL   3289 non-null   object
 1   0:30      3244 non-null   object
 2   1:00      3244 non-null   object
 3   1:30      3244 non-null   object
 4   2:00      3244 non-null   object
 5   2:30      3244 non-null   object
 6   3:00      3244 non-null   object
 7   3:30      3244 non-null   object
 8   4:00      3244 non-null   object
 9   4:30      3244 non-null   object
 10  5:00      3244 non-null   object
 11  5:30      3244 non-null   object
 12  6:00      3244 non-null   object
 13  6:30      3244 non-null   object
 14  7:00      3244 non-null   object
 15  7:30      3244 non-null   object
 16  8:00      3244 non-null   object
 17  8:30      3244 non-null   object
 18  9:00      3244 non-null   object
 19  9:30      3244 non-null   object
 20  10:00     3244 non-null   object
 21  10:30     3244

Dapat dilihat bahwa data terdiri dari **3245 baris** dan **48 kolom**.
Ini merupakan data harian dengan detail `per-setengah jam` per harinya.

Sebelum melanjutkan, kita perlu membersihkan data-data yang kosong ataupun duplikat.

### **Missing Value**

In [10]:
df_preprocessing_0.isnull().sum()

TANGGAL      2
0:30        47
1:00        47
1:30        47
2:00        47
2:30        47
3:00        47
3:30        47
4:00        47
4:30        47
5:00        47
5:30        47
6:00        47
6:30        47
7:00        47
7:30        47
8:00        47
8:30        47
9:00        47
9:30        47
10:00       47
10:30       47
11:00       47
11:30       47
12:00       47
12:30       47
13:00       47
13:30       47
14:00       47
14:30       47
15:00       47
15:30       47
16:00       47
16:30       47
17:00       47
17:30       47
18:00       47
18:30       47
19:00       47
19:30       47
20:00       47
20:30       47
21:00       47
21:30       47
22:00       47
22:30       47
23:00       47
23:30       47
24:00:00    47
dtype: int64

In [11]:
kondisi = df_preprocessing_0['TANGGAL'].isnull()
df_preprocessing_0[kondisi].head()

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
791,,,,,,,,,,,...,,,,,,,,,,
1157,,,,,,,,,,,...,,,,,,,,,,


In [12]:
kondisi = df_preprocessing_0['0:30'].isna()
df_preprocessing_0[kondisi]

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
425,29/02/2017,,,,,,,,,,...,,,,,,,,,,
791,,,,,,,,,,,...,,,,,,,,,,
1157,,,,,,,,,,,...,,,,,,,,,,
3247,11/18/2024,,,,,,,,,,...,,,,,,,,,,
3248,11/19/2024,,,,,,,,,,...,,,,,,,,,,
3249,11/20/2024,,,,,,,,,,...,,,,,,,,,,
3250,11/21/2024,,,,,,,,,,...,,,,,,,,,,
3251,11/22/2024,,,,,,,,,,...,,,,,,,,,,
3252,11/23/2024,,,,,,,,,,...,,,,,,,,,,
3253,11/24/2024,,,,,,,,,,...,,,,,,,,,,


Terdapat 3 sebab data kosong pada kolom jam.
1. Data pada `tahun kabisat`
2. Data pada `masa yang akan datang` (belum ada datanya)
3. Data baris yang memang `benar-benar kosong`.

Karena data kosong tersebut memang sudah seharusnya tidak ada, maka data akan dihapus.

In [14]:
df_preprocessing_1 = df_preprocessing_0.dropna(subset=['TANGGAL','0:30']).reset_index(drop=True)
df_preprocessing_1.isna().sum()

TANGGAL     0
0:30        0
1:00        0
1:30        0
2:00        0
2:30        0
3:00        0
3:30        0
4:00        0
4:30        0
5:00        0
5:30        0
6:00        0
6:30        0
7:00        0
7:30        0
8:00        0
8:30        0
9:00        0
9:30        0
10:00       0
10:30       0
11:00       0
11:30       0
12:00       0
12:30       0
13:00       0
13:30       0
14:00       0
14:30       0
15:00       0
15:30       0
16:00       0
16:30       0
17:00       0
17:30       0
18:00       0
18:30       0
19:00       0
19:30       0
20:00       0
20:30       0
21:00       0
21:30       0
22:00       0
22:30       0
23:00       0
23:30       0
24:00:00    0
dtype: int64

Sebelum melakukan pencarian *missing value*, langkah penting yang harus dilakukan adalah **mengubah tipe data** pada kolom-kolom tertentu agar dapat diproses dengan benar:  

- Kolom **beban listrik** diubah menjadi tipe numerik (`float`)  
- Kolom **TANGGAL** diubah menjadi tipe waktu (`datetime`)  

Langkah ini memastikan bahwa seluruh operasi statistik dan analisis deret waktu (*time series*) dapat dijalankan tanpa error tipe data.

In [16]:
# Mengubah tipe data kolom beban listrik menjadi float
df_preprocessing_2 = (
    df_preprocessing_1.iloc[:, 1:]
    .replace(',', '', regex=True)
    .astype(float)
)

# Menyisipkan kembali kolom TANGGAL dengan format datetime
df_preprocessing_2.insert(
    0,
    'TANGGAL',
    pd.to_datetime(df_preprocessing_1['TANGGAL'], format='%m/%d/%Y')
)

# Mengecek struktur dan tipe data
df_preprocessing_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3244 entries, 0 to 3243
Data columns (total 49 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   TANGGAL   3244 non-null   datetime64[ns]
 1   0:30      3244 non-null   float64       
 2   1:00      3244 non-null   float64       
 3   1:30      3244 non-null   float64       
 4   2:00      3244 non-null   float64       
 5   2:30      3244 non-null   float64       
 6   3:00      3244 non-null   float64       
 7   3:30      3244 non-null   float64       
 8   4:00      3244 non-null   float64       
 9   4:30      3244 non-null   float64       
 10  5:00      3244 non-null   float64       
 11  5:30      3244 non-null   float64       
 12  6:00      3244 non-null   float64       
 13  6:30      3244 non-null   float64       
 14  7:00      3244 non-null   float64       
 15  7:30      3244 non-null   float64       
 16  8:00      3244 non-null   float64       
 17  8:30      3244

Setelah proses konversi tipe data:  
- Kolom **`TANGGAL`** kini memiliki tipe **`datetime64[ns]`**  
- Seluruh kolom **beban listrik** memiliki tipe **`float64`**

Dengan demikian, dataset sudah siap digunakan untuk tahap berikutnya — yaitu **identifikasi nilai kosong atau beban listrik `0.00 MW`**.

In [31]:
# Menandai baris yang memiliki setidaknya satu nilai 0.00 MW pada kolom beban listrik
kondisi = (df_preprocessing_2.iloc[:, 1:] == 0).any(axis=1)

# Mengambil indeks dari baris-baris tersebut
indeks_nol = df_preprocessing_2[kondisi].index

# Menampilkan data yang mengandung nilai 0.00 MW
print(list(indeks_nol))
df_preprocessing_1.iloc[indeks_nol]

[700, 2956]


Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
700,12/1/2017,2639.3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,0
2956,2/4/2024,3435.26,3389.15,3348.74,3316.54,3272.03,3250.95,3250.0,3274.06,3395.55,...,4239.42,4143.29,4075.01,3963.88,3834.12,3691.65,3552.26,3421.82,0,0


Tidak diketahui secara pasti penyebab munculnya nilai **0.00 MW** pada data beban listrik.  
Agar tidak terjadi *gap* atau kekosongan data yang dapat memengaruhi proses *training* model,  
nilai-nilai tersebut akan **diimputasi** menggunakan **rata-rata dari nilai sebelum dan sesudahnya**.

Metode ini menjaga kontinuitas pola deret waktu tanpa mengubah tren beban listrik secara signifikan.

In [40]:
# Salin dataframe agar data asli tetap aman
df_preprocessing_3 = df_preprocessing_2.copy()

# Daftar indeks yang perlu diperbaiki
indeks_perbaikan = [700, 2956]

# Lakukan imputasi untuk setiap indeks
for idx in indeks_perbaikan:
    for kolom in df_preprocessing_3.columns[2:]:
        a = df_preprocessing_3.loc[idx - 1, kolom]  # Nilai sebelum
        b = df_preprocessing_3.loc[idx + 1, kolom]  # Nilai sesudah
        df_preprocessing_3.loc[idx, kolom] = (a + b) / 2  # Nilai pengganti (rata-rata)

# Tampilkan hasil imputasi di sekitar indeks yang diperbaiki
df_preprocessing_3.loc[indeks_perbaikan]

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
700,2017-12-01,2639.3,2552.67,2513.545,2487.775,2461.38,2451.585,2466.01,2562.01,2720.92,...,3546.74,3509.01,3431.87,3315.17,3200.845,3067.475,2960.415,2858.545,2776.25,2701.065
2956,2024-02-04,3435.26,3348.24,3313.715,3282.735,3255.495,3231.43,3243.14,3291.305,3448.46,...,4589.09,4501.7,4401.31,4289.76,4147.205,3974.66,3851.475,3727.695,3637.67,3551.06


### **Duplicated Value**

In [43]:
df_preprocessing_3['TANGGAL'].duplicated().sum()

4

In [44]:
kondisi = df_preprocessing_3['TANGGAL'].duplicated()
df_preprocessing_3[kondisi]

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
1618,2020-06-06,2767.23,2725.8,2677.7,2642.47,2621.67,2600.82,2598.98,2614.46,2712.8,...,3670.38,3597.83,3516.36,3427.98,3278.77,3154.33,3015.7,2916.18,2843.99,2768.8
1983,2021-06-06,3369.02,3331.22,3252.13,3216.25,3183.23,3152.3,3146.63,3157.74,3229.66,...,4109.59,4081.7,4024.14,3905.96,3782.6,3659.76,3476.85,3362.67,3283.89,3201.08
2348,2022-06-06,3161.87,3122.96,3086.08,3056.8,3025.53,3017.31,3026.63,3068.3,3216.02,...,4386.34,4327.68,4224.23,4100.71,3945.85,3777.11,3631.47,3515.12,3443.47,3355.9
2713,2023-06-06,3636.92,3587.71,3564.11,3519.36,3486.18,3452.08,3466.6,3494.48,3652.34,...,4663.71,4583.75,4521.63,4406.5,4255.32,4098.05,3949.62,3828.48,3742.04,3664.6


Terdapat data duplikat, akan dicek satu-satu

In [46]:
# Indeks 1618
indeks_duplikat = 1618
df_preprocessing_3[indeks_duplikat-3:indeks_duplikat+3]

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
1615,2020-06-03,2755.99,2693.29,2674.16,2645.97,2630.42,2600.36,2601.2,2626.2,2729.17,...,3804.87,3743.9,3656.75,3550.71,3391.49,3246.2,3115.54,3022.08,2946.49,2871.2
1616,2020-06-04,2808.86,2752.7,2715.45,2680.53,2651.66,2641.71,2630.88,2653.28,2749.7,...,3837.0,3778.04,3695.76,3591.18,3446.09,3304.13,3173.46,3063.7,2981.5,2894.91
1617,2020-06-06,2831.77,2782.41,2748.09,2702.48,2666.56,2634.96,2631.13,2649.3,2753.2,...,3748.13,3684.07,3594.61,3490.56,3341.26,3202.35,3093.58,2978.71,2899.94,2824.96
1618,2020-06-06,2767.23,2725.8,2677.7,2642.47,2621.67,2600.82,2598.98,2614.46,2712.8,...,3670.38,3597.83,3516.36,3427.98,3278.77,3154.33,3015.7,2916.18,2843.99,2768.8
1619,2020-06-07,2713.43,2658.2,2624.18,2592.55,2554.16,2533.31,2530.32,2544.5,2635.72,...,3588.9,3530.67,3461.54,3369.07,3208.48,3081.65,2977.59,2876.07,2797.33,2729.33
1620,2020-06-08,2672.18,2624.27,2600.79,2562.26,2539.46,2528.99,2525.05,2554.76,2652.29,...,3874.17,3813.62,3749.77,3618.77,3471.72,3315.39,3181.36,3073.31,3004.31,2919.18


In [47]:
# Indeks 1983
indeks_duplikat = 1983
df_preprocessing_3[indeks_duplikat-3:indeks_duplikat+3]

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
1980,2021-06-03,3399.96,3374.86,3352.0,3302.21,3280.26,3233.75,3246.97,3266.4,3378.88,...,4533.76,4496.5,4418.21,4309.98,4154.52,3988.69,3862.7,3743.94,3670.04,3572.72
1981,2021-06-04,3508.79,3460.95,3421.18,3365.97,3329.33,3295.07,3285.78,3291.7,3397.46,...,4502.11,4457.22,4388.73,4262.57,4100.3,3932.82,3804.73,3681.65,3600.06,3509.47
1982,2021-06-06,3446.67,3402.19,3353.9,3330.06,3287.45,3253.15,3240.51,3257.66,3358.95,...,4338.94,4315.02,4242.83,4134.78,4008.51,3814.36,3679.18,3570.56,3488.81,3402.94
1983,2021-06-06,3369.02,3331.22,3252.13,3216.25,3183.23,3152.3,3146.63,3157.74,3229.66,...,4109.59,4081.7,4024.14,3905.96,3782.6,3659.76,3476.85,3362.67,3283.89,3201.08
1984,2021-06-07,3146.12,3101.9,3074.72,3042.37,2996.45,2974.18,2981.33,2998.73,3113.99,...,4461.16,4422.16,4363.31,4233.28,4099.71,3913.23,3764.07,3636.98,3563.11,3481.96
1985,2021-06-08,3417.44,3367.68,3326.17,3273.94,3235.54,3206.99,3200.91,3204.28,3329.14,...,4478.84,4439.97,4368.92,4253.49,4119.65,3926.49,3780.14,3651.12,3570.33,3478.66


In [48]:
# Indeks 2348
indeks_duplikat = 2348
df_preprocessing_3[indeks_duplikat-3:indeks_duplikat+3]

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
2345,2022-06-03,3533.74,3486.31,3458.57,3419.55,3390.35,3361.61,3355.26,3376.63,3507.34,...,4554.06,4521.14,4449.28,4317.31,4144.49,3941.96,3805.83,3689.36,3609.01,3525.84
2346,2022-06-04,3471.2,3435.87,3391.33,3346.71,3315.51,3293.09,3286.04,3309.94,3439.59,...,4327.94,4274.74,4200.7,4099.67,3978.55,3827.48,3678.54,3558.94,3475.31,3387.56
2347,2022-06-06,3336.33,3292.02,3246.04,3205.02,3180.61,3147.36,3154.0,3167.58,3272.66,...,4065.75,4045.62,3971.11,3861.94,3718.54,3564.43,3452.59,3345.53,3276.38,3209.84
2348,2022-06-06,3161.87,3122.96,3086.08,3056.8,3025.53,3017.31,3026.63,3068.3,3216.02,...,4386.34,4327.68,4224.23,4100.71,3945.85,3777.11,3631.47,3515.12,3443.47,3355.9
2349,2022-06-07,3302.68,3266.92,3256.85,3226.64,3204.12,3172.65,3177.21,3216.65,3359.32,...,4609.82,4561.59,4476.09,4349.49,4203.54,4017.09,3856.32,3712.56,3637.92,3553.64
2350,2022-06-08,3496.18,3453.79,3425.55,3398.91,3364.37,3341.27,3344.9,3373.44,3510.72,...,4480.24,4452.26,4374.33,4243.16,4104.69,3923.31,3793.34,3666.36,3591.27,3519.43


In [49]:
# Indeks 2713
indeks_duplikat = 2713
df_preprocessing_3[indeks_duplikat-3:indeks_duplikat+3]

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
2710,2023-06-03,3639.16,3597.16,3552.07,3515.22,3481.48,3466.85,3454.06,3468.25,3596.98,...,4513.72,4431.1,4358.28,4258.05,4132.51,3995.4,3871.02,3737.3,3657.46,3570.79
2711,2023-06-04,3513.11,3455.51,3406.17,3362.98,3323.26,3296.48,3292.42,3295.8,3415.23,...,4292.45,4253.8,4179.61,4068.15,3939.02,3800.58,3667.25,3550.19,3461.02,3403.45
2712,2023-06-06,3330.58,3286.86,3251.18,3232.15,3204.29,3186.57,3190.74,3237.88,3395.79,...,4714.74,4655.85,4576.08,4458.16,4297.38,4110.39,3973.14,3859.49,3784.74,3694.44
2713,2023-06-06,3636.92,3587.71,3564.11,3519.36,3486.18,3452.08,3466.6,3494.48,3652.34,...,4663.71,4583.75,4521.63,4406.5,4255.32,4098.05,3949.62,3828.48,3742.04,3664.6
2714,2023-06-07,3610.23,3573.82,3546.91,3495.44,3479.52,3451.16,3471.71,3501.78,3651.87,...,4682.98,4638.64,4532.08,4414.21,4263.63,4106.11,3979.06,3843.35,3753.3,3667.41
2715,2023-06-08,3613.25,3573.91,3557.2,3509.13,3488.2,3459.14,3456.56,3490.31,3630.58,...,4734.44,4668.97,4580.51,4484.54,4348.23,4189.13,4042.9,3903.72,3812.01,3715.18


Setelah dilakukan pengecekan, diperoleh informasi bahwa terdapat **data duplikat** pada indeks:

**1618, 1983, 2348, dan 2713**

- Keempat baris tersebut memiliki **tanggal yang tidak sesuai (salah tanggal)** 
- Seharusnya merupakan data untuk **tanggal 5** pada masing-masing.

In [50]:
# Membuat salinan dataframe agar data asli tetap aman
df_preprocessing_4 = df_preprocessing_3.copy()

# Setiap baris dikurangi 1 hari karena seharusnya merupakan tanggal 5 (hari sebelumnya)
for i in [1618, 1983, 2348, 2713]:
    df_preprocessing_4.loc[i, 'TANGGAL'] = df_preprocessing_4.loc[i, 'TANGGAL'] - pd.DateOffset(days=1)

Seluruh proses *cleaning* telah selesai dilakukan, dan data kini dianggap **bersih serta siap digunakan** untuk tahap selanjutnya.  
Dataset hasil pembersihan disimpan pada direktori berikut:

`../data/processed/(K1 - Pembersihan nilai kosong & duplikat) Beban listrik.csv`

In [57]:
data_bersih = df_preprocessing_4.copy()
data_bersih.to_csv(f"{OUTPUT_PATH}/(K1 - Pembersihan nilai kosong & duplikat) Beban listrik.csv", index=False)
data_bersih

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
0,2016-01-01,2627.09,2581.70,2541.64,2508.88,2441.47,2431.78,2405.08,2439.08,2488.98,...,3287.33,3215.55,3188.21,3116.81,2936.44,2813.57,2735.01,2626.53,2547.63,2491.52
1,2016-01-02,2417.18,2380.87,2337.29,2305.80,2285.30,2274.78,2264.06,2301.80,2386.39,...,3498.41,3485.59,3397.64,3303.84,3155.47,3004.23,2918.52,2831.73,2716.71,2653.55
2,2016-01-03,2615.60,2553.66,2517.67,2484.72,2449.99,2431.28,2437.87,2459.41,2530.18,...,3509.18,3491.66,3422.45,3300.37,3116.60,2938.12,2821.52,2737.06,2660.29,2621.35
3,2016-01-04,2561.25,2524.05,2489.83,2458.68,2430.86,2428.82,2445.47,2483.77,2606.86,...,3774.20,3747.20,3652.98,3511.80,3347.55,3159.81,3039.81,2960.62,2895.21,2815.81
4,2016-01-05,2747.51,2714.91,2661.52,2647.00,2620.74,2605.90,2576.43,2606.14,2726.89,...,3377.88,3363.25,3307.97,3232.88,3105.57,2954.72,2850.36,2770.53,2718.37,2646.29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3239,2024-11-13,3915.27,3868.82,3840.04,3792.45,3767.33,3740.73,3763.02,3897.72,4047.52,...,5107.94,5060.22,4999.42,4835.33,4671.30,4499.88,4339.19,4215.28,4127.62,4028.40
3240,2024-11-14,3952.32,3902.66,3864.07,3833.93,3790.01,3769.07,3779.24,3907.98,4040.45,...,5156.27,5099.56,5013.43,4812.46,4649.92,4489.94,4369.06,4247.72,4139.32,4023.51
3241,2024-11-15,3983.23,3943.67,3919.40,3878.05,3846.32,3821.95,3826.20,3947.81,4084.06,...,5184.81,5131.01,5039.78,4898.79,4721.94,4549.06,4397.55,4257.60,4155.20,4070.37
3242,2024-11-16,4006.73,3965.01,3934.31,3886.46,3853.36,3820.02,3832.94,3949.46,4075.51,...,4719.71,4660.82,4587.81,4476.80,4303.56,4147.13,4005.45,3897.96,3821.51,3732.69


---
## **2. Transformasi**
---

Setelah data beban listrik selesai dibersihkan dari nilai kosong, kesalahan tanggal, dan duplikasi,  
tahap selanjutnya adalah **transformasi data** agar siap digunakan pada proses *modelling*.

Transformasi ini meliputi dua langkah utama:

1. **Perubahan Interval Waktu**  
   Data semula direkam setiap **30 menit**, akan diubah menjadi **interval 1 jam**  
   dengan cara menjumlahkan **nilai dari dua waktu berurutan**.

2. **Perubahan Format Data menjadi Univariat**  
   Setelah diubah menjadi per jam, data akan di-*reshape* menjadi **deret waktu tunggal (univariat)**  
   agar sesuai dengan format input model *deep learning* seperti **LSTM, BiLSTM, GRU**, dan versi **Hybrid SSA**-nya.

**Hasil Akhir**
Hasil akhir transformasi berupa dua kolom utama:

| Kolom  | Deskripsi |
|------------|------------|
| `datetime` | Waktu dalam format `YYYY-MM-DD HH:MM:SS` |
| `beban` | Nilai beban listrik (MW) |

Langkah ini memastikan data memiliki **resolusi dan struktur yang konsisten**,  
sehingga siap digunakan dalam proses **forecasting beban listrik harian**.

In [58]:
df_preprocessing_5 = data_bersih.copy()
df_preprocessing_5.head()

Unnamed: 0,TANGGAL,0:30,1:00,1:30,2:00,2:30,3:00,3:30,4:00,4:30,...,19:30,20:00,20:30,21:00,21:30,22:00,22:30,23:00,23:30,24:00:00
0,2016-01-01,2627.09,2581.7,2541.64,2508.88,2441.47,2431.78,2405.08,2439.08,2488.98,...,3287.33,3215.55,3188.21,3116.81,2936.44,2813.57,2735.01,2626.53,2547.63,2491.52
1,2016-01-02,2417.18,2380.87,2337.29,2305.8,2285.3,2274.78,2264.06,2301.8,2386.39,...,3498.41,3485.59,3397.64,3303.84,3155.47,3004.23,2918.52,2831.73,2716.71,2653.55
2,2016-01-03,2615.6,2553.66,2517.67,2484.72,2449.99,2431.28,2437.87,2459.41,2530.18,...,3509.18,3491.66,3422.45,3300.37,3116.6,2938.12,2821.52,2737.06,2660.29,2621.35
3,2016-01-04,2561.25,2524.05,2489.83,2458.68,2430.86,2428.82,2445.47,2483.77,2606.86,...,3774.2,3747.2,3652.98,3511.8,3347.55,3159.81,3039.81,2960.62,2895.21,2815.81
4,2016-01-05,2747.51,2714.91,2661.52,2647.0,2620.74,2605.9,2576.43,2606.14,2726.89,...,3377.88,3363.25,3307.97,3232.88,3105.57,2954.72,2850.36,2770.53,2718.37,2646.29


In [61]:
#    Semua kolom waktu (misal: 00:30:00, 01:00:00, dst) dilebur menjadi satu kolom bernama 'WAKTU'
#    Sedangkan nilai beban listriknya dimasukkan ke kolom 'BEBAN'
df_transformasi = df_preprocessing_5.melt(
    id_vars=['TANGGAL'],
    var_name='WAKTU',
    value_name='BEBAN'
)

# 2. Tangani kasus waktu '24:00:00' agar sesuai dengan format datetime Python ('00:00' di hari berikutnya)
df_transformasi['WAKTU'] = df_transformasi['WAKTU'].replace('24:00:00', '00:00')

# 3. Gabungkan kolom 'TANGGAL' dan 'WAKTU' menjadi satu kolom datetime lengkap
df_transformasi['TANGGAL_WAKTU'] = pd.to_datetime(
    df_transformasi['TANGGAL'].astype(str) + ' ' + df_transformasi['WAKTU']
)

# 4. Koreksi waktu '00:00' agar pindah ke hari berikutnya
df_transformasi.loc[df_transformasi['WAKTU'] == '00:00', 'TANGGAL_WAKTU'] += pd.Timedelta(days=1)

# 5. Ekstraksi komponen waktu tambahan (Tahun, Bulan, Hari, Jam) untuk analisis opsional
df_transformasi['Tahun'] = df_transformasi['TANGGAL_WAKTU'].dt.year
df_transformasi['Bulan'] = df_transformasi['TANGGAL_WAKTU'].dt.month
df_transformasi['Hari'] = df_transformasi['TANGGAL_WAKTU'].dt.day
df_transformasi['Jam'] = df_transformasi['TANGGAL_WAKTU'].dt.hour

# 6. Buat kolom 'TANGGAL_JAM' sebagai waktu yang dibulatkan ke atas (ceil ke jam terdekat)
df_transformasi['TANGGAL_JAM'] = df_transformasi['TANGGAL_WAKTU'].dt.ceil('H')

# 7. Urutkan data berdasarkan waktu agar sesuai urutan kronologis
df_transformasi = df_transformasi.sort_values(by='TANGGAL_WAKTU').reset_index(drop=True)

# 8. Tampilkan 5 baris pertama hasil transformasi
df_transformasi.head()

  df_transformasi['TANGGAL_JAM'] = df_transformasi['TANGGAL_WAKTU'].dt.ceil('H')


Unnamed: 0,TANGGAL,WAKTU,BEBAN,TANGGAL_WAKTU,Tahun,Bulan,Hari,Jam,TANGGAL_JAM
0,2016-01-01,0:30,2627.09,2016-01-01 00:30:00,2016,1,1,0,2016-01-01 01:00:00
1,2016-01-01,1:00,2581.7,2016-01-01 01:00:00,2016,1,1,1,2016-01-01 01:00:00
2,2016-01-01,1:30,2541.64,2016-01-01 01:30:00,2016,1,1,1,2016-01-01 02:00:00
3,2016-01-01,2:00,2508.88,2016-01-01 02:00:00,2016,1,1,2,2016-01-01 02:00:00
4,2016-01-01,2:30,2441.47,2016-01-01 02:30:00,2016,1,1,2,2016-01-01 03:00:00


Langkah-langkah di atas bertujuan untuk **mengubah format tabel beban listrik**  
yang semula berbentuk *wide format* (setiap kolom mewakili waktu tertentu)  
menjadi *long format* (*unpivoted data*), di mana seluruh waktu disatukan dalam satu kolom.

1. **Melt Data**  
   Mengubah setiap kolom waktu menjadi satu kolom `WAKTU`,  
   dan memindahkan nilai beban ke kolom `BEBAN`.

2. **Gabung Tanggal dan Waktu**  
   Kolom `TANGGAL` dan `WAKTU` digabung menjadi satu kolom baru `TANGGAL_WAKTU`  
   yang menyimpan informasi waktu lengkap dalam format `datetime`.

3. **Perbaikan Format Waktu '24:00:00'**  
   Karena format `24:00:00` tidak valid di Python, waktu tersebut diubah menjadi `00:00`  
   dan ditambahkan satu hari agar tetap merepresentasikan waktu yang benar.

4. **Ekstraksi Komponen Waktu**  
   Menambahkan kolom `Tahun`, `Bulan`, `Hari`, dan `Jam` untuk analisis waktu yang lebih detail.

5. **Urutan Kronologis**  
   Dataset diurutkan berdasarkan kolom `TANGGAL_WAKTU`  
   agar setiap observasi tersusun sesuai dengan waktu kejadian sebenarnya.

Struktur ini memudahkan proses selanjutnya dalam **resampling** ke per jam  
dan **pembentukan deret waktu univariat**.

In [62]:
df_preprocessing_6 = df_transformasi.copy()
df_preprocessing_6.head()

Unnamed: 0,TANGGAL,WAKTU,BEBAN,TANGGAL_WAKTU,Tahun,Bulan,Hari,Jam,TANGGAL_JAM
0,2016-01-01,0:30,2627.09,2016-01-01 00:30:00,2016,1,1,0,2016-01-01 01:00:00
1,2016-01-01,1:00,2581.7,2016-01-01 01:00:00,2016,1,1,1,2016-01-01 01:00:00
2,2016-01-01,1:30,2541.64,2016-01-01 01:30:00,2016,1,1,1,2016-01-01 02:00:00
3,2016-01-01,2:00,2508.88,2016-01-01 02:00:00,2016,1,1,2,2016-01-01 02:00:00
4,2016-01-01,2:30,2441.47,2016-01-01 02:30:00,2016,1,1,2,2016-01-01 03:00:00


In [63]:
df_preprocessing_6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 155712 entries, 0 to 155711
Data columns (total 9 columns):
 #   Column         Non-Null Count   Dtype         
---  ------         --------------   -----         
 0   TANGGAL        155712 non-null  datetime64[ns]
 1   WAKTU          155712 non-null  object        
 2   BEBAN          155712 non-null  float64       
 3   TANGGAL_WAKTU  155712 non-null  datetime64[ns]
 4   Tahun          155712 non-null  int32         
 5   Bulan          155712 non-null  int32         
 6   Hari           155712 non-null  int32         
 7   Jam            155712 non-null  int32         
 8   TANGGAL_JAM    155712 non-null  datetime64[ns]
dtypes: datetime64[ns](3), float64(1), int32(4), object(1)
memory usage: 8.3+ MB


In [64]:
df_preprocessing_6[['TANGGAL_WAKTU','BEBAN']].to_csv(f"{OUTPUT_PATH}/(K2 - Transformasi per setengah jam) Beban listrik.csv", index=False)

Karena data yang dibutuhkan data per-jam bukan per-setengah jam, maka akan ditransformasi lagi dengan menjumlah setiap setengah jam

In [65]:
df_preprocessing_7 = df_preprocessing_6.groupby(['TANGGAL_JAM'], as_index=False)['BEBAN'].sum()
df_preprocessing_7

Unnamed: 0,TANGGAL_JAM,BEBAN
0,2016-01-01 01:00:00,5208.79
1,2016-01-01 02:00:00,5050.52
2,2016-01-01 03:00:00,4873.25
3,2016-01-01 04:00:00,4844.16
4,2016-01-01 05:00:00,5051.34
...,...,...
77851,2024-11-17 20:00:00,9305.29
77852,2024-11-17 21:00:00,9026.48
77853,2024-11-17 22:00:00,8455.14
77854,2024-11-17 23:00:00,7918.88


Agar banyak datanya konsisten, perlu ditambahkan data pada '2016-01-01 00:00:00' diisi dengan rata-rata BEBAN pada jam 00:00 pada hari-hari setelahnya.

In [66]:
# Data yang ingin ditambahkan
baris_baru = pd.DataFrame({
    'TANGGAL_JAM': [pd.to_datetime('2016-01-01 00:00:00')],
    'BEBAN': [5204.705]
})

# Menambahkan baris baru
df_preprocessing_8 = pd.concat([baris_baru, df_preprocessing_7], ignore_index=True)

In [67]:
df_preprocessing_9 = df_preprocessing_8.copy()
df_preprocessing_9['BEBAN'] = df_preprocessing_8['BEBAN'].replace(0, df_preprocessing_8['BEBAN'].mean())
df_preprocessing_9[df_preprocessing_9['BEBAN'] == 0]

Unnamed: 0,TANGGAL_JAM,BEBAN


In [69]:
df_preprocessing_9

Unnamed: 0,TANGGAL_JAM,BEBAN
0,2016-01-01 00:00:00,5204.705
1,2016-01-01 01:00:00,5208.790
2,2016-01-01 02:00:00,5050.520
3,2016-01-01 03:00:00,4873.250
4,2016-01-01 04:00:00,4844.160
...,...,...
77852,2024-11-17 20:00:00,9305.290
77853,2024-11-17 21:00:00,9026.480
77854,2024-11-17 22:00:00,8455.140
77855,2024-11-17 23:00:00,7918.880


In [70]:
df_siap = df_preprocessing_9.copy()
df_siap.to_csv(f"{OUTPUT_PATH}/(K3 - Transformasi per jam) Beban listrik.csv", index=False)

Dengan demikian, seluruh tahapan **preprocessing data beban listrik** telah selesai dilakukan.  
Proses ini mencakup pembersihan nilai kosong, koreksi tanggal duplikat, serta transformasi struktur dan interval waktu.

Dari hasil preprocessing, diperoleh **tiga dataset utama** yang disimpan dalam folder `../data/processed/` sebagai berikut:

1. **`(K1 - Pembersihan nilai kosong & duplikat) Beban listrik.csv`**  
   → Data hasil pembersihan dari nilai kosong, kesalahan tanggal, dan duplikasi.  

2. **`(K2 - Transformasi per setengah jam) Beban listrik.csv`**  
   → Data yang telah ditransformasi ke format long (unpivoted) dengan interval waktu 30 menit.  

3. **`(K3 - Transformasi per jam) Beban listrik.csv`**  
   → Data akhir yang telah diubah menjadi interval **1 jam**, siap digunakan untuk proses *modelling*.

---

Dataset yang akan digunakan pada tahap selanjutnya adalah:  
📂 **`(K3 - Transformasi per jam) Beban listrik.csv`**

Dengan karakteristik berikut:  
- **Jumlah baris:** 77.857  
- **Jumlah kolom:** 2 (`datetime`, `beban`)  
- **Periode data:** 2016-01-01 00:00:00 → 2024-11-18 00:00:00  

---

> Tahapan berikutnya adalah **pembuatan dataset untuk modelling**,  
> yang mencakup *splitting data*, *normalisasi*, dan *pembentukan sequence* untuk model **LSTM, BiLSTM, GRU, dan SSA-based models**.
