# Latihan Membuat Dataset Musiman Sintetis dan Penggunaan Windowing dengan Machine Learning

Pada minggu lalu, kita sudah membuat **dataset musiman** sintetis yang memiliki komponen **tren**, **musiman**, dan sedikit **noise**. Kita juga mempelajari beberapa metode statistik untuk menganalisis dataset tersebut serta melakukan prediksi dari data itu. Hasil prediksi yang didapat cukup bagus, namun belum menggunakan metode **machine learning (ML)**. Minggu ini, kita akan mencoba menggunakan beberapa metode ML pada dataset yang sama dan melihat sejauh mana metode ML dapat meningkatkan hasilnya.

---

## Pembagian Data menjadi Features dan Labels

Seperti masalah ML lainnya, hal pertama yang harus dilakukan adalah membagi data menjadi **features** dan **labels**. Dalam kasus ini:
- **Feature**: beberapa nilai dalam seri waktu.
- **Label**: nilai berikutnya dalam seri waktu tersebut.

Kita sebut jumlah nilai yang digunakan sebagai feature dengan istilah **window size**, yaitu jendela data yang kita gunakan untuk melatih model ML dalam memprediksi nilai berikutnya. Misalnya, jika kita ambil data 30 hari berturut-turut:
- 30 nilai tersebut menjadi feature
- Nilai ke-31 menjadi label.

---

## Menggunakan `TF.data.Dataset` untuk Membangun Dataset

Misalkan kita membuat rentang nilai dari 0 hingga 9 menggunakan kelas `TF.data.Dataset`. Saat dicetak, hasilnya adalah serangkaian data dari 0 hingga 9.

Untuk membuat dataset lebih menarik, kita bisa menggunakan metode **windowing** dengan `dataset.window`. Parameter utama:
- **Size**: ukuran jendela data yang diambil.
- **Shift**: seberapa besar perpindahan tiap jendela.

Jika kita menetapkan ukuran jendela sebesar 5 dan shift 1, maka hasilnya adalah:

[0, 1, 2, 3, 4] [1, 2, 3, 4, 5] [2, 3, 4, 5, 6] ...

> Setelah mencapai ujung dataset, kita hanya memiliki sedikit nilai tersisa karena tidak ada data berikutnya. Contoh:
> ```
> [6, 7, 8, 9]
> [7, 8, 9]
> ```

---

## Menjaga Ukuran Data dengan `drop_remainder`

Untuk menjaga ukuran setiap jendela konsisten, kita bisa menggunakan parameter tambahan **`drop_remainder=True`**. Dengan ini, data akan ditrunkasi sehingga hanya menampilkan jendela berukuran penuh. Jika dicetak, data akan tampak seperti:

[0, 1, 2, 3, 4] [5, 6, 7, 8, 9]

---

## Konversi Data ke Numpy dan Pemisahan Features dan Labels

Agar lebih mudah diolah dengan ML, data tersebut dapat dikonversi ke dalam bentuk **Numpy**. Untuk setiap item dalam list data, kita dapat membaginya:
- Semua nilai kecuali yang terakhir menjadi feature.
- Nilai terakhir menjadi label.

Contohnya:
```python
features = data[:, :-1]
labels = data[:, -1]
Hasil:
features: [0, 1, 2, 3]
label: 4
Mengacak dan Membatch Data
Sebelum melatih model, data biasanya diacak menggunakan metode shuffle dengan parameter buffer_size. Selanjutnya, kita dapat membatch data dengan metode batch. Contoh: ukuran batch sebesar 2, yang akan mengelompokkan data dalam set berisi 2 item.

Hasil Contoh:
Batch pertama:

X: [4, 5, 6, 7]
Y: 8
Batch kedua:

X: [0, 1, 2, 3]
Y: 4
Sekarang, kita sudah memiliki semua alat yang diperlukan untuk membuat fitur X dan label Y dari dataset ini. Langkah berikutnya adalah membangun neural network pertama kita untuk membuat prediksi pada data ini.