<div style="padding: 60px;
  text-align: center;
  background: #d4afb9;
  color: #003049;
  font-size: 20px;">
  <h2>Inclass: Introduction to Machine Learning 2</h2>
   <hr>
</div>


- **This notebook based on main material**
- **Course Length**: 9 hours
- **Instructor** : Dwi Gustin Nurdialit
- **Last Updated**: January 2025

# Background

The coursebook is part of the **Python Machine Learning** prepared by [Algoritma](https://algorit.ma/). The coursebook is intended for a restricted audience only, i.e. the individuals and organizations having received this coursebook directly from the training organization. It may not be reproduced, distributed, translated or adapted in any form outside these individuals and organizations without permission.

Algoritma is a data science education center based in Jakarta. We organize workshops and training programs to help working professionals and students gain mastery in various data science sub-fields: data visualization, machine learning, data modeling, statistical inference etc.

# Introduction to Machine Learning 2
## Training Objectives

- **Working with Time Series**
  - Data Preprocessing
  - Visualization: Multiple vs Multivariate Time Series
- **Modeling using `fbprophet`**
  - Baseline Model
  - Trend Component
  - Seasonality Component
  - Holiday Effects
- **Forecasting Evaluation**
  - Train-Test Split
  - Evaluation Metrics: MAPE
- **Hyperparameter Tuning**

![mindmap](assets/IML2.png)

In [None]:
# load the library
# %pip install prophet

from prophet import Prophet
import cmdstanpy

# import library
import pandas as pd



<div style="padding: 60px;
  text-align: center;
  background: #d4afb9;
  color: #003049;
  font-size: 20px;">
  <h2>Time Series Forecasting using Prophet</h2>
   <hr>
</div>




**🔎 Forecasting**

<br>

<details>
    <summary><b>🔻 1. Definisi: </b></summary>
    <br>Memprediksi nilai masa depan berdasarkan data historis yang ada.
    
</details>
<br>

<details>
    <summary><b>🔻 2. Data historis: </b></summary>
    <br>Data historis digunakan untuk mengidentifikasi pola, tren, dan fluktuasi dalam data
    
</details>

### Regression vs Forecasting


![regression_vs_forecasting.png](assets/regression_vs_forecasting.png)

| **Karakteristik** | **Regresi**                              | **Peramalan/Forecasting**                      |
|-------------------|------------------------------------------|------------------------------------|
| **Tujuan Utama**  | Menemukan hubungan antara variabel dependen dan independen.       | Meramalkan nilai masa depan berdasarkan data historis.        |
| **Variabel**      | Terdapat variabel dependen (Y) dan variabel independen (X1, X2, ...)          | Mungkin hanya satu variabel dependen (misalnya, penjualan)        |
| **Fungsi**        | Memprediksi nilai Y berdasarkan nilai-nilai X.          | Memprediksi nilai masa depan Y berdasarkan data masa lalu.     |
| **Hubungan**      | Menunjukkan hubungan linear atau         | Fokus pada tren, musiman, dan      |
|                   | non-linear antara variabel.              | faktor lain yang memengaruhi.     |


📌 Perlu diingat bahwa sementara regresi biasanya digunakan untuk **menganalisis hubungan antara variabel-variabel** yang ada, peramalan lebih fokus pada **meramalkan nilai masa depan berdasarkan data masa lalu**, terutama dalam konteks data berulang seperti time series.

### Time Series

**Data Harga Tiket Pesawat Maskapai A**

| Tanggal    | Harga Tiket (Rupiah) |
|------------|----------------------|
| 2023-01-01 | 1200000              |
| 2023-02-01 | 1250000              |
| 2023-03-01 | 1300000              |
| 2023-04-01 | 1350000              |
| 2023-05-01 | 1400000              |
| 2023-06-01 | 1450000              |
| 2023-07-01 | 1500000              |
| ...        | ...                  |

Data time series adalah jenis data yang mencakup pengamatan yang diambil pada waktu yang berurutan atau berkesinambungan. Data ini memiliki karakteristik tertentu yang membedakan dari data lain.

1. **Pengukuran Waktu:** Data time series mencakup pengukuran atau pengamatan yang dilakukan pada titik-titik waktu tertentu. Ini bisa dalam rentang waktu harian, mingguan, bulanan, atau bahkan lebih jarang atau lebih sering tergantung pada sifat data.

2. **Urutan Temporal:** Data time series memiliki urutan temporal yang jelas, interval waktu yang konsisten dan sering kali memiliki interval yang tetap, artinya pengukuran dilakukan secara berurutan dalam waktu.

3. **Dependen pada Waktu:** Variabel dalam data time series bergantung pada waktu. Artinya, nilai variabel dependen pada waktu tertentu bisa dipengaruhi oleh nilai variabel pada waktu sebelumnya.

4. **Polanya bisa Berulang:** Data time series sering kali menunjukkan pola atau siklus tertentu yang berulang dari waktu ke waktu. Ini dapat mencakup tren, musiman, atau perubahan periodik lainnya.

5. **Komponen-Komponen Utama:** Data time series sering dibagi menjadi tiga komponen utama: tren, musiman, dan komponen beracak (random). Tren adalah perubahan umum dalam data seiring waktu, musiman adalah fluktuasi yang berulang dalam jangka waktu yang pendek, dan komponen beracak adalah fluktuasi acak yang tidak dapat dijelaskan oleh tren atau musiman.

6. **Data yang Dapat Diberi Label:** Setiap titik data dalam time series biasanya memiliki label waktu yang jelas, yang dapat berupa tanggal, waktu, atau indeks waktu lainnya.



<div style="padding: 30px;
  background: #d4afb9;
  color: #003049;">
  
# Working with Time Series Data
</div>

## Import Data

<div class="alert">

📍 **Dataset** : Data time series penjualan harian dari perusahaan perangkat lunak terbesar di Rusia bernama **1C Company** dari [Kaggle](https://www.kaggle.com/c/competitive-data-science-predict-future-sales/overview)

> - Data mencakup beberapa tahun dan berisi tentang informasi penjualan harian berbagai produk perangkat lunak di berbagai toko

📍 **Business Problem** : Melakukan explorasi dan analisis dari data time series
</div> 





In [None]:
sales = 

<div class="alert">

Berikut adalah deskripsi data:
- Data ini terdiri dari 2.935.849 observasi (baris).
- Berikut adalah glosarium yang disediakan di platform Kaggle:
  - `date` adalah format tanggal yang diberikan dalam format **dd.mm.yyyy**.
  - `date_block_num` adalah nomor bulan berturut-turut yang digunakan untuk kemudahan (Januari 2013 adalah 0, Februari 2013 adalah 1, dan seterusnya).
  - `shop_id` adalah pengenal unik dari toko.
  - `shop_name` adalah nama toko.
  - `item_id` adalah pengenal unik dari produk.
  - `item_price` adalah harga produk pada tanggal tertentu.
  - `item_cnt_day` adalah jumlah produk yang terjual pada tanggal tertentu.

</div> 

## Exploratory Data Analysis (EDA)

Data transaksi harian: **disetiap harinya** memiliki informasi tentang jumlah item yang terjual dan pendapatan yang dihasilkan oleh **setiap toko**

|   date     | date_block_num | shop_id |          shop_name           | item_id | item_price | item_cnt_day |
|------------|----------------|---------|-----------------------------|---------|------------|--------------|
| 02.01.2013 |       0        |    59   | Yaroslavl shopping center "Altair" |  22154  |   999.0    |     1.0      |
| 10.01.2013 |       0        |    59   | Yaroslavl shopping center "Altair" |  22151  |   399.0    |     1.0     
| ...        |     ...        |    ...  |          ...                       |  ...    |   ...      |     ...     
| 21.10.2015 |       0        |    59   | Yaroslavl shopping center "Altair" |   5039  |   1,499.0  |     1.0     
| 19.01.2013 |       0        |    25   | Moscow TRK "Atrium" |   2552  |   899.0	   |     1.0      |
| ...        |     ...        |    ...  |          ...                       |  ...    |   ...      |     ...     
| 03.010.2015 |       0        |    59   | Moscow TRK "Atrium" |   7460  |  299.0	1.0   |     1.0      |
| ...        |     ...        |    ...  |          ...                       |  ...    |   ...      |     ...  


❗️ Mari kita check, ada berapa toko pada data ini:

In [None]:
# code here


### Data Types

🔻 Hal yang paling penting untuk menganalisis data time series adalah perlu kita prepare untuk mengubah tipe data.

❓ Silahkan check tipe data pada object `sales`

>❓ Adakah kolom yang tipe datanya belum sesuai?
>> - ...
>> - ...

In [None]:
# to datetime

# to category



## Data Preparation

🔎 Data time series merupakan data yang dikumpulkan pada interval **waktu yang teratur**. Dalam kasus ini kita ingin menganalisis tentang **total penjualan** perangkat lunak yang dikumpulkan **setiap hari**.


<div class="alert">

Beberapa hal yang perlu kita persiapkan sebelum membuat model:

- [✅] Mengkonversi kolom `date` menjadi `datetime64`
- [  ] Mengurutkan data secara ascending berdasarkan waktu
- [  ] Pada kasus ini, membuat kolom baru yaitu `total_revenue`, yang akan diprediksi

</div>

In [None]:
sales.dtypes

❗️ Mengurutkan data secara ascending berdasarkan waktu

❗️ Membuat kolom baru yaitu `total_revenue`, yang akan diprediksi
> `item_price * item_cnt_day`

In [None]:
# code here


💬 Untuk pembuatan model, kita tidak akan menggunakan semua data penjualan dari beberapa toko, melainkan kita akan mengambil berdasarkan toko yang paling **popular** berdasarkan **sales**nya.

❓ 3 toko mana yang paling popular?

In [None]:
top_3_shop = 
top_3_shop

❗️ Sediakan data untuk top 3 shop saja

In [None]:
sales_top_3_shop = 


<div class="alert">

**📌 Additional Information:** 

Metode `isin()` digunakan untuk memeriksa apakah `shop_id` dari setiap baris dalam DataFrame `sales` termasuk salah satu dari tiga toko paling populer. Jika kondisinya **`True`**, baris tersebut akan dimasukkan ke dalam DataFrame baru bernama `sales_top_3_shop`.


</div>

In [None]:
sales_top_3_shop.head()

❓ Apakah datanya sudah siap?


<div class="alert alert-danger">
  <details>
    <summary><b>💬 Ingat Kembali: Karakteristik data time series </b></summary><br><center> 
    Data time series mencatat pengukuran pada interval waktu yang konsisten dan harus memiliki interval yang tetap, seperti harian, mingguan, bulanan, atau bahkan interval yang lebih pendek seperti per jam atau per menit.</center>
    
</details>
</div> 



❗️ Ubah data tersebut menjadi data yang diinginkan


|     date    | shop_id | total_qty |     total_revenue    |
|:-----------:|:-------:|:---------:|:--------------------:|
|  2013-01-01 |   54    |   415.0   | 316,556.999999999    |
|  2013-01-02 |   25    |   568.0   | 345,174.130000001    |
|  2013-01-02 |   31    |   568.0   | 396,376.09999999497  |
|  2013-01-02 |   54    |   709.0   | 519,335.999999981    |
|  2013-01-03 |   25    |   375.0   | 249,421.0            |
| ...         |  ...    |   ...     |  ...                 |


In [None]:
daily_sales = 

### Visualization: Multiple vs Multivariate Time Series

Salah satu aspek penting dalam analisis data time series adalah melakukan visualisasi. Dari visualisasi dilakukan dengan tujuan untuk:

- Memahami pola
- Identifikasi anomali
- Perbandingan data
- Pemilihan model
- dll

💬 Pada data `daily_sales`, kita dapat memvisualisasikan menjadi 2 bentuk: multiple dan multivariate.

Berikut adalah perbandingan visualisasi data time series multiple dan multivariate dalam bentuk tabel:

| **Karakteristik**                   | **Data Time Series Multiple**                 | **Data Time Series Multivariate**         |
|-------------------------------------|----------------------------------------------|------------------------------------------|
| **Definisi**                        | Beberapa seri waktu dalam satu grafik.       | Beberapa variabel (bukan hanya waktu) diplot seiring waktu. |
| **Contoh**                          | Grafik yang menampilkan penjualan harian untuk beberapa produk dalam satu toko. | Grafik yang menampilkan penjualan harian (seri waktu) dan harga saham (variabel lain) selama beberapa bulan. |
| **Tujuan**                          | Membandingkan pola dan tren dalam beberapa seri waktu. | Memahami hubungan antara variabel-variabel yang berubah seiring waktu dan mengidentifikasi interaksi antara variabel-variabel tersebut. |

<div class="alert alert-success">

📝 Perbedaan utama adalah bahwa visualisasi data time series **multiple fokus pada beberapa seri waktu dalam satu grafik**, sedangkan visualisasi data time series **multivariate melibatkan pengamatan seiring waktu pada beberapa variabel yang diplot bersama**. Kedua jenis visualisasi digunakan tergantung pada analisis yang diinginkan dan jenis data yang Anda miliki.
</div>

In [None]:
# data visualization library
import matplotlib.pyplot as plt
import seaborn as sns

#### Multiple Time Series

❗️ Membuat visualisasi yang menggambarkan `total_qty` penjualan dari top 3 shop:

In [None]:
sns.relplot(data=daily_sales, kind='line',
            x='date', y='total_qty', col='shop_id', aspect=1.5)
plt.show()


📈 Dengan melihat visualisasi tersebut kita mendapatkan:

**1. Bagaimana pola penjualannya?**
> ......

**2. Bagaimana tren tiap toko?**
> ......

**3. Bagaimana fluktuasinya?**
> ......


#### Multivariate Time Series

💬 Mengamati hubungan antara jumlah total penjualan (`total_qty`) dan total pendapatan (`total_revenue`) di salah satu toko.

❗️ Memisahkan untuk data `shop_id = 31`

In [None]:
daily_sales_31 = 

Create visualization :

In [None]:
daily_sales_31.set_index('date')[['total_qty', 'total_revenue']].plot(subplots=True,figsize=(10, 5))
plt.suptitle('DAILY SOFTWARE SALES: STORE 31')
plt.show()

📈 Dengan melihat visualisasi tersebut kita mendapatkan:

**1. Bagaimana fluktuasinya?**
>  ......

**2. Bagaimana hubungan antar variabelnya??**
> ......



<hr>

<div class="alert alert-danger">
  <center><b>Analisis Lebih Lanjut❗️</b><br><hr>
    Visualisasi hanyalah langkah awal. <br> Selanjutnya, lakukan analisis lebih lanjut untuk mengonfirmasi temuan dari visualisasi, seperti pemodelan data yang lebih canggih.</center>
</div> 

## Modeling using `prophet`

<div class="alert">

**Kebutuhan Forecasting**
> Pemodelan data time series adalah komponen penting dalam analisis data, terutama dalam membuat keputusan berdasarkan data. Kemampuan untuk memprediksi tren masa depan sangat diperlukan dalam berbagai industri, seperti keuangan, perawatan kesehatan, dan e-commerce. Kemampuan untuk memprediksi tren penjualan adalah kunci untuk mengoptimalkan persediaan, meningkatkan strategi harga, dan akhirnya meningkatkan pendapatan.

**Tujuan Pemodelan**
> Pemodelan data time series bertujuan untuk memprediksi nilai-nilai masa depan berdasarkan pola dan tren dalam data historis.

**General Additive Model (GAM)**
> Salah satu kemajuan terbaru dalam pemodelan data time series yang memandang time series sebagai hasil penjumlahan dari komponennya: 
>> $Y(t) = T(t) + S(t) + E(t)$
> - **Trend (T)**: Pergerakan jangka panjang dalam nilai rata-ratanya.
> - **Seasonality (S)**: Efek musiman berulang.
> - **Residuals (E)**: Komponen tak teratur atau fluktuasi acak yang tidak dijelaskan oleh tren dan musiman.

**`prophet`**
> - Dikembangkan oleh facebook untuk membuat pemodelan data time series lebih mudah diakses oleh non ekspert.
> - Pendekatan yang sederhana sehingga mudah dipahami dan cocok untuk pemula
> - `prophet` memanfaatkan GAM yang menambahkan efek hari libur untuk memodelkan jadwal yang tidak teratur.
> - [**Dokumentasi Resmi**](https://facebook.github.io/prophet/docs/quick_start.html)


</div>

## 📝 Summary Day 1

- Time Series adalah ......

- Jenis target yang diprediksi adalah nilai ....... Namun ada perbedaan antara Regresi vs Forecasting

| **Karakteristik** | **Regresi**                              | **Peramalan/Forecasting**                      |
|-------------------|------------------------------------------|------------------------------------|
| **Tujuan Utama**  | ......       | ......        |
| **Variabel**      | ......       | ......        |
| **Fungsi**        | ......       | ......        |



- Karakteristik data Time Series
    + Pengukuran waktu: tiap jam, harian, bulanan, mingguan.
    + Interval waktu yang ......
    + Data harus ...... berdasarkan waktu
    + Nilainya ......
    
- `prophet` merupakan library yang bisa digunakan untuk melakukan pemodelan time serie
- Konsep GAM adalah fondasi dari model Prophet untuk memodelkan time series



---- Start of Day 2 ----

<div style="padding: 30px;
  background: #d4afb9;
  color: #003049;">
  
# Forecasting
</div>

## Business Problem

<div class="alert">

📍 **Business Problem** :  Melakukan prediksi penjualan harian untuk toko 31.

📍 **Tujuan**: Membantu mengoptimalkan manajemen inventaris dan strategi penjualan.

📍 **Data**: Kita akan menggunakan data penjualan harian untuk toko 31. Toko ini cocok digunakan karena memiliki :

1. Relevansi bisnis: sebagai toko dengan penjualan tertinggi.
2. Sederhana dan terfokus: Meminimalkan kompleksitas model dan memudahkan pengembangan strategi forecasting yang dapat diimplementasikan dengan mudah.
3. Ketersediaan data: toko 31 memiliki data yang lebih lengkap dan konsisten per hari dibandingkan toko lain.

Catatan: Perlu diingat bahwa pemilihan toko ini dapat disesuaikan jika terdapat kebutuhan bisnis spesifik yang memerlukan analisis pada toko lain.

</div>

In [None]:
daily_sales_31.head()

Unnamed: 0,date,shop_id,total_qty,total_revenue
0,2013-01-02,31,568.0,396376.09999999497
1,2013-01-03,31,423.0,276933.11
2,2013-01-04,31,431.0,286408.0
3,2013-01-05,31,415.0,273244.99999999
4,2013-01-06,31,435.0,260775.0


### Baseline Model

#### Prepare the data

Selain kita mempersiapkan data seperti sebelumnya, `prophet` membutuhkan bentuk data yang lebih spesifik lagi yaitu: 

<div class="alert">

- Data frame harus terdiri dari 2 kolom dengan nama sebagai berikut:
    + `ds`: kolom penanda waktu, harus bertipe `datetime64`
    + `y`: nilai yang ingin diprediksi

</div>

❗️ Mari kita lakukan perubahan pada variabel `daily_sales_31` menggunakan method `rename()`

In [None]:
daily_total_qty = 

daily_total_qty.head()

<div class="alert">

**Karakteristik data `daily_total_qty`**

> - [ ] Data (`daily_total_qty`) mewakili penjualan harian dari toko dengan `shop_id` 31 sejak Januari 2013.
> - [ ] Setiap baris dalam tabel mewakili penjualan harian, dengan tanggal penjualan dicatat dalam kolom pertama.
> - [ ] Kolom kedua menunjukkan total jumlah (diubah menjadi `y`) barang yang dijual oleh toko pada hari itu.

</div>


#### Fitting Model

🔎 Selama proses fitting, model `prophet` akan menganalisis data untuk mengidentifikasi tren, seasonal, dan pola lainnya dalam data time series.


In [None]:
# load the library
# %pip install prophet

from prophet import Prophet
import cmdstanpy

❗️ Inisiasi object model menggunakan fungsi `Prophet()`

In [None]:
model_31 = 

❗️ Fitting data `daily_total_qty` menggunakan method `fit()`

In [None]:
model_31

#### Forecasting

**Menentukan Periode Forecasting**
> Dalam kasus ini, kita melakukan forecasting selama **1 tahun kedepan**

❗️ Membuat dataframe masa depan menggunakan method `make_future_dataframe()` dan tentukan parameter `periods` serta `freq`


In [None]:
future_31 = 

💬 Setelah mempersiapkan data waktu untuk diprediksi, selanjutnya kita dapat menggunakan `predict()` untuk melakukan forecasting. Hasil forecasting akan menghasilkan perkiraan masa depan berdasarkan model yang telah dibuat sebelumnya

❗️ Prediksi data

In [None]:
forecast_31 = 

In [None]:
forecast_31.head()

<div class="alert">

Hasilnya akan menghasilkan DataFrame dengan kolom-kolom berikut:

- `ds`: nilai-nilai tanggal di masa depan yang telah kita tentukan dalam DataFrame `future_31`
- `yhat`: nilai prediksi untuk kolom `y`
- `yhat_lower`: batas bawah dari nilai prediksi
- `yhat_upper`: batas atas dari nilai prediksi


- `trend`: komponen tren dari nilai prediksi
- `trend_lower`: batas bawah dari tren
- `trend_upper`: batas atas dari tren


- `weekly`: komponen mingguan dari nilai prediksi
- `weekly_lower`: batas bawah dari komponen mingguan dari nilai prediksi
- `weekly_upper`: batas atas dari komponen mingguan dari nilai prediksi


- `yearly`: komponen tahunan dari nilai prediksi
- `yearly_lower`: batas bawah dari komponen tahunan dari nilai prediksi
- `yearly_upper`: batas atas dari komponen tahunan dari nilai prediksi

- `additive_terms`: komponen tambahan dari nilai prediksi
- `additive_terms_lower`: batas bawah dari komponen tambahan dari nilai prediksi
- `additive_terms_upper`: batas atas dari komponen tambahan dari nilai prediksi

- `multiplicative_terms`: komponen perkalian dari nilai prediksi
- `multiplicative_terms_lower`: batas bawah dari komponen perkalian dari nilai prediksi
- `multiplicative_terms_upper`: batas atas dari komponen perkalian dari nilai prediksi

</div>

Beberapa nilai yang sering digunakan:

In [None]:
forecast_31[['ds', 'trend', 'weekly', 'yearly', 'yhat']].head()

<div class="alert alert-danger"><center>
  <details>
      <summary><b>💬 Ingat Kembali: Konsep GAM </b></summary>GAM merupakan model yang bersifat aditif, yang berarti <br> menjelaskan data time series sebagai hasil penjumlahan dari beberapa komponen.
</div> 

💬 Pada kasus data kita, model kita telah mengekstrak 3 tipe komponen: `trend`, `weekly` seasonaliti, dan `yearly` seasonaliti. Oleh sebab itu, formulanya menjadi

$yhat(t) = T(t) + S_{weekly}(t) + S_{yearly}(t)$

❗️ Pembuktian bahwa `forecast_31` memuat fungsi berikut `yhat` = `trend` + `weekly` + `yearly`.

In [None]:
forecast_31['trend'] + forecast_31['weekly'] + forecast_31['yearly']

In [None]:
forecast_31['yhat']

#### Visualize

❗️ Mari coba kita visualisasikan

In [None]:
# code here 


❗️ Kita juga bisa memvisualisasikan tiap komponen, menggunakan method `plot_components()`

In [None]:
# code here

📈 Dengan melihat visualisasi tersebut kita mendapatkan:

**Bagaimana Komponen Trennya?**
> ......

**Bagaimana Pola Mingguannya?**
> ......

**Bagaimana Pola Tahunannya?**
> ......


#### [[Optional] Interactive Visualization](#toc0_)

Kita dapat membuat plot interaktif dari prediksi dan komponennya menggunakan `plotly`. Kita perlu menginstal `plotly` versi 4.0 atau yang lebih baru secara terpisah, karena itu tidak akan diinstal secara default bersama dengan `prophet`. Kita juga perlu menginstal paket `notebook` dan `ipywidgets`.

In [None]:
import plotly.io as pio
# notebook
pio.renderers.default = 'notebook'

In [None]:
from prophet.plot import plot_plotly, plot_components_plotly
plot_plotly(model_31, forecast_31)

In [None]:
plot_components_plotly(model_31, forecast_31)

<div class="alert">

Visualisasi interaktif menggunakan Plotly memungkinkan kita untuk mendapatkan informasi yang lebih terperinci dan spesifik dibandingkan dengan visualisasi statis biasa. Dengan mengarahkan kursor ke atas plot, kita dapat mendapatkan nilai numerik yang tepat dari setiap titik data. Selain itu, kita dapat memperbesar dan memperkecil plot untuk lebih fokus pada area tertentu yang menarik.

Visualisasi interaktif juga memungkinkan kita untuk mengaktifkan atau menonaktifkan berbagai komponen deret waktu, seperti tren, musiman, dan liburan. Fitur ini memungkinkan kita untuk lebih memahami pengaruh setiap komponen pada deret waktu secara keseluruhan.

Secara umum, visualisasi interaktif dapat membantu kita untuk lebih mengeksplorasi dan memahami data deret waktu yang kompleks, karena kita dapat berinteraksi secara dinamis dengan data dan menyesuaikan visualisasi berdasarkan kebutuhan kita. Jenis visualisasi ini sangat berguna untuk menyajikan temuan dan wawasan kepada pemangku kepentingan yang mungkin tidak akrab dengan data, karena memungkinkan mereka untuk berinteraksi dan menjelajahi data dengan cara yang lebih intuitif dan menarik.

</div>

<hr>

<div class="alert alert-danger">
  <center><b>Analisis Lebih Lanjut❗️</b><br><hr>
    Setelah kita tahu bahwa model prophet dapat memisahkan komponen-komponen. 
   Selanjutnya kita akan memperlajari lebih dalam tentang komponen-komponen ini. 
   <br>Dengan pemahaman yang mendalam tentang tren, musiman, dan efek liburan, bisnis dapat membuat peramalan yang lebih tepat dan merencanakan strategi yang lebih efektif.</center>
</div> 

## Time Series Component

<div class="alert">

1. **Tren (Trend):**
   > - **Pentingnya:** Komponen tren menggambarkan pergerakan jangka panjang dalam data. Memahami tren membantu dalam mengidentifikasi apakah ada **peningkatan atau penurunan** dalam data seiring berjalannya waktu.
   > - **Penerapan Bisnis:** Dengan memahami tren, bisnis dapat merencanakan pertumbuhan jangka panjang, mengidentifikasi perubahan pasar, dan mengambil langkah-langkah strategis.

2. **Musiman (Seasonality):**
   > - **Pentingnya:** Musiman adalah pola berulang secara teratur dalam data, seperti **peningkatan penjualan pada musim liburan atau penurunan pada musim tertentu**.
   > - **Penerapan Bisnis:** Dengan memahami musiman, bisnis dapat menyesuaikan strategi pemasaran, persediaan, dan penawaran khusus untuk mengikuti pola musiman.

3. **Efek Liburan (Holiday Effect):**
   > - **Pentingnya:** Efek liburan mengacu pada **fluktuasi** dalam data yang terkait dengan hari-hari libur dan peristiwa khusus. Memahami efek liburan membantu dalam **mengantisipasi lonjakan atau penurunan** penjualan yang terjadi selama liburan.
   > - **Penerapan Bisnis:** Dengan memahami efek liburan, bisnis dapat merencanakan persiapan khusus untuk menghadapi lonjakan permintaan atau menawarkan promosi yang relevan selama liburan.

</div>

### Trend Component

🔎 **Definisi**
> Menggambarkan pergerakan jangka panjang dalam data

🔎 **Arah Tren**
> Dapat bergerak ke atas (tren naik) atau ke bawah (tren turun)
>> - Tren naik mengindikasikan peningkatan nilai dari waktu ke waktu, 
>> - Tren turun menunjukkan penurunan nilai.

🔎 **Tren vs. Fluktuasi**
> Tren harus dibedakan dari fluktuasi. Tren adalah perubahan jangka panjang, sedangkan fluktuasi adalah perubahan jangka pendek.

🔻 **Visualisasi Prophet dalam Menghasilkan Tren**

![regression_vs_forecasting.png](assets/trend_component.png)

📈 **Visualisasi Linier:** Grafik tren yang dihasilkan oleh Prophet secara default adalah garis lurus (linear) ketika ditampilkan dalam visualisasi. Ini mencerminkan model tren linier yang digunakan dalam perhitungan.

🔎 **Default Linear Tren**
> Prophet secara default mengasumsikan bahwa tren dalam data time series adalah **tren linear**. Ini berarti Prophet memodelkan perubahan nilai data sebagai **peningkatan atau penurunan ($T(t)$) yang terjadi dengan laju yang konstan sepanjang waktu ($t$)** 

**[OPTIONAL] - Mathematics Behind Trend**

**Rumus Tren Default:** Secara matematis, rumus tren default dalam Prophet adalah:
   
   $T(t) = \beta_0 + \beta_1 \cdot t$
   
   Di mana:
   - $T(t)$ adalah nilai tren pada waktu $t$.
   - $\beta_0$ adalah intercept (potongan garis tren).
   - $\beta_1$ adalah koefisien kemiringan (slope) yang menunjukkan tingkat perubahan tren seiring waktu.

**Tren Naik dan Turun:** 
> Koefisien $\beta_1$ dalam rumus di atas menentukan apakah tren adalah tren naik ($\beta_1 > 0$) atau tren turun ($\beta_1 < 0$). Nilai $\beta_1$ menggambarkan tingkat perubahan tren dalam unit data per unit waktu.



**[OPTIONAL] - Mathematics Behind Trend**

The linear model will take a straight line across the x axis using the ordinary least square method, means it tries to produce the least difference between the line and the actual demand value resulting in the long-term “average” value given a time point t accross the date. Linear model or linear regression is a common statistical tool to model a numerical value. The formula of a linear regression is as follow:

$$y=mx+C$$

In our time series context, where we try to model our trend component, y equals to the Trend, m equals the difference for every change of time point and C for the intercept. In a more specific manner we could say that:

$$T(date)=m(date)+C$$

To illustrate the slope part of our trend which is an important part in understanding the trend, we can create the model using `ols()` function from `statsmodels` library like follow:

🔻 Untuk mengilustrasikan bagian slope pada tren, kita coba buat model linear menggunakan `ols()` dari library `statsmodels`

In [None]:
# import the library
import statsmodels.api as sm

# define predictor and target variable
daily_sales_31_copy = daily_sales_31.copy()
daily_sales_31_copy['date_ordinal'] = daily_sales_31_copy['date'].apply(lambda date: date.toordinal())

X = daily_sales_31_copy['date_ordinal']
y = daily_sales_31_copy['total_qty']

# build ols model
X_train_sm = sm.add_constant(X)
lr = sm.OLS(y, X_train_sm).fit()

# printing the parameters
lr.params

Berdasarkan hasil summary, didapatkan persamaan linearnya:

$$demand.in.qty=−0.17date+124413.733$$

📝 **Insight:**

- Koefisien slope (-0.17) menunjukkan bahwa terdapat tren negatif (penurunan) seiring berjalannya waktu. Setiap peningkatan unit waktu akan menyebabkan penurunan sebesar 0.17 unit dalam "demand.in.qty."
- Intercept (124413.733) adalah nilai "demand.in.qty" pada waktu awal (intersep sumbu Y ketika waktu = 0).


<hr>

<div class="alert alert-success">
  <center><b>Penyesuaian Fleksibilitas</b><br><hr>
    Meskipun defaultnya adalah model tren linier, Prophet memungkinkan penyesuaian dan penanganan tren non-linier jika diperlukan dengan mengontrol parameter-parameter seperti <code>changepoints</code> untuk mengidentifikasi perubahan tren.</center>
</div> 

#### Automatic Changepoint Detection

🔎 **Tujuan**
> - Untuk mengidentifikasi titik-titik dalam data time series di mana terjadi perubahan signifikan dalam tren atau pola. Titik-titik ini disebut `changepoints`
> - Dapat berdampak signifikan pada akurasi prediksi

🔎 **Default Setting**
> - `n_changepoints=25`: 25 jumlah changepoint
> - `changepoint_range=0.8`: 80% data awal tempat changepoints berada
>> Ini berarti Prophet akan mencari hingga 25 changepoints yang mungkin dalam 80% awal data untuk membantu mengidentifikasi di mana tren mungkin berubah.


In [None]:
# for illustration purposes only, threshold = 0
from prophet.plot import add_changepoints_to_plot
fig = model_31.plot(forecast_31)
a = add_changepoints_to_plot(fig.gca(), model_31, forecast_31, threshold=0)

Dari 25 changepoints prophet akan menghitung besarnya tingkat perubahan pada slope dan akan menentukan mana yang paling signifikan. 

🔻 Model ini mendeteksi 3 changepoints yang signifikan dan memisahkan slope 4 tren yang berbeda

In [None]:
fig = model_31.plot(forecast_31)
a = add_changepoints_to_plot(fig.gca(), model_31, forecast_31)

**[Optional] How Automatic Changepoint Works**


<br>

<details>
    <summary><b>🔻 1. Inisiasi jumlah Changepoints </b></summary>
    
    Pada awalnya, Prophet mengidentifikasi sejumlah potensial changepoints dalam data time series. Jumlah ini dapat dikontrol oleh pengguna dengan parameter `n_changepoints`. Secara default, Prophet mengatur 25 potensial changepoints.
    
</details>

<details>
    <summary><b>🔻 2. Rentang Pencarian Potensial Changepoints </b></summary>
    
    Prophet mengatur rentang di mana potensial changepoints dicari dalam data. Ini dikendalikan oleh parameter `changepoint_range`, yang secara default mengambil 80% awal data time series.
    
</details>

<details>
    <summary><b>🔻 3. Fitting Linear Regressions </b></summary>
    
    Algoritma mengfitting model regresi linear piecewise ke data. Setiap "piece" dalam model ini menggambarkan segmen yang berbeda dalam time series dengan struktur yang berbeda. Ini memungkinkan algoritma untuk mengidentifikasi bagian-bagian time series dengan struktur yang berbeda.
    
</details>

<details>
    <summary><b>🔻 4. Evaluasi </b></summary>
    
    Prophet menggunakan pendekatan Bayesian information criterion (BIC) untuk mengevaluasi sejauh mana model tren dasar sesuai dengan data aktual. Ini melibatkan analisis probabilistik untuk menilai akurasi model.
</details>

<details>
    <summary><b>🔻 5. Seleksi changepoints terbaik </b></summary>
    
    Prophet memilih potensial changepoints yang memberikan hasil yang paling akurat berdasarkan evaluasi model. Proses ini melibatkan penyesuaian jumlah changepoints dan lokasi mereka untuk mencapai tingkat akurasi yang optimal.
    
</details>

<details>
    <summary><b>🔻 6. Didapatkan model akhir </b></summary>
    
    Dengan potensial changepoints yang terpilih, Prophet membangun model akhir yang memasukkan changepoints ini ke dalam forecasting. Ini memungkinkan model untuk mengakomodasi perubahan tren yang terdeteksi dalam data time series.
    
</details>

<details>
    <summary><b>🔻 7. Forecasting dengan memperhitungkan changepoints </b></summary>
    
    Setelah model akhir dibangun, Prophet menghasilkan peramalan yang memperhitungkan potensial changepoints. Ini membantu dalam meramalkan dengan lebih baik mengingat adanya perubahan tren yang terdeteksi.
    
</details>


<hr>

<div class="alert alert-success">
  <center><b>Ketidakpastian dalam Tren</b><br><hr>
    Secara default prophet menggunakan model tren linear, tetapi dalam beberapa kasus, tren dapat lebih kompleks dan curve.</center>
</div> 

#### Adjusting Trend Flexibility

**💬 Tujuan:**
> - Meningkatkan akurasi model
> - Mengatasi ketidakpastian tren
> - Mengakomodasi pola tren yang berubah seiring waktu
> - Menyesuaikan dengan data observasi

❗️❗️ Keputusan dalam melakukan penyesuaian fleksibilitas tren harus didasarkan pada pemahaman domain data dan analisis yang hati-hati. 


In [None]:
daily_total_qty.head()

💬 **Parameter yang direkomendasikan untuk ditune**

> - `changepoint_prior_scale` (default = 0.05): mengatur fleksibilitas tren dan seberapa besar tren berubah pada titik-titik perubahan tren. Mengubah parameter ini dapat **meningkatkan atau mengurangi** fleksibilitas tren. Rekomendasi: range[0.001, 0.5]

💬 **Parameter yang tidak direkomendasikan untuk ditune**
> - `n_changepoints` (default = 25): Lebih baik menyesuaikan parameter `changepoint_prior_scale` daripada mengubah jumlah titik perubahan secara langsung. Hal ini dapat beresiko overfitting karena model yang terbentuk akan terlalu kompleks dan kurang dapat diandalkan dalam memprediksi data baru
> - `changepoint_range` (default = 0.8): Lebih baik menyesuaikan parameter `changepoint_prior_scale`, dikarenakan dapat menghasilkan mdel yang kurang stabil. Hal ini dapat memengaruhi bagaimana model menilai perubahan tren dalam data, yang pada gilirannya dapat mengarah pada model yang kurang dapat diandalkan.

1️⃣ Fitting Model

❗️Mengatur parameter `changepoint_prior_scale=0.5` akan membuat model lebih fleksibel dalam mendeteksi titik perubahan tren. Membantu menangkap pola yang lebih kompleks dalam data, namun juga meningkatkan resiko overfitting.

In [None]:
# fitting model
model_tuning_trend = 


2️⃣ Forecasting

In [None]:
# forecasting
future = 
forecast_tuning = 

3️⃣ Visualization

In [None]:
# visualize
fig = model_tuning_trend.plot(forecast_tuning)
a = add_changepoints_to_plot(fig.gca(), model_tuning_trend, forecast_tuning)

📈 Dengan melihat visualisasi tersebut kita mendapatkan:

**Bagaimana pengaruh pada hasil visualisasi?**
> ......

**Bagaimana pengaruh pada hasil prediksi?**
> ......

🔎 Menganalisis tren pada data time series penting karena membantu dalam memahami perubahan **jangka panjang** dalam data

### Seasonality Component

🔎 **Definisi Seasonality / Musiman**
> Mengacu pada pola teratur yang terjadi dalam data pada **interval waktu tertentu**, seperti mingguan, bulanan, tahunan.

🔎 **Penyebab**
> Faktor cuaca, hari libur, peristiwa siklik lainnya yang secara konsisten terjadi dalam data

🔎 **Tujuan dan Manfaat Analisis**
> Membantu memahami pola berulang pada data yang dapat digunakan untuk pengambilan keputusan. *Contoh:* Terjadi peningkatan penjualan ketika weekend, kita dapat menyesuaikan strategi stok dan pemasaran.

🔎 **Dampak pada forecasting**
> Memahami musiman adalah elemen penting dalam peramalan karena memungkinkan kita untuk memprediksi pola yang sama di masa depan. Hal ini penting dalam perencanaan bisnis dan pengelolaan persediaan.

❗️ Mari kita coba lihat pola musiman dari `model_31`

In [None]:
fig = model_31.plot_components(forecast_31)

🔎 Visualisasi ini menyesuaikan data yang kita punya:
- ✅ **trend**: berdasarkan data dari tahun 2013 hingga quarter 3 tahun 2015
- ✅ **weekly**: secara default akan diidentifikasikan memiliki musiman mingguan
- ✅ **yearly**: secara default akan diatur `True` jika pada data terdapat minimal 2 tahun
- ❌ **daily**: merupakan musiman harian, yang memodelkan pola per jam. Karena data tidak ada data perjam, secara default akan diatur `False`

📈 Dengan memeriksa komponen-komponen musiman ini, kita dapat memahami pola-pola periodik pada data:

**Dalam musiman mingguan, hari apa penjualan paling sedikit?**
> ......

**Dalam musiman tahunan, bulan apa penjualan paling sedikit?**
> ......

**Strategi bisnis apa yang bisa dilakukan**
> - ......
> - ......
> - ......
> - ......

#### Fourier Order

🔎 Komponen seasonal dalam Prophet menggunakan deret Fourier untuk memodelkan pola berulang. 

🔎 **Deret Fourier**
> Representasi matematis yang digunakan untuk **menguraikan fungsi berulang atau periodik menjadi kombinasi dari fungsi sinus dan cosinus**. Dalam konteks Prophet, deret Fourier digunakan untuk menyusun pola musiman dengan kombinasi gelombang sinusoidal dan kosinusoidal.

🔎 **Frekuensi**
> Deret Fourier memiliki parameter frekuensi yang menentukan seberapa sering pola musiman berulang. Dalam Prophet, dapat diatur melalui parameter `yearly_seasonality` , `weekly_seasonality` (default=3)

🔎 **Amplitudo**
> - Amplitudo mengendalikan seberapa besar perubahan dalam pola musiman. Semakin besar amplitudo, semakin besar perubahan terjadi.

🔎 Dengan meningkatkan nilai ini, kita dapat membuat seasonality yang dihasilkan menjadi lebih fleksibel (resiko overfitting)


<img src=https://funsubstance.com/uploads/gif/382/382951.gif>


Here is an interactive introduction to Fourier: http://www.jezzamon.com/fourier/

1️⃣ Fitting Model, dengan mengatur `weekly` dan `yearly` seasonality

In [None]:
# fitting model
model_tuning_seasonality = 
model_tuning_seasonality

2️⃣ Forecasting

In [None]:
# forecasting
future = 
forecast_tuning2 = 

3️⃣ Visualization

In [None]:
# visualize
fig = 

#### Custom Seasonalities

🔎 **Default Seasonality Terbatas**
> Model Prophet secara default hanya menyediakan seasonality mingguan dan tahunan. Jika pola musiman data tidak sesuai dengan kedua seasonality ini, perlu **custom seasonality.**

🔎 **Kebutuhan Custom Seasonality**
> - Ketika data memiliki pola musiman yang tidak biasa seperti terkait dengan tanggal gajian dalam sebulan, perlu menentukan seasonality yang sesuai.
> - **Contoh** Penjualan di bisnis Anda sangat dipengaruhi oleh tanggal bulanan. Kebanyakan dari customer cenderung membeli produk berdasarkan waktu pembayaran gaji mereka. Karena hal ini tidak ditangkap pada kondisi seasonal weekly dan yearly, kita perlu mendefinisikan **seasonal non-regular.**

🔎 **Solusi**
> 1. **Menghapus efek seasonality default**: hapus seasonality default yang tidak sesuai dengan data dengan mengatur nilai `yearly_seasonality = False`
> 2. **Menambahkan custom seaosonal**: tambahkan seasonality yang sesuai seperti seasonality bulanan menggunakan metode `.add_seasonality()` sebelum fitting model.

Sehingga formula yang dibentuk menjadi:
$yhat(t) = T(t) + S_{weekly}(t) + \bf{S_{monthly}(t)}$

1️⃣ Menghapus yearly seasonality

In [None]:
# fitting model remove seasonality
model_custom_seasonality = 

2️⃣ Menambahkan Custom Seasonality

- Montly Seasonality
- Period = 30.5 (rata-rata jumlah hari dalam satu bulan)
- `fourier_order=5`
    > - biasanya [3,5] untuk model yang sederhana
    > - mengontrol seberapa kompleks model seasonality yang digunakan. Semakin tinggi semakin fleksibel modelnya (biasanya `fourier_order=10`
    

In [None]:
## add seasonality
model_custom_seasonality

## fitting model

3️⃣ Forecasting & visualization

In [None]:
# forecasting
future = 
forecast_cutom_season = 

# visualize
fig = 

💡 Nilai Fourier order yang direkomendasikan berdasarkan seasonalnya:
- weekly seasonality = 3
- monthly seasonality = 5
- yearly seasonality = 10

### [Holiday Effects](https://facebook.github.io/prophet/docs/seasonality,_holiday_effects,_and_regressors.html#modeling-holidays-and-special-events) 

Salah satu keuntungan dari penggunaan Prophet adalah kemampuannya untuk memperhitungkan efek liburan. Holiday effect ini didefinisikan sebagai efek non-reguler yang disiapkan secara manual oleh user. 

#### Modeling Holidays and Special Events

🔻 Sekarang kita akan melihat data kita dari model pertama yang kita buat. Dari visualisasi kita dapat melihat adanya penjualan yang signifikan di setiap akhir tahun (mencapai lebih dari 800 penjualan per hari).

In [None]:
# for illustration purposes only
fig = model_31.plot(forecast_31)
plt.axhline(y=800, color='red', ls='--')
plt.show()

❗️ Mari kita lihat penjualan dengan jumlah di atas 800 menggunakan conditional subsetting.

In [None]:
# code here

Ternyata penjualan yang sangat tinggi ini terjadi di tanggal **27 - 31 Desember** pada 2 tahun data kita. Dengan ini kita dapat mengasumsikan adanya fenomena tahun baru yaitu saat dimana orang-orang menggunakan bonus akhir tahun mereka untuk berbelanja.

❗️ Dari sini kita dapat mempersiapkan sebuah dataframe baru yang memiliki informasi di atas. Kolom-kolom yang harus dipersiapkan yaitu:

- `holiday`: nama hari libur yang nilainya unik
- `ds`: informasi waktu
- `lower_window` : jumlah periode waktu **sebelum** tanggal hari libur yang diasumsikan punya pengaruh (<= 0)
- `upper_window`: jumlah periode waktu **setelah** tanggal hari libur yang diasumsikan punya pengaruh (>= 0)

⚠️ Informasi ini harus mencakup seluruh kejadian yang akan kita gunakan, baik pada model fitting maupun forecast (mundur sejauh historikal data kita, dan maju sejauh kita ingin melakukan prediksi)

In [None]:
holiday = pd.DataFrame({
    'holiday': 'new_year_eve',
    'ds': pd.to_datetime(['2013-12-31', '2014-12-31', # past date, historical data 
                          '2015-12-31']), # future date, to be forecasted
    'lower_window': -4, # include 27th - 31st December
    'upper_window': 0})
holiday

❓ Setelah dataframe `holiday` dipersiapkan, kita perlu memasukkan informasi ini ke dalam `Prophet()` class pada parameter `holidays`.

In [None]:
# fitting model
model_holiday = Prophet(.....)
model_holiday.fit(daily_total_qty)

# forecasting
future = model_holiday.make_future_dataframe(periods=365, freq='D')
forecast_holiday = model_holiday.predict(future)

# visualize
fig = model_holiday.plot(forecast_holiday)

💬 Dengan adanya informasi hari libur akhir tahun, terlihat bahwa model yang dihasilkan lebih baik menangkap pola di akhir tahun dibandingkan hanya menggunakan efek yearly seasonality. 

❗️ Jika kita plot komponennya, kita dapat melihat adanya efek komponen holiday yang terlampir:

In [None]:
fig = model_holiday.plot_components(forecast_holiday)

#### [[OPTIONAL] Built-in Country Holidays](https://facebook.github.io/prophet/docs/seasonality,_holiday_effects,_and_regressors.html#built-in-country-holidays) 

Kita dapat menggunakan informasi built-in tentang hari libur spesifik suatu negara menggunakan method `.add_country_holidays()` sebelum melakukan fitting model. Parameter yang harus ditambahkan yaitu `country_name` dan untuk Indonesia masukkan nilai `"ID"`

❗️Mari kita tambahkan holiday untuk Indonesia

In [None]:
model_holiday_indo = Prophet()
model_holiday_indo.add_country_holidays(country_name='ID')
model_holiday_indo.fit(daily_total_qty)

model_holiday_indo.train_holiday_names

💬 Sebagai tambahan, kita juga dapat secara manual menambahkan informasi hari libur di atas menggunakan modul `hdays` dari `prophet`. Cara ini biasanya digunakan ketika kita hanya ingin mengambil beberapa informasi hari libur, tidak semuanya.

Sebagai contoh kita ingin membuat list hari libur di Indonesia pada tahun 2020 dan 2021 secara manual.

- Fungsi `hdays.Indonesia()` digunakan untuk menginisiasi list hari libur di Indonesia
- Method `_populate()` digunakan untuk menambahkan list hari libur di tahun yang kita inginkan, hasilnya dalam bentuk dictionary dengan tanggal sebagai key dan nama hari libur sebagai value.

Langkah yang perlu dilakukan adalah membuatnya ke dalam bentuk dataframe. Kita akan menggunakan fungsi `pd.DataFrame()` dan merapikan bentuk dataframe kita agar sesuai dengan input yang diharapkan Prophet.

In [None]:
from prophet.make_holidays import make_holidays_df

id_holidays = make_holidays_df(
    year_list=[2020,2021], country='ID'
)
id_holidays.head(n=10)

## Forecasting Evaluation

💬 Evaluasi model forecasting dengan metode splitting melibatkan pembagian data menjadi dua bagian:
> - **Data Latih (Train Data)**: Digunakan untuk melatih model time series untuk mengidentifikasi pola-pola dasar seperti tren dan seasonal
> - **Data Uji (Test Data)**: Diamankan untuk melakukan cross-validation dan menguji kinerja model pada data yang belum pernah dilihat (*unseen*)

💬 **Tujuannya** untuk mendapatkan gambaran tentang seberapa baik performa model dapat memprediksi data baru yang belum pernah dilihat sebelumnya. 

### Train-Test Split

💬 **Train-Test Split secara Temporal**: Pada data time series, pembagian data train dan test biasanya dilakukan dengan cara temporal, di mana data masa lalu digunakan untuk melatih model dan data masa depan digunakan untuk pengujian.

Pada data ini, kita memiliki range waktu dari awal 2013 sampai q3 tahun 2015. 

❗️ Misalkan kita ingin menggunakan data di **tahun 2015 sebagai test data** dan sisanya untuk train data.

In [None]:
cutoff = pd.to_datetime('2015-01-01')

🔻  Jika divisualisasikan maka titik-titik berwarna merah di bawah yang tidak akan difitting pada model Prophet kita.

In [None]:
# for illustration purposes only
daily_total_qty['type'] = daily_total_qty['ds'].apply(
    lambda date: 'train' if date < cutoff else 'test')

plt.figure(figsize=(10, 5))
sns.scatterplot(x='ds', y='y', hue='type', s=7,
                palette=['black', 'red'],
                data=daily_total_qty)
plt.axvline(x=cutoff, color='gray', label='cutoff')
plt.legend()
plt.show()

❗️ Lakukan pemisahan data menggunakan *conditional subsetting* karena sebelumnya kita sudah memasukkan data di tahun 2015 sebagai variabel `cutoff`

In [None]:
train = 
test = 

In [None]:
print(f'Train size: {train.shape}')
print(f'Test size: {test.shape}')

❗️Sekarang mari kita latih model untuk forecast `total_qty` (bukan revenue). Kita akan menggunakan data tahun 2013-2014 dan forecast untuk tahun 2015 (**303 hari**).

1️⃣ Fitting Model 

📍 Parameter yang perlu diatur:
- `holidays`
- `yearly_seasonality`
- `add_seasonality`
    + `monthly`
    + `period`
    + `fourier_order=5`
    
📍 Fitting model hanya untuk train data

In [None]:
# inisiasi model: holiday + yearly_seasonality
model_final = 

# add_seasonality


In [None]:
# model fitting


2️⃣ Forecasting dari `model_final`

In [None]:
# forecasting
future_final = 
forecast_final = 

3️⃣ Visualization dari data hasil forecasting `forecast_final`

In [None]:
# visualize
fig = model_final.plot(forecast_final)
plt.scatter(x=test['ds'], y=test['y'], s=10, color='red')
plt.show()

<hr>

<div class="alert alert-danger">
  <center><b>Analisis Lanjutan Berdasarkan Model</b><br><hr>
    Berdasarkan plot di atas model kita mampu untuk meramalkan kondisi di masa depan secara general, tetapi pada beberapa bagian masih berbeda antara data asli dengan data prediksi. Perbedaan kedua nilai itu disebut dengan error dan kita harus menghitung nilainya untuk mendapatkan kesimpulan evaluasi model.</center>
</div> 

### Evaluation Metrics

💬 **Metrik evaluasi**
> Metrik atau ukuran digunakan untuk mengukur kesalahan / *error* berdasarkan selisih antara nilai yang diprediksi oleh model dan nilai aktual dalam data.

Berikut adalah metrics yang umum digunakan

- Mean Absolute Error (MAE)

<center>
$$MAE = \frac{\sum_{i=1}^{n}\left | y_{pred, i} - y_{real, i} \right |}{n}$$
</center>

> 🔎 **Interpretasi MAE**: MAE mengukur kesalahan rata-rata dalam satuan yang sama dengan data aktual. Misalnya, jika MAE adalah 10, ini berarti prediksi rata-rata selisih sebesar 10 unit dari data aktual.

- Mean Precentage Absolute Error
<center>
$MAPE = \frac{1}{n}\Sigma{\frac{| y-\hat y|}{y}} \times 100\%$  
</center>

> 🔎 **Interpretasi MAPE**:MAPE mengukur kesalahan rata-rata dalam bentuk persentase dari data aktual. Misalnya, jika MAPE adalah 5%, ini berarti prediksi rata-rata memiliki kesalahan sebesar 5% dari data aktual.

🔎 Berikut adalah perbedaan dalam cara menginterpretasikan serta kelebihan dan kekurangan dari metrik MAE (Mean Absolute Error) dan MAPE (Mean Absolute Percentage Error) dalam menangani jenis data tertentu:

| Metrics                     | Cara Menginterpretasikan                                     | Kelebihan                                      | Kekurangan                                   | Cocok untuk Jenis Data        |
|-----------------------------|---------------------------------------------------------|------------------------------------------------|--------------------------------------------|-------------------------------|
| **MAE**                     | Menunjukkan kesalahan rata-rata dalam satuan yang sama dengan data aktual.                 | Mudah diinterpretasikan. Tidak terpengaruh oleh outlier. | Tidak memberikan gambaran kesalahan relatif. Sensitif terhadap perbedaan skala. | Data yang memiliki outlier.         |
| **MAPE**                    | Menunjukkan kesalahan rata-rata dalam bentuk persentase dari data aktual.                 | Memberikan gambaran kesalahan relatif dalam bentuk persentase. | Tidak dapat digunakan jika ada nilai nol dalam data aktual. Sensitif terhadap perbedaan skala dalam persentase. | Data dengan variasi skala besar. |




#### ❓Knowledge Check

1. Yang kita inginkan dari kedua nilai tersebut adalah nilai yang semakin...

- [ ] A. Tinggi
- [ ] B. Rendah

2. Apabila kita memiliki data dengan beberapa obeservasi nilainya sangat kecil atau mendekati nol. Metrics apa yang cocok?

- [ ] A. MAE
- [ ] B. MAPE


      

❗️❗️ Pemilihan matrics pada kasus forecasting tidak terlalu straight seperti kasus klasifikasi. Terkadang mungkin juga kita menggunakan metriks bersama-sama untuk mendapatkan pemahaman yang lebih lengkap tentang kualitas model forecast❗️❗️

🔻 Mari kita hitung MAPE dari model kita

In [None]:
from sklearn.metrics import mean_absolute_percentage_error

1️⃣ Data Train

In [None]:
forecast_train = 

In [None]:
train_mape = 

2️⃣ Data Test

In [None]:
forecast_test = 

In [None]:
test_mape = 

### [[Optional] Expanding Window Cross Validation](#toc0_)

Selain itu, kita bisa melakukan pengembangan lagi dengan melakukan lebih dari satu kali train-test split seperti gambar di bawah:

<center>
<img src="assets/forward-chaining-cv.png" width="80%">
</center>

💬 Prosedur ini disebut dengan **expanding window** dan dapat otomatis dilakukan dengan mengatur parameter pada method `cross_validation()`. Berikut ini adalah tiga parameter yang harus ditentukan:

- `initial`: Panjang waktu data training
- `horizon`: Panjang waktu forecast
- `period`: Jarak tanggal tiap cutoff

💬 Expanding window adalah pengembangan dari cross validation biasa
- melihat kestabilan model dengan mengubah-ubah jumlah data train yang digunakan
- nilai initial adalah jumlah data yang kita gunakan pada train pertama (nilainya harus lebih sedikit dari jumlah data yang kita fitting) -> nilai minimumnya jumlah data fitting - horizon
- nilai horizon adalah panjang waktu yang dijadikan data validasi
- nilai period adalah lompatan waktu dari train pertama ke train kedua

In [None]:
from prophet.diagnostics import cross_validation

In [None]:
daily_total_qty.shape, train.shape

In [None]:
df_cv_f = cross_validation(model_final, # model yang sudah difitting
                         initial='600 days', # panjang seluruh data yang ada di model kita
                         horizon='30 days', # panjang waktu yang ditest
                         period='50 days') # lompatan tiap fold
df_cv_f

In [None]:
df_cv = cross_validation(model_holiday, # model yang sudah difitting
                         initial='731 days', # panjang seluruh data yang ada di model kita
                         horizon='30 days', # panjang waktu yang ditest
                         period='90 days') # lompatan tiap fold
df_cv

Proses cross-validation di atas akan dilakukan sebanyak 4 kali (4 folds), dimana setiap fold akan meramal 30 hari (`horizon`) sejak tanggal cutoff. Berikut adalah ilustrasi dari setiap fold:

In [None]:
from helper import viz

In [None]:
# for illustration purposes only
df_copy = daily_total_qty[['ds', 'y']].copy()
df_cutoff_horizon = df_cv.groupby('cutoff')[['ds']].max()

viz.forward_chaining_viz(df_copy, df_cutoff_horizon)

🔻 Metric error setiap fold pada cross-validation dapat dihitung manual, contohnya MAPE di bawah ini:

In [None]:
cv_mape = df_cv.groupby('cutoff').apply(
    lambda x: mean_absolute_percentage_error(y_true=x['y'],
                                     y_pred=x['yhat']))
cv_mape

Karena bisa dikatakan kita memiliki 4 model, kita dapat menghitung kembali **MAPE** model secara keseluruhan dengan mengambil rata-ratanya.

In [None]:
cv_mape.mean()

<hr>

<div class="alert alert-danger">
  <center><b>Workflow Machine Learning</b><br><hr>
    Sebenarnya analisis dapat berhenti sampai prose pembuatan model. Namun, workflow machine learning tidak berjalan seperti waterfall. Apabila kita kurang puas dengan evaluasi model, kita dapat melakukan tuning kembali model kita supata dapat lebih bagus lagi</center>
</div> 

## Hyperparameter Tuning

Hyperparameter tuning adalah langkah penting dalam membangun model machine learning untuk mencapai kinerja terbaik. 

💬 **Tujuan**:
> Menemukan **kombinasi terbaik dari hyperparameter** yang **meminimalkan kesalahan forecasting**

💬 **Metode Hyperpatameter Tuning**
> - Menggunakan **Algoritma Grid Search**: metode *brute-force* yang membangun model untuk setiap kombinasi hyperparameter yang ditentukan dan kemudian mengevaluasinya.
> - Metode ini bisa memakan waktu dan sumber daya komputasi, tetapi metode ini menjamin menemukan hyperparameter optimal yang sesuai dengan rentang nilai yang ditentukan.

💬 **Referensi**
> - Silakan buka [link ini](https://facebook.github.io/prophet/docs/diagnostics.html#hyperparameter-tuning) untuk melihat rekomendasi hyperparameter yang dapat di-tuning pada model Prophet.<br>
> - Bacaan lain yang berguna untuk hyperparameter tuning dapat diakses pada [link ini](https://medium.com/grabngoinfo/hyperparameter-tuning-and-regularization-for-time-series-model-using-prophet-in-python-9791370a07dc).

💬 **Langkah-langkah menggunakan Algoritma Grid Search untuk mencari hyperparameter terbaik**
> 1.  Menentukan nilai-nilai dari hyperparameter yang ingin dicoba
> 2.  Melakukan iterasi pembuatan model dan menghitung nilai MAPE-nya menggunakan *for-loop*
> 3.  Mendapatkan kombinasi hyperparameter optimal yang memiliki MAPE terkecil


1️⃣ Tentukan hyperparameter dan masukkan beberapa nilai didalamnya. Serta buat variabel untuk mengisi kombinasi hyperparameter dan nilai MAPE

In [None]:
from sklearn.model_selection import ParameterGrid

# Grid search parameters (TO DO: specify possible values)
param_grid = {  
    'changepoint_prior_scale': ......,
    'yearly_seasonality': ......
}

# Generate all combinations of parameters
all_params = list(ParameterGrid(param_grid))

mape = []  # Store the result for each params here

In [None]:
all_params

2️⃣ Melakukan iterasi dengan memasukkan kedalam pembuatan model Prophet - Fitting Model - Evaluasi

In [None]:
# Iterate each parameter
for parameter in all_params:
    # print parameter
    print(parameter)
    # (TO DO: change the data and add other components: seasonality, holiday)
    model = Prophet(changepoint_prior_scale = parameter['changepoint_prior_scale'],
                    yearly_seasonality= parameter['yearly_seasonality'],
                    holidays=holiday)
    # Train model with data train
    model.fit(train)
    
    # forecasting
    future = model.make_future_dataframe(periods=303, freq='D') # 303 days (test size)
    forecast = model.predict(future)
    
    # Evaluation metrics: MAPE
    forecast_test = forecast[forecast['ds'] >= cutoff]
    test_mape = mean_absolute_percentage_error(y_true=test['y'],
                                               y_pred=forecast_test['yhat'])
    
    mape.append(round(test_mape, 2))

🔎 Rangkaian kode di atas akan menjalankan model untuk setiap kombinasi hyperparameter pada model time series kita. Model tersebut dilatih menggunakan dataframe `daily_total_qty` dan dimasukkan ke dalam proses cross-validation dengan periode training selama **730 hari** dan horizon **30 hari**. Terakhir, model ini dievaluasi menggunakan metric MAPE yang disimpan ke dalam variabel `mape` untuk setiap kombinasi parameter yang digunakan.

❗ Library `tqdm` digunakan untuk melihat progress iterasi.

🔻 Dari variabel `all_params` dan `mape` kita dapat menyusun dataframe yang menyimpan kedua informasinya lalu mengurutkannya dari yang errornya paling kecil.

In [None]:
tuning_results = pd.DataFrame(all_params)
tuning_results['mape'] = mape

tuning_results.sort_values(by='mape')

3️⃣ Mendapatkan kombinasi hyperparameter yang baik

In [None]:
import numpy as np

best_params = all_params[np.argmin(mape)]
best_params

4️⃣ **Buat ulang model** -> Dengan informasi parameter terbaik ini, kita lakukan kembali fitting model yang akan digunakan untuk forecasting.

In [None]:
model_best = 


In [None]:
future_best = model_best.make_future_dataframe(periods=365, freq='D')
forecast_best = model_best.predict(future_best)

fig = model_best.plot(forecast_best)

## Summary Time Series Component

**Seasonal**

> - **Definisi**: pola perubahan yang berulang dalam data deret waktu seiring waktu, seperti perubahan musiman harian, mingguan, atau tahunan.
> - **Komponen**: Memiliki 3 deafult musiman yaitu: daily, weekly dan yearly
> - **Penyesuaian musiman**: memungkinkan pengguna untuk mengendalikan fleksibilitas model musiman sesuai dengan karakteristik data, seperti musim yang sangat variabel atau musim yang kurang signifikan.
> - **Custom seasonal lain**: monthly, quarterly, dsb


**Holiday Effect**

> - **Definisi**: juga dapat dianggap sebagai komponen musiman yang mempengaruhi data pada tanggal-tanggal tertentu, seperti liburan.
> - **Penentuan**: Menentukan secara manual tanggal-tanggal yang mungkin punya pengaruh pada data kita.



| Aspek               | Tren                  | Komponen Musiman     | Efek Liburan          |
|---------------------|-----------------------|-----------------------|-----------------------|
| Definisi            | Pola perubahan jangka panjang dalam data yang berlangsung seiring waktu. | Pola perubahan yang berulang dalam data pada interval waktu tertentu, seperti harian, mingguan, atau tahunan. | Pengaruh khusus yang terjadi pada tanggal-tanggal tertentu, seperti liburan atau peristiwa khusus. |
| Contoh              | Peningkatan penjualan secara umum dalam setiap tahun. | Kenaikan penjualan setiap bulan pada hari Minggu. | Lonjakan penjualan saat musim liburan. |
| Identifikasi       | Tren bisa dikenali dari perubahan umum dan arah data. | Musiman dikenali dari pola berulang dalam data. | Efek liburan dikenali dari tanggal-tanggal yang sesuai. |
| Pemodelan           | Tren dapat dimodelkan dengan berbagai pendekatan, seperti regresi linier atau model Prophet. | Komponen musiman dalam model Prophet mengidentifikasi dan memodelkan pola musiman secara otomatis. | Efek liburan dapat dimodelkan sebagai perubahan tambahan dalam data pada tanggal-tanggal tertentu. |
| Pengaruh Terhadap Data Lainnya | Tren mempengaruhi perubahan umum dalam data. | Komponen musiman mempengaruhi perubahan berulang dalam data. | Efek liburan mempengaruhi perubahan pada tanggal-tanggal spesifik. |

Catatan: Ketiga komponen ini sering digunakan bersama-sama dalam analisis deret waktu untuk memahami pola perubahan dalam data dan membuat peramalan yang akurat.

## 🏄🏻‍♀️ Dive Deeper

Pada latihan sebelumnya, kita membuat model time series menggunakan data `shop_id = 31`, pada dive deeper ini cobalah ramalkan `total_revenue` menggunakan data `shop_id = 25`. Gunakan parameter-parameter untuk mengatur changepoint serta komponen seasonal maupun holiday sesuai keinginan Anda. 

In [None]:
# code here
