In [None]:
import numpy as np
import matplotlib.pyplot as plt
from pandas import read_csv
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM, Dropout
from tensorflow.keras.callbacks import EarlyStopping
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error

# 1. Siapkan fungsi daret waktu yang akan digunakan untuk perhitungan nantinya

In [None]:
def create_dataset(dataset, look_back):
    dataX, dataY = [], []
    for i in range(len(dataset) - look_back - 1):
        a = dataset[i:(i + look_back), 0]
        dataX.append(a)
        dataY.append(dataset[i + look_back, 0])
    return np.array(dataX), np.array(dataY)

In [None]:
tf.random.set_seed(7)

# 2. Gunakan dataset

In [None]:
df = read_csv('airline-passengers.csv', sep=",")
df = df.drop(['Month'], axis=1)
display(df)
dataset = df.astype('float32')
print(dataset)

# 3. Lakukan normalisasi min-max pada dataset

In [None]:
scaler = MinMaxScaler(feature_range=(0, 1))
dataset = scaler.fit_transform(dataset)
print(dataset)

# 4. Pisahkan data yang digunakan untuk train dan test

##### mengambil data 67% untuk digunakan sebagai train_size dan sisanya digunakan sebagai tesgt_size
##### "train = dataset[0:train_size, :]" = berarti bahwa mengambil data pada dataset yang dimulai dengan index ke 0 hingga sepanjang index hasil perhitungan train_test yang telah dihitung.
##### "test = dataset[train_size:len(dataset), :]" = berarti bahwa mengambil data yang dimulai dari index hasil perhitungan train_size hingga akhir.

In [None]:
train_size = int(len(dataset) * 0.67)
test_size = len(dataset) - train_size
print(f"""Berikut adalah hasil dari train dan test
{train_size}, {test_size}""")

train, test = dataset[0:train_size, :], dataset[train_size:len(dataset), :]
print(dataset)

# 5. Buat bentuk data menjadi siap untuk LSTM

##### look_back = berapa banyak data sebelumnya yang akan dilihat untuk menjadi dasar dalam pengambilan keputusan
##### gunakan fungsi create_dataset sebelumnya untuk melakkan proses train dan test
- trainX, trainY = dianggap sebagai dataX, dataY pada fungsi create_dataset
- testX, testY = dianggap sebagai dataX, dataY pada fungsi create_dataset

In [None]:
look_back = 1
trainX, trainY = create_dataset(train, look_back)
testX, testY = create_dataset(test, look_back)

print(f"""Berikut adalah hasil dari trainX:
{trainX}
Berikut adalah hasil dari trainY:
{trainY}
Berikut adalah hasil dari testX:
{testX}
Berikut adalah hasil dari testY:
{testY}""")

In [None]:
trainX = np.reshape(trainX, (trainX.shape[0], 1, trainX.shape[1]))
testX = np.reshape(testX, (testX.shape[0], 1, testX.shape[1]))

# 6. Desain algoritma LSTM

### model = Sequential()
Sequential(): Bayangkan model ini seperti tumpukan lego, di mana kita menambah lapisan demi lapisan. Sequential adalah alat yang membantu kita membuat tumpukan model ini dengan mudah.

### 1. model.add(LSTM(50, return_sequences=True, input_shape=(1, look_back)))

##### model.add(LSTM(50, ....))
- Menambahkan lapisan LSTM pertama dengan 50 unit atau neuron.
- Setiap unit atau neuron LSTM memiliki cell state dan hidden state yang dapat mempertahankan informasi jangka panjang, sehingga membantu mempelajari pola di data deret waktu.

LSTM(50): LSTM adalah bagian dari model yang sangat pintar dalam mengingat pola-pola dari masa lalu. Misalnya, model ini akan melihat jumlah penumpang selama 12 bulan terakhir untuk mempelajari apakah ada pola yang berulang. Jadi, kalau bulan-bulan tertentu selalu ramai, dia bisa “mengingatnya” dan memprediksi bulan berikutnya dengan lebih baik.

##### input_shape=(1, look_back)
- bentuk asli adalah (time_steps, features)
- time_steps = 1: Artinya model membaca satu urutan titik data dalam satu langkah waktu (ini sering digunakan dalam data deret waktu yang diubah ke dalam bentuk [samples, time_steps, features]).
- features = look_back: Jumlah features adalah look_back, yaitu jumlah titik data sebelumnya yang ingin diamati oleh model untuk memprediksi nilai berikutnya.

input_shape=(1, look_back): Ini memberitahu model bahwa setiap kali melihat data, kita ingin dia memperhatikan 12 bulan sebelumnya, satu per satu, agar ia bisa mengenali pola.

##### return_sequences=True
- Memastikan bahwa lapisan LSTM pertama mengeluarkan seluruh rangkaian (sequence) keluaran, bukan hanya keluaran terakhir.
- Ketika return_sequences=True, output dari setiap langkah waktu di LSTM pertama akan diteruskan ke lapisan berikutnya. Ini memungkinkan lapisan berikutnya menerima seluruh rangkaian keluaran untuk menangkap pola yang lebih kompleks.

return_sequences=True: Ini seperti menyuruh model untuk terus mengalirkan informasi dari setiap bulan sebelumnya ke bulan berikutnya. Jadi, model akan mengingat informasi dari setiap bulan, bukan hanya mengambil hasil akhir saja.

### 2. model.add(LSTM(50))
- Menambahkan lapisan LSTM kedua dengan 50 unit (neuron).
- Pada lapisan ini, return_sequences=False secara default, artinya lapisan ini hanya mengeluarkan keluaran terakhir dari urutan waktu, bukan seluruh urutan.
- Hal ini cocok untuk menyimpulkan output akhir yang akan digunakan untuk prediksi, karena output akhir dari LSTM ini akan diteruskan ke lapisan Dense untuk memprediksi nilai target.
- Lapisan ini menangkap pola yang lebih kompleks dan mempelajari urutan dari keluaran lapisan pertama, yang mencerminkan pola jangka panjang dan jangka pendek.

Lapisan ini juga pintar dalam mengingat pola, tetapi di sini kita hanya ingin hasil akhirnya saja. Lapisan ini akan mengambil semua informasi dari bulan-bulan sebelumnya dan membuat satu kesimpulan besar. Dengan begitu, model ini jadi lebih siap untuk membuat prediksi bulan berikutnya.

### 3. model.add(Dense(1))
- Menambahkan lapisan Dense (lapisan fully connected) dengan 1 neuron.
- Fungsi lapisan ini adalah menghasilkan output akhir (dalam hal ini, memprediksi nilai penumpang pada bulan berikutnya).
- Karena masalah ini adalah regresi (prediksi nilai kontinu), neuron ini tidak memiliki fungsi aktivasi tambahan. Neuron ini menerima nilai keluaran dari LSTM sebelumnya dan menghasilkan prediksi.

Dense(1): Lapisan ini seperti lembar jawaban. Setelah model memproses semua data, ia akan menghasilkan satu angka di sini, yaitu tebakan jumlah penumpang di bulan berikutnya. Ibaratnya, ini adalah jawaban akhir model setelah melihat semua pola.

### 4. model.compile(loss='mean_squared_error', optimizer='adam')

##### loss='mean_squared_error'
- Fungsi kehilangan yang digunakan adalah Mean Squared Error (MSE), yang sering digunakan dalam masalah regresi. MSE mengukur rata-rata dari kuadrat kesalahan antara prediksi dan nilai sebenarnya. Semakin rendah nilai MSE, semakin akurat prediksi model.

loss='mean_squared_error': Ini adalah cara menghitung kesalahan model, atau seberapa jauh tebakan model dari jawaban yang benar. Model akan terus mencoba menurunkan kesalahan ini, jadi semakin lama semakin akurat.

##### optimizer='adam'
- Optimizer yang digunakan adalah Adam (Adaptive Moment Estimation), yang merupakan kombinasi dari momentum dan RMSprop. Adam adalah pilihan umum karena biasanya memberikan konvergensi yang lebih cepat dan stabil dalam banyak kasus. Adam secara otomatis menyesuaikan laju belajar selama pelatihan.

optimizer='adam': Optimizer ini seperti alat bantu untuk mempercepat model belajar. Jadi, "Adam" membantu model untuk belajar dengan cepat dan efisien.

### 5. early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True)

##### monitor='val_loss'
- Mengarahkan callback untuk memantau metrik val_loss (kerugian pada data validasi) untuk menentukan kapan pelatihan harus dihentikan. Ketika val_loss berhenti menurun, berarti model sudah mencapai batas kinerjanya pada data baru.

monitor='val_loss': Model ini tidak hanya dilatih, tapi juga diuji pada data baru yang belum pernah dilihatnya. Ini untuk memastikan model tidak “menghafal” saja, tapi benar-benar memahami pola.

##### patience=10
- Menentukan berapa banyak epoch tambahan yang akan dijalankan setelah val_loss berhenti membaik. Jika setelah 10 epoch tidak ada peningkatan, pelatihan akan dihentikan.

patience=10: Kalau model mencoba memperbaiki diri 10 kali tapi tetap tidak ada peningkatan, maka pelatihannya akan dihentikan. Ini seperti kita bilang, “Kalau sudah mentok, ya sudah berhenti saja, jangan terlalu lama belajar.” Ini mencegah model dari “overfitting,” yaitu kalau dia terlalu “menghafal” data, bisa jadi kurang bagus saat melihat data baru.

##### restore_best_weights=True
- Menginstruksikan model untuk memuat bobot terbaik yang dicapai selama pelatihan, yaitu bobot yang memiliki nilai val_loss terendah, sehingga model disimpan pada kondisi optimalnya.

restore_best_weights=True: Model akan menyimpan hasil terbaiknya selama pelatihan. Jadi, ketika berhenti, model kita ada di kondisi terbaiknya.

In [None]:
model = Sequential()
model.add(LSTM(50, return_sequences=True, input_shape=(1, look_back)))
model.add(Dropout(0.2))
model.add(LSTM(50))
model.add(Dropout(0,2))
model.add(Dense(1))
model.compile(loss='mean_squared_error', optimizer='adam')

early_stopping = EarlyStopping(monitor='val_loss', patience=50, restore_best_weights=True)

### model.fit()
- Metode .fit() adalah fungsi yang digunakan untuk melatih (training) model deep learning pada data yang telah disiapkan.
- Di sini, .fit() mengambil data input trainX dan target trainY, serta beberapa parameter penting lainnya yang mengatur proses pelatihan model.

model.fit() itu seperti memberitahu robot, "Oke, sekarang waktunya belajar." Kita memberi robot data, cara belajar, dan batasan-batasan lain agar dia tidak belajar terlalu lama atau menjadi “kelelahan” dan melakukan kesalahan. 

### 1. Parameter epochs=100
- Parameter epochs menentukan jumlah epoch atau putaran pelatihan model. Satu epoch berarti model akan melihat seluruh data pelatihan sekali dan menyesuaikan bobot untuk meminimalkan kesalahan.
- Dalam kasus ini, model akan melihat data pelatihan sebanyak 100 kali, dengan harapan bahwa model dapat menemukan pola yang lebih baik di antara variabel input dan target untuk membuat prediksi yang lebih akurat.

epochs=100 itu artinya robot akan melihat semua data yang kita berikan sebanyak 100 kali. Bayangkan belajar buku pelajaran 100 kali untuk benar-benar memahaminya—tujuannya agar robot semakin pintar mengenali polanya.

### 2. Parameter batch_size=32
- Batch size adalah jumlah sampel data yang diproses sebelum pembaruan parameter model dilakukan.
- Dengan batch_size=32, berarti model akan membagi data pelatihan ke dalam kelompok-kelompok kecil yang berisi 32 sampel setiap kali, lalu memperbarui parameter setelah melihat setiap kelompok.
- Proses ini mengurangi beban komputasi karena model tidak memproses semua data sekaligus, yang lebih efisien dan membantu menghindari risiko “kebingungan” dari keseluruhan dataset saat sekali melihat.

batch_size=32 artinya robot belajar dalam kelompok kecil. Alih-alih belajar seluruh buku sekaligus, robot belajar 32 halaman setiap kali, sehingga tidak terlalu bingung dan bisa belajar dengan lebih cepat.

### 3. Parameter validation_split=0.2
- validation_split memisahkan sebagian data pelatihan menjadi data validasi untuk menilai kinerja model pada data yang tidak terlihat saat pelatihan.
- Dengan validation_split=0.2, 20% dari data pelatihan akan digunakan sebagai data validasi, sementara sisanya 80% digunakan untuk pelatihan.
- Data validasi ini penting untuk mendeteksi overfitting, yaitu saat model mulai “terlalu menyesuaikan” data pelatihan hingga tidak dapat bekerja baik pada data yang baru.

validation_split=0.2 artinya kita tidak memberi semua data pelatihan untuk robot. Kita sisihkan 20% sebagai ujian yang tidak boleh dia lihat dulu. Ujian ini dilakukan supaya kita tahu seberapa baik dia bisa belajar dan menerapkan pengetahuannya pada data yang belum pernah dilihat.

### 4. Parameter callbacks=[early_stopping]
- Callbacks adalah parameter untuk menjalankan fungsi-fungsi khusus selama pelatihan. Di sini, early_stopping adalah fungsi callback yang berhenti jika kinerja model pada data validasi tidak membaik untuk beberapa epoch berturut-turut.
- early_stopping akan menghentikan pelatihan ketika tidak ada perbaikan pada metrik validasi dalam 10 epoch terakhir, yang mencegah overfitting dan mempercepat pelatihan.

callbacks=[early_stopping] artinya kita akan menghentikan pelatihan kalau robot tidak makin pintar lagi setelah beberapa kali belajar. Kalau selama 10 kali belajar, robot sudah tidak menunjukkan peningkatan, kita bilang, "Stop, sudah cukup belajar."

### 5. verbose=2
- verbose mengatur tampilan output pelatihan. Dengan verbose=2, informasi pelatihan disajikan dengan ringkas, mencetak ringkasan setiap epoch tanpa tampilan batang kemajuan.

verbose=2 adalah cara kita melihat bagaimana proses belajar robot. Di sini, kita memilih gaya ringkas, jadi kita melihat hasilnya saja setiap kali dia menyelesaikan satu putaran pembelajaran, tanpa menampilkan banyak detail kecil.

In [None]:
model.fit(trainX, trainY, epochs=200, batch_size=32, validation_data=(testX, testY) , verbose=2, callbacks=[early_stopping])

In [None]:
trainPredict = model.predict(trainX)
testPredict = model.predict(testX)

trainPredict = scaler.inverse_transform(trainPredict)
trainY = scaler.inverse_transform([trainY])
testPredict = scaler.inverse_transform(testPredict)
testY = scaler.inverse_transform([testY])

# 7. Hitung RMSE dan MAE

Hasil dari uji RMSE dan MAE adalah sebagai berikut:
- "< 10%" dari rata-rata target: Dianggap sangat baik, menunjukkan bahwa model sangat akurat.
- "10%-20%" dari rata-rata target: Masih bisa diterima tergantung pada konteks aplikasi.
- "> 20%" dari rata-rata target: Umumnya dianggap kurang baik, namun tetap tergantung pada standar industri atau aplikasi spesifik.

In [None]:
trainScore_RMSE = np.sqrt(mean_squared_error(trainY[0], trainPredict[:, 0]))
testScore_RMSE = np.sqrt(mean_squared_error(testY[0], testPredict[:, 0]))
trainScore_MAE = mean_absolute_error(trainY[0], trainPredict[:, 0])
testScore_MAE = mean_absolute_error(testY[0], testPredict[:, 0])

print(f"""berikut adalah hasil trainScore_RMSE = {trainScore_RMSE}""")
print(f"""berikut adalah hasil testScore_RMSE = {testScore_RMSE}""")
print(f"""berikut adalah hasil trainScore_MAE = {trainScore_MAE}""")
print(f"""berikut adalah hasil testScore_MAE = {testScore_MAE}""")

# 8. Buat grafik untuk visualisasi hasil berdasarkan train dan test

In [None]:
plt.figure(figsize=(10,6))
plt.plot(latih.history['loss'], label='train_loss')
plt.plot(latih.history['val_loss'], label='val_loss')
plt.title('Model Loss over Epochs')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.show()

In [None]:
trainPredictPlot = np.empty_like(dataset)
trainPredictPlot[:, :] = np.nan
trainPredictPlot[look_back:len(trainPredict)+look_back, :] = trainPredict

testPredictPlot = np.empty_like(dataset)
testPredictPlot[:, :] = np.nan
testPredictPlot[len(trainPredict)+(look_back*2)+1:len(dataset)-1, :] = testPredict

plt.figure(figsize=(10,6))
plt.plot(scaler.inverse_transform(dataset), label='Actual Data')
plt.plot(trainPredictPlot, label='Train Predictions')
plt.plot(testPredictPlot, label='Test Predictions')
plt.title('Actual vs Predicted Airline Passengers')
plt.xlabel('Time')
plt.ylabel('Number of Passengers')
plt.legend()
plt.show()

# 9. Lakukan prediksi 

In [None]:
# Menggunakan lebih banyak data historis untuk konteks awal
look_back = 12  # Menyusun ulang untuk 12 bulan musim sebagai input
trainX, trainY = create_dataset(train, look_back)
testX, testY = create_dataset(test, look_back)

# Bentuk input kembali ke model
trainX = np.reshape(trainX, (trainX.shape[0], look_back, 1))
testX = np.reshape(testX, (testX.shape[0], look_back, 1))


# Memperbarui model untuk bentuk input yang baru
model = Sequential()
model.add(LSTM(50, return_sequences=True, input_shape=(look_back, 1)))
model.add(Dropout(0.2))
model.add(LSTM(50))
model.add(Dropout(0.2))
model.add(Dense(1))
model.compile(loss='mean_squared_error', optimizer='adam')

early_stopping = EarlyStopping(monitor='val_loss', patience=50, restore_best_weights=True)

# Melatih model kembali
model.fit(trainX, trainY, epochs=200, batch_size=32, validation_data=(testX, testY) , verbose=2, callbacks=[early_stopping])

# Prediksi masa depan dengan input batch
initial_input = testX[-1]  # Ambil data akhir dari test set sebagai konteks awal untuk prediksi
future_predictions = []

# Loop untuk 12 bulan ke depan
current_input = initial_input.reshape(1, look_back, 1)
for _ in range(12):
    # Prediksi bulan berikutnya
    next_pred = model.predict(current_input)
    
    # Simpan prediksi dan perbarui input
    future_predictions.append(next_pred[0, 0])
    
    # Memperbarui input untuk prediksi berikutnya
    current_input = np.roll(current_input, -1, axis=1)  # Shift data
    current_input[0, -1, 0] = next_pred  # Tambahkan prediksi terbaru di akhir

# Inversi normalisasi pada prediksi
future_predictions = np.array(future_predictions).reshape(-1, 1)
future_predictions = scaler.inverse_transform(future_predictions)

# Menampilkan hasil prediksi
plt.figure(figsize=(18, 12))
plt.plot(scaler.inverse_transform(dataset), label='Actual Data')
plt.plot(np.arange(len(dataset), len(dataset) + 12), future_predictions, label='12-Month Forecast', color='red')
plt.xlabel('Time')
plt.ylabel('Number of Passengers')
plt.title('Airline Passenger Predictions for Next 12 Months')
plt.legend()
plt.show()