# Analisis Bisnis untuk Memprediksi Tren Penjualan Mobil

## 1.  Memahami Bisnis

Industri otomotif merupakan salah satu sektor yang sangat dinamis dan penuh tantangan. Dalam beberapa tahun terakhir, permintaan terhadap kendaraan terus berkembang seiring dengan pertumbuhan ekonomi dan perubahan gaya hidup masyarakat. Namun, cepatnya perubahan tren pasar membuat para pelaku industri otomotif perlu memiliki pemahaman yang lebih mendalam tentang pola penjualan dan preferensi konsumen. Oleh karena itu, prediksi penjualan mobil menjadi hal yang sangat penting untuk mengoptimalkan strategi bisnis dan meningkatkan daya saing perusahaan. Visi perusahaan kami adalah menjadi perusahaan terkemuka dalam industri otomotif yang mampu memanfaatkan teknologi analitik untuk mengambil keputusan bisnis yang cerdas, tepat waktu, dan berbasis data. Untuk mencapai visi tersebut, misi kami adalah mengembangkan dan memanfaatkan sistem prediksi berbasis data untuk meramalkan tren penjualan mobil secara lebih akurat, menyediakan solusi analitik yang dapat membantu pemangku kepentingan dalam pengambilan keputusan yang lebih efektif dan efisien, serta meningkatkan pemahaman pasar dan preferensi konsumen untuk mendukung pengembangan produk dan strategi pemasaran yang lebih tepat sasaran. Strategi bisnis yang kami terapkan fokus pada pemanfaatan teknologi untuk memahami tren pasar, preferensi konsumen. Dengan menggunakan analisis data yang mendalam, perusahaan kami dapat merencanakan produksi, distribusi, dan pemasaran dengan lebih efisien. 

### 1.1. tujuan Analisis

- Meningkatkan Akurasi Prediksi: Menggunakan algoritma machine learning untuk memprediksi penjualan mobil dengan lebih akurat.

- Optimalkan Model: Mengembangkan model yang terus belajar dan beradaptasi dengan perubahan pasar.

- Pengelolaan Inventaris: Membantu merencanakan stok dan produksi berdasarkan prediksi penjualan.

- Dukung Keputusan Pemasaran: Menyusun strategi pemasaran yang tepat sasaran berdasarkan hasil prediksi.

### 1.2. Permasalahan Analisis bisnis

- Melakukan analisis tren penjualan mobil menggunakan metode machine learning untuk memprediksi pola penjualan yang lebih akurat.

- Mencari dan menentukan algoritma machine learning terbaik untuk memprediksi tren penjualan mobil dengan akurasi tinggi, serta mengoptimalkan model prediksi berdasarkan data yang tersedia.

## 2.  Memahami Data

### 2.1. Deskripsi Data

Dataset yang saya gunakan merupakan data time series bulanan yang mencatat penjualan mobil di Indonesia dari tahun 2010 hingga 2024. Data ini terdiri dari 178 record, dengan dua fitur utama, yaitu 'periode' yang menunjukkan bulan dan tahun, serta 'jumlah unit' yang mencatat jumlah mobil yang terjual setiap bulan. Dataset ini diperoleh dari situs web :

https://triatmono.info/data-penjualan-tahun-2012/data-penjualan-mobil-2017/

### 2.2. Tipe Data

Dataset yang saya gunakan terdiri dari dua fitur, yaitu 'periode' dan 'jumlah unit.'

- Periode  :  Fitur ini memiliki tipe data string atau datetime yang mencatat bulan dan tahun penjualan mobil, misalnya 'Jan 2010' atau 'Feb 2024'. Tipe data ini digunakan untuk merepresentasikan waktu dalam format yang mudah dibaca dan diolah.

- Jumlah Unit  : Fitur ini memiliki tipe data integer atau float yang mencatat jumlah mobil yang terjual pada setiap bulan. Tipe data ini berfungsi untuk menyimpan nilai numerik yang dapat digunakan dalam analisis kuantitatif, seperti prediksi atau perhitungan statistik.

### 2.3 Mengambil Data

Untuk mengambil data penjualan mobil dari file CSV, kita dapat menggunakan library pandas. Pandas menyediakan fungsi read_csv() yang memungkinkan kita untuk membaca file CSV dan mengubahnya menjadi DataFrame, yang memudahkan kita untuk mengelola dan menganalisis data.

In [2]:
import pandas as pd

# Ganti '.csv' dengan path ke file CSV kamu
file_path = 'project2.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Menampilkan DataFrame
print(df)


    periode   unit
0    10-Jan  52831
1    10-Feb  55688
2    10-Mar  65555
3    10-Apr  65232
4    10-May  60520
..      ...    ...
172  24-May  72245
173  24-Jun  70289
174  24-Jul  75608
175  24-Aug  76808
176  24-Sep  72337

[177 rows x 2 columns]


In [4]:
import pandas as pd

# Ganti 'datamobil.csv' dengan path ke file CSV Anda
file_path = 'project2.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Memilih hanya kolom numerik
numerical_cols = df.select_dtypes(include=['float64', 'int64'])

# Mencari nilai minimum dan maksimum untuk setiap kolom numerik
min_values = numerical_cols.min()
max_values = numerical_cols.max()

# Menampilkan hasil
print("Nilai Minimum:")
print(min_values)
print("\nNilai Maksimum:")
print(max_values)


Nilai Minimum:
unit    17083
dtype: int64

Nilai Maksimum:
unit    115973
dtype: int64


## 3. Processing Data

Tujuan dari proses pengolahan data (data processing) adalah untuk menyiapkan data dalam bentuk yang dapat digunakan untuk analisis atau pembuatan model prediksi. Proses ini mencakup berbagai langkah yang bertujuan untuk memastikan data yang digunakan memiliki kualitas yang baik, relevan, dan siap digunakan. Pada data yang saya gunakan tidak terdapat missing value sehingga saya hanya melakukan Normalisasi data dan Sliding windows 

### 3.1 Normalisasi Data

Untuk memastikan bahwa data yang digunakan dalam model prediksi berada dalam skala yang sama, kita dapat melakukan normalisasi menggunakan teknik MinMaxScaler. Teknik ini mengubah nilai-nilai dalam fitur menjadi rentang antara 0 dan 1, yang membantu meningkatkan kinerja model

In [6]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Ganti 'datamobil.csv' dengan path ke file CSV kamu
file_path = 'project2.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Menampilkan DataFrame awal
print("Data Awal:")
print(df)

# Inisialisasi MinMaxScaler
scaler = MinMaxScaler()

# Melakukan normalisasi pada semua kolom numerik
df_normalized = df.copy()

# Hanya kolom numerik yang akan dinormalisasi
numerical_cols = df_normalized.select_dtypes(include=['float64', 'int64']).columns

# Normalisasi kolom numerik
df_normalized[numerical_cols] = scaler.fit_transform(df_normalized[numerical_cols])

# Menampilkan DataFrame setelah normalisasi
print("Data Setelah Normalisasi:")
print(df_normalized)

# Menyimpan DataFrame yang telah dinormalisasi ke file CSV
output_path = 'datanormalisasi1.csv'  # Ganti dengan nama file output yang diinginkan
df_normalized.to_csv(output_path, index=False)

print(f"Data telah disimpan ke {output_path}")


Data Awal:
    periode   unit
0    10-Jan  52831
1    10-Feb  55688
2    10-Mar  65555
3    10-Apr  65232
4    10-May  60520
..      ...    ...
172  24-May  72245
173  24-Jun  70289
174  24-Jul  75608
175  24-Aug  76808
176  24-Sep  72337

[177 rows x 2 columns]
Data Setelah Normalisasi:
    periode      unit
0    10-Jan  0.361493
1    10-Feb  0.390383
2    10-Mar  0.490161
3    10-Apr  0.486895
4    10-May  0.439246
..      ...       ...
172  24-May  0.557812
173  24-Jun  0.538032
174  24-Jul  0.591819
175  24-Aug  0.603954
176  24-Sep  0.558742

[177 rows x 2 columns]
Data telah disimpan ke datanormalisasi1.csv


### 3.2 sliding windows

Teknik ini digunakan untuk memecah data menjadi bagian-bagian yang lebih kecil (window) dengan ukuran tetap untuk analisis atau model prediksi, terutama dalam konteks data berurutan seperti sinyal, teks, atau time series. dalam code saya gunakan windows = 4

In [8]:
import pandas as pd

# 1. Memuat data dari CSV
data = pd.read_csv('datanormalisasi1.csv')

# 2. Membuat DataFrame untuk sliding window
df_slide = pd.DataFrame(data['unit'])

# 3. Menambahkan kolom untuk sliding window
df_slide['xt-4'] = df_slide['unit'].shift(4)  # Nilai 4 langkah ke depan
df_slide['xt-3'] = df_slide['unit'].shift(3)  # Nilai 3 langkah ke depan
df_slide['xt-2'] = df_slide['unit'].shift(2)  # Nilai 2 langkah ke depan
df_slide['xt-1'] = df_slide['unit'].shift(1)  # Nilai 1 langkah ke depan
df_slide['xt'] = df_slide['unit']  # Nilai saat ini

# 4. Menghapus baris yang memiliki NaN
df_slide = df_slide.dropna()

# 5. Menghapus kolom 'unit' karena tidak diperlukan lagi
df_slide = df_slide.drop(columns=['unit'])

# 6. Menyimpan data sliding ke file CSV
output_file = 'dataslide1.csv'
df_slide.to_csv(output_file, index=False)

# 7. Menampilkan pesan sukses
print(f"Data sliding telah disimpan ke file '{output_file}'.")

# Menampilkan DataFrame untuk verifikasi
print(df_slide)


Data sliding telah disimpan ke file 'dataslide1.csv'.
         xt-4      xt-3      xt-2      xt-1        xt
4    0.361493  0.390383  0.490161  0.486895  0.439246
5    0.390383  0.490161  0.486895  0.439246  0.539033
6    0.490161  0.486895  0.439246  0.539033  0.556345
7    0.486895  0.439246  0.539033  0.556345  0.482314
8    0.439246  0.539033  0.556345  0.482314  0.324239
..        ...       ...       ...       ...       ...
172  0.620427  0.539357  0.658075  0.422763  0.557812
173  0.539357  0.658075  0.422763  0.557812  0.538032
174  0.658075  0.422763  0.557812  0.538032  0.591819
175  0.422763  0.557812  0.538032  0.591819  0.603954
176  0.557812  0.538032  0.591819  0.603954  0.558742

[173 rows x 5 columns]


## 4. Modelling

Pemilihan model yang tepat dalam prediksi penjualan mobil adalah kunci untuk menghasilkan hasil yang akurat, karena setiap model memiliki keunggulan dan kelemahan tergantung pada jenis data dan tujuan analisis. Pemilihan model yang salah bisa menyebabkan prediksi yang kurang tepat, yang pada gilirannya dapat merugikan proses pengambilan keputusan. sebelum melakakukan modelling bagi data menjadi data train dan tes

Membagi data train dan data tes :

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 1. Memuat data dari CSV
data = pd.read_csv('datanormalisasi1.csv')

# 2. Membuat DataFrame untuk sliding window
df_slide = pd.DataFrame(data['unit'])

# 3. Menambahkan kolom untuk sliding window
df_slide['xt-4'] = df_slide['unit'].shift(4)  # Nilai 4 langkah ke depan
df_slide['xt-3'] = df_slide['unit'].shift(3)  # Nilai 3 langkah ke depan
df_slide['xt-2'] = df_slide['unit'].shift(2)  # Nilai 2 langkah ke depan
df_slide['xt-1'] = df_slide['unit'].shift(1)  # Nilai 1 langkah ke depan
df_slide['xt'] = df_slide['unit']  # Nilai saat ini

# 4. Menghapus baris yang memiliki NaN
df_slide = df_slide.dropna()

# 5. Menghapus kolom 'unit' karena tidak diperlukan lagi
df_slide = df_slide.drop(columns=['unit'])

# 6. Memisahkan fitur dan target
X = df_slide[['xt-4', 'xt-3', 'xt-2', 'xt-1']]  # Fitur (input)
y = df_slide['xt']  # Target (output)

# 7. Memisahkan data menjadi train dan test (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 8. Menggabungkan kembali fitur dan target untuk setiap set
train_data = pd.concat([X_train, y_train], axis=1)
test_data = pd.concat([X_test, y_test], axis=1)

# 9. Menyimpan data train dan test ke file CSV
train_data.to_csv('train_data.csv', index=False)
test_data.to_csv('test_data.csv', index=False)

# 10. Menampilkan pesan sukses
print("Data train telah disimpan ke file 'train_data.csv'.")
print("Data test telah disimpan ke file 'test_data.csv'.")


### 4.1.  Metode ensemble bagging

Metode ini digunakan untuk mengurangi variansi model dengan membangun banyak model pada subset acak dari data pelatihan, kemudian menggabungkan hasil prediksi dari model-model tersebut.

In [7]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error, r2_score

# 1. Memuat data train dan test
train_data = pd.read_csv('train_data.csv')
test_data = pd.read_csv('test_data.csv')

# 2. Memisahkan fitur dan target
X_train = train_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]
y_train = train_data['xt']
X_test = test_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]
y_test = test_data['xt']

# 3. Membuat dan melatih model Regresi Linier dengan Bagging
linear_reg = LinearRegression()  # Model Linear Regression
model = BaggingRegressor(base_estimator=linear_reg, n_estimators=100, random_state=42)  # 10 estimator Linear Regression
model.fit(X_train, y_train)

# 4. Melakukan prediksi
y_pred = model.predict(X_test)

# 5. Menghitung metrik evaluasi
rmse = np.sqrt(mean_squared_error(y_test, y_pred))  # Root Mean Squared Error
mape = mean_absolute_percentage_error(y_test, y_pred)  # Mean Absolute Percentage Error

# 6. Menampilkan hasil evaluasi
print(f"RMSE: {rmse}")
print(f"MAPE: {mape * 100:.2f}%")  # Dalam persen

# 7. Menampilkan hasil prediksi dan actual values
results = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(results)


RMSE: 0.0962038006828323
MAPE: 10.96%
      Actual  Predicted
0   0.664273   0.647537
1   0.958216   0.847154
2   0.799960   0.741561
3   0.629912   0.708820
4   0.749894   0.749919
5   0.605774   0.566515
6   0.960218   0.831236
7   0.568268   0.607243
8   0.799322   0.721541
9   0.677783   0.680423
10  0.265740   0.265300
11  0.862089   0.726004
12  0.842168   0.735622
13  0.961624   0.818777
14  0.731854   0.827274
15  0.530954   0.568302
16  0.743098   0.631608
17  0.779765   0.711554
18  0.793387   0.692847
19  0.676408   0.750895
20  0.781697   0.741852
21  0.958044   0.833687
22  0.641470   0.612325
23  0.906775   0.757816
24  0.624118   0.784494
25  0.721256   0.666899
26  0.652563   0.653464
27  0.639519   0.603672
28  0.634533   0.609874
29  0.534998   0.689663
30  0.875923   0.789011
31  0.511397   0.650626
32  0.444635   0.549695
33  0.853281   0.632044
34  0.713732   0.743835


untuk hasil prediksi menggunakan model ensemble bagging dengan regresi linier dan estimator = 100 menunjukkan kinerja yang cukup baik. Nilai RMSE sebesar 0.0962 menandakan bahwa kesalahan prediksi model relatif kecil, sementara MAPE sebesar 10.96% menunjukkan bahwa rata-rata kesalahan prediksi sekitar 10.96% dari nilai sebenarnya. Secara keseluruhan, model ini sudah cukup akurat dan dapat diandalkan, meskipun masih ada kemungkinan untuk meningkatkan akurasi lebih lanjut.

### 4.2 metode SVR

Support Vector Regression (SVR) adalah metode regresi yang menggunakan prinsip dari Support Vector Machine (SVM) yang umumnya digunakan untuk klasifikasi. Dalam SVR, tujuannya adalah untuk memprediksi nilai kontinu berdasarkan data yang diberikan. SVR berusaha menemukan hyperplane yang meminimalkan error dalam prediksi, dengan mempertimbangkan margin toleransi yang ditentukan oleh parameter epsilon

In [10]:
import pandas as pd
import numpy as np
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error, r2_score

# 1. Memuat data train dan test
train_data = pd.read_csv('train_data.csv')
test_data = pd.read_csv('test_data.csv')

# 2. Memisahkan fitur dan target
X_train = train_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]
y_train = train_data['xt']
X_test = test_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]
y_test = test_data['xt']

# 3. Membuat dan melatih model SVR dengan parameter epsilon
epsilon = 0.1  # Menambahkan nilai epsilon
model = SVR(kernel='rbf', epsilon=epsilon)  # Menggunakan kernel RBF dan parameter epsilon
model.fit(X_train, y_train)

# 4. Melakukan prediksi
y_pred = model.predict(X_test)

# 5. Menghitung metrik evaluasi
rmse = np.sqrt(mean_squared_error(y_test, y_pred))  # Root Mean Squared Error
mape = mean_absolute_percentage_error(y_test, y_pred)  # Mean Absolute Percentage Error

# 6. Menampilkan hasil evaluasi
print(f"RMSE: {rmse}")
print(f"MAPE: {mape * 100:.2f}%")  # Dalam persen

# 7. Menampilkan hasil prediksi dan actual values
results = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(results)


RMSE: 0.10920325532730323
MAPE: 13.24%
      Actual  Predicted
0   0.664273   0.622680
1   0.958216   0.835389
2   0.799960   0.715876
3   0.629912   0.757105
4   0.749894   0.726218
5   0.605774   0.534003
6   0.960218   0.784648
7   0.568268   0.542987
8   0.799322   0.747479
9   0.677783   0.665660
10  0.265740   0.370575
11  0.862089   0.678554
12  0.842168   0.773211
13  0.961624   0.758724
14  0.731854   0.754524
15  0.530954   0.566286
16  0.743098   0.684740
17  0.779765   0.769924
18  0.793387   0.675156
19  0.676408   0.780979
20  0.781697   0.706009
21  0.958044   0.861714
22  0.641470   0.607336
23  0.906775   0.759422
24  0.624118   0.788873
25  0.721256   0.720448
26  0.652563   0.553229
27  0.639519   0.608238
28  0.634533   0.532572
29  0.534998   0.713114
30  0.875923   0.830527
31  0.511397   0.622426
32  0.444635   0.596879
33  0.853281   0.606489
34  0.713732   0.721724


Hasil prediksi menggunakan SVR (Support Vector Regression) menggunkan kernel rbf dan epsilon = 0.1 menunjukkan nilai RMSE sebesar 0.1092 dan MAPE sebesar 13.24%, yang lebih tinggi dibandingkan dengan model ensemble bagging dengan regresi linier.

### 4.3. Melakukan Prediksi Single Step 

Dikarenakan hasil dari model ensemble bagging lebih rendah, saya memutuskan untuk menggunakan metode ensemble bagging untuk prediksi single step

In [8]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# 1. Memuat data train dan test
train_data = pd.read_csv('train_data.csv')
test_data = pd.read_csv('test_data.csv')

# 2. Memisahkan fitur (X) dan target (y) untuk data latih dan uji
X_train = train_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]  # Fitur untuk data latih
y_train = train_data['xt']  # Target untuk data latih

X_test = test_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]  # Fitur untuk data uji
y_test = test_data['xt']  # Target untuk data uji

# 3. Membuat model Bagging dengan Linear Regression sebagai estimator
base_model_lr = LinearRegression()
bagging_model_lr = BaggingRegressor(base_estimator=base_model_lr, n_estimators=100, random_state=42)

# 4. Melatih model dengan data latih
bagging_model_lr.fit(X_train, y_train)

# 5. Memprediksi data uji
y_pred_lr = bagging_model_lr.predict(X_test)

# 6. Evaluasi model
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)
mape_lr = (abs((y_test - y_pred_lr) / y_test).mean()) * 100

# 7. Menampilkan hasil evaluasi
print(f"Linear Regression - MSE: {mse_lr:.2f}, R2 Score: {r2_lr:.2f}, MAPE: {mape_lr:.2f}%")

# 8. Menampilkan prediksi data uji
output_predictions = pd.DataFrame({
    'Actual': y_test,
    'Predicted_LR': y_pred_lr
})
print("\nPrediksi Data Uji:")
print(output_predictions)

# 9. Prediksi single step bulan selanjutnya
# Inputan yang diberikan: xt-4, xt-3, xt-2, xt-1
input_data = np.array([0.7338254626352513, 0.714743654565679, 0.8782283345130953, 0.7461725149155627]).reshape(1, -1)

# Prediksi bulan selanjutnya menggunakan model
next_prediction = bagging_model_lr.predict(input_data)

# Menyiapkan data baru untuk prediksi berikutnya
new_row = {
    'xt-4': input_data[0][0],  # xt-4
    'xt-3': input_data[0][1],  # xt-3
    'xt-2': input_data[0][2],  # xt-2
    'xt-1': input_data[0][3],  # xt-1
    'xt': next_prediction[0]   # Prediksi menjadi xt
}

# Menampilkan data baru untuk prediksi bulan berikutnya
print("\nData baru yang disiapkan untuk bulan berikutnya:")
print(pd.DataFrame([new_row]))


Linear Regression - MSE: 0.01, R2 Score: 0.62, MAPE: 10.96%

Prediksi Data Uji:
      Actual  Predicted_LR
0   0.664273      0.647537
1   0.958216      0.847154
2   0.799960      0.741561
3   0.629912      0.708820
4   0.749894      0.749919
5   0.605774      0.566515
6   0.960218      0.831236
7   0.568268      0.607243
8   0.799322      0.721541
9   0.677783      0.680423
10  0.265740      0.265300
11  0.862089      0.726004
12  0.842168      0.735622
13  0.961624      0.818777
14  0.731854      0.827274
15  0.530954      0.568302
16  0.743098      0.631608
17  0.779765      0.711554
18  0.793387      0.692847
19  0.676408      0.750895
20  0.781697      0.741852
21  0.958044      0.833687
22  0.641470      0.612325
23  0.906775      0.757816
24  0.624118      0.784494
25  0.721256      0.666899
26  0.652563      0.653464
27  0.639519      0.603672
28  0.634533      0.609874
29  0.534998      0.689663
30  0.875923      0.789011
31  0.511397      0.650626
32  0.444635      0.549695
33

In [13]:
# Nilai minimum dan maksimum untuk unnormalisasi
x_min = 17083  # Contoh: nilai minimum dari data asli
x_max = 115973  # Contoh: nilai maksimum dari data asli

# Unnormalisasi hasil prediksi
unnormalized_next_prediction = next_prediction[0] * (x_max - x_min) + x_min

# Membulatkan hasil ke bilangan bulat
unnormalized_next_prediction = round(unnormalized_next_prediction)

# Menampilkan hasil prediksi unnormalisasi sebagai bilangan bulat
print("\nPrediksi bulan berikutnya (unnormalisasi):")
print(f"{unnormalized_next_prediction} unit")



Prediksi bulan berikutnya (unnormalisasi):
91339 unit


In [3]:
import pandas as pd
import numpy as np
from joblib import load

# 1. Memuat model dari file
model_filename = 'bagging_model_p2.joblib'
loaded_model = load(model_filename)
print(f"Model berhasil dimuat dari file: {model_filename}")

# 2. Data baru untuk prediksi (format: xt-4, xt-3, xt-2, xt-1)
input_data = np.array([0.7338254626352513, 0.714743654565679, 0.8782283345130953, 0.7461725149155627]).reshape(1, -1)

# 3. Prediksi dengan model yang dimuat
next_prediction = loaded_model.predict(input_data)

# 4. Menampilkan prediksi
print("\nHasil Prediksi untuk data baru:")
print(f"Prediksi Normalisasi: {next_prediction[0]:.4f}")

# 5. Unnormalisasi hasil prediksi
x_min = 17083  # Contoh: nilai minimum dari data asli
x_max = 115973  # Contoh: nilai maksimum dari data asli

# Hasil prediksi unnormalisasi
unnormalized_next_prediction = next_prediction[0] * (x_max - x_min) + x_min

# Membulatkan hasil ke bilangan bulat
unnormalized_next_prediction = round(unnormalized_next_prediction)

print(f"Prediksi bulan berikutnya (unnormalisasi): {unnormalized_next_prediction} unit")


Model berhasil dimuat dari file: bagging_model_p2.joblib

Hasil Prediksi untuk data baru:
Prediksi Normalisasi: 0.7509
Prediksi bulan berikutnya (unnormalisasi): 91339 pasien


## 5. Evaluasi

Evaluasi dari kedua model prediksi menunjukkan perbedaan performa yang signifikan. Model ensemble bagging dengan regresi linier menghasilkan RMSE sebesar 0.0962 dan MAPE sebesar 10.96%, yang menunjukkan kesalahan prediksi yang relatif kecil dan deviasi rata-rata yang terkontrol, menjadikannya model yang lebih akurat dan dapat diandalkan untuk prediksi. Di sisi lain, model SVR (Support Vector Regression) menghasilkan RMSE sebesar 0.1092 dan MAPE sebesar 13.24%, yang sedikit lebih tinggi, menunjukkan bahwa kesalahan prediksi dan deviasi rata-rata antara nilai prediksi dan aktual lebih besar dibandingkan dengan model ensemble bagging. Secara keseluruhan, meskipun kedua model memiliki potensi untuk digunakan, ensemble bagging terbukti lebih efektif dalam menghasilkan prediksi yang lebih akurat pada dataset ini, meskipun keduanya masih memiliki ruang untuk perbaikan lebih lanjut.

## 6. deploy

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d71500c2-b449-45af-bb9d-9851cba6cfbc' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>