# Optimalisasi Layanan Kesehatan dengan Prediksi Jumlah Pengunjung Pasien di RSUD Cengkareng Jakarta

## 1.  Memahami Bisnis

Industri layanan kesehatan, khususnya rumah sakit, menghadapi tantangan besar dalam menghadapi peningkatan jumlah pasien dan tuntutan terhadap kualitas layanan yang semakin tinggi. Dalam beberapa tahun terakhir, permintaan terhadap layanan kesehatan terus berkembang seiring dengan pertumbuhan populasi, peningkatan kesadaran akan kesehatan, serta faktor demografi yang berubah. Namun, fluktuasi jumlah pengunjung pasien yang tidak terduga dapat membebani sistem rumah sakit dan mempengaruhi kualitas layanan. Oleh karena itu, prediksi jumlah pengunjung pasien menjadi hal yang sangat penting untuk mengoptimalkan manajemen sumber daya dan meningkatkan kualitas layanan rumah sakit.

Visi rumah sakit kami adalah menjadi penyedia layanan kesehatan terkemuka yang mampu memanfaatkan teknologi analitik untuk meningkatkan efisiensi operasional dan kualitas pelayanan kesehatan. Untuk mencapai visi tersebut, misi kami adalah mengembangkan dan memanfaatkan sistem prediksi berbasis data untuk meramalkan jumlah pengunjung pasien secara lebih akurat, menyediakan solusi analitik yang dapat membantu manajemen rumah sakit dalam pengambilan keputusan yang lebih efektif, serta meningkatkan pemahaman terhadap pola kunjungan pasien untuk mendukung pengelolaan sumber daya yang lebih efisien.

Strategi bisnis yang kami terapkan fokus pada pemanfaatan teknologi untuk memahami pola kunjungan pasien dan kebutuhan layanan kesehatan. Dengan menggunakan analisis data yang mendalam, rumah sakit kami dapat merencanakan penjadwalan tenaga medis, alokasi ruang perawatan, serta pengelolaan obat dan fasilitas lainnya dengan lebih efisien.

### 1.1. tujuan Analisis

- Meningkatkan Akurasi Prediksi: Menggunakan algoritma machine learning untuk memprediksi jumlah pengunjung pasien rumah sakit dengan lebih akurat.

- Optimalkan Model: Mengembangkan model prediksi yang terus belajar dan beradaptasi dengan perubahan pola kunjungan pasien.

- Pengelolaan Sumber Daya Rumah Sakit: Membantu merencanakan alokasi tenaga medis, ruang perawatan, dan fasilitas lainnya berdasarkan prediksi jumlah pengunjung pasien.

### 1.2. Permasalahan Analisis bisnis

- Melakukan Analisis Tren Pengunjung Pasien Menggunakan metode machine learning untuk memprediksi pola kunjungan pasien yang lebih akurat.

- Menentukan Algoritma Machine Learning Terbaik: Mencari dan memilih algoritma machine learning yang paling efektif untuk memprediksi jumlah pengunjung pasien dengan akurasi tinggi.

## 2.  Memahami Data

### 2.1. Deskripsi Data

Dataset yang saya gunakan merupakan data time series bulanan yang mencatat Pasien RSUD Cengkareng, Jakarta dari tahun 2011 hingga 2024. Data ini terdiri dari 168 record, dengan dua fitur utama, yaitu 'periode' yang menunjukkan bulan dan tahun, serta 'jumlah ' yang mencatat jumlah pengunjung yang datang setiap bulan. Dataset ini diperoleh dari situs web :

https://dashboard-dinkes.jakarta.go.id/rsud

### 2.2. Tipe Data

Dataset yang saya gunakan terdiri dari dua fitur, yaitu 'periode' dan 'jumlah pengunjung':

- Periode: Fitur ini memiliki tipe data string atau datetime yang mencatat bulan dan tahun kunjungan pasien ke rumah sakit, misalnya 'Jan 2010' atau 'Feb 2024'. Tipe data ini merepresentasikan waktu dalam format yang mudah dibaca dan diolah untuk analisis temporal.

- Jumlah Pengunjung: Fitur ini memiliki tipe data integer atau float yang mencatat jumlah pasien yang berkunjung ke rumah sakit pada setiap bulan. Tipe data ini digunakan untuk menyimpan nilai numerik yang dapat dianalisis secara kuantitatif, seperti prediksi jumlah pengunjung atau evaluasi tren kunjungan pasien.

### 2.3 Mengambil Data

Untuk mengambil data dari file CSV, kita dapat menggunakan library pandas. Pandas menyediakan fungsi read_csv() yang memungkinkan kita untuk membaca file CSV dan mengubahnya menjadi DataFrame, yang memudahkan kita untuk mengelola dan menganalisis data.

In [1]:
import pandas as pd

# Ganti 'jumlah_kunjungan.csv' dengan path ke file CSV kamu
file_path = 'project1.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Menampilkan DataFrame
print(df)

     periode  jumlah
0    2011-01   11744
1    2011-02   11315
2    2011-03   13596
3    2011-04   12888
4    2011-05   12754
..       ...     ...
162  2024-07   28531
163  2024-08   29153
164  2024-09   27663
165  2024-10   30405
166  2024-11   28691

[167 rows x 2 columns]


In [2]:
import pandas as pd

# Ganti 'project1.csv' dengan path ke file CSV Anda
file_path = 'project1.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Memilih hanya kolom numerik
numerical_cols = df.select_dtypes(include=['float64', 'int64'])

# Mencari nilai minimum dan maksimum untuk setiap kolom numerik
min_values = numerical_cols.min()
max_values = numerical_cols.max()

# Menampilkan hasil
print("Nilai Minimum:")
print(min_values)
print("\nNilai Maksimum:")
print(max_values)


Nilai Minimum:
jumlah    9295
dtype: int64

Nilai Maksimum:
jumlah    30405
dtype: int64


## 3. Processing Data

Tujuan dari proses pengolahan data (data processing) adalah untuk menyiapkan data dalam bentuk yang dapat digunakan untuk analisis atau pembuatan model prediksi. Proses ini mencakup berbagai langkah yang bertujuan untuk memastikan data yang digunakan memiliki kualitas yang baik, relevan, dan siap digunakan. Pada data yang saya gunakan tidak terdapat missing value sehingga saya hanya melakukan Normalisasi data dan Sliding windows 

### 3.1 Normalisasi Data

Untuk memastikan bahwa data yang digunakan dalam model prediksi berada dalam skala yang sama, kita dapat melakukan normalisasi menggunakan teknik MinMaxScaler. Teknik ini mengubah nilai-nilai dalam fitur menjadi rentang antara 0 dan 1, yang membantu meningkatkan kinerja model

In [3]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Ganti 'datamobil.csv' dengan path ke file CSV kamu
file_path = 'project1.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Menampilkan DataFrame awal
print("Data Awal:")
print(df)

# Inisialisasi MinMaxScaler
scaler = MinMaxScaler()

# Melakukan normalisasi pada semua kolom numerik
df_normalized = df.copy()

# Hanya kolom numerik yang akan dinormalisasi
numerical_cols = df_normalized.select_dtypes(include=['float64', 'int64']).columns

# Normalisasi kolom numerik
df_normalized[numerical_cols] = scaler.fit_transform(df_normalized[numerical_cols])

# Menampilkan DataFrame setelah normalisasi
print("Data Setelah Normalisasi:")
print(df_normalized)

# Menyimpan DataFrame yang telah dinormalisasi ke file CSV
output_path = 'normalisasi_p1.csv'  # Ganti dengan nama file output yang diinginkan
df_normalized.to_csv(output_path, index=False)

print(f"Data telah disimpan ke {output_path}")


Data Awal:
     periode  jumlah
0    2011-01   11744
1    2011-02   11315
2    2011-03   13596
3    2011-04   12888
4    2011-05   12754
..       ...     ...
162  2024-07   28531
163  2024-08   29153
164  2024-09   27663
165  2024-10   30405
166  2024-11   28691

[167 rows x 2 columns]
Data Setelah Normalisasi:
     periode    jumlah
0    2011-01  0.116011
1    2011-02  0.095689
2    2011-03  0.203742
3    2011-04  0.170204
4    2011-05  0.163856
..       ...       ...
162  2024-07  0.911227
163  2024-08  0.940692
164  2024-09  0.870109
165  2024-10  1.000000
166  2024-11  0.918806

[167 rows x 2 columns]
Data telah disimpan ke normalisasi_p1.csv


### 3.2 sliding windows

Teknik ini digunakan untuk memecah data menjadi bagian-bagian yang lebih kecil (window) dengan ukuran tetap untuk analisis atau model prediksi, terutama dalam konteks data berurutan seperti sinyal, teks, atau time series. dalam code saya gunakan windows = 4

In [5]:
import pandas as pd

# 1. Memuat data dari CSV
data = pd.read_csv('normalisasi_p1.csv')

# 2. Membuat DataFrame untuk sliding window
df_slide = pd.DataFrame(data['jumlah'])

# 3. Menambahkan kolom untuk sliding window
df_slide['xt-4'] = df_slide['jumlah'].shift(4)  # Nilai 4 langkah ke depan
df_slide['xt-3'] = df_slide['jumlah'].shift(3)  # Nilai 3 langkah ke depan
df_slide['xt-2'] = df_slide['jumlah'].shift(2)  # Nilai 2 langkah ke depan
df_slide['xt-1'] = df_slide['jumlah'].shift(1)  # Nilai 1 langkah ke depan
df_slide['xt'] = df_slide['jumlah']  # Nilai saat ini

# 4. Menghapus baris yang memiliki NaN
df_slide = df_slide.dropna()

# 5. Menghapus kolom 'jumlah' karena tidak diperlukan lagi
df_slide = df_slide.drop(columns=['jumlah'])

# 6. Menyimpan data sliding ke file CSV
output_file = 'dataslide_p1.csv'
df_slide.to_csv(output_file, index=False)

# 7. Menampilkan pesan sukses
print(f"Data sliding telah disimpan ke file '{output_file}'.")

# Menampilkan DataFrame untuk verifikasi
print(df_slide)


Data sliding telah disimpan ke file 'dataslide_p1.csv'.
         xt-4      xt-3      xt-2      xt-1        xt
4    0.116011  0.095689  0.203742  0.170204  0.163856
5    0.095689  0.203742  0.170204  0.163856  0.162624
6    0.203742  0.170204  0.163856  0.162624  0.222549
7    0.170204  0.163856  0.162624  0.222549  0.147181
8    0.163856  0.162624  0.222549  0.147181  0.203126
..        ...       ...       ...       ...       ...
162  0.802795  0.765988  0.881999  0.763619  0.911227
163  0.765988  0.881999  0.763619  0.911227  0.940692
164  0.881999  0.763619  0.911227  0.940692  0.870109
165  0.763619  0.911227  0.940692  0.870109  1.000000
166  0.911227  0.940692  0.870109  1.000000  0.918806

[163 rows x 5 columns]


## 4. Modelling

pemilihan model yang tepat dalam prediksi penjualan mobil adalah kunci untuk menghasilkan hasil yang akurat, karena setiap model memiliki keunggulan dan kelemahan tergantung pada jenis data dan tujuan analisis. Pemilihan model yang salah bisa menyebabkan prediksi yang kurang tepat, yang pada gilirannya dapat merugikan proses pengambilan keputusan. sebelum melakakukan modelling bagi data menjadi data train dan tes:

In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 1. Memuat data dari CSV
data = pd.read_csv('normalisasi_p1.csv')

# 2. Membuat DataFrame untuk sliding window
df_slide = pd.DataFrame(data['jumlah'])

# 3. Menambahkan kolom untuk sliding window
df_slide['xt-4'] = df_slide['jumlah'].shift(4)  # Nilai 4 langkah ke depan
df_slide['xt-3'] = df_slide['jumlah'].shift(3)  # Nilai 3 langkah ke depan
df_slide['xt-2'] = df_slide['jumlah'].shift(2)  # Nilai 2 langkah ke depan
df_slide['xt-1'] = df_slide['jumlah'].shift(1)  # Nilai 1 langkah ke depan
df_slide['xt'] = df_slide['jumlah']  # Nilai saat ini

# 4. Menghapus baris yang memiliki NaN
df_slide = df_slide.dropna()

# 5. Menghapus kolom 'jumlah' karena tidak diperlukan lagi
df_slide = df_slide.drop(columns=['jumlah'])

# 6. Memisahkan fitur dan target
X = df_slide[['xt-4', 'xt-3', 'xt-2', 'xt-1']]  # Fitur (input)
y = df_slide['xt']  # Target (output)

# 7. Memisahkan data menjadi train dan test (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 8. Menggabungkan kembali fitur dan target untuk setiap set
train_data = pd.concat([X_train, y_train], axis=1)
test_data = pd.concat([X_test, y_test], axis=1)

# 9. Menyimpan data train dan test ke file CSV
train_data.to_csv('train_p1.csv', index=False)
test_data.to_csv('test_p1.csv', index=False)


### 4.1 SVR 

Support Vector Regression (SVR) adalah metode regresi yang menggunakan prinsip dari Support Vector Machine (SVM) yang umumnya digunakan untuk klasifikasi. Dalam SVR, tujuannya adalah untuk memprediksi nilai kontinu berdasarkan data yang diberikan. SVR berusaha menemukan hyperplane yang meminimalkan error dalam prediksi, dengan mempertimbangkan margin toleransi yang ditentukan oleh parameter epsilon

In [8]:
import pandas as pd
import numpy as np
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error, r2_score

# 1. Memuat data train dan test
train_data = pd.read_csv('train_p1.csv')
test_data = pd.read_csv('test_p1.csv')

# 2. Memisahkan fitur dan target
X_train = train_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]
y_train = train_data['xt']
X_test = test_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]
y_test = test_data['xt']

# 3. Membuat dan melatih model SVR
model = SVR(kernel='rbf')  # Menggunakan kernel RBF
model.fit(X_train, y_train)

# 4. Melakukan prediksi
y_pred = model.predict(X_test)

# 5. Menghitung metrik evaluasi
rmse = np.sqrt(mean_squared_error(y_test, y_pred))  # Root Mean Squared Error
mape = mean_absolute_percentage_error(y_test, y_pred)  # Mean Absolute Percentage Error

# 6. Menampilkan hasil evaluasi
print(f"RMSE: {rmse}")
print(f"MAPE: {mape * 100:.2f}%")  # Dalam persen

# 7. Menampilkan hasil prediksi dan actual values
results = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(results)

RMSE: 0.06943914555165315
MAPE: 8.64%
      Actual  Predicted
0   0.659498   0.612109
1   0.257603   0.250332
2   0.430365   0.538212
3   0.672809   0.650612
4   0.758693   0.771711
5   0.717764   0.615427
6   0.881999   0.806003
7   0.700711   0.526744
8   0.745760   0.690321
9   0.708337   0.662494
10  0.495642   0.519165
11  0.792421   0.861971
12  0.326622   0.341108
13  0.897016   0.871313
14  0.710327   0.704904
15  0.627617   0.662308
16  0.432307   0.478988
17  0.686452   0.647206
18  0.786784   0.831193
19  0.392658   0.333431
20  0.930744   0.801529
21  0.495642   0.469628
22  0.365040   0.339625
23  0.342539   0.288217
24  0.722359   0.651272
25  0.802795   0.840388
26  0.795168   0.669045
27  0.769683   0.680752
28  0.602842   0.584598
29  0.940692   0.828604
30  0.716959   0.620412
31  0.875841   0.869513
32  0.829938   0.881285


Hasil prediksi menggunakan SVR (Support Vector Regression) menggunkan kernel rbf dan epsilon = 0.1 menunjukkan nilai RMSE sebesar 0.0694 dan MAPE sebesar 8.64%

### 4.1.  Metode ensemble bagging

Metode ini digunakan untuk mengurangi variansi model dengan membangun banyak model pada subset acak dari data pelatihan, kemudian menggabungkan hasil prediksi dari model-model tersebut.

In [9]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error, r2_score

# 1. Memuat data train dan test
train_data = pd.read_csv('train_p1.csv')
test_data = pd.read_csv('test_p1.csv')

# 2. Memisahkan fitur dan target
X_train = train_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]
y_train = train_data['xt']
X_test = test_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]
y_test = test_data['xt']

# 3. Membuat dan melatih model Regresi Linier dengan Bagging
linear_reg = LinearRegression()  # Model Linear Regression
model = BaggingRegressor(base_estimator=linear_reg, n_estimators=10, random_state=42)  # 10 estimator Linear Regression
model.fit(X_train, y_train)

# 4. Melakukan prediksi
y_pred = model.predict(X_test)

# 5. Menghitung metrik evaluasi
rmse = np.sqrt(mean_squared_error(y_test, y_pred))  # Root Mean Squared Error
mape = mean_absolute_percentage_error(y_test, y_pred)  # Mean Absolute Percentage Error

# 6. Menampilkan hasil evaluasi
print(f"RMSE: {rmse}")
print(f"MAPE: {mape * 100:.2f}%")  # Dalam persen

# 7. Menampilkan hasil prediksi dan actual values
results = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(results)


RMSE: 0.06775954569756913
MAPE: 7.52%
      Actual  Predicted
0   0.659498   0.580500
1   0.257603   0.273045
2   0.430365   0.452826
3   0.672809   0.704526
4   0.758693   0.790144
5   0.717764   0.657664
6   0.881999   0.775276
7   0.700711   0.533061
8   0.745760   0.700439
9   0.708337   0.735192
10  0.495642   0.487976
11  0.792421   0.831082
12  0.326622   0.346794
13  0.897016   0.871129
14  0.710327   0.728373
15  0.627617   0.694655
16  0.432307   0.447961
17  0.686452   0.663019
18  0.786784   0.798506
19  0.392658   0.347585
20  0.930744   0.757552
21  0.495642   0.454565
22  0.365040   0.351965
23  0.342539   0.323770
24  0.722359   0.651538
25  0.802795   0.827114
26  0.795168   0.638477
27  0.769683   0.683218
28  0.602842   0.534520
29  0.940692   0.853915
30  0.716959   0.676068
31  0.875841   0.866606
32  0.829938   0.879361


untuk hasil prediksi menggunakan model ensemble bagging dengan regresi linier dan estimator = 100 menunjukkan kinerja yang cukup baik. Nilai RMSE sebesar 0.0677 menandakan bahwa kesalahan prediksi model relatif kecil, sementara MAPE sebesar 7.52% menunjukkan bahwa rata-rata kesalahan prediksi sekitar 7.52% dari nilai sebenarnya. Secara keseluruhan, model ini sudah cukup akurat dan dapat diandalkan, meskipun masih ada kemungkinan untuk meningkatkan akurasi lebih lanjut.

### 4.3. Melakukan Prediksi Single Step 

Dikarenakan hasil dari model ensemble bagging lebih rendah, saya memutuskan untuk menggunakan metode ensemble bagging untuk prediksi single step

In [3]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# 1. Memuat data train dan test
train_data = pd.read_csv('train_p1.csv')
test_data = pd.read_csv('test_p1.csv')

# 2. Memisahkan fitur (X) dan target (y) untuk data latih dan uji
X_train = train_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]  # Fitur untuk data latih
y_train = train_data['xt']  # Target untuk data latih

X_test = test_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]  # Fitur untuk data uji
y_test = test_data['xt']  # Target untuk data uji

# 3. Membuat model Bagging dengan Linear Regression sebagai estimator
base_model_lr = LinearRegression()
bagging_model_lr = BaggingRegressor(base_estimator=base_model_lr, n_estimators=100, random_state=42)

# 4. Melatih model dengan data latih
bagging_model_lr.fit(X_train, y_train)

# 5. Memprediksi data uji
y_pred_lr = bagging_model_lr.predict(X_test)

# 6. Evaluasi model
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)
mape_lr = (abs((y_test - y_pred_lr) / y_test).mean()) * 100

# 7. Menampilkan hasil evaluasi
print(f"Linear Regression - MSE: {mse_lr:.2f}, R2 Score: {r2_lr:.2f}, MAPE: {mape_lr:.2f}%")

# 8. Menampilkan prediksi data uji
output_predictions = pd.DataFrame({
    'Actual': y_test,
    'Predicted_LR': y_pred_lr
})
print("\nPrediksi Data Uji:")
print(output_predictions)

# 9. Prediksi single step bulan selanjutnya
# Inputan yang diberikan: xt-4, xt-3, xt-2, xt-1
input_data = np.array([0.7338254626352513, 0.714743654565679, 0.8782283345130953, 0.7461725149155627]).reshape(1, -1)

# Prediksi bulan selanjutnya menggunakan model
next_prediction = bagging_model_lr.predict(input_data)

# Menyiapkan data baru untuk prediksi berikutnya
new_row = {
    'xt-4': input_data[0][0],  # xt-4
    'xt-3': input_data[0][1],  # xt-3
    'xt-2': input_data[0][2],  # xt-2
    'xt-1': input_data[0][3],  # xt-1
    'xt': next_prediction[0]   # Prediksi menjadi xt
}

# Menampilkan data baru untuk prediksi bulan berikutnya
print("\nData baru yang disiapkan untuk bulan berikutnya:")
print(pd.DataFrame([new_row]))

# Nilai minimum dan maksimum untuk unnormalisasi
x_min = 9295  # Contoh: nilai minimum dari data asli
x_max = 30405  # Contoh: nilai maksimum dari data asli
   
# Unnormalisasi hasil prediksi
unnormalized_next_prediction = next_prediction[0] * (x_max - x_min) + x_min

# Membulatkan hasil ke bilangan bulat
unnormalized_next_prediction = round(unnormalized_next_prediction)

# Menampilkan hasil prediksi unnormalisasi sebagai bilangan bulat
print("\nPrediksi bulan berikutnya (unnormalisasi):")
print(f"{unnormalized_next_prediction} pasien")



Linear Regression - MSE: 0.00, R2 Score: 0.87, MAPE: 7.52%

Prediksi Data Uji:
      Actual  Predicted_LR
0   0.659498      0.581466
1   0.257603      0.269256
2   0.430365      0.449777
3   0.672809      0.704032
4   0.758693      0.789210
5   0.717764      0.657003
6   0.881999      0.774450
7   0.700711      0.530748
8   0.745760      0.700431
9   0.708337      0.734353
10  0.495642      0.488125
11  0.792421      0.831532
12  0.326622      0.344249
13  0.897016      0.872322
14  0.710327      0.729595
15  0.627617      0.695292
16  0.432307      0.447139
17  0.686452      0.661734
18  0.786784      0.798860
19  0.392658      0.345126
20  0.930744      0.757188
21  0.495642      0.454237
22  0.365040      0.349889
23  0.342539      0.321703
24  0.722359      0.651442
25  0.802795      0.827973
26  0.795168      0.636070
27  0.769683      0.683185
28  0.602842      0.533705
29  0.940692      0.854428
30  0.716959      0.675481
31  0.875841      0.867606
32  0.829938      0.881793

Da

In [5]:
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import pickle

# 1. Memuat data train dan test
train_data = pd.read_csv('train_p1.csv')
test_data = pd.read_csv('test_p1.csv')

# 2. Memisahkan fitur (X) dan target (y) untuk data latih dan uji
X_train = train_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]  # Fitur untuk data latih
y_train = train_data['xt']  # Target untuk data latih

X_test = test_data[['xt-4', 'xt-3', 'xt-2', 'xt-1']]  # Fitur untuk data uji
y_test = test_data['xt']  # Target untuk data uji

# 3. Membuat model Bagging dengan Linear Regression sebagai estimator
base_model_lr = LinearRegression()
bagging_model_lr = BaggingRegressor(base_estimator=base_model_lr, n_estimators=100, random_state=42)

# 4. Melatih model dengan data latih
bagging_model_lr.fit(X_train, y_train)

# 5. Memprediksi data uji
y_pred_lr = bagging_model_lr.predict(X_test)

# 6. Evaluasi model
mse_lr = mean_squared_error(y_test, y_pred_lr)
r2_lr = r2_score(y_test, y_pred_lr)
mape_lr = (abs((y_test - y_pred_lr) / y_test).mean()) * 100

# 7. Menampilkan hasil evaluasi
print(f"Linear Regression - MSE: {mse_lr:.2f}, R2 Score: {r2_lr:.2f}, MAPE: {mape_lr:.2f}%")

# 8. Menampilkan prediksi data uji
output_predictions = pd.DataFrame({
    'Actual': y_test,
    'Predicted_LR': y_pred_lr
})
print("\nPrediksi Data Uji:")
print(output_predictions)

# 9. Prediksi single step bulan selanjutnya
# Inputan yang diberikan: xt-4, xt-3, xt-2, xt-1
input_data = np.array([0.7338254626352513, 0.714743654565679, 0.8782283345130953, 0.7461725149155627]).reshape(1, -1)

# Prediksi bulan selanjutnya menggunakan model
next_prediction = bagging_model_lr.predict(input_data)

# Menyiapkan data baru untuk prediksi berikutnya
new_row = {
    'xt-4': input_data[0][0],  # xt-4
    'xt-3': input_data[0][1],  # xt-3
    'xt-2': input_data[0][2],  # xt-2
    'xt-1': input_data[0][3],  # xt-1
    'xt': next_prediction[0]   # Prediksi menjadi xt
}

# Menampilkan data baru untuk prediksi bulan berikutnya
print("\nData baru yang disiapkan untuk bulan berikutnya:")
print(pd.DataFrame([new_row]))

# Nilai minimum dan maksimum untuk unnormalisasi
x_min = 9295  # Contoh: nilai minimum dari data asli
x_max = 30405  # Contoh: nilai maksimum dari data asli
   
# Unnormalisasi hasil prediksi
unnormalized_next_prediction = next_prediction[0] * (x_max - x_min) + x_min

# Membulatkan hasil ke bilangan bulat
unnormalized_next_prediction = round(unnormalized_next_prediction)

# Menampilkan hasil prediksi unnormalisasi sebagai bilangan bulat
print("\nPrediksi bulan berikutnya (unnormalisasi):")
print(f"{unnormalized_next_prediction} pasien")

# 10. Menyimpan model yang telah dilatih ke file menggunakan pickle
with open('bagging_model_lr.pkl', 'wb') as model_file:
    pickle.dump(bagging_model_lr, model_file)

print("\nModel berhasil disimpan sebagai 'bagging_model_lr.pkl'")

# 11. Memuat model yang telah disimpan dengan pickle
with open('bagging_model_lr.pkl', 'rb') as model_file:
    loaded_model = pickle.load(model_file)

# Menggunakan model yang dimuat untuk prediksi
next_prediction_loaded = loaded_model.predict(input_data)

# Menampilkan hasil prediksi menggunakan model yang dimuat
unnormalized_next_prediction_loaded = next_prediction_loaded[0] * (x_max - x_min) + x_min
unnormalized_next_prediction_loaded = round(unnormalized_next_prediction_loaded)

print("\nPrediksi bulan berikutnya (unnormalisasi) menggunakan model yang dimuat:")
print(f"{unnormalized_next_prediction_loaded} pasien")


Linear Regression - MSE: 0.00, R2 Score: 0.87, MAPE: 7.52%

Prediksi Data Uji:
      Actual  Predicted_LR
0   0.659498      0.581466
1   0.257603      0.269256
2   0.430365      0.449777
3   0.672809      0.704032
4   0.758693      0.789210
5   0.717764      0.657003
6   0.881999      0.774450
7   0.700711      0.530748
8   0.745760      0.700431
9   0.708337      0.734353
10  0.495642      0.488125
11  0.792421      0.831532
12  0.326622      0.344249
13  0.897016      0.872322
14  0.710327      0.729595
15  0.627617      0.695292
16  0.432307      0.447139
17  0.686452      0.661734
18  0.786784      0.798860
19  0.392658      0.345126
20  0.930744      0.757188
21  0.495642      0.454237
22  0.365040      0.349889
23  0.342539      0.321703
24  0.722359      0.651442
25  0.802795      0.827973
26  0.795168      0.636070
27  0.769683      0.683185
28  0.602842      0.533705
29  0.940692      0.854428
30  0.716959      0.675481
31  0.875841      0.867606
32  0.829938      0.881793

Da

FileNotFoundError: [Errno 2] No such file or directory: 'bagging_model_lr.pkl'

In [11]:
# Nilai minimum dan maksimum untuk unnormalisasi
x_min = 9295  # Contoh: nilai minimum dari data asli
x_max = 30405  # Contoh: nilai maksimum dari data asli
   
# Unnormalisasi hasil prediksi
unnormalized_next_prediction = next_prediction[0] * (x_max - x_min) + x_min

# Membulatkan hasil ke bilangan bulat
unnormalized_next_prediction = round(unnormalized_next_prediction)

# Menampilkan hasil prediksi unnormalisasi sebagai bilangan bulat
print("\nPrediksi bulan berikutnya (unnormalisasi):")
print(f"{unnormalized_next_prediction} pasien")



Prediksi bulan berikutnya (unnormalisasi):
25489 pasien


In [7]:
from joblib import dump

# Menyimpan model ke file
model_filename = 'bagging_model_p1.joblib'
dump(bagging_model_lr, model_filename)

print(f"Model berhasil disimpan sebagai {model_filename}")


Model berhasil disimpan sebagai bagging_model_p1.joblib


In [1]:
import pandas as pd
import numpy as np
from joblib import load
from sklearn.metrics import mean_squared_error, mean_absolute_error

# 1. Memuat model yang disimpan
model_filename = 'bagging_model_p1.joblib'
loaded_model = load(model_filename)
# 8. Prediksi data baru
# Contoh data baru
input_data = np.array([0.7338254626352513, 0.714743654565679, 0.8782283345130953, 0.7461725149155627]).reshape(1, -1)
new_prediction = loaded_model.predict(input_data)

# 9. Unnormalisasi hasil prediksi
x_min = 9295  # Nilai minimum dari data asli
x_max = 30405  # Nilai maksimum dari data asli
unnormalized_prediction = new_prediction[0] * (x_max - x_min) + x_min
unnormalized_prediction = round(unnormalized_prediction)  # Membulatkan hasil

# 10. Menampilkan prediksi untuk data baru
print("\nPrediksi data baru (normalisasi):")
print(f"{new_prediction[0]:.4f}")
print("\nPrediksi data baru (unnormalisasi):")
print(f"{unnormalized_prediction} pasien")



Prediksi data baru (normalisasi):
0.7671

Prediksi data baru (unnormalisasi):
25489 pasien


## 5. evaluasi

Hasil evaluasi menunjukkan bahwa model ensemble bagging dengan regresi linier dengan jumlah estimator sebanyak 100 memiliki kinerja yang lebih baik dibandingkan dengan SVR (Support Vector Regression) yang menggunakan kernel RBF dan epsilon 0.1. Model ensemble bagging menghasilkan RMSE sebesar 0.0677 dan MAPE sebesar 7.52%, yang menandakan bahwa kesalahan prediksi model lebih kecil dan deviasi rata-rata antara nilai prediksi dan aktual lebih rendah. Sebaliknya, model SVR menghasilkan RMSE sebesar 0.0694 dan MAPE sebesar 8.64%, yang menunjukkan bahwa model ini memiliki kesalahan prediksi dan deviasi rata-rata yang sedikit lebih tinggi.

Dari hasil tersebut, dapat disimpulkan bahwa ensemble bagging dengan regresi linier lebih unggul dalam memberikan prediksi yang akurat pada dataset ini.

## 6. deploy

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d71500c2-b449-45af-bb9d-9851cba6cfbc' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>