# Prediksi Harga Penutupan Saham PT Sidomuncul Menggunakan Model Pembelajaran Mesin

## 1. memahami Bisnis

Industri pasar saham, khususnya perusahaan publik, menghadapi tantangan besar dalam menghadapi volatilitas pasar dan tuntutan terhadap kinerja keuangan yang semakin tinggi. Dalam beberapa tahun terakhir, permintaan terhadap investasi saham terus berkembang seiring dengan pertumbuhan ekonomi, peningkatan kesadaran investasi, serta perubahan demografi yang memengaruhi pola konsumsi. Namun, fluktuasi harga saham yang tidak terduga, terutama prediksi harga penutupan saham, dapat membebani investor dan mempengaruhi keputusan investasi. Oleh karena itu, prediksi harga penutupan saham menjadi hal yang sangat penting untuk mengoptimalkan strategi investasi dan meminimalkan risiko.

Visi perusahaan kami adalah menjadi penyedia solusi investasi terkemuka yang mampu memanfaatkan teknologi analitik untuk meningkatkan efisiensi keputusan investasi dan mengoptimalkan kinerja portofolio. Untuk mencapai visi tersebut, misi kami adalah mengembangkan dan memanfaatkan sistem prediksi berbasis data untuk meramalkan harga penutupan saham secara lebih akurat, menyediakan solusi analitik yang dapat membantu investor dalam pengambilan keputusan yang lebih efektif, serta meningkatkan pemahaman terhadap tren pasar untuk mendukung pengelolaan portofolio yang lebih cerdas.

Strategi bisnis yang kami terapkan fokus pada pemanfaatan teknologi untuk memahami pola pergerakan harga saham dan tren pasar. Dengan menggunakan analisis data yang mendalam, perusahaan kami berkomitmen untuk memberikan wawasan yang lebih tepat dalam meramalkan harga penutupan saham dan mendukung investor dalam mengambil keputusan yang lebih cerdas.

### 1.1. tujuan Bisnis

- Meningkatkan Akurasi Prediksi Harga Saham: Menggunakan algoritma machine learning untuk memprediksi harga penutupan saham PT Sidomuncul dengan lebih akurat.

- Optimalkan Model: Mengembangkan model prediksi harga saham yang terus belajar dan beradaptasi dengan perubahan kondisi pasar dan faktor-faktor eksternal yang mempengaruhi pergerakan saham.

- Pengelolaan Portofolio Investasi: Membantu merencanakan alokasi investasi dan strategi perdagangan berdasarkan prediksi harga saham untuk memaksimalkan keuntungan dan meminimalkan risiko.

### 1.2. Permasalahan Analisis bisnis

- Melakukan analisis Tren Harga Saham: Menggunakan metode machine learning untuk memprediksi pola pergerakan harga saham PT Sidomuncul dengan lebih akurat.

- Menentukan Algoritma Machine Learning Terbaik: Mencari dan memilih algoritma machine learning yang paling efektif untuk memprediksi harga penutupan saham dengan akurasi tinggi, berdasarkan data historis dan faktor-faktor pasar terkait.

## 2. memahami data

### 2.1. Deskripsi Data

Dataset yang Anda gunakan mencakup data harian dari tahun 2022 hingga 2024, dengan total 709 record, dan mencakup fitur-fitur penting seperti 'Date', 'Open', 'High', 'Low', 'Close', 'Volume', dan 'AdjustedClose'. Data ini sangat berpotensi untuk analisis pergerakan pasar saham, terutama dalam memprediksi harga penutupan saham menggunakan model machine learning berbasis time series. Dengan memanfaatkan data ini 

https://investor.sidomuncul.co.id/id/historical_price.html

### 2.2. tipe data

Dataset yang kita gunakan memiliki beberapa atribut dengan tipe data berbeda. Date bertipe data Date (tanggal), yang merepresentasikan informasi tanggal dalam format waktu seperti YYYY-MM-DD dan digunakan sebagai penanda waktu untuk analisis berbasis time series.

Atribut lainnya, yaitu Open, High, Low, Close, dan AdjustedClose, semuanya bertipe Integer (bilangan bulat). Atribut-atribut ini mencatat harga saham pada berbagai titik waktu perdagangan, mulai dari harga pembukaan, tertinggi, terendah, penutupan, hingga harga penutupan yang telah disesuaikan dengan pembagian saham atau dividen.

Selain itu, ada atribut Volume, juga bertipe Integer, yang mencatat jumlah total saham yang diperdagangkan setiap harinya. Atribut ini penting untuk menunjukkan likuiditas pasar pada hari tertentu.

### 2.3 Mengambil Data

Untuk mengambil data dari file CSV, kita dapat menggunakan library pandas. Pandas menyediakan fungsi read_csv() yang memungkinkan kita untuk membaca file CSV dan mengubahnya menjadi DataFrame, yang memudahkan kita untuk mengelola dan menganalisis data.

In [3]:
import pandas as pd

# Ganti '.csv' dengan path ke file CSV kamu
file_path = 'projectp3.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Menampilkan DataFrame
print(df)


         Date  Open  High  Low  Close    Volume  AdjustedClose
0    20220103   865   875  865    870   4962600            870
1    20220104   870   910  865    900  17952800            900
2    20220105   905   915  900    910  18710800            910
3    20220106   910   930  910    925  14432900            925
4    20220107   925   970  925    950  24948100            950
..        ...   ...   ...  ...    ...       ...            ...
703  20241202   575   590  570    580  21439600            580
704  20241203   585   590  580    580  14839600            580
705  20241204   580   590  580    580   9563500            580
706  20241205   580   590  580    585   3381000            585
707  20241206   580   585  575    580  13704200            580

[708 rows x 7 columns]


## 3. procesing data

Tujuan dari proses pengolahan data (data processing) adalah untuk menyiapkan data dalam bentuk yang dapat digunakan untuk analisis atau pembuatan model prediksi. Proses ini mencakup berbagai langkah yang bertujuan untuk memastikan data yang digunakan memiliki kualitas yang baik, relevan, dan siap digunakan. Pada data yang saya gunakan tidak terdapat missing value sehingga saya hanya melakukan Normalisasi data , korelasi , dan penghapus fitur yang tidak diperlukan

### 3.1 korelasi Person

Korelasi Pearson adalah ukuran statistik yang digunakan untuk mengukur kekuatan dan arah hubungan linier antara dua variabel. Nilai korelasi Pearson dinyatakan dalam rentang -1 hingga 1, dengan interpretasi sebagai berikut

In [5]:
import pandas as pd

# Ganti path file dengan file Anda
file_path = 'projectp3.csv'  # Ganti dengan path file CSV Anda
df = pd.read_csv(file_path)

# Langkah 3: Hitung korelasi Pearson
correlation_matrix = df.corr(method='pearson')
print("Matriks Korelasi:")
print(correlation_matrix)


Matriks Korelasi:
                   Date      Open      High       Low     Close    Volume  \
Date           1.000000 -0.638365 -0.638363 -0.641623 -0.635731  0.060542   
Open          -0.638365  1.000000  0.997825  0.997682  0.995757 -0.097434   
High          -0.638363  0.997825  1.000000  0.997214  0.997795 -0.075217   
Low           -0.641623  0.997682  0.997214  1.000000  0.998038 -0.120273   
Close         -0.635731  0.995757  0.997795  0.998038  1.000000 -0.104868   
Volume         0.060542 -0.097434 -0.075217 -0.120273 -0.104868  1.000000   
AdjustedClose -0.635731  0.995757  0.997795  0.998038  1.000000 -0.104868   

               AdjustedClose  
Date               -0.635731  
Open                0.995757  
High                0.997795  
Low                 0.998038  
Close               1.000000  
Volume             -0.104868  
AdjustedClose       1.000000  


Dari matriks korelasi yang diberikan, terlihat bahwa beberapa atribut memiliki hubungan positif yang sangat kuat dengan harga penutupan (Close), yaitu dengan nilai korelasi lebih dari 0,7. Atribut Open memiliki korelasi sebesar 0,995757, menunjukkan hubungan yang sangat kuat antara harga pembukaan dengan harga penutupan saham. Hal ini mengindikasikan bahwa pergerakan harga pada awal perdagangan sangat terkait dengan harga penutupan. Selanjutnya, atribut High menunjukkan korelasi sebesar 0,997795, yang berarti bahwa harga tertinggi yang dicapai selama perdagangan memiliki hubungan yang signifikan dengan harga penutupan. Demikian pula, atribut Low memiliki korelasi sebesar 0,998038, menandakan bahwa harga terendah dalam suatu hari perdagangan sangat memengaruhi harga penutupan. 

Dengan demikian, atribut-atribut Open, High, dan Low. merupakan prediktor utama yang sangat relevan untuk digunakan dalam memodelkan dan memprediksi harga penutupan saham. AdjustedClose yang memiliki korelasi sempurna dapat menjadi pengganti langsung untuk Close dalam analisis lebih lanjut.

### 3.2. penghapusan fitur

penghapusan kolom yang nilai korelasinya lebih rendah dari 0,7  maka akan di hapus :

In [6]:
import pandas as pd

# Ganti '.csv' dengan path ke file CSV kamu
file_path = 'projectp3.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Menghapus kolom 'Date', 'Volume', dan 'AdjustedClose'
df = df.drop(columns=['Date', 'Volume', 'AdjustedClose'])

# Menyimpan DataFrame ke file CSV baru
output_file_path = 'project3.csv'
df.to_csv(output_file_path, index=False)

print(f"DataFrame telah disimpan ke {output_file_path}")


DataFrame telah disimpan ke project3.csv


### 3.3. Normalisasi Data

Untuk memastikan bahwa data yang digunakan dalam model prediksi berada dalam skala yang sama, kita dapat melakukan normalisasi menggunakan teknik MinMaxScaler. Teknik ini mengubah nilai-nilai dalam fitur menjadi rentang antara 0 dan 1, yang membantu meningkatkan kinerja model

In [16]:
import pandas as pd

# Ganti '.csv' dengan path ke file CSV kamu
file_path = 'project3.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Menampilkan nilai minimum dan maksimum untuk setiap kolom
min_values = df.min()
max_values = df.max()

# Menampilkan hasil
print("Nilai Minimum Setiap Kolom:")
print(min_values)

print("\nNilai Maksimum Setiap Kolom:")
print(max_values)


Nilai Minimum Setiap Kolom:
Open     486
High     494
Low      478
Close    486
dtype: int64

Nilai Maksimum Setiap Kolom:
Open     1050
High     1070
Low      1040
Close    1050
dtype: int64


In [7]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Ganti '.csv' dengan path ke file CSV kamu
file_path = 'project3.csv'

# Membaca file CSV
df = pd.read_csv(file_path)

# Inisialisasi scaler
scaler = MinMaxScaler()

# Misalnya kita ingin menormalkan semua kolom kecuali kolom 'periode' yang mungkin berisi tanggal atau ID
# Tentukan kolom mana yang akan dinormalisasi
kolom_normalisasi = df.columns.difference(['periode'])  # Menghindari kolom yang tidak perlu dinormalisasi

# Normalisasi data
df[kolom_normalisasi] = scaler.fit_transform(df[kolom_normalisasi])

# Menyimpan DataFrame yang sudah dinormalisasi ke file CSV baru
df.to_csv('normalisasi_p3.csv', index=False)

# Menampilkan DataFrame yang telah dinormalisasi
print(df)


         Open      High       Low     Close
0    0.671986  0.661458  0.688612  0.680851
1    0.680851  0.722222  0.688612  0.734043
2    0.742908  0.730903  0.750890  0.751773
3    0.751773  0.756944  0.768683  0.778369
4    0.778369  0.826389  0.795374  0.822695
..        ...       ...       ...       ...
703  0.157801  0.166667  0.163701  0.166667
704  0.175532  0.166667  0.181495  0.166667
705  0.166667  0.166667  0.181495  0.166667
706  0.166667  0.166667  0.181495  0.175532
707  0.166667  0.157986  0.172598  0.166667

[708 rows x 4 columns]


## 4. modelling

pemilihan model yang tepat dalam prediksi penjualan mobil adalah kunci untuk menghasilkan hasil yang akurat, karena setiap model memiliki keunggulan dan kelemahan tergantung pada jenis data dan tujuan analisis. Pemilihan model yang salah bisa menyebabkan prediksi yang kurang tepat, yang pada gilirannya dapat merugikan proses pengambilan keputusan. sebelum melakakukan modelling bagi data menjadi data train dan tes:

In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 1. Memuat data dari CSV
data = pd.read_csv('normalisasi_p3.csv')

# 2. Memisahkan data menjadi data training dan testing (80:20)
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

# 3. Menyimpan data training dan testing ke dalam file CSV
train_data.to_csv('train_data3.csv', index=False)
test_data.to_csv('test_data3.csv', index=False)

print("Data training dan testing berhasil disimpan ke file CSV.")


Data training dan testing berhasil disimpan ke file CSV.


### 4.1 Ensemble Begging (tanpa sliding windows)

Metode ini digunakan untuk mengurangi variansi model dengan membangun banyak model pada subset acak dari data pelatihan, kemudian menggabungkan hasil prediksi dari model-model tersebut.

4.1.1. single Step Prediction

Single Step Prediction adalah pendekatan dalam time series forecasting di mana model memprediksi nilai target (output) hanya untuk satu langkah ke depan, berdasarkan nilai input yang tersedia.

In [20]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

# Membaca file CSV data training dan testing
train_data = pd.read_csv('train_data3.csv')
test_data = pd.read_csv('test_data3.csv')

# Memisahkan fitur (Open, High, Low) dan target (Close) dari data training
X_train = train_data[['Open', 'High', 'Low']].values
y_train = train_data['Close'].values

# Memisahkan fitur (Open, High, Low) dan target (Close) dari data testing
X_test = test_data[['Open', 'High', 'Low']].values
y_test = test_data['Close'].values

# Model dasar menggunakan Linear Regression
base_model = LinearRegression()

# Membuat model Bagging dengan estimator dasar Linear Regression
bagging_model = BaggingRegressor(base_estimator=base_model, n_estimators=10, random_state=42)

# Melatih model
bagging_model.fit(X_train, y_train)

# Melakukan prediksi pada data uji
predictions = bagging_model.predict(X_test)

# Menghitung metrik evaluasi
mae = mean_absolute_error(y_test, predictions)
rmse = np.sqrt(mean_squared_error(y_test, predictions))
mape = mean_absolute_percentage_error(y_test, predictions)

# Menampilkan hasil evaluasi
print(f"MAE: {mae}")
print(f"RMSE: {rmse}")
print(f"MAPE: {mape * 100:.2f}%")

# Menyimpan hasil prediksi ke dalam DataFrame untuk output lengkap
results = pd.DataFrame({
    'Actual': y_test,
    'Predicted': predictions
})

print(results)

# Input data baru untuk prediksi (single-step)
new_data = np.array([[0.971986, 0.661458, 0.688612]])  # Input baru: Open, High, Low

# Melakukan prediksi untuk data baru (single-step)
new_prediction = bagging_model.predict(new_data)

# Menampilkan hasil prediksi untuk single-step
print("Prediksi untuk data baru:", new_prediction)


MAE: 0.008584473539814804
RMSE: 0.011393898481661871
MAPE: 2.61%
       Actual  Predicted
0    0.884752   0.882198
1    0.459220   0.458346
2    0.574468   0.571498
3    0.450355   0.439903
4    0.450355   0.439903
..        ...        ...
137  0.858156   0.848222
138  0.831560   0.829779
139  0.476950   0.465816
140  0.973404   0.970969
141  0.157801   0.165400

[142 rows x 2 columns]
Prediksi untuk data baru: [0.56087994]


4.1.2. Multi-Step Rekursif Prediction

In [6]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

# Membaca file CSV data training dan testing
train_data = pd.read_csv('train_data3.csv')
test_data = pd.read_csv('test_data3.csv')

# Memisahkan fitur (Open, High, Low) dan target (Close) dari data training
X_train = train_data[['Open', 'High', 'Low']].values
y_train = train_data['Close'].values

# Memisahkan fitur (Open, High, Low) dan target (Close) dari data testing
X_test = test_data[['Open', 'High', 'Low']].values
y_test = test_data['Close'].values

# Model dasar menggunakan Linear Regression
base_model = LinearRegression()

# Membuat model Bagging dengan estimator dasar Linear Regression
bagging_model = BaggingRegressor(base_estimator=base_model, n_estimators=10, random_state=42)

# Melatih model
bagging_model.fit(X_train, y_train)

# Fungsi untuk prediksi multi-step direct dengan mencetak input setiap langkah
def predict_multistep_direct(model, input_data, steps):
    predictions = []
    
    # Melakukan prediksi untuk semua langkah ke depan
    for step in range(steps):
        print(f"Input pada langkah {step + 1}: {input_data}")  # Menampilkan input setiap langkah
        
        pred = model.predict(input_data)  # Prediksi untuk langkah selanjutnya
        predictions.append(pred[0])  # Menyimpan hasil prediksi
        
        # Memperbarui input_data untuk langkah berikutnya
        # Update input dengan prediksi yang baru saja didapat
        input_data = np.array([[pred[0], input_data[0][1], input_data[0][2]]])  # Update input untuk langkah berikutnya
    
    return np.array(predictions)

# Input data baru untuk prediksi (Open, High, Low)
new_data = np.array([[0.8315602836879432,0.8090277777777777,0.822064056939]])  # Ganti dengan data input baru: Open, High, Low

# Menentukan jumlah langkah ke depan untuk prediksi (3 hari ke depan)
multi_step_steps = 3  # Prediksi 3 langkah ke depan (3 hari)

# Menjalankan prediksi multi-step direct
multi_step_predictions = predict_multistep_direct(bagging_model, new_data, multi_step_steps)

# Menampilkan hasil prediksi 3 hari selanjutnya
print(f"Prediksi 3 Hari Selanjutnya untuk data baru:", multi_step_predictions)

# Evaluasi model dengan data uji
predictions_test = bagging_model.predict(X_test)

# Menghitung metrik evaluasi pada data uji
mae = mean_absolute_error(y_test, predictions_test)
rmse = np.sqrt(mean_squared_error(y_test, predictions_test))
mape = mean_absolute_percentage_error(y_test, predictions_test)

# Menampilkan hasil evaluasi
print(f"MAE: {mae}")
print(f"RMSE: {rmse}")
print(f"MAPE: {mape * 100:.2f}%")


Input pada langkah 1: [[0.83156028 0.80902778 0.82206406]]
Input pada langkah 2: [[0.81865108 0.80902778 0.82206406]]
Input pada langkah 3: [[0.82397696 0.80902778 0.82206406]]
Prediksi 3 Hari Selanjutnya untuk data baru: [0.81865108 0.82397696 0.82177969]
MAE: 0.008584473539814804
RMSE: 0.011393898481661871
MAPE: 2.61%


Hasil prediksi multi-step menggunakan ensemble regresi linier menunjukkan performa model yang cukup baik dengan metrik evaluasi yang menjanjikan. Berdasarkan MAE (Mean Absolute Error) sebesar 0.0086, model ini menunjukkan kesalahan rata-rata yang kecil antara nilai prediksi dan nilai aktual. Selain itu, nilai RMSE (Root Mean Squared Error) sebesar 0.0114 menggambarkan bahwa kesalahan kuadrat rata-rata pada prediksi juga cukup rendah. Metrik MAPE (Mean Absolute Percentage Error) yang mencapai 2.61% menunjukkan bahwa kesalahan prediksi dalam bentuk persentase relatif terhadap nilai aktual cukup minimal, yang mengindikasikan akurasi model yang tinggi dalam memprediksi hasil multi-step.

### 4.2 Ensemble begging (sliding windows)

lakukan sliding windows dan pisah data 

In [2]:
import numpy as np
import pandas as pd

# Fungsi untuk melakukan sliding window
def sliding_window(data, window_size):
    X, y = [], []
    for i in range(len(data) - window_size):
        X.append(data[i:i+window_size, :-1])  # Fitur (Open, High, Low)
        y.append(data[i+window_size-1, -1])  # Target (Close)
    return np.array(X), np.array(y)

# Menggabungkan fitur dan target dalam data training dan testing
train_features = train_data[['Open', 'High', 'Low', 'Close']].values
test_features = test_data[['Open', 'High', 'Low', 'Close']].values

# Menentukan ukuran window
window_size = 4

# Membuat sliding window untuk data training dan testing
X_train, y_train = sliding_window(train_features, window_size)
X_test, y_test = sliding_window(test_features, window_size)

# Menyimpan hasil sliding window ke file CSV
train_windowed = pd.DataFrame(np.hstack([X_train.reshape(X_train.shape[0], -1), y_train.reshape(-1, 1)]), columns=['Open_1', 'High_1', 'Low_1', 'Open_2', 'High_2', 'Low_2', 'Open_3', 'High_3', 'Low_3', 'Open_4', 'High_4', 'Low_4', 'Close'])
test_windowed = pd.DataFrame(np.hstack([X_test.reshape(X_test.shape[0], -1), y_test.reshape(-1, 1)]), columns=['Open_1', 'High_1', 'Low_1', 'Open_2', 'High_2', 'Low_2', 'Open_3', 'High_3', 'Low_3', 'Open_4', 'High_4', 'Low_4', 'Close'])

# Menyimpan ke CSV
train_windowed.to_csv('train_windowed.csv', index=False)
test_windowed.to_csv('test_windowed.csv', index=False)

print("Sliding window data has been saved to 'train_windowed.csv' and 'test_windowed.csv'.")


Sliding window data has been saved to 'train_windowed.csv' and 'test_windowed.csv'.


In [4]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

# Membaca file CSV hasil sliding window
train_windowed = pd.read_csv('train_windowed.csv')
test_windowed = pd.read_csv('test_windowed.csv')

# Memisahkan fitur (Open_1, High_1, Low_1, ..., Open_4, High_4, Low_4) dan target (Close)
X_train = train_windowed.drop(columns=['Close']).values
y_train = train_windowed['Close'].values
X_test = test_windowed.drop(columns=['Close']).values
y_test = test_windowed['Close'].values

# Membuat model Bagging dengan regresi linier sebagai estimator
model = BaggingRegressor(base_estimator=LinearRegression(), n_estimators=50, random_state=42)

# Melatih model dengan data training
model.fit(X_train, y_train)

# Melakukan prediksi pada data testing
y_pred = model.predict(X_test)

# Menghitung metrik evaluasi
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
mape = mean_absolute_percentage_error(y_test, y_pred)

# Menampilkan hasil evaluasi
print(f'Mean Squared Error: {mse}')
print(f'Mean Absolute Error: {mae}')
print(f'Mean Absolute Percentage Error: {mape}')

# Menyimpan hasil prediksi ke dalam CSV
predictions = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
predictions.to_csv('predictions.csv', index=False)

print(predictions)


Mean Squared Error: 0.00013946980980126148
Mean Absolute Error: 0.008859020561095823
Mean Absolute Percentage Error: 0.026224873810225452
       Actual  Predicted
0    0.450355   0.440686
1    0.450355   0.440574
2    0.423759   0.430145
3    0.796099   0.781067
4    0.991135   0.973884
..        ...        ...
133  0.671986   0.675926
134  0.858156   0.845706
135  0.831560   0.829224
136  0.476950   0.462247
137  0.973404   0.971338

[138 rows x 2 columns]


memprediksi multi-step untuk data tes

In [6]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

# Membaca file CSV hasil sliding window
train_windowed = pd.read_csv('train_windowed.csv')
test_windowed = pd.read_csv('test_windowed.csv')

# Memisahkan fitur (Open_1, High_1, Low_1, ..., Open_4, High_4, Low_4) dan target (Close)
X_train = train_windowed.drop(columns=['Close']).values
y_train = train_windowed['Close'].values
X_test = test_windowed.drop(columns=['Close']).values
y_test = test_windowed['Close'].values

# Membuat model Bagging dengan regresi linier sebagai estimator
model = BaggingRegressor(base_estimator=LinearRegression(), n_estimators=50, random_state=42)

# Melatih model dengan data training
model.fit(X_train, y_train)

# Fungsi untuk prediksi multi-step
def multi_step_prediction(model, X_input, n_steps=3):
    predictions = []
    input_seq = X_input.copy()
    for _ in range(n_steps):
        # Prediksi satu langkah ke depan
        pred = model.predict(input_seq.reshape(1, -1))
        predictions.append(pred[0])
        
        # Update input untuk langkah berikutnya dengan menambahkan prediksi yang baru
        input_seq = np.roll(input_seq, -3)  # Geser input untuk memasukkan nilai prediksi
        input_seq[-3:] = pred  # Set nilai prediksi pada posisi terakhir input
        
    return predictions

# Menyimpan hasil prediksi multi-step
multi_step_preds = []

for i in range(len(X_test)):
    # Ambil fitur dari data testing dan lakukan prediksi multi-step
    X_input = X_test[i]
    preds = multi_step_prediction(model, X_input, n_steps=3)
    multi_step_preds.append(preds)

# Membuat DataFrame untuk hasil prediksi multi-step
multi_step_preds_df = pd.DataFrame(multi_step_preds, columns=['Predicted_1', 'Predicted_2', 'Predicted_3'])

# Menampilkan hasil prediksi multi-step
print("Predictions for the next 3 days (multi-step prediction):")
print(multi_step_preds_df)

# Menghitung MSE, MAE, dan MAPE untuk prediksi multi-step
mse = mean_squared_error(y_test[:len(multi_step_preds_df)], multi_step_preds_df['Predicted_1'])
mae = mean_absolute_error(y_test[:len(multi_step_preds_df)], multi_step_preds_df['Predicted_1'])
mape = mean_absolute_percentage_error(y_test[:len(multi_step_preds_df)], multi_step_preds_df['Predicted_1'])

# Menampilkan hasil evaluasi
print(f'\nEvaluation Metrics for 1st Step Prediction:')
print(f'Mean Squared Error: {mse}')
print(f'Mean Absolute Error: {mae}')
print(f'Mean Absolute Percentage Error: {mape}')


Predictions for the next 3 days (multi-step prediction):
     Predicted_1  Predicted_2  Predicted_3
0       0.440686     0.445246     0.450104
1       0.440574     0.445263     0.448505
2       0.430145     0.433117     0.436669
3       0.781067     0.788038     0.794262
4       0.973884     0.981776     0.991400
..           ...          ...          ...
133     0.675926     0.681084     0.688312
134     0.845706     0.854524     0.860580
135     0.829224     0.835004     0.842829
136     0.462247     0.466623     0.470255
137     0.971338     0.979447     0.987757

[138 rows x 3 columns]

Evaluation Metrics for 1st Step Prediction:
Mean Squared Error: 0.00013946980980126145
Mean Absolute Error: 0.008859020561095825
Mean Absolute Percentage Error: 0.02622487381022546


melakukan single step untuk data inputan baru

In [9]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor

# Membaca file CSV hasil sliding window
train_windowed = pd.read_csv('train_windowed.csv')
test_windowed = pd.read_csv('test_windowed.csv')

# Memisahkan fitur (Open_1, High_1, Low_1, ..., Open_4, High_4, Low_4) dan target (Close)
X_train = train_windowed.drop(columns=['Close']).values
y_train = train_windowed['Close'].values
X_test = test_windowed.drop(columns=['Close']).values
y_test = test_windowed['Close'].values

# Membuat model Bagging dengan regresi linier sebagai estimator
model = BaggingRegressor(base_estimator=LinearRegression(), n_estimators=50, random_state=42)

# Melatih model dengan data training
model.fit(X_train, y_train)

# Inputan baru yang diberikan
new_data = np.array([0.84929078, 0.84375, 0.839857651, 0.84929078, 0.826388889, 0.830960854,
                     0.485815603, 0.470486111, 0.466192171, 0.964539007, 0.947916667, 0.973309609])

# Melakukan prediksi untuk data baru
new_data_pred = model.predict(new_data.reshape(1, -1))

# Menampilkan hasil prediksi
print(f"Prediksi nilai Close untuk data baru: {new_data_pred[0]}")


Prediksi nilai Close untuk data baru: 0.9713381907064763


melakukan multi step untuk data inputan baru

In [24]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import BaggingRegressor
from sklearn.metrics import mean_absolute_percentage_error, mean_squared_error
from math import sqrt

# Membaca file CSV hasil sliding window
train_windowed = pd.read_csv('train_windowed.csv')
test_windowed = pd.read_csv('test_windowed.csv')

# Memisahkan fitur (Open_1, High_1, Low_1, ..., Open_4, High_4, Low_4) dan target (Close)
X_train = train_windowed.drop(columns=['Close']).values
y_train = train_windowed['Close'].values
X_test = test_windowed.drop(columns=['Close']).values
y_test = test_windowed['Close'].values

# Membuat model Bagging dengan regresi linier sebagai estimator
model = BaggingRegressor(base_estimator=LinearRegression(), n_estimators=50, random_state=42)

# Melatih model dengan data training
model.fit(X_train, y_train)

# Prediksi pada data uji
y_pred_test = model.predict(X_test)

# Menghitung MAPE (Mean Absolute Percentage Error)
mape = mean_absolute_percentage_error(y_test, y_pred_test)

# Menghitung RMSE (Root Mean Squared Error)
rmse = sqrt(mean_squared_error(y_test, y_pred_test))

# Menampilkan MAPE dan RMSE
print(f"Mean Absolute Percentage Error (MAPE): {mape}")
print(f"Root Mean Squared Error (RMSE): {rmse}")

# Inputan baru yang diberikan
new_data = np.array([0.84929078, 0.84375, 0.839857651, 0.84929078, 0.826388889, 0.830960854,
                     0.485815603, 0.470486111, 0.466192171, 0.964539007, 0.947916667, 0.973309609])

# Prediksi multi-step untuk 3 hari ke depan
steps = 3
predictions = []

# Iteratif untuk prediksi 3 langkah ke depan
current_input = new_data.reshape(1, -1)
for _ in range(steps):
    prediction = model.predict(current_input)
    predictions.append(prediction[0])
    
    # Update input untuk prediksi berikutnya
    # Misalnya, kita ingin menambahkan prediksi hari ini ke fitur untuk prediksi hari berikutnya
    current_input = np.roll(current_input, shift=-1, axis=1)
    current_input[0, -1] = prediction

# Menampilkan hasil prediksi multi-step
print(f"Prediksi nilai Close untuk 3 hari ke depan: {predictions}")


Mean Absolute Percentage Error (MAPE): 0.026224873810225452
Root Mean Squared Error (RMSE): 0.011809733688837419
Prediksi nilai Close untuk 3 hari ke depan: [0.9713381907064763, 0.9683982271117674, 0.9699121768732992]


In [27]:
import numpy as np
import joblib
from sklearn.metrics import mean_absolute_percentage_error, mean_squared_error
from math import sqrt
import pandas as pd

# Memuat model yang disimpan
model = joblib.load('bagging_model_p3.joblib')

# Inputan baru yang diberikan
new_data = np.array([0.556737589, 0.539930556, 0.519572954, 0.867021277, 0.852430556, 0.87544484,
                     0.69858156, 0.670138889, 0.6886121, 0.84929078, 0.84375, 0.839857651])

# Prediksi multi-step untuk 3 hari ke depan
steps = 3
predictions = []

# Iteratif untuk prediksi 3 langkah ke depan
current_input = new_data.reshape(1, -1)
for _ in range(steps):
    prediction = model.predict(current_input)
    predictions.append(prediction[0])
    
    # Update input untuk prediksi berikutnya
    current_input = np.roll(current_input, shift=-1, axis=1)
    current_input[0, -1] = prediction

# Menampilkan hasil prediksi multi-step sebelum unnormalisasi
print(f"Prediksi nilai Close untuk 3 hari ke depan (sebelum unnormalisasi): {predictions}")

# Unnormalize prediksi (min = 486, max = 1050)
min_value = 486
max_value = 1050

# Unnormalize dan pastikan hasilnya adalah bilangan bulat
unnormalized_predictions = [int(round((pred * (max_value - min_value)) + min_value)) for pred in predictions]

# Menampilkan hasil unnormalisasi
print(f"Prediksi nilai Close untuk 3 hari ke depan (setelah unnormalisasi, bilangan bulat): {unnormalized_predictions}")

# Untuk MAPE dan RMSE, prediksi pada data uji
# Memuat data uji
test_windowed = pd.read_csv('test_windowed.csv')
X_test = test_windowed.drop(columns=['Close']).values
y_test = test_windowed['Close'].values

# Prediksi pada data uji
y_pred_test = model.predict(X_test)

# Unnormalize prediksi pada data uji
unnormalized_y_pred_test = [int(round((pred * (max_value - min_value)) + min_value)) for pred in y_pred_test]

# Menghitung MAPE (Mean Absolute Percentage Error) sebelum unnormalisasi
mape = mean_absolute_percentage_error(y_test, y_pred_test)

# Menghitung RMSE (Root Mean Squared Error) sebelum unnormalisasi
rmse = sqrt(mean_squared_error(y_test, y_pred_test))

# Menampilkan MAPE dan RMSE pada data yang telah di unnormalisasi
print(f"Mean Absolute Percentage Error (MAPE) setelah unnormalisasi: {mape}")
print(f"Root Mean Squared Error (RMSE) setelah unnormalisasi: {rmse}")


Prediksi nilai Close untuk 3 hari ke depan (sebelum unnormalisasi): [0.8457057750515322, 0.8453227690374149, 0.8784322227134386]
Prediksi nilai Close untuk 3 hari ke depan (setelah unnormalisasi, bilangan bulat): [963, 963, 981]
Mean Absolute Percentage Error (MAPE) setelah unnormalisasi: 0.026224873810225452
Root Mean Squared Error (RMSE) setelah unnormalisasi: 0.011809733688837419


### 4.2 LSTM

In [2]:
import numpy as np
import pandas as pd
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

# Membaca file CSV data training dan testing
train_data = pd.read_csv('train_data3.csv')
test_data = pd.read_csv('test_data3.csv')

# Memisahkan fitur (Open, High, Low) dan target (Close) dari data training
X_train = train_data[['Open', 'High', 'Low']].values
y_train = train_data['Close'].values

# Memisahkan fitur (Open, High, Low) dan target (Close) dari data testing
X_test = test_data[['Open', 'High', 'Low']].values
y_test = test_data['Close'].values

# Fungsi untuk membuat dataset multi-step
def create_dataset(X, y, look_back=1, forecast_steps=3):
    Xs, ys = [], []
    for i in range(len(X) - look_back - forecast_steps + 1):
        Xs.append(X[i:(i + look_back), :])  # Input: data sebelumnya
        ys.append(y[(i + look_back):(i + look_back + forecast_steps)])  # Output: 3 hari ke depan
    return np.array(Xs), np.array(ys)

look_back = 5  # Menggunakan 5 hari terakhir sebagai input
forecast_steps = 3  # Memprediksi 3 hari ke depan

# Membuat dataset untuk training dan testing
X_train_multi, y_train_multi = create_dataset(X_train, y_train, look_back, forecast_steps)
X_test_multi, y_test_multi = create_dataset(X_test, y_test, look_back, forecast_steps)

# Membuat model LSTM
model = Sequential()
model.add(LSTM(units=50, return_sequences=False, input_shape=(X_train_multi.shape[1], X_train_multi.shape[2])))
model.add(Dense(units=forecast_steps))  # Output untuk 3 hari ke depan

model.compile(optimizer='adam', loss='mean_squared_error')

# Melatih model
model.fit(X_train_multi, y_train_multi, epochs=100, batch_size=32, verbose=1)

# Melakukan prediksi
predictions = model.predict(X_test_multi)

# Menghitung metrik evaluasi
mae = mean_absolute_error(y_test_multi, predictions)
rmse = np.sqrt(mean_squared_error(y_test_multi, predictions))
mape = mean_absolute_percentage_error(y_test_multi, predictions)

# Menampilkan hasil evaluasi
print(f"MAE: {mae}")
print(f"RMSE: {rmse}")
print(f"MAPE: {mape * 100:.2f}%")

# Menyimpan hasil prediksi ke dalam DataFrame untuk output lengkap
results = pd.DataFrame({
    'Actual Day 1': y_test_multi[:, 0],
    'Predicted Day 1': predictions[:, 0],
    'Actual Day 2': y_test_multi[:, 1],
    'Predicted Day 2': predictions[:, 1],
    'Actual Day 3': y_test_multi[:, 2],
    'Predicted Day 3': predictions[:, 2]
})

print(results)

# Prediksi untuk Data Baru (Single-Step Multi-Step 3 Hari Ke Depan)
new_data = np.array([[0.971986, 0.661458, 0.688612]])  # Input baru: Open, High, Low

# Memastikan data baru memiliki bentuk yang sesuai (1, look_back, 3)
# Misalnya, kita perlu menambah langkah waktu sebelumnya untuk prediksi multi-step.
# Di sini, kami asumsikan kita menggunakan data 5 hari terakhir.
# Untuk keperluan ini, Anda harus menyediakan 5 data langkah sebelumnya untuk membuat prediksi.
# Contoh data multi-step yang sesuai dengan look_back=5, pastikan data mencakup 5 hari sebelumnya.
new_data_multi = np.tile(new_data, (look_back, 1))  # Duplikasi data menjadi 5 langkah waktu
new_data_multi = new_data_multi.reshape((1, look_back, new_data.shape[1]))

# Melakukan prediksi untuk data baru (multi-step)
new_predictions = model.predict(new_data_multi)

print("Prediksi untuk 3 hari ke depan:", new_predictions)
# Menghitung metrik evaluasi
mae = mean_absolute_error(y_test_multi, predictions)
rmse = np.sqrt(mean_squared_error(y_test_multi, predictions))

# Menampilkan hasil evaluasi
print(f"MAE: {mae}")
print(f"RMSE: {rmse}")


2024-12-08 14:47:27.575504: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F AVX512_VNNI FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.
2024-12-08 14:47:27.695383: I tensorflow/core/util/util.cc:169] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-12-08 14:47:27.700372: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2024-12-08 14:47:27.700420: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if yo

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=d71500c2-b449-45af-bb9d-9851cba6cfbc' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>