# Import các thư viện cần sử dụng

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import tensorflow as tf

# Tiền xử lý dữ liệu

In [3]:
# Đọc dữ liệu từ file CSV
pnj_df = pd.read_csv("data/PNJ.csv")
pnj_df.head()

Unnamed: 0,Ticker,Date/Time,Open,High,Low,Close,Volume,Open Interest
0,PNJ,2/28/2018 9:15,78.14,78.99,78.14,78.99,270,0
1,PNJ,2/28/2018 9:16,78.94,78.94,78.94,78.94,10,0
2,PNJ,2/28/2018 9:19,78.14,78.14,78.14,78.14,283,0
3,PNJ,2/28/2018 9:20,78.14,78.14,78.14,78.14,480,0
4,PNJ,2/28/2018 9:21,78.14,78.14,78.14,78.14,146,0


In [4]:
#Xóa cột Open Interest
pnj_df = pnj_df.drop(columns=['Open Interest'])

#Chuyển đổi cột Date/Time thành kiểu datetime
pnj_df['Date/Time'] = pd.to_datetime(pnj_df['Date/Time'])

In [5]:
pnj_df.head()

Unnamed: 0,Ticker,Date/Time,Open,High,Low,Close,Volume
0,PNJ,2018-02-28 09:15:00,78.14,78.99,78.14,78.99,270
1,PNJ,2018-02-28 09:16:00,78.94,78.94,78.94,78.94,10
2,PNJ,2018-02-28 09:19:00,78.14,78.14,78.14,78.14,283
3,PNJ,2018-02-28 09:20:00,78.14,78.14,78.14,78.14,480
4,PNJ,2018-02-28 09:21:00,78.14,78.14,78.14,78.14,146


In [6]:
#Sắp xếp dữ liệu theo cột Date/Time
pnj_df = pnj_df.sort_values(by="Date/Time")

#Tính toán biến động cổ phiếu sau 1 phút
pnj_df["Price Change"] = pnj_df["Close"].shift(-1) - pnj_df["Close"]
pnj_df = pnj_df.dropna()

pnj_df[['Date/Time', 'Close', 'Price Change']].head()

Unnamed: 0,Date/Time,Close,Price Change
0,2018-02-28 09:15:00,78.99,-0.05
1,2018-02-28 09:16:00,78.94,-0.8
2,2018-02-28 09:19:00,78.14,0.0
3,2018-02-28 09:20:00,78.14,0.0
4,2018-02-28 09:21:00,78.14,-0.05


# Chia dữ liệu thành tập dữ liệu và kiểm tra

In [7]:
X = pnj_df[['Open', 'High', 'Low', 'Volume']]
y = pnj_df['Price Change']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Kích thước tập huấn luyện:", X_train.shape[0])
print("Kích thước tập kiểm tra:", X_test.shape[0])

Kích thước tập huấn luyện: 100246
Kích thước tập kiểm tra: 25062


# Huấn luyện mô hình Linear Regression

In [8]:
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)

In [9]:
# Dự đoán trên tập kiểm tra
y_pred = model_lr.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_lr = mean_absolute_error(y_test, y_pred)
mse_lr = mean_squared_error(y_test, y_pred)
rmse_lr = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_lr)
print("Mean Squared Error (MSE):", mse_lr)
print("Root Mean Squared Error (RMSE):", rmse_lr)

Mean Absolute Error (MAE): 0.3545995047768162
Mean Squared Error (MSE): 0.453628084656692
Root Mean Squared Error (RMSE): 0.6735191791305516


# Huấn luyện mô hình Decision Trees

In [10]:
model_dt = DecisionTreeRegressor()
model_dt.fit(X_train, y_train)

In [11]:
# Dự đoán trên tập kiểm tra
y_pred = model_dt.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_dt = mean_absolute_error(y_test, y_pred)
mse_dt = mean_squared_error(y_test, y_pred)
rmse_dt = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_dt)
print("Mean Squared Error (MSE):", mse_dt)
print("Root Mean Squared Error (RMSE):", rmse_dt)

Mean Absolute Error (MAE): 0.4935447372309641
Mean Squared Error (MSE): 0.7948205106498824
Root Mean Squared Error (RMSE): 0.8915270666950512


# Huấn luyện mô hình RandomForest

In [12]:
model_rf = RandomForestRegressor()
model_rf.fit(X_train, y_train)

In [13]:
# Dự đoán trên tập kiểm tra
y_pred = model_rf.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_rf = mean_absolute_error(y_test, y_pred)
mse_rf = mean_squared_error(y_test, y_pred)
rmse_rf = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_rf)
print("Mean Squared Error (MSE):", mse_rf)
print("Root Mean Squared Error (RMSE):", rmse_rf)

Mean Absolute Error (MAE): 0.41638696229023847
Mean Squared Error (MSE): 0.4934897783604142
Root Mean Squared Error (RMSE): 0.7024882763152808


# Huấn luyện mô hình Neural

In [14]:
model_nn = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(4,)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)  # Một lớp output để dự đoán giá
])

# Compile mô hình
model_nn.compile(optimizer='adam', loss='mse')

# Huấn luyện mô hình neural network trên tập huấn luyện
model_nn.fit(X_train, y_train, epochs=30, batch_size=32, verbose=1)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x1f79945a8c0>

In [15]:
# Dự đoán trên tập kiểm tra
y_pred = model_nn.predict(X_test)

# Đánh giá hiệu suất của mô hình 
mae_nn = mean_absolute_error(y_test, y_pred)
mse_nn = mean_squared_error(y_test, y_pred)
rmse_nn = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_nn)
print("Mean Squared Error (MSE):", mse_nn)
print("Root Mean Squared Error (RMSE):", rmse_nn)

Mean Absolute Error (MAE): 0.3298387230674906
Mean Squared Error (MSE): 0.47465705367129407
Root Mean Squared Error (RMSE): 0.6889535932639397


# Lưu lại thông số của các model trên

In [16]:
import pandas as pd

data = {
    'Model': ['Linear Regression', 'Random Forests', 'Decision Trees', 'Neural Network'],
    'MAE': [mae_lr, mae_rf, mae_dt, mae_nn],
    'MSE': [mse_lr, mse_rf, mse_dt, mse_nn],
    'RMSE': [rmse_lr, rmse_rf, rmse_dt, rmse_nn]
}

df = pd.DataFrame(data)

# Lưu DataFrame vào tệp CSV
df.to_csv('model_metrics_PNJ.csv', index=False)

### **Từ metrics của các mô hình trên, ta thấy rằng Neural Network có hiệu suất tốt nhất trong việc dự đoán biến động giá cổ phiếu, theo sau bởi Random Forests, trong khi Decision Trees và Linear Regression có hiệu suất thấp nhất.**