# Import các thư viện cần sử dụng

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import tensorflow as tf

# Tiền xử lý dữ liệu

In [11]:
# Đọc dữ liệu từ file CSV
msn_df = pd.read_csv("data/MSN.csv")
msn_df.head()

Unnamed: 0,Ticker,Date/Time,Open,High,Low,Close,Volume,Open Interest
0,MSN,12/25/2017 9:15,73.1,73.1,73.1,73.1,4210,0
1,MSN,12/25/2017 9:16,73.0,73.0,73.0,73.0,5000,0
2,MSN,12/25/2017 9:18,73.5,73.5,73.5,73.5,210,0
3,MSN,12/25/2017 9:20,73.2,73.5,73.1,73.1,2050,0
4,MSN,12/25/2017 9:21,73.0,73.0,73.0,73.0,1380,0


In [12]:
#Xóa cột Open Interest
msn_df = msn_df.drop(columns=['Open Interest'])

#Chuyển đổi cột Date/Time thành kiểu datetime
msn_df['Date/Time'] = pd.to_datetime(msn_df['Date/Time'])

In [13]:
msn_df.head()

Unnamed: 0,Ticker,Date/Time,Open,High,Low,Close,Volume
0,MSN,2017-12-25 09:15:00,73.1,73.1,73.1,73.1,4210
1,MSN,2017-12-25 09:16:00,73.0,73.0,73.0,73.0,5000
2,MSN,2017-12-25 09:18:00,73.5,73.5,73.5,73.5,210
3,MSN,2017-12-25 09:20:00,73.2,73.5,73.1,73.1,2050
4,MSN,2017-12-25 09:21:00,73.0,73.0,73.0,73.0,1380


In [14]:
#Sắp xếp dữ liệu theo cột Date/Time
msn_df = msn_df.sort_values(by="Date/Time")

#Tính toán biến động cổ phiếu sau 1 phút
msn_df["Price Change"] = msn_df["Close"].shift(-1) - msn_df["Close"]
msn_df = msn_df.dropna()

msn_df[['Date/Time', 'Close', 'Price Change']].head()

Unnamed: 0,Date/Time,Close,Price Change
0,2017-12-25 09:15:00,73.1,-0.1
1,2017-12-25 09:16:00,73.0,0.5
2,2017-12-25 09:18:00,73.5,-0.4
3,2017-12-25 09:20:00,73.1,-0.1
4,2017-12-25 09:21:00,73.0,0.1


# Chia dữ liệu thành tập dữ liệu và kiểm tra

In [15]:
X = msn_df[['Open', 'High', 'Low', 'Volume']]
y = msn_df['Price Change']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Kích thước tập huấn luyện:", X_train.shape[0])
print("Kích thước tập kiểm tra:", X_test.shape[0])

Kích thước tập huấn luyện: 108282
Kích thước tập kiểm tra: 27071


# Huấn luyện mô hình Linear Regression

In [16]:
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)

In [17]:
# Dự đoán trên tập kiểm tra
y_pred = model_lr.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_lr = mean_absolute_error(y_test, y_pred)
mse_lr = mean_squared_error(y_test, y_pred)
rmse_lr = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_lr)
print("Mean Squared Error (MSE):", mse_lr)
print("Root Mean Squared Error (RMSE):", rmse_lr)

Mean Absolute Error (MAE): 0.09957905626785613
Mean Squared Error (MSE): 0.04485787311271034
Root Mean Squared Error (RMSE): 0.2117967731404573


# Huấn luyện mô hình Decision Trees

In [18]:
model_dt = DecisionTreeRegressor()
model_dt.fit(X_train, y_train)

In [19]:
# Dự đoán trên tập kiểm tra
y_pred = model_dt.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_dt = mean_absolute_error(y_test, y_pred)
mse_dt = mean_squared_error(y_test, y_pred)
rmse_dt = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_dt)
print("Mean Squared Error (MSE):", mse_dt)
print("Root Mean Squared Error (RMSE):", rmse_dt)

Mean Absolute Error (MAE): 0.1552815905955815
Mean Squared Error (MSE): 0.08736449120826384
Root Mean Squared Error (RMSE): 0.295574848740998


# Huấn luyện mô hình RandomForest

In [20]:
model_rf = RandomForestRegressor()
model_rf.fit(X_train, y_train)

In [21]:
# Dự đoán trên tập kiểm tra
y_pred = model_rf.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_rf = mean_absolute_error(y_test, y_pred)
mse_rf = mean_squared_error(y_test, y_pred)
rmse_rf = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_rf)
print("Mean Squared Error (MSE):", mse_rf)
print("Root Mean Squared Error (RMSE):", rmse_rf)

Mean Absolute Error (MAE): 0.12392365652040402
Mean Squared Error (MSE): 0.05238711277795583
Root Mean Squared Error (RMSE): 0.22888231206879187


# Huấn luyện mô hình Neural

In [22]:
model_nn = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(4,)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)  # Một lớp output để dự đoán giá
])

# Compile mô hình
model_nn.compile(optimizer='adam', loss='mse')

# Huấn luyện mô hình neural network trên tập huấn luyện
model_nn.fit(X_train, y_train, epochs=30, batch_size=32, verbose=1)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x1d80b572da0>

In [23]:
# Dự đoán trên tập kiểm tra
y_pred = model_nn.predict(X_test)

# Đánh giá hiệu suất của mô hình 
mae_nn = mean_absolute_error(y_test, y_pred)
mse_nn = mean_squared_error(y_test, y_pred)
rmse_nn = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_nn)
print("Mean Squared Error (MSE):", mse_nn)
print("Root Mean Squared Error (RMSE):", rmse_nn)

Mean Absolute Error (MAE): 0.11020446922155452
Mean Squared Error (MSE): 0.046388114506924316
Root Mean Squared Error (RMSE): 0.21537900201023386


# Lưu lại thông số của các model trên

In [24]:
import pandas as pd

data = {
    'Model': ['Linear Regression', 'Random Forests', 'Decision Trees', 'Neural Network'],
    'MAE': [mae_lr, mae_rf, mae_dt, mae_nn],
    'MSE': [mse_lr, mse_rf, mse_dt, mse_nn],
    'RMSE': [rmse_lr, rmse_rf, rmse_dt, rmse_nn]
}

df = pd.DataFrame(data)

# Lưu DataFrame vào tệp CSV
df.to_csv('model_metrics_MSN.csv', index=False)

### **Từ metrics của các mô hình trên, ta thấy rằng Linear Regression và Neural Network có hiệu suất tốt nhất trong việc dự đoán biến động giá cổ phiếu, theo sau bởi Random Forests, trong khi Decision Trees có hiệu suất thấp nhất.**