# Import các thư viện cần sử dụng

In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import tensorflow as tf

# Tiền xử lý dữ liệu

In [20]:
# Đọc dữ liệu từ file CSV
fpt_df = pd.read_csv("data/FPT.csv")
fpt_df.head()

Unnamed: 0,Ticker,Date/Time,Open,High,Low,Close,Volume,Open Interest
0,FPT,12/25/2018 9:15,30.89,30.89,30.89,30.89,35410,0
1,FPT,12/25/2018 9:16,30.81,30.81,30.81,30.81,190,0
2,FPT,12/25/2018 9:17,30.74,30.81,30.74,30.74,1120,0
3,FPT,12/25/2018 9:18,30.74,30.74,30.74,30.74,2120,0
4,FPT,12/25/2018 9:19,30.74,30.74,30.74,30.74,22500,0


In [21]:
#Xóa cột Open Interest
fpt_df = fpt_df.drop(columns=['Open Interest'])

#Chuyển đổi cột Date/Time thành kiểu datetime
fpt_df['Date/Time'] = pd.to_datetime(fpt_df['Date/Time'])

In [22]:
fpt_df.head()

Unnamed: 0,Ticker,Date/Time,Open,High,Low,Close,Volume
0,FPT,2018-12-25 09:15:00,30.89,30.89,30.89,30.89,35410
1,FPT,2018-12-25 09:16:00,30.81,30.81,30.81,30.81,190
2,FPT,2018-12-25 09:17:00,30.74,30.81,30.74,30.74,1120
3,FPT,2018-12-25 09:18:00,30.74,30.74,30.74,30.74,2120
4,FPT,2018-12-25 09:19:00,30.74,30.74,30.74,30.74,22500


In [23]:
#Sắp xếp dữ liệu theo cột Date/Time
fpt_df = fpt_df.sort_values(by="Date/Time")

#Tính toán biến động cổ phiếu sau 1 phút
fpt_df["Price Change"] = fpt_df["Close"].shift(-1) - fpt_df["Close"]
fpt_df = fpt_df.dropna()

fpt_df[['Date/Time', 'Close', 'Price Change']].head()

Unnamed: 0,Date/Time,Close,Price Change
0,2018-12-25 09:15:00,30.89,-0.08
1,2018-12-25 09:16:00,30.81,-0.07
2,2018-12-25 09:17:00,30.74,0.0
3,2018-12-25 09:18:00,30.74,0.0
4,2018-12-25 09:19:00,30.74,0.0


# Chia dữ liệu thành tập dữ liệu và kiểm tra

In [24]:
X = fpt_df[['Open', 'High', 'Low', 'Volume']]
y = fpt_df['Price Change']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("Kích thước tập huấn luyện:", X_train.shape[0])
print("Kích thước tập kiểm tra:", X_test.shape[0])

Kích thước tập huấn luyện: 77924
Kích thước tập kiểm tra: 19481


# Huấn luyện mô hình Linear Regression

In [25]:
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)

In [26]:
# Dự đoán trên tập kiểm tra
y_pred = model_lr.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_lr = mean_absolute_error(y_test, y_pred)
mse_lr = mean_squared_error(y_test, y_pred)
rmse_lr = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_lr)
print("Mean Squared Error (MSE):", mse_lr)
print("Root Mean Squared Error (RMSE):", rmse_lr)

Mean Absolute Error (MAE): 0.03443725476284101
Mean Squared Error (MSE): 0.0037268647525530944
Root Mean Squared Error (RMSE): 0.061048052815410044


# Huấn luyện mô hình Decision Trees

In [27]:
model_dt = DecisionTreeRegressor()
model_dt.fit(X_train, y_train)

In [28]:
# Dự đoán trên tập kiểm tra
y_pred = model_dt.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_dt = mean_absolute_error(y_test, y_pred)
mse_dt = mean_squared_error(y_test, y_pred)
rmse_dt = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_dt)
print("Mean Squared Error (MSE):", mse_dt)
print("Root Mean Squared Error (RMSE):", rmse_dt)

Mean Absolute Error (MAE): 0.054609646396244396
Mean Squared Error (MSE): 0.007958359968892464
Root Mean Squared Error (RMSE): 0.08920964056026941


# Huấn luyện mô hình RandomForest

In [29]:
model_rf = RandomForestRegressor()
model_rf.fit(X_train, y_train)

In [30]:
# Dự đoán trên tập kiểm tra
y_pred = model_rf.predict(X_test)

# Đánh giá hiệu suất của mô hình
mae_rf = mean_absolute_error(y_test, y_pred)
mse_rf = mean_squared_error(y_test, y_pred)
rmse_rf = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_rf)
print("Mean Squared Error (MSE):", mse_rf)
print("Root Mean Squared Error (RMSE):", rmse_rf)

Mean Absolute Error (MAE): 0.043618201400262596
Mean Squared Error (MSE): 0.004480309931017267
Root Mean Squared Error (RMSE): 0.06693511732280198


# Huấn luyện mô hình Neural

In [31]:
model_nn = tf.keras.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=(4,)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)  # Một lớp output để dự đoán giá
])

# Compile mô hình
model_nn.compile(optimizer='adam', loss='mse')

# Huấn luyện mô hình neural network trên tập huấn luyện
model_nn.fit(X_train, y_train, epochs=30, batch_size=32, verbose=1)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


<keras.callbacks.History at 0x2c5e9400520>

In [32]:
# Dự đoán trên tập kiểm tra
y_pred = model_nn.predict(X_test)

# Đánh giá hiệu suất của mô hình 
mae_nn = mean_absolute_error(y_test, y_pred)
mse_nn = mean_squared_error(y_test, y_pred)
rmse_nn = mean_squared_error(y_test, y_pred, squared=False)

print("Mean Absolute Error (MAE):", mae_nn)
print("Mean Squared Error (MSE):", mse_nn)
print("Root Mean Squared Error (RMSE):", rmse_nn)

Mean Absolute Error (MAE): 0.03348882831875281
Mean Squared Error (MSE): 0.0037500904218457226
Root Mean Squared Error (RMSE): 0.06123798185640773


# Lưu lại thông số của các model trên

In [33]:
import pandas as pd

data = {
    'Model': ['Linear Regression', 'Random Forests', 'Decision Trees', 'Neural Network'],
    'MAE': [mae_lr, mae_rf, mae_dt, mae_nn],
    'MSE': [mse_lr, mse_rf, mse_dt, mse_nn],
    'RMSE': [rmse_lr, rmse_rf, rmse_dt, rmse_nn]
}

df = pd.DataFrame(data)

# Lưu DataFrame vào tệp CSV
df.to_csv('model_metrics_FPT.csv', index=False)

### **Từ metrics của các mô hình trên, ta thấy rằng Linear Regression và Neural Network có hiệu suất tốt nhất trong việc dự đoán biến động giá cổ phiếu, theo sau bởi Random Forests, trong khi Decision Trees có hiệu suất thấp nhất.**