### Import các thư viện

In [1]:
import os
import pandas as pd
import numpy as np
from stable_baselines3 import PPO
from stable_baselines3.common.vec_env import DummyVecEnv
import sys
# Thêm thư mục chứa scripts vào sys.path
scripts_path = r"C:\Users\nguye\OneDrive\documents\python\trading_bot_rl_ppo\scripts"
sys.path.append(scripts_path)

# Thử import class TradingEnv từ scripts.environment
from environment import TradingEnv

###  Định nghĩa đường dẫn

In [2]:
# Định nghĩa đường dẫn dữ liệu và mô hình
data_dir = r"C:\Users\nguye\OneDrive\documents\python\trading_bot_rl_ppo\data\processed\du_lieu_phan_tich"
model_path = r"C:\Users\nguye\OneDrive\documents\python\trading_bot_rl_ppo\models\ppo_trading_xauusd.zip"


### Tạo hoặc tải mô hình PPO

In [3]:
if os.path.exists(model_path):
    model = PPO.load(model_path)
    print("Da load duoc model")
else:
    # Nếu mô hình chưa tồn tại, khởi tạo mới
    model = PPO("MlpPolicy", DummyVecEnv([lambda: TradingEnv(pd.DataFrame(), render_mode='human')]), verbose=1)
    print("dang khoi tao model")

Using cpu device
dang khoi tao model


### Tải dữ liệu và huấn luyện mô hình

In [4]:
for year in range(2015, 2016):
    for month in range(1,6):
        if month < 10:
            file_path = f"C:\\Users\\nguye\\OneDrive\\documents\\python\\botTrade\\data_XauUSDm\\du_lieu_phan_tich\\{year}\\du_lieu_vang_phan_tich_{year}_0{month}.csv"
        else:
            file_path = f"C:\\Users\\nguye\\OneDrive\\documents\\python\\botTrade\\data_XauUSDm\\du_lieu_phan_tich\\{year}\\du_lieu_vang_phan_tich_{year}_{month}.csv"

        # Đọc file CSV và kiểm tra sự tồn tại của file
        if os.path.exists(file_path):
            data = pd.read_csv(file_path)

            # Kiểm tra và xử lý các giá trị NaN trong dữ liệu

            # Tạo môi trường với dữ liệu hiện tại
            env = DummyVecEnv([lambda: TradingEnv(data, render_mode='human')])

            # Tiếp tục huấn luyện mô hình trên dữ liệu hiện tại
            timesteps = len(data)//300
            model.set_env(env)
            model.learn(total_timesteps=timesteps)

            print(f"Đã huấn luyện xong trên dữ liệu: {file_path}")
        else:
            print(f"File không tồn tại: {file_path}")

-----------------------------
| time/              |      |
|    fps             | 844  |
|    iterations      | 1    |
|    time_elapsed    | 2    |
|    total_timesteps | 2048 |
-----------------------------
Đã huấn luyện xong trên dữ liệu: C:\Users\nguye\OneDrive\documents\python\botTrade\data_XauUSDm\du_lieu_phan_tich\2015\du_lieu_vang_phan_tich_2015_01.csv
-----------------------------
| time/              |      |
|    fps             | 895  |
|    iterations      | 1    |
|    time_elapsed    | 2    |
|    total_timesteps | 2048 |
-----------------------------
Đã huấn luyện xong trên dữ liệu: C:\Users\nguye\OneDrive\documents\python\botTrade\data_XauUSDm\du_lieu_phan_tich\2015\du_lieu_vang_phan_tich_2015_02.csv
-----------------------------
| time/              |      |
|    fps             | 766  |
|    iterations      | 1    |
|    time_elapsed    | 2    |
|    total_timesteps | 2048 |
-----------------------------
Đã huấn luyện xong trên dữ liệu: C:\Users\nguye\OneDrive\docum

### Lưu mô hình đã huấn luyện

In [5]:
# Lưu mô hình sau khi hoàn thành huấn luyện
model.save(model_path)
print(f"Mô hình đã được lưu tại: {model_path}")

Mô hình đã được lưu tại: C:\Users\nguye\OneDrive\documents\python\trading_bot_rl_ppo\models\ppo_trading_xauusd.zip


###  Đánh giá nhanh hiệu suất mô hình

In [6]:
# Đánh giá hiệu suất mô hình trên tệp cuối cùng
test_file = r"C:\Users\nguye\OneDrive\documents\python\trading_bot_rl_ppo\data\processed\du_lieu_phan_tich\2020\du_lieu_vang_phan_tich_2020_01.csv"
test_data = pd.read_csv(test_file)
test_env = DummyVecEnv([lambda: TradingEnv(test_data)])
model = PPO.load(model_path)

obs = test_env.reset()
total_reward = 0
done = False

while not done:
    action, _ = model.predict(obs, deterministic=True)
    print(action)
    obs, reward, done, info = test_env.step(action)
    total_reward += reward
    print(total_reward)

print(f"Tổng phần thưởng trên tập kiểm tra: {total_reward}")


[2]
[0.]
[2]
[0.]
[2]
[0.]
[2]
[0.]
[2]
[-0.5]
[2]
[-1.]
[2]
[-1.5]
[2]
[-2.]
[2]
[-2.5]
[2]
[-3.]
[2]
[-3.5]
[2]
[-4.]
[2]
[-4.5]
[2]
[-5.]
[2]
[-5.5]
[2]
[-6.]
[2]
[-6.5]
[2]
[-7.]
[2]
[-7.5]
[2]
[-8.]
[2]
[-8.5]
[2]
[-9.]
[2]
[-9.5]
[2]
[-10.]
[2]
[-10.5]
[2]
[-11.]
[2]
[-11.5]
[2]
[-12.]
[2]
[-12.5]
[2]
[-13.]
[2]
[-13.5]
[2]
[-14.]
[2]
[-14.5]
[2]
[-15.]
[2]
[-15.5]
[2]
[-16.]
[2]
[-16.5]
[2]
[-17.]
[2]
[-17.5]
[2]
[-18.]
[2]
[-18.5]
[2]
[-19.]
[2]
[-19.5]
[2]
[-20.]
[2]
[-20.5]
[2]
[-21.]
[2]
[-21.5]
[2]
[-22.]
[2]
[-22.5]
[2]
[-23.]
[2]
[-23.5]
[2]
[-24.]
[2]
[-24.5]
[2]
[-25.]
[2]
[-25.5]
[2]
[-26.]
[2]
[-26.5]
[2]
[-27.]
[2]
[-27.5]
[2]
[-28.]
[2]
[-28.5]
[2]
[-29.]
[2]
[-29.5]
[2]
[-30.]
[2]
[-30.5]
[2]
[-31.]
[2]
[-31.5]
[2]
[-32.]
[2]
[-32.5]
[2]
[-33.]
[2]
[-33.5]
[2]
[-34.]
[2]
[-34.5]
[2]
[-35.]
[2]
[-35.5]
[2]
[-36.]
[2]
[-36.5]
[2]
[-37.]
[2]
[-37.5]
[2]
[-38.]
[2]
[-38.5]
[2]
[-39.]
[2]
[-39.5]
[2]
[-40.]
[2]
[-40.5]
[2]
[-41.]
[2]
[-41.5]
[2]
[-42.]
[2]
[-42.5]
[2]
[