**Dự báo xu hướng giá CK bằng thuật toán Rừng ngẫu nhiên**

1. Tải dữ liệu
2. Tạo biến Y=0 nếu giá CK giảm và biến Y=1 nếu giá CK tăng.
3. Sử dụng hàm RandomForestClassifier từ thư viện sklearn.
4. Đánh giá độ chính xác của mô hình thông qua các chỉ số Accuracy, Precision, recall, F1-score.

**VCB**

In [3]:
import pandas as pd
# Đọc dữ liệu từ file CSV (có thể thay bằng file của bạn)
file_path = r'D:\DeTaiNam2024\SolieuHong\VCB.csv'
df = pd.read_csv(file_path)
# Kiểm tra tiêu đề các cột
df.head()


Unnamed: 0.1,Unnamed: 0,time,open,high,low,close,volume
0,0,2015-01-05,14.03,14.21,13.9,14.12,310010
1,1,2015-01-06,14.12,15.05,14.12,15.05,1684600
2,2,2015-01-07,15.09,15.31,14.65,14.87,1430340
3,3,2015-01-08,14.92,15.49,14.87,15.31,904240
4,4,2015-01-09,15.45,16.38,15.45,16.33,2286680


In [None]:
# Sắp xếp theo ngày
df = df.sort_values('time')

# Tạo cột Y: nếu giá đóng cửa hôm nay thấp hơn hôm qua, Y=0, nếu ngược lại Y=1
Y = (df['close'] > df['open']).astype(int)

# Hiển thị dữ liệu với cột Y
print(df[['time', 'close', 'Y']])

In [5]:
# Lấy đặc trưng (features) và biến mục tiêu (target)
X = df[['open', 'high', 'low', 'volume']]  # Các cột đặc trưng
y_db= df['close']  # Biến mục tiêu cho hồi quy

In [6]:
from sklearn.model_selection import train_test_split # tải hàm train_test_split
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)


In [7]:

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import time
# Bắt đầu tính thời gian huấn luyện
start_time = time.time()


# Khởi tạo mô hình Rừng ngẫu nhiên cho phân loại
rf = RandomForestClassifier(n_estimators=100, random_state=42)

# Huấn luyện mô hình
rf.fit(X_train, Y_train)
# Kết thúc tính thời gian huấn luyện
train_time_cls = time.time() - start_time
print(f'Thời gian huấn luyện mô hình phân loại: {train_time_cls:.4f} giây')

# Bắt đầu tính thời gian dự đoán
start_time = time.time()

# Dự đoán trên tập kiểm tra
Y_pred = rf.predict(X_test)
# Kết thúc tính thời gian dự đoán
predict_time_cls = time.time() - start_time
print(f'Thời gian dự đoán mô hình phân loại: {predict_time_cls:.4f} giây')
# Đánh giá mô hình phân loại bằng Accuracy
accuracy = accuracy_score(Y_test,Y_pred)
print(f'Accuracy (Phân loại): {accuracy}')

# Báo cáo chi tiết kết quả dự đoán
print(classification_report(Y_test, Y_pred))


Thời gian huấn luyện mô hình phân loại: 1.8810 giây
Thời gian dự đoán mô hình phân loại: 0.0226 giây
Accuracy (Phân loại): 0.654320987654321
              precision    recall  f1-score   support

           0       0.66      0.73      0.69       262
           1       0.64      0.57      0.60       224

    accuracy                           0.65       486
   macro avg       0.65      0.65      0.65       486
weighted avg       0.65      0.65      0.65       486



**Chạy tất cả chứng khoán trong folder**

In [1]:
import os
import pandas as pd
import time
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.metrics import mean_squared_error, accuracy_score, classification_report

In [2]:
def process_stock_file(file_path):
    # Đọc dữ liệu từ file csv
    df = pd.read_csv(file_path)
    
    # Nếu không đủ dữ liệu, bỏ qua file
    if df.shape[1] < 5:
        return None

    # Tạo các đặc trưng (features) và biến mục tiêu
    X = df[['open', 'high', 'low', 'volume']]
    Y = (df['close'] > df['open']).astype(int)  # Phân loại: xu hướng tăng (1) hoặc giảm (0)

    # Chia dữ liệu cho hồi quy và phân loại
    X_train, X_test,Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
    
    # Biến lưu kết quả
    results = {}
    results['file'] = os.path.basename(file_path)

    # Huấn luyện mô hình Rừng ngẫu nhiên cho hồi quy
    start_time = time.time()
    rf = RandomForestClassifier(n_estimators=100, random_state=42)
    rf.fit(X_train, Y_train)
    train_time = time.time() - start_time

    #Dự báo
    start_time = time.time()
    Y_pred = rf.predict(X_test)
    predict_time = time.time() - start_time

     # Tính độ chính xác
    accuracy = accuracy_score(Y_test, Y_pred)
    results['accuracy'] = accuracy
    results['train_time'] = train_time
    results['predict_time'] = predict_time

    # In kết quả chi tiết cho phân loại
    class_report = classification_report(Y_test, Y_pred, output_dict=True)
    results.update({
        'precision_0': class_report['0']['precision'],
        'recall_0': class_report['0']['recall'],
        'f1_score_0': class_report['0']['f1-score'],
        'precision_1': class_report['1']['precision'],
        'recall_1': class_report['1']['recall'],
        'f1_score_1': class_report['1']['f1-score'],
    })

    return results


In [3]:
def all_stocks(folder, output):
    # Danh sách lưu trữ kết quả cho mỗi file
    all_results = []

    # Duyệt qua từng file trong thư mục
    for file_name in os.listdir(folder):
        if file_name.endswith('.csv'):
            file_path = os.path.join(folder, file_name)
            print(f'Đang xử lý {file_name}...')
            result = process_stock_file(file_path)
            if result:
                all_results.append(result)

    # Chuyển danh sách kết quả thành DataFrame
    results_df = pd.DataFrame(all_results)

    # Ghi kết quả ra file CSV
    results_df.to_csv(output, index=False)
    print(f'Kết quả đã được ghi ra {output}')


In [None]:
# Đường dẫn đến thư mục chứa các file chứng khoán
folder = r'D:\DeTaiNam2024\SoLieu\CK_HOSE_VNSTOCK'

# Đường dẫn đến file kết quả output
output = r'D:\DeTaiNam2024\SoLieu\CK_HOSE_VNSTOCK\output\RandomForest_Classiffication_stock_results_Hose.csv'

# Chạy xử lý tất cả các file trong thư mục và lưu kết quả
all_stocks(folder, output)

Đang xử lý AAA.csv...
Đang xử lý AAM.csv...
Đang xử lý AAT.csv...
Đang xử lý ABR.csv...
Đang xử lý ABS.csv...
Đang xử lý ABT.csv...
Đang xử lý ACB.csv...
Đang xử lý ACC.csv...
Đang xử lý ACG.csv...
Đang xử lý ACL.csv...
Đang xử lý ADG.csv...
Đang xử lý ADP.csv...
Đang xử lý ADS.csv...
Đang xử lý AGG.csv...
Đang xử lý AGM.csv...
Đang xử lý AGR.csv...
Đang xử lý ANV.csv...
Đang xử lý APG.csv...
Đang xử lý APH.csv...
Đang xử lý ASG.csv...
Đang xử lý ASM.csv...
Đang xử lý ASP.csv...
Đang xử lý AST.csv...
Đang xử lý BAF.csv...
Đang xử lý BBC.csv...
Đang xử lý BCE.csv...
Đang xử lý BCG.csv...
Đang xử lý BCM.csv...
Đang xử lý BFC.csv...
Đang xử lý BHN.csv...
Đang xử lý BIC.csv...
Đang xử lý BID.csv...
