In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout, Input
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.optimizers import Adam
from sklearn.model_selection import train_test_split
import pickle

# Xây dựng danh sách các cột features với các lag
lags = range(0, 15)
columns = []
for col in ['body', 'shadow_top', 'shadow_bottom']:
    for lag in lags:
        columns.append(f'{col}_{lag}')

# Load dữ liệu
data = pd.read_csv('./train-data/FINANCIAL_DATA.csv')
# Hàm tạo dataset dạng sliding window với target đã có sẵn (không dùng scaler)
def create_multifeature_dataset(df):
    X = df[columns].values
    Y = df['target'].values
    return X, Y


time_step = 1
X, y = create_multifeature_dataset(data)

X = X.reshape((X.shape[0], 1, X.shape[1]))

# Chia dữ liệu thành tập train và test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Xây dựng mô hình LSTM cho bài toán phân loại nhị phân
model = Sequential([
    Input(shape=(time_step, len(columns))),
    LSTM(300, return_sequences=True),
    LSTM(300, return_sequences=False),
    Dropout(0.2),
    Dense(1, activation='sigmoid')  # Dùng hàm kích hoạt sigmoid cho đầu ra nhị phân
])

# Compile model với loss cho phân loại nhị phân
model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy', tf.keras.metrics.Precision()])

# Định nghĩa callback dừng sớm nếu val_accuracy không cải thiện
early_stopping = EarlyStopping(monitor='val_precision', patience=5, restore_best_weights=True)

# Huấn luyện mô hình
model.fit(X_train, y_train, validation_data=(X_test, y_test), 
          batch_size=64, verbose=1, epochs=1000, callbacks=[early_stopping])

# Lưu model (không lưu scaler vì không sử dụng)
model.save('./model/predict_model_XAUUSD_v2.h5')


In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout, Input
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.optimizers import Adam
import math

# Xây dựng danh sách các cột features với các lag
lags = range(0, 15)
columns = []
for col in ['body', 'shadow_top', 'shadow_bottom']:
    for lag in lags:
        columns.append(f'{col}_{lag}')

# Đường dẫn file CSV và tham số
csv_file = './train-data/FINANCIAL_DATA.csv'
chunksize = 50000   # Số dòng mỗi chunk khi đọc file
batch_size = 64     # Số mẫu mỗi batch huấn luyện

# Hàm đếm số dòng trong file CSV (loại header)
def count_csv_rows(file_path):
    with open(file_path, 'r') as f:
        num_lines = sum(1 for line in f) - 1
    return num_lines

num_samples = count_csv_rows(csv_file)
# Giả sử ta chia 80% cho train và 20% cho validation
num_train = int(num_samples * 0.8)
num_val = num_samples - num_train

# Định nghĩa generator sử dụng pandas.read_csv theo từng chunk
def data_generator(file_path, chunksize):
    # Đọc file CSV theo từng phần (chunk)
    for chunk in pd.read_csv(file_path, chunksize=chunksize):
        # Lấy các cột feature theo danh sách columns và cột target
        X_chunk = chunk[columns].values
        y_chunk = chunk['target'].values
        # Reshape X_chunk thành dạng (số mẫu, time_step, số feature)
        X_chunk = X_chunk.reshape((X_chunk.shape[0], 1, X_chunk.shape[1]))
        # Yield từng mẫu để tf.data có thể batch lại sau
        for i in range(len(X_chunk)):
            yield X_chunk[i], y_chunk[i]

# Tạo tf.data.Dataset từ generator
dataset = tf.data.Dataset.from_generator(
    lambda: data_generator(csv_file, chunksize),
    output_types=(tf.float32, tf.float32),         # Giả sử target dưới dạng số thực (0/1)
    output_shapes=((1, len(columns)), ())           # X có shape (1, số feature), y là scalar
)

# Tách dataset thành phần train và validation dựa trên số dòng đã tính
train_dataset = dataset.take(num_train)
val_dataset = dataset.skip(num_train)

# Batch và prefetch để tăng hiệu năng đọc dữ liệu
train_dataset = train_dataset.batch(batch_size).prefetch(tf.data.AUTOTUNE)
val_dataset = val_dataset.batch(batch_size).prefetch(tf.data.AUTOTUNE)

# Xây dựng mô hình LSTM cho bài toán phân loại nhị phân
time_step = 1
model = Sequential([
    Input(shape=(time_step, len(columns))),
    LSTM(300, return_sequences=True),
    LSTM(300, return_sequences=False),
    Dropout(0.2),
    Dense(1, activation='sigmoid')
])

# Compile model với optimizer Adam và loss cho phân loại nhị phân
model.compile(optimizer=Adam(learning_rate=0.001),
              loss='binary_crossentropy',
              metrics=['accuracy', tf.keras.metrics.Precision()])

# Callback dừng sớm khi val_precision không cải thiện sau 5 epoch
early_stopping = EarlyStopping(monitor='val_precision', patience=5, restore_best_weights=True)

# Xác định số bước mỗi epoch dựa trên số mẫu training
steps_per_epoch = math.ceil(num_train / batch_size)
validation_steps = math.ceil(num_val / batch_size)

# Huấn luyện mô hình sử dụng dataset tạo từ generator
model.fit(
    train_dataset,
    epochs=1000,
    steps_per_epoch=steps_per_epoch,
    validation_data=val_dataset,
    validation_steps=validation_steps,
    callbacks=[early_stopping],
    verbose=1
)

# Lưu mô hình đã huấn luyện
model.save('./model/predict_model_XAUUSD_v3.h5')


In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Dense, Dropout, LayerNormalization, GlobalAveragePooling1D
from tensorflow.keras.layers import MultiHeadAttention
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.optimizers import Adam
import math

# Định nghĩa lớp TransformerBlock
class TransformerBlock(tf.keras.layers.Layer):
    def __init__(self, embed_dim, num_heads, ff_dim, rate=0.1):
        super(TransformerBlock, self).__init__()
        self.att = MultiHeadAttention(num_heads=num_heads, key_dim=embed_dim)
        self.ffn = tf.keras.Sequential([
            Dense(ff_dim, activation="relu"),
            Dense(embed_dim)
        ])
        self.layernorm1 = LayerNormalization(epsilon=1e-6)
        self.layernorm2 = LayerNormalization(epsilon=1e-6)
        self.dropout1 = Dropout(rate)
        self.dropout2 = Dropout(rate)
    
    def call(self, inputs, training=False):
        attn_output = self.att(inputs, inputs)
        attn_output = self.dropout1(attn_output, training=training)
        out1 = self.layernorm1(inputs + attn_output)
        ffn_output = self.ffn(out1)
        ffn_output = self.dropout2(ffn_output, training=training)
        return self.layernorm2(out1 + ffn_output)

# Xây dựng danh sách các cột features với các lag
lags = range(0, 15)
columns = []
for col in ['body', 'shadow_top', 'shadow_bottom']:
    for lag in lags:
        columns.append(f'{col}_{lag}')

# Tham số đọc CSV và huấn luyện
csv_file = './train-data/FINANCIAL_DATA.csv'
chunksize = 50000   # Số dòng mỗi chunk khi đọc file
batch_size = 64     # Số mẫu mỗi batch huấn luyện
time_step = 1       # Lưu ý: với Transformer bạn có thể cân nhắc dùng chuỗi dài hơn nếu có thể

# Generator đọc CSV theo từng phần (chunk)
def data_generator(file_path, chunksize):
    # Đọc CSV theo từng chunk để tiết kiệm bộ nhớ
    for chunk in pd.read_csv(file_path, chunksize=chunksize):
        # Lấy các cột features và cột target
        X_chunk = chunk[columns].values
        y_chunk = chunk['target'].values
        # Reshape X_chunk thành dạng (số mẫu, time_step, số feature)
        X_chunk = X_chunk.reshape((X_chunk.shape[0], time_step, X_chunk.shape[1]))
        # Yield từng mẫu một để tf.data có thể batch sau này
        for i in range(len(X_chunk)):
            yield X_chunk[i], y_chunk[i]

# Hàm đếm số dòng trong file CSV (loại header)
def count_csv_rows(file_path):
    with open(file_path, 'r') as f:
        num_lines = sum(1 for line in f) - 1
    return num_lines

num_samples = count_csv_rows(csv_file)
# Chia 80% train và 20% validation
num_train = int(num_samples * 0.8)
num_val = num_samples - num_train

# Tạo tf.data.Dataset từ generator
dataset = tf.data.Dataset.from_generator(
    lambda: data_generator(csv_file, chunksize),
    output_types=(tf.float32, tf.float32),
    output_shapes=((time_step, len(columns)), ())
)

# Tách dataset thành train và validation dựa trên số dòng đã tính
train_dataset = dataset.take(num_train)
val_dataset = dataset.skip(num_train)

# Batch và prefetch để tăng hiệu năng đọc dữ liệu
train_dataset = train_dataset.batch(batch_size).prefetch(tf.data.AUTOTUNE)
val_dataset = val_dataset.batch(batch_size).prefetch(tf.data.AUTOTUNE)

# Tham số cho mô hình Transformer
embed_dim = 64       # Kích thước embedding
num_heads = 4        # Số heads của MultiHeadAttention
ff_dim = 128         # Số nút trong feed-forward network
dropout_rate = 0.2
num_transformer_blocks = 2  # Số lớp transformer

# Xây dựng mô hình Transformer bằng Functional API
inputs = Input(shape=(time_step, len(columns)))
x = Dense(embed_dim)(inputs)
for _ in range(num_transformer_blocks):
    x = TransformerBlock(embed_dim, num_heads, ff_dim, dropout_rate)(x)
x = GlobalAveragePooling1D()(x)
x = Dropout(dropout_rate)(x)
outputs = Dense(1, activation='sigmoid')(x)

model = Model(inputs=inputs, outputs=outputs)

# Compile model với loss và metric cho phân loại nhị phân
model.compile(optimizer=Adam(learning_rate=0.001), 
              loss='binary_crossentropy', 
              metrics=['accuracy', tf.keras.metrics.Precision()])

# Callback dừng sớm nếu val_precision không cải thiện sau 5 epochs
early_stopping = EarlyStopping(monitor='val_precision', patience=5, restore_best_weights=True)

# Huấn luyện mô hình sử dụng dataset được tạo từ generator
model.fit(
    train_dataset,
    epochs=1000,
    validation_data=val_dataset,
    callbacks=[early_stopping],
    verbose=1
)

# Lưu model đã huấn luyện
model.save('./model/predict_model_XAUUSD_transformer_v2.h5')
