In [None]:
import os
import pandas as pd
import numpy as np
from datetime import timedelta, datetime
import datetime as dt
import pandas_ta as ta
import yfinance as yf
import copy
from pymongo import MongoClient

import warnings
warnings.filterwarnings("ignore")
warnings.simplefilter('ignore', category=FutureWarning)
pd.options.mode.chained_assignment = None

#### Chuẩn bị các dữ liệu

##### Các dữ liệu dùng để làm map tham chiếu

In [None]:
#Đọc name map để chuyển đỏi các tên thành dạng full
name_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'order'],axis=1)
name_map_dict = name_map.set_index('code')['full_name'].to_dict()

order_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'full_name'],axis=1)
order_map_dict = order_map.set_index('code')['order'].to_dict()

group_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['order', 'full_name'],axis=1)
group_map_dict = group_map.set_index('code')['group'].to_dict()



#Tạo các danh sách nhóm trong mỗi cách chia cổ phiếu
all_stock_key_list = [key for key, value in group_map_dict.items() if value == 'all']
industry_name_list = [key for key, value in group_map_dict.items() if value in ['hsA', 'hsB', 'hsC', 'hsD']]
industry_perform_list = [key for key, value in group_map_dict.items() if value == 'hs']
marketcap_group_list = [key for key, value in group_map_dict.items() if value == 'cap']

#Tạo danh danh key cho tổng tất cả các nhóm
group_stock_key_list = all_stock_key_list + industry_name_list + industry_perform_list + marketcap_group_list

In [None]:
def get_file_name_list(folder_path):
    file_name_list = []
    files = os.listdir(folder_path)
    for file in files:
        file_name_list.append(file[:-4])
    return file_name_list

def filter_market_file_name_list(file_name_list):
    filtered_list = [item for item in file_name_list if not (item.endswith('_AC') or item.endswith('_CC'))]
    return filtered_list

eod_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\stock"
eod_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\index"
eod_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\futures"
itd_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\stock"
itd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\index"
itd_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\futures"
nn_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\foreign"
td_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\prop"
nntd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\market"
other_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\other"

In [None]:
#Tạo dict map thời gian và số lượng cổ phiếu
period_map = pd.read_excel("xlsx_data/period_stock_list.xlsx", sheet_name='period_map')
period_map_dict = period_map.set_index('index').apply(lambda row: row.tolist(), axis=1).to_dict()
quarter_name_list = list(period_map_dict.keys())

#Xoá đi quý hiện tại để chỉ tính toán tới quý trước đó
def get_quarter(name):
    now = datetime.now()
    year = now.year
    month = now.month
    if 1 <= month <= 3:
        quarter = "q1"
        previous_quarter = "q4"
        previous_year = year - 1
    elif 4 <= month <= 6:
        quarter = "q2"
        previous_quarter = "q1"
        previous_year = year
    elif 7 <= month <= 9:
        quarter = "q3"
        previous_quarter = "q2"
        previous_year = year
    else:
        quarter = "q4"
        previous_quarter = "q3"
        previous_year = year
    
    if name == 'current_quarter':
        return f'{quarter}_{year}'
    if name == 'previous_quarter':
        return f'{previous_quarter}_{previous_year}'

#Lấy ra list cổ phiếu của giai đoạn hiện tại
period_stock_list = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='period_stock_list')

current_quarter_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) 
                                  & set(period_stock_list[get_quarter('current_quarter')].dropna().tolist()))

total_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) & set(period_stock_list['all'].dropna().tolist()))

#Lấy ra khoảng thời gian tính toán cho quý này và quý trước
calculate_time_span = [period_map_dict['q2_2020'][0], period_map_dict[get_quarter('current_quarter')][1]]
current_quarter_span = [period_map_dict[get_quarter('current_quarter')][0], period_map_dict[get_quarter('current_quarter')][1]]
previous_quarter_span = [period_map_dict[get_quarter('previous_quarter')][0], period_map_dict[get_quarter('previous_quarter')][1]]

##### Các biến thời gian

In [None]:
def decode_data(file_path):
    # Đọc dữ liệu vào một numpy array
    data = np.fromfile(file_path, dtype=np.uint8)

    # Giả định kích thước mỗi bản ghi (có thể thay đổi tùy theo cấu trúc tệp thực tế)
    record_size = 32  # Giả định
    num_records = len(data) // record_size

    # Số lượng cột dữ liệu (bao gồm ngày, thời gian và các giá trị int32 còn lại)
    num_columns = record_size // 4  # Mỗi giá trị int32 chiếm 4 byte

    # Sử dụng numpy để cắt và giải mã dữ liệu hiệu quả hơn
    # Tạo một numpy array để chứa các giá trị int32 và float32
    raw_data = data.reshape(num_records, record_size // 4, 4)

    # Giải mã ngày và thời gian (int32) ở cột 0 và 1, các cột còn lại là float32
    int_data = raw_data[:, :2].view(np.int32)  # Giải mã int32 (2 cột)
    float_data = raw_data[:, 2:].view(np.float32)  # Giải mã float32 (các cột còn lại)

    # Kết hợp dữ liệu
    records = np.hstack((int_data, float_data))

    # Đảm bảo rằng dữ liệu là 2D
    records = records.reshape(num_records, num_columns)

    # Đảo ngược lại dữ liệu trước khi chuyển thành DataFrame
    records = records[::-1]

    # Chuyển đổi thành DataFrame và loại bỏ dòng đầu tiên
    df = pd.DataFrame(records, columns=[f"Col_{i}" for i in range(num_columns)])
    return df  # Loại bỏ đi dòng dữ liệu đầu tiên không cần thiết

In [None]:
def clean_eod_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_7'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume']
    
    return df_clean.reset_index(drop=True)

def clean_itd_data(df_raw):
    #Lọc ra đúng 1 ngày dữ liệu cuối cùng
    df_raw = df_raw[df_raw['Col_0'] == max(df_raw['Col_0'])]
    #Tạo cột date-time mới từ 2 cột date và time cũ
    df_raw['date'] = df_raw['Col_0'].astype(int).astype(str) + ' ' + df_raw['Col_1'].astype(int).astype(str)
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_0', 'Col_1', 'Col_7'])
    #Sắp xếp lại thứ tự các cột
    df_clean = df_clean[['date'] + [f"Col_{i}" for i in range(2, len(df_clean.columns)+1)]]
    # #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['date'] = pd.to_datetime(df_clean['date'], format='%Y%m%d %H%M%S')
    # #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume']
    #Làm tròn khung thời gian tới 5 phút
    df_clean['date'] = df_clean['date'].dt.floor('1T')
    df_clean = df_clean.set_index("date").resample("1T", closed='right', label='right').agg({    
        "open": "first",  
        "high": "max",  
        "low": "min", 
        "close": "last",  
        "volume": "sum"   
    }).dropna().reset_index()

    return df_clean.sort_values(by="date", ascending=False).reset_index(drop=True)

In [None]:
#Khởi tạo vnindex_series để xác định ngày hiện tại
vnindex_series = clean_eod_data(decode_data(eod_index_folder_path + '\\VNINDEX.dat'))['date']

#Tạo date_series cho thời gian tính toán
date_series = pd.DataFrame(vnindex_series).rename(columns={0:'date'})
date_series = date_series[(date_series['date'] >= calculate_time_span[0]) & (date_series['date'] <= calculate_time_span[1])]

#Xác định ngày hiện tại
today = vnindex_series.iloc[0]

#Xác định thời gian hiện tại
current_time = clean_itd_data(decode_data(itd_index_folder_path + '\\HNXINDEX.dat'))['date'].iloc[0]

#Khởi tạo time_series bao gồm tất cả khung thời gian của ngày hiện tại
time_series_list = []
time_series_list.extend(pd.date_range(start=f'{today} 09:00:00', end=f'{today} 11:25:00', freq='1T'))
time_series_list.extend(pd.date_range(start=f'{today} 13:00:00', end=f'{today} 14:59:00', freq='1T'))
time_series = pd.DataFrame(time_series_list).rename(columns={0:'date'})

#Điều chỉnh lại time_series bỏ đi các hàng thời gian chưa có dữ liệu
time_series = time_series.loc[time_series['date'].dt.time <= current_time.time()].sort_values('date', ascending=False).reset_index(drop=True)

#Khởi tạo khung thời gian bắt đầu từ 9h00 để vẽ các biểu đồ
itd_series = pd.DataFrame(time_series_list).rename(columns={0:'date'}).sort_values('date', ascending=False).reset_index(drop=True)

#Đọc file phân bổ thanh khoản trong phiên
itd_time_percent = pd.read_excel('xlsx_data/itd_time_percent.xlsx')
#Chuyển đổi ngày thành này hôm nay
itd_time_percent['date'] = itd_time_percent['date'].apply(lambda x: today.replace(hour=x.hour, minute=x.minute, second=x.second))
#Khởi tạo hệ số thời gian
current_time_percent = itd_time_percent[itd_time_percent['date'] == current_time]['percent'].item()

##### Đọc dữ liệu cổ phiếu từ file .dat và lưu vào dict

In [None]:
def clean_stock_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Tạo cột cap cho cổ phiếu
    df_raw['cap'] = (df_raw['Col_5'] * df_raw['Col_7'])/1000000
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_7'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'cap']

    return df_clean.reset_index(drop=True)

def clean_index_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
    #Điều chỉnh lại giá trị các cột
    df_clean['option'] = df_clean['option']/1000000000
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'spot')
    
    return df_clean.reset_index(drop=True)

def clean_futures_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'futures')
    
    return df_clean.reset_index(drop=True)

index_dict = {}
for ticker in get_file_name_list(eod_index_folder_path):
    temp_file_path = eod_index_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_index_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean
for ticker in get_file_name_list(eod_futures_folder_path):
    temp_file_path = eod_futures_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_futures_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean

stock_dict = {}
for ticker in total_stock_list:
    if ticker not in get_file_name_list(eod_stock_folder_path):
        pass
    else:
        temp_file_path = eod_stock_folder_path + f'\\{ticker}.dat'
        temp_df_raw = decode_data(temp_file_path)
        temp_df_clean = clean_stock_data(temp_df_raw)
        temp_df_clean.insert(0, 'ticker', ticker)
        stock_dict[ticker] = temp_df_clean


##### Đọc dữ liệu nhóm từ MongoDB

In [None]:
mongo_client = MongoClient("mongodb://t2m:t2minvest@14.225.192.30:27017/?authSource=admin")
stock_db = mongo_client["stock_db"]

def get_mongo_df(df_name, find_query=None, projection=None):
    # Truy cập collection
    collection = stock_db[df_name]
    # Nếu không truyền vào find_query thì mặc định lấy tất cả document
    if find_query is None:
        find_query = {}
    # Nếu không truyền vào projection thì mặc định loại bỏ trường _id
    if projection is None:
        projection = {"_id": 0}
    # Thực hiện lệnh find với điều kiện và projection đã cho
    docs = collection.find(find_query, projection)
    # Chuyển đổi kết quả sang DataFrame và trả về
    df = pd.DataFrame(list(docs))
    return df

In [None]:
#Đọc dữ liệu lịch sử cổ phiếu
eod_stock_df = get_mongo_df("eod_stock", projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, "t0_score": 1, "t5_score": 1, "year_open": 1, "MFIBO_0618": 1, "YFIBO_0618": 1, "RSI_14": 1})
history_stock_df = get_mongo_df("history_stock", projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, "t0_score": 1, "t5_score": 1, "year_open": 1, "MFIBO_0618": 1, "YFIBO_0618": 1, "RSI_14": 1})
full_stock_df = pd.concat([eod_stock_df, history_stock_df], axis=0).reset_index(drop=True)

#Tạo lại stock_dict từ dữ liệu monggoDB
stock_dict = {}
for ticker in full_stock_df['ticker'].unique():
    stock_dict[ticker] = full_stock_df[full_stock_df['ticker'] == ticker].reset_index(drop=True)

#Đọc dữ liệu lịch sử cổ phiếu
eod_index_df = get_mongo_df("eod_index", projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, "t0_score": 1, "t5_score": 1, "year_open": 1, "MFIBO_0618": 1, "YFIBO_0618": 1, "RSI_14": 1})
history_index_df = get_mongo_df("history_index", find_query={"type": "spot"}, projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, "t0_score": 1, "t5_score": 1, "year_open": 1, "MFIBO_0618": 1, "YFIBO_0618": 1, "RSI_14": 1})
full_index_df = pd.concat([eod_index_df, history_index_df], axis=0).reset_index(drop=True)

#Đọc dữ liệu điểm dòng tiền nhóm cổ phiếu
eod_group_df = get_mongo_df("eod_group")
history_group_df = get_mongo_df("history_group")
full_group_df = pd.concat([eod_group_df, history_group_df], axis=0).reset_index(drop=True)

#Đọc dữ liệu điểm dòng tiền âm dương nhóm cổ phiếu
eod_signed_group_df = get_mongo_df("eod_signed_group")
history_signed_group_df = get_mongo_df("history_signed_group")
itd_signed_group_df = get_mongo_df("itd_signed_group")
full_signed_group_df = pd.concat([eod_signed_group_df, history_signed_group_df], axis=0).reset_index(drop=True)

#Đọc dữ liệu ms lịch sử
eod_ms_chart_df = get_mongo_df("eod_ms_chart")
history_ms_chart_df = get_mongo_df("history_ms_chart")
full_ms_chart_df = pd.concat([eod_ms_chart_df, history_ms_chart_df], axis=0).reset_index(drop=True)

#### Tín hiệu thị trường

##### Các hàm tính toán

In [None]:
def calculate_market_ms(ms_df):
    # Tạo bản sao của DataFrame để không làm thay đổi dữ liệu gốc
    df = ms_df.copy()

    # --- Tính toán các cột shift cho trend_5p ---
    df['5p_shift1'] = df['trend_5p'].shift(-1)
    df['5p_shift2'] = df['trend_5p'].shift(-2)
    df['5p_shift5'] = df['trend_5p'][::-1].rolling(window=5, min_periods=1).mean()[::-1].shift(-1)
    df['5p_diff1'] = df['trend_5p'][::-1].diff()[::-1]
    df['5p_diff5'] = df['trend_5p'] - df['5p_shift5']
    
    # --- Tính toán các cột shift cho trend_20p ---
    df['20p_shift1'] = df['trend_20p'].shift(-1)
    df['20p_shift2'] = df['trend_20p'].shift(-2)
    df['20p_shift5'] = df['trend_20p'][::-1].rolling(window=5, min_periods=1).mean()[::-1].shift(-1)
    df['20p_diff1'] = df['trend_20p'][::-1].diff()[::-1]
    df['20p_diff5'] = df['trend_20p'] - df['20p_shift5']

    # --- Tính toán các cột shift cho trend_60p ---
    df['60p_shift1'] = df['trend_60p'].shift(-1)
    df['60p_shift2'] = df['trend_60p'].shift(-2)

    # --- Tín hiệu mua (buy) ---
    # So sánh giá trị hiện tại với các giá trị dịch chuyển
    df['buy_ms5p_check'] = ((df['trend_5p'] > df['5p_shift1']) & (df['trend_5p'] > df['5p_shift5'])).astype(int)
    df['buy_ms20p_check'] = ((df['trend_20p'] > df['20p_shift1']) & (df['trend_20p'] > df['20p_shift5'])).astype(int)
    df['buy_ms60p_check'] = ((df['trend_60p'] > df['60p_shift1']) & (df['trend_60p'] > df['60p_shift2'])).astype(int)

    # Kiểm tra xem giá có ở mức quá cao không
    df['buy_overprice_check'] = ((df['5p_diff1'] > 0.4) | ((df['trend_5p'] < 0.9) & (df['trend_20p'] < 0.9))).astype(int)

    # Kiểm tra giá trị biến động của xu hướng
    buy_threshold_5p = 0.3
    buy_threshold_20p = 0.2
    df['buy_msvalue_check'] = ( (df['5p_diff1'] > 0.4) | 
            (((df['5p_shift1'] > buy_threshold_5p) & (df['trend_5p'] > buy_threshold_5p)) | ((df['5p_shift1'] < buy_threshold_5p) & (df['trend_5p'] > buy_threshold_5p) & (df['5p_diff1']*0.3 < (df['trend_5p'] - buy_threshold_5p)))) &
            (((df['20p_shift1'] > buy_threshold_20p) & (df['trend_20p'] > buy_threshold_20p)) | ((df['20p_shift1'] < buy_threshold_20p) & (df['trend_20p'] > buy_threshold_20p) & (df['20p_diff1']*0.1 < (df['trend_20p'] - buy_threshold_20p))))
        ).astype(int)

    # Tính tín hiệu mua dựa trên tất cả các điều kiện
    df['buy_check'] = df.apply(
        lambda x: 1 if (x['buy_ms5p_check'] == 1 and x['buy_ms20p_check'] == 1 and 
                        x['buy_ms60p_check'] == 1 and x['buy_overprice_check'] == 1 and 
                        x['buy_msvalue_check'] == 1)
                  else (2 if x['buy_overprice_check'] == 0 else 0),
        axis=1
    )

    # --- Tín hiệu bán (sell) ---
    df['sell_ms5p_check'] = ((df['trend_5p'] < df['5p_shift1']) | (df['trend_5p'] < df['5p_shift2'])).astype(int)
    df['sell_ms20p_check'] = ((df['trend_20p'] < df['20p_shift1']) | (df['trend_20p'] < df['20p_shift2'])).astype(int)

    # Kiểm tra xem giá có ở mức quá thấp không (underprice)
    df['sell_underprice_check'] = ((df['trend_5p'] > 0.1) & (df['trend_20p'] > 0.1)).astype(int)

    # Kiểm tra giá trị biến động cho tín hiệu bán
    sell_threshold_5p = 0.4
    sell_threshold_20p = 0.5
    df['sell_msvalue_check'] = ( (df['5p_diff1'] < -0.4) |
                                
        (((df['5p_shift1'] < sell_threshold_5p) & (df['trend_5p'] < sell_threshold_5p)) | ((df['5p_shift1'] > sell_threshold_5p) & (df['trend_5p'] < sell_threshold_5p) & (-df['5p_diff1']*0.3 < (sell_threshold_5p - df['trend_5p'])))) &
        (((df['20p_shift1'] < sell_threshold_20p) & (df['trend_20p'] < sell_threshold_20p)) | ((df['20p_shift1'] > sell_threshold_20p) & (df['trend_20p'] < sell_threshold_20p) & (-df['20p_diff1']*0.1 < (sell_threshold_20p - df['trend_20p'])))) &
        
        (df['trend_60p'] < 0.7)
    ).astype(int)
    
    # Tính tín hiệu bán dựa trên tất cả các điều kiện
    df['sell_check'] = df.apply(
        lambda x: 1 if (x['sell_ms5p_check'] == 1 and x['sell_ms20p_check'] == 1 and 
                        x['sell_underprice_check'] == 1 and x['sell_msvalue_check'] == 1)
                  else (2 if x['sell_underprice_check'] == 0 else 0),
        axis=1
    )

    return df[['date','trend_5p','trend_20p','trend_60p','buy_ms5p_check','buy_ms20p_check','buy_ms60p_check','buy_overprice_check','buy_msvalue_check','sell_ms5p_check','sell_ms20p_check','sell_underprice_check','sell_msvalue_check','buy_check','sell_check']]

In [None]:
def calculate_market_phase_raw(df):
    """
    Tính toán cột 'market_phase_raw' dựa trên các điều kiện:
      - Nếu 'buy_check' == 2         => market_phase_raw = 2
      - Nếu 'buy_check' == 1 và 'score_check' == 1 => market_phase_raw = 1
      - Nếu 'sell_check' == 1        => market_phase_raw = -1
      - Nếu 'sell_check' == 2        => market_phase_raw = -2
      - Các trường hợp khác           => market_phase_raw = NaN

    Sau đó, thực hiện backfill (bfill) cho các giá trị thiếu (NaN) và ép dòng cuối cùng về 1.
    
    Parameters:
      df (DataFrame): DataFrame chứa các cột 'buy_check', 'score_check', 'sell_check'.
    
    Returns:
      Series: cột 'market_phase_raw' sau khi tính toán và xử lý.
    """
    df_copy = df.copy()

    conditions = [
        df_copy['buy_check'] == 2,
        (df_copy['buy_check'] == 1) & (df_copy['score_check'] == 1),
        df_copy['sell_check'] == 1,
        df_copy['sell_check'] == 2
    ]
    choices = [2, 1, -1, -2]
    
    # Tạo cột market_phase_raw theo điều kiện, nếu không thỏa thì gán NaN
    df_copy['market_phase_raw'] = np.select(conditions, choices, default=np.nan)
    
    # Sử dụng backfill để lấp đầy các giá trị NaN
    df_copy['market_phase_raw'] = df_copy['market_phase_raw'].bfill()
    
    # Đảm bảo dòng cuối cùng luôn là 1 (mua)
    df_copy.loc[df_copy.index[-1], 'market_phase_raw'] = 1
    
    return df_copy['market_phase_raw']

In [None]:
def adjust_market_phase(df):
    """
    Hàm nhận vào DataFrame có cột 'market_phase_raw' (các giá trị: 1, 2, -1, -2)
    và tạo cột binary (1: mua, 0: bán) theo quy tắc kiểm tra từ dưới lên trên với “khóa” trạng thái:
    
      - Dòng cuối (thời gian mới nhất) được xác định theo dấu của market_phase_raw:
            Nếu > 0 -> 1 (mua), nếu < 0 -> 0 (bán).
      - Khi duyệt ngược từ dưới lên trên:
          + Nếu trạng thái hiện hành là mua (state > 0):
                - Nếu gặp tín hiệu âm:
                      * Nếu tín hiệu là -1: chuyển sang bán (state = -1).
                      * Nếu tín hiệu là -2: giữ mua (không cập nhật state).
                - Nếu gặp tín hiệu dương:
                      * Nếu state hiện hành là 2 và tín hiệu mới là 1, thì giữ lại state = 2.
                      * Các trường hợp khác: cập nhật state = tín hiệu mới.
          + Nếu trạng thái hiện hành là bán (state < 0):
                - Nếu gặp tín hiệu dương:
                      * Nếu tín hiệu là 1: chuyển sang mua (state = 1).
                      * Nếu tín hiệu là 2: giữ bán (không cập nhật state).
                - Nếu gặp tín hiệu âm:
                      * Nếu state hiện hành là -2 và tín hiệu mới là -1, thì giữ lại state = -2.
                      * Các trường hợp khác: cập nhật state = tín hiệu mới.
          + Sau mỗi bước, gán binary[i] = 1 nếu state > 0, ngược lại 0.
    """
    phases = df['market_phase_raw'].tolist()
    n = len(phases)
    binary = [None] * n

    # Dòng cuối cùng: xác định trạng thái theo tín hiệu của nó
    state = phases[-1]
    binary[-1] = 1 if state > 0 else 0

    # Duyệt ngược từ dòng áp chót về đầu DataFrame
    for i in range(n - 2, -1, -1):
        p = phases[i]
        if state > 0:  # Hiện đang ở trạng thái mua
            if p < 0:
                # Nếu tín hiệu âm: chỉ chuyển nếu là -1 (đảo chiều)
                if p == -1:
                    state = -1
                elif p == -2:
                    # Tín hiệu -2 không làm chuyển trạng thái, giữ mua
                    pass
            elif p > 0:
                # Nếu tín hiệu dương: kiểm tra "khóa" trạng thái mua
                # Nếu đang ở phase 2 và tín hiệu mới là 1, thì giữ phase 2 (không giảm xuống phase 1)
                if state == 2 and p == 1:
                    pass
                else:
                    state = p
            # Nếu p == 0 (không có tín hiệu) thì giữ nguyên state
        else:  # state < 0, hiện đang ở trạng thái bán
            if p > 0:
                # Nếu tín hiệu dương: chỉ chuyển nếu tín hiệu là 1 (đảo chiều)
                if p == 1:
                    state = 1
                elif p == 2:
                    # Tín hiệu 2 không làm chuyển trạng thái, giữ bán
                    pass
            elif p < 0:
                # Nếu tín hiệu âm: kiểm tra "khóa" trạng thái bán
                # Nếu đang ở phase -2 và tín hiệu mới là -1, thì giữ phase -2 (không giảm xuống -1)
                if state == -2 and p == -1:
                    pass
                else:
                    state = p
            # Nếu p == 0 thì giữ nguyên
        binary[i] = 1 if state > 0 else 0

    return binary


In [None]:
def final_market_phase_T3(df):
    # Tạo bản sao của DataFrame để không làm thay đổi dữ liệu gốc
    df_copy = df.copy()
    
    # Tạo cột market_phase_final dựa trên cột market_phase gốc
    df_copy['market_phase_final'] = df_copy['market_phase_adj']
    # Tạo cột tín hiệu T3, khởi tạo giá trị bằng 0
    df_copy['t3_signal'] = 0

    # Lặp ngược từ len(df_copy)-4 đến 0 để đảm bảo các phiên sau đã được xử lý
    for i in range(len(df_copy) - 4, -1, -1):
        current = df_copy['market_phase_final'].iloc[i]
        next_val = df_copy['market_phase_final'].iloc[i+1]
        next2 = df_copy['market_phase_final'].iloc[i+2]
        next3 = df_copy['market_phase_final'].iloc[i+3]

        # Nếu giá trị của phiên tiếp theo lớn hơn phiên sau và lớn hơn phiên hiện tại
        if (next_val > next2) and (next_val > current):
            # Cập nhật market_phase_final tại vị trí i với giá trị của phiên tiếp theo
            df_copy.at[df_copy.index[i], 'market_phase_final'] = next_val
            # Gán tín hiệu T3 bằng 2 (còn 2 phiên nữa mới bán được)
            df_copy.at[df_copy.index[i], 't3_signal'] = 2
        # Nếu giá trị của phiên thứ 2 sau lớn hơn phiên thứ 3 và phiên tiếp theo lớn hơn phiên hiện tại
        elif (next2 > next3) and (next_val > current):
            df_copy.at[df_copy.index[i], 'market_phase_final'] = next_val
            # Gán tín hiệu T3 bằng 1 (còn 1 phiên nữa mới bán được)
            df_copy.at[df_copy.index[i], 't3_signal'] = 1

    # Trả về 2 cột mới: market_phase_final và t3_signal
    return df_copy['market_phase_final']


##### Tạo bảng tín hiệu thị trường

In [None]:
#Tách bảng điểm dòng tiền thanh bảng dòng tiền âm và dương
group_positive_df = full_signed_group_df[full_signed_group_df['type']=='pos'].drop(columns=['type']).reset_index(drop=True)
group_negative_df = full_signed_group_df[full_signed_group_df['type']=='neg'].drop(columns=['type']).reset_index(drop=True)

#Tính phân bổ vốn hoá tổng chưa điều chỉnh
market_phase_df = date_series.copy()

#Tính dòng tiền vào và ra trung trung trong 5 phiên
market_phase_df[['hsA+','hsB+','hsC+','hsD+']] = group_positive_df[industry_perform_list][::-1].rolling(window=5, min_periods=1).mean()[::-1]
market_phase_df[['hsA-','hsB-','hsC-','hsD-']] = group_negative_df[industry_perform_list][::-1].rolling(window=5, min_periods=1).mean().abs()[::-1]

#Tính tỉ lệ dòng tiền vào/ra, nhân theo tỉ lệ và tạo cột score check để kiểm tra điều kiện dòng tiền
market_phase_df['hsA_score'] = ((market_phase_df['hsA+'] - market_phase_df['hsA-']) / (market_phase_df['hsA+'] + market_phase_df['hsA-'])) * 0.3
market_phase_df['hsB_score'] = (market_phase_df['hsB+'] - market_phase_df['hsB-']) / (market_phase_df['hsB+'] + market_phase_df['hsB-']) * 0.3
market_phase_df['hsC_score'] = (market_phase_df['hsC+'] - market_phase_df['hsC-']) / (market_phase_df['hsC+'] + market_phase_df['hsC-']) * 0.3
market_phase_df['hsD_score'] = (market_phase_df['hsD+'] - market_phase_df['hsD-']) / (market_phase_df['hsD+'] + market_phase_df['hsD-']) * 0.1
market_phase_df = market_phase_df.drop(columns=['hsA+', 'hsB+', 'hsC+', 'hsD+', 'hsA-', 'hsB-', 'hsC-', 'hsD-'])
market_phase_df['market_score'] = market_phase_df[['hsA_score','hsB_score','hsC_score','hsD_score']].sum(axis=1)
market_phase_df['score_check'] = market_phase_df.apply(lambda x: 1 if (x['market_score'] > 0.2) & (x['hsA_score'] > 0.1) & (x['hsC_score'] > 0.07) else 0, axis=1)

#Ghép bảng phase với bảng MS để thêm các cột tín hiệu từ MS
market_ms_chart_df = full_ms_chart_df[full_ms_chart_df['ticker']=='all'][['date','trend_5p','trend_20p','trend_60p']]
market_ms_chart_df = calculate_market_ms(market_ms_chart_df).sort_values('date', ascending=False).reset_index(drop=True)
market_phase_df = market_phase_df.merge(market_ms_chart_df, on='date', how='left')

#Điều chỉnh lại các giai đoạn mua bán tạo thành 2 giai đoạn chính mua (1) và bán (0)
market_phase_df['market_phase_raw'] = calculate_market_phase_raw(market_phase_df)
market_phase_df['market_phase_adj'] = adjust_market_phase(market_phase_df)
market_phase_df['market_phase_final'] = final_market_phase_T3(market_phase_df)

##### Tạo bảng hiệu suất của tín hiệu thị trường

In [None]:
def calculate_pct_return(df, phase_column):
    df_copy = df.copy()
    
    df_copy['return'] = 0
    for i in range(len(df_copy) - 3, -1, -1):
        #Ngày đầu tiên có tín hiệu, ví là tín hiệu vào cuối phiên nên ko tính return
        if df_copy.at[i, phase_column] == 1 and df_copy.at[i+1, phase_column] == 0 and df_copy.at[i+2, phase_column] == 0:
            df_copy.at[i, 'return'] = 0
        #Ngày đầu tiên tính return, tức là ngày thứ 2 kể từ cuối phiên biết có tín hiệu
        elif df_copy.at[i, phase_column] == 1 and df_copy.at[i+1, phase_column] == 1 and df_copy.at[i+2, phase_column] == 0:
            df_copy.at[i, 'return'] = (df_copy.at[i, 'close'] - df_copy.at[i, 'open']) / df_copy.at[i, 'open']
        #Các ngày giữa chu kì mua thì tính return bằng giá close như bình thường
        elif df_copy.at[i, phase_column] == 1 and df_copy.at[i+1, phase_column] == 1 and df_copy.at[i+2, phase_column] == 1:
            df_copy.at[i, 'return'] = (df_copy.at[i, 'close'] - df_copy.at[i+1, 'close']) / df_copy.at[i+1, 'close']
        #Ngày cuối cùng của tín hiệu, tính return dựa vào giá open vì sẽ bán ATO
        elif df_copy.at[i, phase_column] == 1 and df_copy.at[i+1, phase_column] == 1 and df_copy.at[i+2, phase_column] == 1:
            df_copy.at[i, 'return'] = (df_copy.at[i, 'open'] - df_copy.at[i+1, 'close']) / df_copy.at[i+1, 'close']
        #Các ngày khác return lại tính bằng 0
        else:
            df_copy.at[i, 'return'] = 0

    # Xử lý 2 hàng cuối (không đủ dữ liệu cho i+1, i+2)
    for i in range(len(df_copy) - 2, len(df_copy) - 1):
        if df_copy.at[i, phase_column] == 1:
            df_copy.at[i, 'return'] = (df_copy.at[i, 'close'] - df_copy.at[i, 'open']) / df_copy.at[i, 'open']
        else:
            df_copy.at[i, 'return'] = 0

    return df_copy['return']

In [None]:
def calculate_capital(df, return_column, initial_capital):
    """
    Hàm tính số tiền sau mỗi ngày dựa trên cột return_column (pct return) và số vốn ban đầu.
    Quy tắc tính: 
        capital[t] = initial_capital * (1 + return[t1]) * (1 + return[t2]) * ... * (1 + return[t])
    Trong đó chuỗi tính theo thứ tự thời gian từ ngày cũ nhất đến ngày hiện tại.
    
    Vì DataFrame được sắp xếp giảm dần (hàng đầu tiên là ngày hiện tại),
    ta cần đảo ngược thứ tự để tính tích lũy, sau đó gán kết quả lại cho df ban đầu.
    
    Trả về Series 'capital'.
    """
    # Tạo bản sao và reset index để đảm bảo index liên tục
    df = df.copy().reset_index(drop=True)
    
    # Đảo ngược DataFrame theo thứ tự thời gian tăng dần (ngày cũ nhất ở đầu)
    df_asc = df.iloc[::-1].copy()
    
    # Tính số tiền sau mỗi ngày dựa trên tích lũy pct return
    df_asc['capital'] = initial_capital * (1 + df_asc[return_column]).cumprod()
    
    # Lấy kết quả, reset index để khớp với df ban đầu, rồi gán lại cột 'capital'
    capital_series = df_asc['capital'].iloc[::-1].reset_index(drop=True)
    df['capital'] = capital_series
    
    return df['capital']


In [None]:
#Tạo bảng giá và dòng tiền thị trường, thêm các cột open high low giả để tính hiệu suất đầu tư
market_price_df = full_group_df[full_group_df['ticker']=='all']
market_price_df.insert(2, 'low', market_price_df['close'])
market_price_df.insert(2, 'high', market_price_df['close'])
market_price_df.insert(2, 'open', market_price_df['close'].shift(-1))
market_price_df['open'] = market_price_df['open'].ffill()

#Tính toán return dựa theo giá trị T2M Index
market_price_df = market_price_df.merge(market_phase_df[['date', 'market_phase_final']], on='date', how='left')
market_price_df['market_return'] = calculate_pct_return(market_price_df, 'market_phase_final')
market_price_df['market_cum_return'] = market_price_df['market_return'][::-1].cumsum()[::-1]
market_price_df['market_capital'] = calculate_capital(market_price_df, 'market_return', 1000)

#Tạo bảng vnindex và tính toán return dựa theo vnindex
vnindex_df = full_index_df[full_index_df['ticker']=='VNINDEX'].reset_index(drop=True)
vnindex_df = vnindex_df.merge(market_phase_df[['date', 'market_phase_final']], on='date', how='left')
vnindex_df['vnindex_return'] = calculate_pct_return(vnindex_df, 'market_phase_final')
vnindex_df['vnindex_cum_return'] = vnindex_df['vnindex_return'][::-1].cumsum()[::-1]
vnindex_df['vnindex_capital'] = calculate_capital(vnindex_df, 'vnindex_return', 1000)

#Tính toán dummy return cho vnindex nếu không áp dụng bộ tín hiệu
vnindex_df['dummy_phase'] = 1
vnindex_df['dummy_return'] = calculate_pct_return(vnindex_df, 'dummy_phase')
vnindex_df['dummy_cum_return'] = vnindex_df['dummy_return'][::-1].cumsum()[::-1]
vnindex_df['dummy_capital'] = calculate_capital(vnindex_df, 'dummy_return', 1000)

#Tạo bảng để so sánh hiệu suất đầu tư
market_perform_df = date_series.copy()
market_perform_df[['trend_5p','trend_20p','trend_60p']] = market_ms_chart_df[['trend_5p','trend_20p','trend_60p']]

market_perform_df['market_phase_final'] = market_price_df['market_phase_final']
market_perform_df['market_phase_shifted'] = market_price_df['market_phase_final'].shift(-1).ffill()

market_perform_df['dummy_return'] = vnindex_df['dummy_return']
market_perform_df['dummy_cum_return'] = vnindex_df['dummy_cum_return']
market_perform_df['dummy_capital'] = vnindex_df['dummy_capital']

market_perform_df['vnindex_return'] = vnindex_df['vnindex_return']
market_perform_df['vnindex_cum_return'] = vnindex_df['vnindex_cum_return']
market_perform_df['vnindex_capital'] = vnindex_df['vnindex_capital']

market_perform_df['market_return'] = market_price_df['market_return']
market_perform_df['market_cum_return'] = market_price_df['market_cum_return']
market_perform_df['market_capital'] = market_price_df['market_capital']

#### Tín hiệu từng ngành

##### Tạo bảng hiệu suất tín hiệu ngành

In [None]:
def transform_group_df(df):    
    #Thêm các hàng giả OHCL vào để tính hiệu suất
    df.insert(2, 'low', df['close'])
    df.insert(2, 'high', df['close'])
    df.insert(2, 'open', df['close'].shift(-1))
    df['open'] = df['open'].ffill()
    df['score_check'] = df.apply(lambda x: 1 if (x['t0_score'] > 0) & (x['t5_score'] > 0) else 0, axis=1)
    df = df.drop(columns=['volume','vol_ratio','rank'])
    return df

In [None]:
def calculate_ticker_perform(df):
    #Tính toán return dựa theo giá trị T2M Index
    ticker_perform_df = df.copy()
    ticker_perform_df['ticker_phase_final'] = market_phase_df['market_phase_final']
    ticker_perform_df['ticker_phase_shifted'] = ticker_perform_df['ticker_phase_final'].shift(-1).ffill()

    ticker_perform_df['ticker_return'] = calculate_pct_return(ticker_perform_df, 'ticker_phase_final')
    ticker_perform_df['ticker_cum_return'] = ticker_perform_df['ticker_return'][::-1].cumsum()[::-1]
    ticker_perform_df['ticker_capital'] = calculate_capital(ticker_perform_df, 'ticker_return', 1000)

    #Tính toán dummy return cho vnindex nếu không áp dụng bộ tín hiệu
    ticker_perform_df['dummy_phase'] = 1
    ticker_perform_df['dummy_return'] = calculate_pct_return(ticker_perform_df, 'dummy_phase')
    ticker_perform_df['dummy_cum_return'] = ticker_perform_df['dummy_return'][::-1].cumsum()[::-1]
    ticker_perform_df['dummy_capital'] = calculate_capital(ticker_perform_df, 'dummy_return', 1000)

    ticker_perform_df['dummy_return'] = ticker_perform_df['dummy_return']
    ticker_perform_df['dummy_cum_return'] = ticker_perform_df['dummy_cum_return']
    ticker_perform_df['dummy_capital'] = ticker_perform_df['dummy_capital']

    ticker_perform_df['ticker_return'] = ticker_perform_df['ticker_return']
    ticker_perform_df['ticker_cum_return'] = ticker_perform_df['ticker_cum_return']
    ticker_perform_df['ticker_capital'] = ticker_perform_df['ticker_capital']

    return ticker_perform_df

- Tính hiệu suất cho từng ngành

In [None]:
#Tạo danh sách các ngành chỉ trong hiệu suất ABC để làm tín hiệu
signal_industry_name_list = [key for key, value in group_map_dict.items() if value in ['hsA', 'hsB', 'hsC']]

group_perform_dict = {}
for ticker in signal_industry_name_list:
    temp_df = full_group_df[full_group_df['ticker']==ticker].reset_index(drop=True)
    group_perform_dict[ticker] = calculate_ticker_perform(transform_group_df(temp_df))

full_group_perform_df = pd.DataFrame()
last_group_perform_df = pd.DataFrame()
for ticker, df in group_perform_dict.items():
    full_group_perform_df = pd.concat([full_group_perform_df, df], axis=0)
    last_group_perform_df = pd.concat([full_group_perform_df, df.iloc[[0]]], axis=0)

- Tính hiệu suất toàn bộ cổ phiếu

In [None]:
stock_perform_dict = {}
for ticker in full_stock_df['ticker'].unique():
    temp_df = full_stock_df[full_stock_df['ticker']==ticker].reset_index(drop=True)
    stock_perform_dict[ticker] = calculate_ticker_perform(temp_df)

full_stock_perform_df = pd.DataFrame()
last_stock_perform_df = pd.DataFrame()
for ticker, df in stock_perform_dict.items():
    full_stock_perform_df = pd.concat([full_stock_perform_df, df], axis=0)
    last_stock_perform_df = pd.concat([last_stock_perform_df, df.iloc[[0]]], axis=0)

- Tính hiệu suất cổ phiếu theo ngành

In [None]:
#Bảng phân loại cổ phiếu
stock_classification_df = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='classification')
#Danh sách tất cả cổ phiếu hiện có nhưng chỉ lấy hs ABC mà bỏ đi D
signal_stock_list = stock_classification_df[stock_classification_df['industry_perform'].isin(['hsA', 'hsB', 'hsC'])]['ticker'].tolist()
#Danh sách cổ phiếu bắt buộc phải có trong bộ tín hiệu
mandatory_stock_list = stock_classification_df[stock_classification_df['signal']=='x']['ticker'].tolist()

#Tạo danh sách cổ phiếu cho từng quý
signal_quarter_stock_dict = {}

#Tạo các cặp quý liên tiếp để chạy vòng lặp
quarter_pairs = []
quarter_pairs.append((quarter_name_list[0], quarter_name_list[0]))
for i in range(0, len(quarter_name_list) - 1):
    quarter_pairs.append((quarter_name_list[i], quarter_name_list[i + 1]))

#Chạy vòng lặp qua từng quý
# for prev_quarter, current_quarter in [('q4_2024', 'q1_2025')]:
for prev_quarter, current_quarter in quarter_pairs:
    quarter_stock_perform_dict = {}
    for ticker in full_stock_df['ticker'].unique():
        temp_df = full_stock_df[full_stock_df['ticker']==ticker]
        temp_df = temp_df[(temp_df['date'] >= period_map_dict[prev_quarter][0]) & (temp_df['date'] <= period_map_dict[prev_quarter][1])].reset_index(drop=True)
        quarter_stock_perform_dict[ticker] = calculate_ticker_perform(temp_df)

    temp_quarter_perform_df = pd.DataFrame()
    temp_stock_list = list(set(period_stock_list[current_quarter].dropna()) & set(total_stock_list) & set(signal_stock_list))
    for ticker in temp_stock_list:
        temp_quarter_perform_df = pd.concat([temp_quarter_perform_df, quarter_stock_perform_dict[ticker].iloc[[0]]], axis=0)

    signal_quarter_stock_dict[current_quarter] = temp_quarter_perform_df

#Chạy cái này hết 10 phút

In [None]:
#Dict tất cả các cổ phiếu trong tất cả giai đoạn
period_stock_df = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='period_stock_list')
quarter_stock_dict = {}
for period in quarter_name_list:
    quarter_stock_dict[period] = {k: v[(v['date'] >= period_map_dict[period][0]) & 
                                      (v['date'] <= period_map_dict[period][1])].reset_index(drop=True)
                                      for k, v in copy.deepcopy(stock_dict).items()
                                      if k in period_stock_df[period].dropna().tolist()}

In [428]:
def calculate_quarter_stock_list_dict():
    temp_quarter_stock_list_dict = {}

    for quarter in quarter_name_list:
        #Tính index của quý hiện tại
        current_quarter_index = quarter_name_list.index(quarter)

        #Khởi tạo giá trị của calculate_quarter_index và mean_cum_return
        calculate_quarter_index = current_quarter_index
        mean_cum_return = signal_quarter_stock_dict[quarter_name_list[calculate_quarter_index]]['ticker_cum_return'].mean()

        #Tạo vòng lặp để kiểm tra và lùi quý tới khi nào tìm đc quý có mean_cum_return > 0
        while mean_cum_return < 0:
            calculate_quarter_index = calculate_quarter_index - 1
            mean_cum_return = signal_quarter_stock_dict[quarter_name_list[calculate_quarter_index]]['ticker_cum_return'].mean()

        temp_quarter_perform_df = signal_quarter_stock_dict[quarter_name_list[calculate_quarter_index]].copy()
        temp_quarter_stock_list = temp_quarter_perform_df[temp_quarter_perform_df['ticker_cum_return'] > mean_cum_return*1.9]['ticker'].tolist()
        temp_quarter_stock_list = list(set(temp_quarter_stock_list + mandatory_stock_list) & set(period_stock_df[quarter_name_list[current_quarter_index]].dropna()))

        temp_quarter_stock_list_dict[quarter_name_list[current_quarter_index]] = temp_quarter_stock_list

    return temp_quarter_stock_list_dict

quarter_stock_list_dict = calculate_quarter_stock_list_dict()

for quarter in quarter_name_list:
    print(quarter, len(quarter_stock_list_dict[quarter]))

q2_2020 93
q3_2020 119
q4_2020 135
q1_2021 121
q2_2021 177
q3_2021 187
q4_2021 164
q1_2022 185
q2_2022 180
q3_2022 172
q4_2022 215
q1_2023 189
q2_2023 181
q3_2023 162
q4_2023 157
q1_2024 150
q2_2024 165
q3_2024 163
q4_2024 158
q1_2025 188


In [429]:
def calculate_total_change(stock_group, price_index_date_series):
    period_index_df = price_index_date_series.copy()

    for ticker, df in stock_group.items():
        period_index_df[ticker] = df['close']
        period_index_df[ticker] = period_index_df[ticker][::-1].pct_change()[::-1]

    period_index_df['total_change'] = period_index_df.iloc[:,1:].mean(axis=1)
    period_index_df = period_index_df.fillna(0)

    return period_index_df

In [430]:
#Dict chưa date series cho từng giai đoạn
period_date_series_dict = {}
for period in quarter_name_list:
    period_date_series_dict[period] = date_series[(date_series['date'] >= period_map_dict[period][0]) & 
                                                       (date_series['date'] <= period_map_dict[period][1])].reset_index(drop=True)
    
#Dict chứa các cổ phiếu đã lọc ở dạng các DF cho từng giai đoạn
quarter_stock_dict_filtered = {}
for quarter in quarter_name_list:
    quarter_stock_dict_filtered[quarter] = {key: value for key, value in quarter_stock_dict[quarter].items() if key in quarter_stock_list_dict[quarter]}

#Dict tính tổng biến động của các cổ phiếu đã lọc trong từng giai đoa
quarter_group_price_index_dict = {}
for quarter in quarter_name_list:
    quarter_group_price_index_dict[quarter] = calculate_total_change(quarter_stock_dict_filtered[quarter], period_date_series_dict[quarter])

total_change_df = pd.DataFrame()
for quarter in quarter_name_list:
    total_change_df = pd.concat([total_change_df, quarter_group_price_index_dict[quarter][['date', 'total_change']]], axis=0)

total_change_df = total_change_df.sort_values('date', ascending=False).reset_index(drop=True)

In [431]:
market_perform_df['filtered_return'] = total_change_df['total_change']*market_perform_df['market_phase_shifted']
market_perform_df['filtered_cum_return'] = market_perform_df['filtered_return'][::-1].cumsum()[::-1]
market_perform_df['filtered_capital'] = calculate_capital(market_perform_df, 'filtered_return', 1000)
market_perform_df

Unnamed: 0,date,trend_5p,trend_20p,trend_60p,market_phase_final,market_phase_shifted,dummy_return,dummy_cum_return,dummy_capital,vnindex_return,vnindex_cum_return,vnindex_capital,market_return,market_cum_return,market_capital,filtered_return,filtered_cum_return,filtered_capital
0,2025-02-25,0.548193,0.746988,0.665663,1,1.0,-0.001073,0.730190,1894.348277,-0.001073,1.494912,4332.175154,0.000258,1.538170,4590.618195,0.000775,2.388920,10237.273714
1,2025-02-24,0.581325,0.756024,0.671687,1,1.0,0.006023,0.731263,1896.383433,0.006023,1.495986,4336.829341,0.001368,1.537912,4589.435972,0.003105,2.388145,10229.347171
2,2025-02-21,0.584337,0.759036,0.665663,1,1.0,0.002916,0.725240,1885.030283,0.002916,1.489963,4310.865882,-0.000145,1.536544,4583.167742,0.000099,2.385040,10197.678621
3,2025-02-20,0.731928,0.783133,0.698795,1,1.0,0.003430,0.722325,1879.549966,0.003430,1.487047,4298.332974,0.000801,1.536690,4583.834202,0.000915,2.384940,10196.666103
4,2025-02-19,0.768072,0.786145,0.701807,1,1.0,0.008153,0.718895,1873.124914,0.008153,1.483617,4283.639556,0.005332,1.535889,4580.164896,0.012926,2.384025,10187.345437
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1220,2020-04-08,0.899441,0.899441,0.899441,1,1.0,0.001781,0.085250,1087.364865,0.001781,0.085250,1087.364865,0.003772,0.091358,1093.930886,0.011349,0.115878,1120.411034
1221,2020-04-07,0.966480,0.966480,0.966480,1,1.0,0.013492,0.083469,1085.431476,0.013492,0.083469,1085.431476,0.009428,0.087586,1089.820394,0.014713,0.104529,1107.838615
1222,2020-04-06,0.966480,0.966480,0.966480,1,1.0,0.049801,0.069977,1070.982118,0.049801,0.069977,1070.982118,0.045694,0.078158,1079.641918,0.052498,0.089816,1091.774978
1223,2020-04-03,0.944134,0.944134,0.944134,1,1.0,0.020177,0.020177,1020.176772,0.020177,0.020177,1020.176772,0.032465,0.032465,1032.464580,0.037318,0.037318,1037.317682


#### Lưu dữ liệu

In [432]:
with pd.ExcelWriter("test_assistant.xlsx", engine='openpyxl') as writer:
    market_perform_df.to_excel(writer, sheet_name='market_perform_df', index=False)