In [30]:
import os
import pandas as pd
import numpy as np
from datetime import timedelta, datetime
import datetime as dt
import pandas_ta as ta
import yfinance as yf
import copy
from pymongo import MongoClient

import warnings
warnings.filterwarnings("ignore")
warnings.simplefilter('ignore', category=FutureWarning)
pd.options.mode.chained_assignment = None

#### Chuẩn bị các dữ liệu

##### Các dữ liệu dùng để làm map tham chiếu

In [31]:
#Đọc name map để chuyển đỏi các tên thành dạng full
name_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'order'],axis=1)
name_map_dict = name_map.set_index('code')['full_name'].to_dict()

order_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'full_name'],axis=1)
order_map_dict = order_map.set_index('code')['order'].to_dict()

group_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['order', 'full_name'],axis=1)
group_map_dict = group_map.set_index('code')['group'].to_dict()

#Tạo các danh sách nhóm trong mỗi cách chia cổ phiếu
all_stock_key_list = [key for key, value in group_map_dict.items() if value == 'all']
industry_name_list = [key for key, value in group_map_dict.items() if value in ['hsA', 'hsB', 'hsC', 'hsD']]
industry_perform_list = [key for key, value in group_map_dict.items() if value == 'hs']
marketcap_group_list = [key for key, value in group_map_dict.items() if value == 'cap']

#Tạo danh danh key cho tổng tất cả các nhóm
group_stock_key_list = all_stock_key_list + industry_name_list + industry_perform_list + marketcap_group_list

In [32]:
def get_file_name_list(folder_path):
    file_name_list = []
    files = os.listdir(folder_path)
    for file in files:
        file_name_list.append(file[:-4])
    return file_name_list

def filter_market_file_name_list(file_name_list):
    filtered_list = [item for item in file_name_list if not (item.endswith('_AC') or item.endswith('_CC'))]
    return filtered_list

eod_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\stock"
eod_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\index"
eod_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\futures"
itd_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\stock"
itd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\index"
itd_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\futures"
nn_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\foreign"
td_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\prop"
nntd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\market"
other_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\other"

In [33]:
#Tạo dict map thời gian và số lượng cổ phiếu
period_map = pd.read_excel("xlsx_data/period_stock_list.xlsx", sheet_name='period_map')
period_map_dict = period_map.set_index('index').apply(lambda row: row.tolist(), axis=1).to_dict()

#Xoá đi quý hiện tại để chỉ tính toán tới quý trước đó
def get_quarter(name):
    now = datetime.now()
    year = now.year
    month = now.month
    if 1 <= month <= 3:
        quarter = "q1"
        previous_quarter = "q4"
        previous_year = year - 1
    elif 4 <= month <= 6:
        quarter = "q2"
        previous_quarter = "q1"
        previous_year = year
    elif 7 <= month <= 9:
        quarter = "q3"
        previous_quarter = "q2"
        previous_year = year
    else:
        quarter = "q4"
        previous_quarter = "q3"
        previous_year = year
    
    if name == 'current_quarter':
        return f'{quarter}_{year}'
    if name == 'previous_quarter':
        return f'{previous_quarter}_{previous_year}'

#Lấy ra list cổ phiếu của giai đoạn hiện tại
period_stock_list = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='period_stock_list')

current_quarter_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) 
                                  & set(period_stock_list[get_quarter('current_quarter')].dropna().tolist()))

total_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) & set(period_stock_list['all'].dropna().tolist()))

#Lấy ra khoảng thời gian tính toán cho quý này và quý trước
calculate_time_span = [period_map_dict['q2_2020'][0], period_map_dict[get_quarter('current_quarter')][1]]
current_quarter_span = [period_map_dict[get_quarter('current_quarter')][0], period_map_dict[get_quarter('current_quarter')][1]]
previous_quarter_span = [period_map_dict[get_quarter('previous_quarter')][0], period_map_dict[get_quarter('previous_quarter')][1]]

##### Các biến thời gian

In [34]:
def decode_data(file_path):
    # Đọc dữ liệu vào một numpy array
    data = np.fromfile(file_path, dtype=np.uint8)

    # Giả định kích thước mỗi bản ghi (có thể thay đổi tùy theo cấu trúc tệp thực tế)
    record_size = 32  # Giả định
    num_records = len(data) // record_size

    # Số lượng cột dữ liệu (bao gồm ngày, thời gian và các giá trị int32 còn lại)
    num_columns = record_size // 4  # Mỗi giá trị int32 chiếm 4 byte

    # Sử dụng numpy để cắt và giải mã dữ liệu hiệu quả hơn
    # Tạo một numpy array để chứa các giá trị int32 và float32
    raw_data = data.reshape(num_records, record_size // 4, 4)

    # Giải mã ngày và thời gian (int32) ở cột 0 và 1, các cột còn lại là float32
    int_data = raw_data[:, :2].view(np.int32)  # Giải mã int32 (2 cột)
    float_data = raw_data[:, 2:].view(np.float32)  # Giải mã float32 (các cột còn lại)

    # Kết hợp dữ liệu
    records = np.hstack((int_data, float_data))

    # Đảm bảo rằng dữ liệu là 2D
    records = records.reshape(num_records, num_columns)

    # Đảo ngược lại dữ liệu trước khi chuyển thành DataFrame
    records = records[::-1]

    # Chuyển đổi thành DataFrame và loại bỏ dòng đầu tiên
    df = pd.DataFrame(records, columns=[f"Col_{i}" for i in range(num_columns)])
    return df  # Loại bỏ đi dòng dữ liệu đầu tiên không cần thiết

In [35]:
def clean_eod_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_7'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume']
    
    return df_clean.reset_index(drop=True)

def clean_itd_data(df_raw):
    #Lọc ra đúng 1 ngày dữ liệu cuối cùng
    df_raw = df_raw[df_raw['Col_0'] == max(df_raw['Col_0'])]
    #Tạo cột date-time mới từ 2 cột date và time cũ
    df_raw['date'] = df_raw['Col_0'].astype(int).astype(str) + ' ' + df_raw['Col_1'].astype(int).astype(str)
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_0', 'Col_1', 'Col_7'])
    #Sắp xếp lại thứ tự các cột
    df_clean = df_clean[['date'] + [f"Col_{i}" for i in range(2, len(df_clean.columns)+1)]]
    # #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['date'] = pd.to_datetime(df_clean['date'], format='%Y%m%d %H%M%S')
    # #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume']
    #Làm tròn khung thời gian tới 5 phút
    df_clean['date'] = df_clean['date'].dt.floor('1T')
    df_clean = df_clean.set_index("date").resample("1T", closed='right', label='right').agg({    
        "open": "first",  
        "high": "max",  
        "low": "min", 
        "close": "last",  
        "volume": "sum"   
    }).dropna().reset_index()

    return df_clean.sort_values(by="date", ascending=False).reset_index(drop=True)

In [36]:
#Khởi tạo vnindex_series để xác định ngày hiện tại
vnindex_series = clean_eod_data(decode_data(eod_index_folder_path + '\\VNINDEX.dat'))['date']

#Tạo date_series cho thời gian tính toán
date_series = pd.DataFrame(vnindex_series).rename(columns={0:'date'})
date_series = date_series[(date_series['date'] >= calculate_time_span[0]) & (date_series['date'] <= calculate_time_span[1])]

#Xác định ngày hiện tại
today = vnindex_series.iloc[0]

#Xác định thời gian hiện tại
current_time = clean_itd_data(decode_data(itd_index_folder_path + '\\HNXINDEX.dat'))['date'].iloc[0]

#Khởi tạo time_series bao gồm tất cả khung thời gian của ngày hiện tại
time_series_list = []
time_series_list.extend(pd.date_range(start=f'{today} 09:00:00', end=f'{today} 11:25:00', freq='1T'))
time_series_list.extend(pd.date_range(start=f'{today} 13:00:00', end=f'{today} 14:59:00', freq='1T'))
time_series = pd.DataFrame(time_series_list).rename(columns={0:'date'})

#Điều chỉnh lại time_series bỏ đi các hàng thời gian chưa có dữ liệu
time_series = time_series.loc[time_series['date'].dt.time <= current_time.time()].sort_values('date', ascending=False).reset_index(drop=True)

#Khởi tạo khung thời gian bắt đầu từ 9h00 để vẽ các biểu đồ
itd_series = pd.DataFrame(time_series_list).rename(columns={0:'date'}).sort_values('date', ascending=False).reset_index(drop=True)

#Đọc file phân bổ thanh khoản trong phiên
itd_time_percent = pd.read_excel('xlsx_data/itd_time_percent.xlsx')
#Chuyển đổi ngày thành này hôm nay
itd_time_percent['date'] = itd_time_percent['date'].apply(lambda x: today.replace(hour=x.hour, minute=x.minute, second=x.second))
#Khởi tạo hệ số thời gian
current_time_percent = itd_time_percent[itd_time_percent['date'] == current_time]['percent'].item()

##### Đọc dữ liệu cổ phiếu từ file .dat và lưu vào dict

In [37]:
def clean_stock_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Tạo cột cap cho cổ phiếu
    df_raw['cap'] = (df_raw['Col_5'] * df_raw['Col_7'])/1000000
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_7'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'cap']

    return df_clean.reset_index(drop=True)

def clean_index_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
    #Điều chỉnh lại giá trị các cột
    df_clean['option'] = df_clean['option']/1000000000
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'spot')
    
    return df_clean.reset_index(drop=True)

def clean_futures_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'futures')
    
    return df_clean.reset_index(drop=True)

index_dict = {}
for ticker in get_file_name_list(eod_index_folder_path):
    temp_file_path = eod_index_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_index_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean
for ticker in get_file_name_list(eod_futures_folder_path):
    temp_file_path = eod_futures_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_futures_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean

stock_dict = {}
for ticker in total_stock_list:
    if ticker not in get_file_name_list(eod_stock_folder_path):
        pass
    else:
        temp_file_path = eod_stock_folder_path + f'\\{ticker}.dat'
        temp_df_raw = decode_data(temp_file_path)
        temp_df_clean = clean_stock_data(temp_df_raw)
        temp_df_clean.insert(0, 'ticker', ticker)
        stock_dict[ticker] = temp_df_clean


##### Đọc dữ liệu nhóm cổ phiếu từ DB

In [38]:
mongo_client = MongoClient("mongodb://t2m:t2minvest@14.225.192.30:27017/?authSource=admin")
stock_db = mongo_client["stock_db"]

def get_mongo_df(df_name, find_query=None, projection=None):
    # Truy cập collection
    collection = stock_db[df_name]
    # Nếu không truyền vào find_query thì mặc định lấy tất cả document
    if find_query is None:
        find_query = {}
    # Nếu không truyền vào projection thì mặc định loại bỏ trường _id
    if projection is None:
        projection = {"_id": 0}
    # Thực hiện lệnh find với điều kiện và projection đã cho
    docs = collection.find(find_query, projection)
    # Chuyển đổi kết quả sang DataFrame và trả về
    df = pd.DataFrame(list(docs))
    return df

In [42]:
#Đọc dữ liệu điểm dòng tiền nhóm cổ phiếu
eod_net_group_df = get_mongo_df("eod_group")
history_net_group_df = get_mongo_df("history_group")
itd_net_group_df = get_mongo_df("itd_group")
full_net_group_df = pd.concat([eod_net_group_df, history_net_group_df], axis=0).reset_index(drop=True)

#Đọc dữ liệu điểm dòng tiền âm dương nhóm cổ phiếu
eod_signed_group_df = get_mongo_df("eod_signed_group")
history_signed_group_df = get_mongo_df("history_signed_group")
itd_signed_group_df = get_mongo_df("itd_signed_group")
full_signed_group_df = pd.concat([eod_signed_group_df, history_signed_group_df], axis=0).reset_index(drop=True)

#Đọc dữ liệu ms lịch sử
eod_ms_chart_df = get_mongo_df("eod_ms_chart")
history_ms_chart_df = get_mongo_df("history_ms_chart")
itd_ms_chart_df = get_mongo_df("itd_ms_chart")
full_ms_chart_df = pd.concat([eod_ms_chart_df, history_ms_chart_df], axis=0).reset_index(drop=True)

#### Tính toán tín hiệu

In [40]:
#Tính toán tín hiệu của MS
def calculate_ms(ms_df):
    index_ms = ms_df

    index_ms['5p_shift1'] = index_ms['trend_5p'].shift(-1)
    index_ms['5p_shift2'] = index_ms['trend_5p'].shift(-2)
    index_ms['5p_shift4'] = index_ms['trend_5p'][::-1].rolling(window=5, min_periods=1).mean()[::-1].shift(-1)
    
    index_ms['20p_shift1'] = index_ms['trend_20p'].shift(-1)
    index_ms['20p_shift2'] = index_ms['trend_20p'].shift(-2)
    index_ms['20p_shift4'] = index_ms['trend_20p'][::-1].rolling(window=5, min_periods=1).mean()[::-1].shift(-1)

    index_ms['60p_shift1'] = index_ms['trend_60p'].shift(-1)
    index_ms['60p_shift2'] = index_ms['trend_60p'].shift(-2)

    #Check điểm mua
    index_ms['5p_upcheck1'] = index_ms.apply(lambda x: 1 if (round(x['trend_5p'], 2) - round(x['5p_shift1'], 2)) >= 0 else 0, axis = 1)
    index_ms['5p_upcheck4'] = index_ms.apply(lambda x: 1 if (round(x['trend_5p'], 2) - round(x['5p_shift4'], 2)) >= 0 else 0, axis = 1)
    index_ms['5p_upcheck'] = index_ms.apply(lambda x: 1 if (x['5p_upcheck1'] == 1) & (x['5p_upcheck4'] == 1) else 0, axis = 1)

    index_ms['20p_upcheck1'] = index_ms.apply(lambda x: 1 if (round(x['trend_20p'], 2) - round(x['20p_shift1'], 2)) >= 0 else 0, axis = 1)
    index_ms['20p_upcheck4'] = index_ms.apply(lambda x: 1 if (round(x['trend_20p'], 2) - round(x['20p_shift4'], 2)) >= 0 else 0, axis = 1)
    index_ms['20p_upcheck'] = index_ms.apply(lambda x: 1 if (x['20p_upcheck1'] == 1) & (x['20p_upcheck4'] == 1) else 0, axis = 1)

    index_ms['60p_upcheck1'] = index_ms.apply(lambda x: 1 if (round(x['trend_60p'], 2) - round(x['60p_shift1'], 2)) >= 0 else 0, axis = 1)
    index_ms['60p_upcheck2'] = index_ms.apply(lambda x: 1 if (round(x['trend_60p'], 2) - round(x['60p_shift2'], 2)) >= 0 else 0, axis = 1)
    index_ms['60p_upcheck'] = index_ms.apply(lambda x: 1 if (x['60p_upcheck1'] == 1) & (x['60p_upcheck2'] == 1) else 0, axis = 1)

    index_ms['up_check'] = index_ms.apply(lambda x: 1 if (x['5p_upcheck'] == 1) & (x['20p_upcheck'] == 1) & (x['60p_upcheck'] == 1) & 
                                                        (x['trend_5p'] < 0.9) & (x['trend_20p'] < 0.9) &
                                                        (((x['trend_5p'] - x['5p_shift1']) > 0.5) | ((x['trend_5p'] > 0.3) & (x['trend_20p'] > 0.2)))

                                                   else (2 if (x['trend_5p'] >= 0.9) | (x['trend_20p'] >= 0.9) else 0)
                                                        , axis = 1)

    #Check điểm bán
    index_ms['5p_downcheck1'] = index_ms.apply(lambda x: 1 if (x['trend_5p'] - x['5p_shift1']) < 0 else 0, axis = 1)
    index_ms['5p_downcheck2'] = index_ms.apply(lambda x: 1 if (x['trend_5p'] - x['5p_shift2']) < 0 else 0, axis = 1)
    index_ms['5p_downcheck'] = index_ms.apply(lambda x: 1 if (x['5p_downcheck1'] == 1) & (x['5p_downcheck2'] == 1) else 0, axis = 1)

    index_ms['20p_downcheck1'] = index_ms.apply(lambda x: 1 if (x['trend_20p'] - x['20p_shift1']) < 0 else 0, axis = 1)
    index_ms['20p_downcheck2'] = index_ms.apply(lambda x: 1 if (x['trend_20p'] - x['20p_shift2']) < 0 else 0, axis = 1)
    index_ms['20p_downcheck'] = index_ms.apply(lambda x: 1 if (x['20p_downcheck1'] == 1) & (x['20p_downcheck2'] == 1) else 0, axis = 1)

    index_ms['down_check'] = index_ms.apply(lambda x: 1 if (x['5p_downcheck'] == 1) & (x['20p_downcheck'] == 1) & 
                                                            ((x['trend_5p'] > 0.1) | (x['trend_20p'] > 0.1)) & 
                                                            ((((x['trend_5p'] - x['5p_shift4']) < -0.5) & (x['trend_5p'] < 0.3)) | ((x['trend_5p'] < 0.4) & (x['trend_20p'] < 0.5)))

                                                        else (2 if (x['trend_5p'] <= 0.1) & (x['trend_20p'] <= 0.1) else 0)
                                                        , axis = 1)

    return index_ms

In [65]:
#Chỉnh sửa điều kiện quá mua quá bán và giữ xu hướng của potion raw
def calculate_final_portion(df):
    df_copy = df.copy()

    #Check bằng 2 tức là chuyển đổi từ giai đoạn giảm hoặc tăng sang tăng hoặc giảm nhưng vì rơi vào quá mua và quá bán
    df_copy['final_portion'] = df_copy['portion_raw']
    for i in range(len(df_copy) - 2, -1, -1):
        #Khi trong giai đoạn tăng giá thì tỉ trọng không giảm
        if df_copy['portion_phase'].iloc[i] == 1:
            if df_copy['final_portion'].iloc[i+1] > df_copy['final_portion'].iloc[i]:
                df_copy['final_portion'].iloc[i] = df_copy['final_portion'].iloc[i+1]
        #Khi trong giai đoạn giảm giá thì tỉ trọng không tăng
        if df_copy['portion_phase'].iloc[i] == -1:
            if df_copy['final_portion'].iloc[i+1] < df_copy['final_portion'].iloc[i]:
                df_copy['final_portion'].iloc[i] = df_copy['final_portion'].iloc[i+1]
        #Không tăng tỉ trọng khi vào giai đoạn quá mua
        if df_copy['portion_phase'].iloc[i] == 2:
            if df_copy['final_portion'].iloc[i+1] != df_copy['final_portion'].iloc[i]:
                df_copy['final_portion'].iloc[i] = df_copy['final_portion'].iloc[i+1]
                df_copy['portion_phase_check'].iloc[i] = 2
        #Không giảm tỉ trọng khi vào giai đoạn quá bán
        if df_copy['portion_phase'].iloc[i] == -2:
            if df_copy['final_portion'].iloc[i+1] != df_copy['final_portion'].iloc[i]:
                df_copy['final_portion'].iloc[i] = df_copy['final_portion'].iloc[i+1]
                df_copy['portion_phase_check'].iloc[i] = 2

    return df_copy['final_portion'], df_copy['portion_phase_check']

def adjust_portion_T3(df):
    df_copy = df.copy()

    df_copy['final_portion'] = df_copy['final_portion']
    df_copy['portion_t3_check'] = 0
    for i in range(len(df_copy) - 4, -1, -1):
        if (df_copy['final_portion'].iloc[i+1] > df_copy['final_portion'].iloc[i+2]) & (df_copy['final_portion'].iloc[i+1] > df_copy['final_portion'].iloc[i]):
            df_copy['final_portion'].iloc[i] = df_copy['final_portion'].iloc[i+1]
            #Check bằng 2 tức là con 2 phiên nữa mới bán được
            df_copy['portion_t3_check'].iloc[i] = 2
        elif (df_copy['final_portion'].iloc[i+2] > df_copy['final_portion'].iloc[i+3]) & (df_copy['final_portion'].iloc[i+1] > df_copy['final_portion'].iloc[i]):
            df_copy['final_portion'].iloc[i] = df_copy['final_portion'].iloc[i+1]
            #Check bằng 1 tức là còn 1 phiên nữa mới bán được
            df_copy['portion_t3_check'].iloc[i] = 1

    return df_copy['final_portion'], df_copy['portion_t3_check']

def calculate_portion_phase(df):
    df_copy = df.copy()

    df_copy['portion_phase_check'] = 0
    df_copy['portion_phase'] = df_copy.apply(
    lambda x: 2 if x['up_check'] == 2 else 
            (1 if (x['up_check'] == 1) & (x['portion_raw'] > 0) else
            (-1 if x['down_check'] == 1 else
            (-2 if x['down_check'] == 2 else 
            None))), 
    axis=1)

    #Xoá đi các tín hiệu mua nhưng lại ngược chiều với chiều biến động của portion_raw và khi A_portion bằng 0
    for i in range(len(df_copy) - 2, -1, -1):
        if (df_copy['portion_phase'].iloc[i] == 1) & (df_copy['portion_raw'].iloc[i] < df_copy['portion_raw'].iloc[i+1]):
            df_copy.loc[i, 'portion_phase'] = None
            #Check bằng 1 tức là chiều biến động của portion_raw ngược lại với tín hiệu portion_phase
            df_copy.loc[i, 'portion_phase_check'] = 1
        elif (df_copy['portion_phase'].iloc[i] == 1) & (df_copy['hsA_portion'].iloc[i] == 0):
            df_copy.loc[i, 'portion_phase'] = None
            #Check bằng 3 tức là A_portion vẫn còn bằng 0
            df_copy.loc[i, 'portion_phase_check'] = 3

    #Thêm trạng thái đầu tiên là mua vào để khi fill ko bị NaN
    df_copy['portion_phase'].iloc[-1] = 1
    df_copy['portion_phase'] = df_copy['portion_phase'].bfill()

    return df_copy['portion_phase'], df_copy['portion_phase_check']

In [66]:
group_positive_df = full_signed_group_df[full_signed_group_df['type']=='pos'].drop(columns=['type']).reset_index(drop=True)
group_negative_df = full_signed_group_df[full_signed_group_df['type']=='neg'].drop(columns=['type']).reset_index(drop=True)

#Tính phân bổ vốn hoá tổng chưa điều chỉnh
phan_bo_von_raw = pd.DataFrame()
phan_bo_von_raw['date'] = date_series['date']
phan_bo_von_raw[['hsA+','hsB+','hsC+','hsD+']] = group_positive_df[industry_perform_list][::-1].rolling(window=5, min_periods=1).mean()[::-1]
phan_bo_von_raw[['hsA-','hsB-','hsC-','hsD-']] = group_negative_df[industry_perform_list][::-1].rolling(window=5, min_periods=1).mean().abs()[::-1]

phan_bo_von_raw['hsA_raw'] = (phan_bo_von_raw['hsA+'] - phan_bo_von_raw['hsA-']) / (phan_bo_von_raw['hsA+'] + phan_bo_von_raw['hsA-'])
phan_bo_von_raw['hsB_raw'] = (phan_bo_von_raw['hsB+'] - phan_bo_von_raw['hsB-']) / (phan_bo_von_raw['hsB+'] + phan_bo_von_raw['hsB-'])
phan_bo_von_raw['hsC_raw'] = (phan_bo_von_raw['hsC+'] - phan_bo_von_raw['hsC-']) / (phan_bo_von_raw['hsC+'] + phan_bo_von_raw['hsC-'])
phan_bo_von_raw['hsD_raw'] = (phan_bo_von_raw['hsD+'] - phan_bo_von_raw['hsD-']) / (phan_bo_von_raw['hsD+'] + phan_bo_von_raw['hsD-'])
phan_bo_von_raw = phan_bo_von_raw.fillna(0)

phan_bo_von_raw['hsA_portion'] = phan_bo_von_raw['hsA_raw'].apply(lambda x: x*0.3 if x*0.3 > 0.1 else 0)
phan_bo_von_raw['hsB_portion'] = phan_bo_von_raw['hsB_raw'].apply(lambda x: x*0.3 if x > 0 else 0)
phan_bo_von_raw['hsC_portion'] = phan_bo_von_raw['hsC_raw'].apply(lambda x: x*0.3 if x > 0 else 0)
phan_bo_von_raw['hsD_portion'] = phan_bo_von_raw['hsD_raw'].apply(lambda x: x*0.1 if x > 0 else 0)

phan_bo_von_raw['sum'] = phan_bo_von_raw[['hsA_portion','hsB_portion','hsC_portion','hsD_portion']].sum(axis=1).apply(lambda x: x if x >= 0.2 else 0)

In [67]:
#Điều chỉnh lại phân bổ vốn hoá tổng theo MS
index_ms = calculate_ms(full_ms_chart_df[full_ms_chart_df['ticker']=='all'][['date','trend_5p','trend_20p','trend_60p']]).sort_values('date', ascending=False).reset_index(drop=True)

phan_bo_von_final = pd.DataFrame()
phan_bo_von_final[['date','hsA_portion','hsB_portion','hsC_portion','hsD_portion','portion_raw']] = phan_bo_von_raw[['date','hsA_portion','hsB_portion','hsC_portion','hsD_portion','sum']]
phan_bo_von_final['portion_raw_check'] = phan_bo_von_final['portion_raw'].apply(lambda x: 1 if x > 0 else 0)

#Tạo các giai đoạn mua và bán
phan_bo_von_final = phan_bo_von_final.merge(index_ms[['date','up_check','down_check']], on='date', how='left')
phan_bo_von_final['portion_phase'], phan_bo_von_final['portion_phase_check'] = calculate_portion_phase(phan_bo_von_final)

# Điều chỉnh tỉ trọng cuối cùng theo các giai đoạn mua bán
phan_bo_von_final['final_portion'], phan_bo_von_final['portion_phase_check'] = calculate_final_portion(phan_bo_von_final)

#Điều chỉnh để nếu có tăng giảm trong phân bổ tỉ tăng lên 1 và giảm về 0 luôn
phan_bo_von_final['final_portion'] = phan_bo_von_final.apply(lambda x: 1 if (x['portion_phase'] > 0) & (x['final_portion'] > 0)  else x['final_portion'], axis=1)
phan_bo_von_final['final_portion'] = phan_bo_von_final.apply(lambda x: 0 if (x['portion_phase'] < 0) & (x['final_portion'] < 1)  else x['final_portion'], axis=1)

#Điều chỉnh lại để tránh mua bán ko kịp T2
phan_bo_von_final['final_portion'], phan_bo_von_final['portion_t3_check'] = adjust_portion_T3(phan_bo_von_final)

#Điều chỉnh lại tỉ trọng 4 nhóm hiệu suất về cố định 532
phan_bo_von_final['hsA_portion'] = phan_bo_von_final.apply(lambda x: 0.4 if x['final_portion'] == 1 else 0, axis=1)
phan_bo_von_final['hsB_portion'] = phan_bo_von_final.apply(lambda x: 0.3 if x['final_portion'] == 1 else 0, axis=1)
phan_bo_von_final['hsC_portion'] = phan_bo_von_final.apply(lambda x: 0.3 if x['final_portion'] == 1 else 0, axis=1)
phan_bo_von_final['hsD_portion'] = 0

#Tất cả các cột check thì giá trị bằng 0 là trạng thái ok, các giá trị khác thể hiện các trạng thái khác nhau
auto_market_checklist_df = pd.concat([phan_bo_von_final[['portion_raw_check', 'portion_phase_check', 'portion_t3_check']].iloc[[0]], 
                                   index_ms[['5p_upcheck1', '5p_upcheck4', '5p_upcheck',
                                            '20p_upcheck1', '20p_upcheck4', '20p_upcheck', 
                                            '60p_upcheck1', '60p_upcheck2', '60p_upcheck', 'up_check',  
                                            '5p_downcheck1', '5p_downcheck2', '5p_downcheck', 
                                            '20p_downcheck1', '20p_downcheck2', '20p_downcheck', 'down_check']].iloc[[0]]], axis=1).astype(float)