In [1]:
import os
import pandas as pd
import numpy as np
from datetime import timedelta, datetime
import datetime as dt
import pandas_ta as ta
import yfinance as yf
import copy

import warnings
warnings.filterwarnings("ignore")
warnings.simplefilter('ignore', category=FutureWarning)
pd.options.mode.chained_assignment = None

#### Chuẩn bị các dữ liệu

In [2]:
#Đọc name map để chuyển đỏi các tên thành dạng full
name_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'order'],axis=1)
name_map_dict = name_map.set_index('code')['full_name'].to_dict()

order_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'full_name'],axis=1)
order_map_dict = order_map.set_index('code')['order'].to_dict()

group_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['order', 'full_name'],axis=1)
group_map_dict = group_map.set_index('code')['group'].to_dict()

#Tạo các danh sách nhóm trong mỗi cách chia cổ phiếu
all_stock_key_list = [key for key, value in group_map_dict.items() if value == 'all']
industry_name_list = [key for key, value in group_map_dict.items() if value in ['hsA', 'hsB', 'hsC', 'hsD']]
industry_perform_list = [key for key, value in group_map_dict.items() if value == 'hs']
marketcap_group_list = [key for key, value in group_map_dict.items() if value == 'cap']

#Tạo danh danh key cho tổng tất cả các nhóm
group_stock_key_list = all_stock_key_list + industry_name_list + industry_perform_list + marketcap_group_list

In [3]:
def get_file_name_list(folder_path):
    file_name_list = []
    files = os.listdir(folder_path)
    for file in files:
        file_name_list.append(file[:-4])
    return file_name_list

eod_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\stock"
eod_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\index"
eod_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\futures"
itd_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\stock"
itd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\index"
itd_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\futures"
nn_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\foreign"
td_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\prop"
nntd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\market"
other_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\other"

In [4]:
#Tạo dict map thời gian và số lượng cổ phiếu
period_map = pd.read_excel("xlsx_data/period_stock_list.xlsx", sheet_name='period_map')
period_map_dict = period_map.set_index('index').apply(lambda row: row.tolist(), axis=1).to_dict()

#Xoá đi quý hiện tại để chỉ tính toán tới quý trước đó
def get_quarter(name):
    now = datetime.now()
    year = now.year
    month = now.month
    if 1 <= month <= 3:
        quarter = "q1"
        previous_quarter = "q4"
        previous_year = year - 1
    elif 4 <= month <= 6:
        quarter = "q2"
        previous_quarter = "q1"
        previous_year = year
    elif 7 <= month <= 9:
        quarter = "q3"
        previous_quarter = "q2"
        previous_year = year
    else:
        quarter = "q4"
        previous_quarter = "q3"
        previous_year = year
    
    if name == 'current_quarter':
        return f'{quarter}_{year}'
    if name == 'previous_quarter':
        return f'{previous_quarter}_{previous_year}'

#Lấy ra list cổ phiếu của giai đoạn hiện tại
period_stock_list = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='period_stock_list')

current_quarter_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) 
                                  & set(period_stock_list[get_quarter('current_quarter')].dropna().tolist()))

total_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) & set(period_stock_list['all'].dropna().tolist()))

#Lấy ra khoảng thời gian tính toán cho quý này và quý trước
calculate_time_span = [period_map_dict['q2_2020'][0], period_map_dict[get_quarter('current_quarter')][1]]
current_quarter_span = [period_map_dict[get_quarter('current_quarter')][0], period_map_dict[get_quarter('current_quarter')][1]]
previous_quarter_span = [period_map_dict[get_quarter('previous_quarter')][0], period_map_dict[get_quarter('previous_quarter')][1]]

In [5]:
def decode_data(file_path):
    data = np.fromfile(file_path, dtype=np.uint8)
    record_size = 32 
    num_records = len(data) // record_size
    num_columns = record_size // 4 
    raw_data = data.reshape(num_records, record_size // 4, 4)
    int_data = raw_data[:, :2].view(np.int32) 
    float_data = raw_data[:, 2:].view(np.float32)
    records = np.hstack((int_data, float_data))
    records = records.reshape(num_records, num_columns)
    records = records[::-1]
    df = pd.DataFrame(records, columns=[f"Col_{i}" for i in range(num_columns)])
    return df

In [6]:
def clean_index_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
    #Điều chỉnh lại giá trị các cột
    df_clean['option'] = df_clean['option']/1000000000
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'spot')
    
    return df_clean.reset_index(drop=True)

def clean_futures_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'futures')
    
    return df_clean.reset_index(drop=True)

#Đợc dữ liệu ticker
index_dict = {}
for ticker in get_file_name_list(eod_index_folder_path):
    temp_file_path = eod_index_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_index_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean
for ticker in get_file_name_list(eod_futures_folder_path):
    temp_file_path = eod_futures_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_futures_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean

#Khởi tạo vnindex_series để xác định ngày hiện tại
date_series = pd.DataFrame(index_dict['VNINDEX'].sort_values('date', ascending=False).reset_index(drop=True)['date']).rename(columns={0:'date'})
date_series = date_series[(date_series['date'] >= calculate_time_span[0]) & (date_series['date'] <= calculate_time_span[1])]
today = date_series.iloc[0].item()

In [7]:
def clean_stock_data(df_raw):
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    df_raw['cap'] = (df_raw['Col_5'] * df_raw['Col_7'])/1000000
    df_clean = df_raw.drop(columns=['Col_1', 'Col_7'])
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'cap']

    return df_clean.reset_index(drop=True)

#Đọc dữ liệu cổ phiếu
stock_dict = {}
for ticker in total_stock_list:
    if ticker not in get_file_name_list(eod_stock_folder_path):
        pass
    else:
        temp_file_path = eod_stock_folder_path + f'\\{ticker}.dat'
        temp_df_raw = decode_data(temp_file_path)
        temp_df_clean = clean_stock_data(temp_df_raw)
        temp_df_clean.insert(0, 'ticker', ticker)
        stock_dict[ticker] = temp_df_clean

#Bù dữ liệu vào những ngày cổ phiếu không có giao dịch
for ticker, df in stock_dict.items():
    temp_df = date_series.merge(df, on='date', how='left')
    temp_df[['open','high','low','close','cap']] = temp_df[['open','high','low','close','cap']].bfill()
    temp_df['ticker'] = temp_df['ticker'].fillna(ticker)
    temp_df['volume'] = temp_df['volume'].fillna(0)
    stock_dict[ticker] = temp_df

In [8]:
#Tính toán các đường trung bình và các đường MA
stock_dict = {k: v.sort_values(by=['date'], ascending=True).reset_index(drop=True) for k, v in stock_dict.items()}

stock_dict = {
    key: df.assign(
        high5=df['high'].rolling(window=5, min_periods=1).max(),
        low5=df['low'].rolling(window=5, min_periods=1).min(),
        high20=df['high'].rolling(window=20, min_periods=1).max(),
        low20=df['low'].rolling(window=20, min_periods=1).min(),
        high60=df['high'].rolling(window=60, min_periods=1).max(),
        low60=df['low'].rolling(window=60, min_periods=1).min(),
        high120=df['high'].rolling(window=120, min_periods=1).max(),
        low120=df['low'].rolling(window=120, min_periods=1).min(),
        high240=df['high'].rolling(window=240, min_periods=1).max(),
        low240=df['low'].rolling(window=240, min_periods=1).min(),
        high480=df['high'].rolling(window=480, min_periods=1).max(),
        low480=df['low'].rolling(window=480, min_periods=1).min(),

        ma5=df['close'].rolling(window=5, min_periods=1).mean(),
        ma5_V=df['volume'].rolling(window=5, min_periods=1).mean().shift(1),
    )
    for key, df in stock_dict.items()
}

stock_dict = {
    key: df.assign(
        trend_5p=(df['close'] > ((df['high5'] + df['low5'])/2).shift(1)).astype(int),
        trend_20p=(df['close'] > ((df['high20'] + df['low20'])/2).shift(1)).astype(int),
        trend_60p=(df['close'] > ((df['high60'] + df['low60'])/2).shift(1)).astype(int),
        trend_120p=(df['close'] > ((df['high120'] + df['low120'])/2).shift(1)).astype(int),
        trend_240p=(df['close'] > ((df['high240'] + df['low240'])/2).shift(1)).astype(int),
        trend_480p=(df['close'] > ((df['high480'] + df['low480'])/2).shift(1)).astype(int),

        vol_ratio=np.where(df['ma5_V'] != 0, df['volume'] / df['ma5_V'], 0)
    )
    for key, df in stock_dict.items()
}

stock_dict = {k: v[(v['date'] >= calculate_time_span[0]) & (v['date'] <= calculate_time_span[1])].sort_values(by=['date'], ascending=False).reset_index(drop=True) for k, v in stock_dict.items()}

In [9]:
#Chuyển đổi thời gian trong period_map_dict sang pd.Timestamp để có thể so sánh với ngày trong df
period_timestamp_map_dict = {}
for key, value in period_map_dict.items():
    period_timestamp_map_dict[key] = (pd.Timestamp(value[0]), pd.Timestamp(value[1]), value[2])

for ticker, df in stock_dict.items():
    df['quarter'] = df['date'].apply(lambda x: next((key for key, value in period_timestamp_map_dict.items() if value[0] <= x <= value[1]), None))
    df['stock_count'] = df['quarter'].apply(lambda x: period_map_dict[x][2])

#### Tạo dict chứa dữ liệu của từng quý

In [10]:
#Bảng danh sách tất cả các cổ phiếu trong tất cả giai đoạn
period_stock_df = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='period_stock_list')

#Dict chứa dữ liệu cổ phiếu cho từng giai đoán
period_stock_dict = {}
for period in period_stock_df.columns[1:].tolist():
    period_stock_dict[period] = {k: v[(v['date'] >= period_map_dict[period][0]) & 
                                      (v['date'] <= period_map_dict[period][1])].reset_index(drop=True)
                                      for k, v in copy.deepcopy(stock_dict).items()
                                      if k in period_stock_df[period].dropna().tolist()}
    
#Dict chưa date series cho từng giai đoạn
period_date_series_dict = {}
for period in period_stock_df.columns[1:].tolist():
    period_date_series_dict[period] = date_series[(date_series['date'] >= period_map_dict[period][0]) & 
                                                       (date_series['date'] <= period_map_dict[period][1])].reset_index(drop=True)

In [11]:
#Lấy danh sách phân loại cổ phiếu
stock_classification_df = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='classification')
stock_classification_df = stock_classification_df[stock_classification_df['ticker'].isin(total_stock_list)].reset_index(drop=True)

period_stock_classification_dict = {}
for period in period_stock_df.columns[1:].tolist():
    period_stock_classification_dict[period] = stock_classification_df[stock_classification_df['ticker'].isin(period_stock_df[period].dropna().tolist())].reset_index(drop=True)
    period_stock_classification_dict[period] = period_stock_classification_dict[period][period_stock_classification_dict[period]['ticker'].isin(stock_dict.keys())]

    price_arr = []
    cap_arr = []
    for ticker in period_stock_classification_dict[period]['ticker']:
        df = period_stock_dict[period][ticker]
        if len(df) > 0:
            price_arr.append(df['close'].iloc[-1].item())
            cap_arr.append(df['cap'].iloc[-1].item())
        else:
            price_arr.append(0)
            cap_arr.append(0)

    vonhoa_classification_df = period_stock_classification_dict[period].copy()
    vonhoa_classification_df['price'] = price_arr
    vonhoa_classification_df['cap'] = cap_arr

    cap_coef = sum(cap_arr)/10000
    vonhoa_classification_df['marketcap_group'] = vonhoa_classification_df.apply(lambda x:
        'small' if ((x['cap']>cap_coef) & (x['cap']<10*cap_coef)) | 
                ((x['cap']>=10*cap_coef) & (x['cap']<20*cap_coef) & (x['price']<10)) 
                else
        ('mid' if ((x['cap']>=10*cap_coef) & (x['cap']<20*cap_coef) & (x['price']>=10)) | 
                ((x['cap']>=20*cap_coef) & (x['cap']<100*cap_coef))
                else
        ('large' if x['cap']>=100*cap_coef
                else 'penny'
    )), axis=1)

    period_stock_classification_dict[period] = pd.concat([period_stock_classification_dict[period], vonhoa_classification_df['marketcap_group']], axis=1)


In [12]:
period_all_stock = {}
period_industry_name = {}
period_industry_perform = {}
period_marketcap_group = {}

for period in period_stock_df.columns[1:].tolist():

    period_all_stock[period] = {}
    period_industry_name[period] = {}
    period_industry_perform[period] = {}
    period_marketcap_group[period] = {}

    stock_by_industry = period_stock_classification_dict[period].set_index('ticker')['industry_name'].to_dict()
    stock_by_perform = period_stock_classification_dict[period].set_index('ticker')['industry_perform'].to_dict()
    stock_by_marketcap = period_stock_classification_dict[period].set_index('ticker')['marketcap_group'].to_dict()

    unique_industries = np.unique(list(stock_by_industry.values()))
    unique_performs = np.unique(list(stock_by_perform.values()))
    unique_marketcaps = ['large', 'mid', 'small', 'penny']

    # Mapping for all
    period_all_stock[period]['all'] = {key: value for key, value in period_stock_dict[period].items()}

    # Mapping for industry
    for industry in unique_industries:
        relevant_stocks = [ticker for ticker, ind in stock_by_industry.items() if ind == industry]
        period_industry_name[period][industry] = {ticker: period_stock_dict[period][ticker] for ticker in relevant_stocks if ticker in period_stock_dict[period]}

    # Mapping for performance
    for performance in unique_performs:
        relevant_stocks = [ticker for ticker, perf in stock_by_perform.items() if perf == performance]
        period_industry_perform[period][performance] = {ticker: period_stock_dict[period][ticker] for ticker in relevant_stocks if ticker in period_stock_dict[period]}

    # Mapping for marketcap
    for marketcap in unique_marketcaps:
        relevant_stocks = [ticker for ticker, mcap in stock_by_marketcap.items() if mcap == marketcap]
        period_marketcap_group[period][marketcap] = {ticker: period_stock_dict[period][ticker] for ticker in relevant_stocks if ticker in period_stock_dict[period]}


#### Điểm dòng tiền từng cổ phiếu full lịch sử

In [None]:
def score_calculation(row):
    try:
        # Tính toán giá trị điểm số
        result = (((row['close'] - row['low']) - (row['high'] - row['close'])) / (row['high'] - row['low']) *
                  abs((row['close'] - row['close_prev'])) / row['close_prev'] *
                  (row['volume'] * row['close']) / (row['ma5_prev'] * row['ma5_V'])) * 100 \
                  + ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        
        # Kiểm tra nếu kết quả là inf, trả về 0 nếu đúng
        if np.isinf(result):
            # Xử lý khi xảy ra lỗi chia cho 0, trả về giá trị tính toán thêm
            return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        return result
    except ZeroDivisionError:
        # Xử lý khi xảy ra lỗi chia cho 0, trả về giá trị tính toán thêm
        return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100

In [None]:
#Tính cho toàn bộ lịch sử
raw_stock_score_dict = {}
for ticker in stock_dict.keys():
    #Lọc ra các cột cần sử dụng
    temp_df = stock_dict[ticker][['ticker', 'date', 'quarter', 'stock_count', 'high', 'low', 'close', 'volume', 'vol_ratio', 'ma5', 'ma5_V']]
    #Tính điểm dòng tiền t0 và t5
    temp_df['ma5_prev'] = temp_df['ma5'].shift(-1)
    temp_df['close_prev'] = temp_df['close'].shift(-1)
    temp_df['t0_score'] = temp_df.apply(score_calculation, axis=1)
    temp_df['t5_score'] = temp_df['t0_score'][::-1].rolling(window=5, min_periods=1).mean()[::-1]

    #Gán lại temp_df cho dict
    raw_stock_score_dict[ticker] = temp_df

In [None]:
#Tách điểm dòng tiền vào từng giai đoạn để tính xếp hạng
period_stock_score_dict = {}
for period in period_stock_df.columns[1:].tolist():
    period_stock_score_dict[period] = {k: v[(v['date'] >= period_map_dict[period][0]) & 
                                            (v['date'] <= period_map_dict[period][1])].reset_index(drop=True)
                                            for k, v in copy.deepcopy(raw_stock_score_dict).items()
                                            if k in period_stock_df[period].dropna().tolist()}

#Tính xếp hạng cổ phiếu cho từng giai đoạn
for period in period_stock_df.columns[1:].tolist():
    the_dict = period_stock_score_dict[period]

    #Tính xếp hạng cho cổ phiếu
    t0_ranking_df = period_date_series_dict[period].copy()
    t5_ranking_df = period_date_series_dict[period].copy()
    for ticker in the_dict.keys():
        t0_ranking_df[ticker] = the_dict[ticker]['t0_score']
        t0_ranking_df.fillna(0, inplace=True)
        t5_ranking_df[ticker] = the_dict[ticker]['t5_score']
        t5_ranking_df.fillna(0, inplace=True)
    t0_ranking_df = t0_ranking_df.iloc[:,1:].rank(ascending=False, method='min', axis=1)
    t5_ranking_df = t5_ranking_df.iloc[:,1:].rank(ascending=False, method='min', axis=1)

    #Ghép xếp hạng vào bảng thông tin cổ phiếu
    for ticker, df in the_dict.items():
        df['rank_t0'] = t0_ranking_df[ticker]
        df['rank_t5'] = t5_ranking_df[ticker]
        
        #Check xem xếp hạng T0 nằm trong top 10% hay không
        df['top_check'] = df.apply(lambda x: 1 if x['rank_t0'] <= x['stock_count']*0.1 else 0, axis=1)

In [None]:
#Ghép lại bảng điểm dòng tiền cho tất cả giai đoạn
concat_stock_score_dict = {}
for ticker in stock_classification_df['ticker'].tolist():
    temp_df = pd.DataFrame()
    for period in period_stock_df.columns[1:].tolist():
        if ticker in period_stock_df[period].tolist():
            temp_df = pd.concat([temp_df, period_stock_score_dict[period][ticker]], axis=0)

    #Gán lại temp_df cho dict dòng tiền tổng
    concat_stock_score_dict[ticker] = temp_df.reset_index(drop=True)

In [None]:
#Merge bảng và xử lý các giai đoạn không có cổ phiếu
stock_score_dict = {}
for ticker, df in raw_stock_score_dict.items():

    #Nếu trong lịch sử có giai đoạn lọt top thì ghép thêm vào, nếu ko thì thôi
    if (ticker in concat_stock_score_dict) and (len(concat_stock_score_dict[ticker]) > 0):
        df = df.merge(concat_stock_score_dict[ticker][['date','rank_t0','rank_t5','top_check']], on='date', how='left')
    
        df['rank_t0'] = df.apply(lambda x: x['rank_t0'] if pd.notnull(x['rank_t0']) else x['stock_count'], axis=1)
        df['rank_t5'] = df.apply(lambda x: x['rank_t5'] if pd.notnull(x['rank_t5']) else x['stock_count'], axis=1)
        df['top_check'] = df['top_check'].fillna(0)

        #Đếm số phiên lọt top 10%
        df['top_count'] = df['top_check'][::-1].rolling(window=20, min_periods=1).sum()[::-1]

        stock_score_dict[ticker] = df

#### Điểm dòng tiền nhóm cổ phiếu

In [None]:
#Chỉnh sửa lại điểm dòng tiền t0 cho từng cổ phiếu với tác động của độ rộng từng nhóm
def adjust_score_by_breath(t0_score, ratio_column):
    adjusted_score = []
    for score, ratio in zip(t0_score, ratio_column):
        if score >= 0:
            adjusted_score.append(score*ratio)
        else:
            adjusted_score.append(score*(1-ratio))
    return adjusted_score

#Hàm điều chỉnh điểm dòng tiền của cổ phiếu tránh sự đột biến khi đóng góp vào nhóm chung
def adjust_score_for_smooth(row, column_name, max_percent, mark):
    origin_score = row[column_name]
    
    if abs(origin_score) > row['total'] * max_percent:

        sum_abs = row['total'] - abs(row[column_name])
        fixed_score = sum_abs / (1 - max_percent) - sum_abs

        if origin_score >= 0:
            return fixed_score
        else:
            return -fixed_score
    else:
        mark[0] = 0
        return origin_score

#Áp dụng hàm điều chỉnh điểm phía trên vào các nhóm cổ phiếu, việc này lặp lại nhiều lần cho tới khi triệt tiêu sự đột biến
def apply_smooth_score(period_score_dict, group_type, period):

    #Lấy ra dict điểm dòng tiền và danh sách cổ phiếu của period
    score_dict = period_score_dict[period]
    period_stock_classification_df = period_stock_classification_dict[period].copy()

    #Lấy ra danh sách cách nhóm nhỏ của mõi cách chia cổ phiếu
    if group_type == 'all':
        key_list = all_stock_key_list
    elif group_type == 'industry_perform':
        key_list = [key for key, value in group_map_dict.items() if value == 'hs']
    elif group_type == 'marketcap_group':
        key_list = [key for key, value in group_map_dict.items() if value == 'cap'] 
    elif group_type == 'industry_name':
        key_list = [key for key, value in group_map_dict.items() if value in ['hsA', 'hsB', 'hsC', 'hsD']]

    for key in key_list:
        score_df = period_date_series_dict[period].copy()
        if group_type == 'all':
            stock_list = period_stock_classification_df['ticker'].tolist()
        else:
            stock_list = [ticker for ticker in 
            period_stock_classification_df[period_stock_classification_df[group_type]==key]['ticker'].dropna().tolist()]
        for ticker in stock_list:
            try: score_df[ticker] = score_dict[ticker][f't0_score']
            except: pass

        max_percent = max(0.1, min(5*(1/len(stock_list)), 0.5))
        score_df['total'] = score_df.iloc[:, 1:].abs().sum(axis=1)

        mark = [1]
        while True:
            if mark[0] == 1:
                for ticker in stock_list:
                    score_df[ticker] = score_df.iloc[:, 1:].apply(adjust_score_for_smooth, axis=1, args=(ticker, max_percent, mark))
            if mark[0] == 0: break

        for ticker in stock_list:
            try: score_dict[ticker][f't0_{group_type}'] = score_df[ticker]
            except: pass

In [None]:
#Thêm các cột dòng tiền đóng góp vào các nhóm cổ phiếu vào các dict period (đã loại bỏ đột biến)
for period in period_stock_df.columns[1:].tolist():
    for group_type in ['all','industry_name','industry_perform','marketcap_group']:
        apply_smooth_score(period_stock_score_dict, group_type, period)

In [None]:
#Tính độ rộng dòng tiền các nhóm cổ phiếu từng phiên trong từng giai đoạn
period_market_breath_dict = {}
for period in period_stock_df.columns[1:].tolist():

    period_market_breath_dict[period] = period_date_series_dict[period].copy()
    period_stock_classification_df = period_stock_classification_dict[period].copy()
    stock_score_df = period_date_series_dict[period].copy()

    for ticker, df in period_stock_score_dict[period].items():
        stock_score_df[ticker] = period_stock_score_dict[period][ticker]['t0_score']
    stock_score_df.iloc[:,1:] = stock_score_df.iloc[:,1:].applymap(lambda x: 1 if x > 0 else 0)

    all_stock_breadth_dict = {}
    for key in all_stock_key_list:
        stock_list = period_stock_classification_df['ticker'].tolist()
        all_stock_breadth_dict[key] = stock_score_df[['date'] + [columns for columns in stock_list]]
        period_market_breath_dict[period][key] = all_stock_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)
    
    industry_name_breadth_dict = {}
    for key in industry_name_list:
        stock_list = period_stock_classification_df[period_stock_classification_df['industry_name']==key]['ticker'].tolist()
        industry_name_breadth_dict[key] = stock_score_df[['date'] + [columns for columns in stock_list]]
        period_market_breath_dict[period][key] = industry_name_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

    industry_perform_breadth_dict = {}
    for key in industry_perform_list:
        stock_list = period_stock_classification_df[period_stock_classification_df['industry_perform']==key]['ticker'].tolist()
        industry_perform_breadth_dict[key] = stock_score_df[['date'] + [columns for columns in stock_list]]
        period_market_breath_dict[period][key] = industry_perform_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

    marketcap_group_breadth_dict = {}
    for key in marketcap_group_list:
        stock_list = period_stock_classification_df[period_stock_classification_df['marketcap_group']==key]['ticker'].tolist()
        marketcap_group_breadth_dict[key] = stock_score_df[['date'] + [columns for columns in stock_list]]
        period_market_breath_dict[period][key] = marketcap_group_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)
    
#Chỉnh sửa lại điểm dòng tiền trực tiếp vào trong period_stock_score_dict
for period in period_stock_df.columns[1:].tolist():
    period_stock_classification_df = period_stock_classification_dict[period].copy()
    for ticker, df in period_stock_score_dict[period].items():
        for group_type in ['all','industry_name','industry_perform','marketcap_group']:
            if group_type == 'all':
                df[f't0_{group_type}'] = adjust_score_by_breath(df[f't0_{group_type}'], period_market_breath_dict[period]['all'])
            else:
                group_name = period_stock_classification_df[period_stock_classification_df['ticker']==ticker][group_type].item()
                df[f't0_{group_type}'] = adjust_score_by_breath(df[f't0_{group_type}'], period_market_breath_dict[period][group_name])

In [None]:
#Tạo dict dòng tiền các nhóm cổ phiếu từng giai đoạn
period_group_score_dict = {}
for period in period_stock_df.columns[1:].tolist():
    period_group_score_dict[period] = period_date_series_dict[period].copy()
    period_stock_classification_df = period_stock_classification_dict[period].copy()

    #Thêm cột điểm dòng tiền toàn bộ cổ phiếu
    for key in all_stock_key_list:
        score_df = period_date_series_dict[period].copy()
        for ticker in period_stock_classification_df['ticker']:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_all']
        score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
        period_group_score_dict[period][key] = score_df['total']

    #Thêm các cột điểm dòng tiền ngành
    for nganh in industry_name_list:
        score_df = period_date_series_dict[period].copy()
        for ticker in period_stock_classification_df[period_stock_classification_df['industry_name']==nganh]['ticker']:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_industry_name']
        score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
        period_group_score_dict[period][nganh] = score_df['total']

    #Thêm các cột điểm dòng tiền nhóm hiệu suất
    for group in industry_perform_list:
        score_df = period_date_series_dict[period].copy()
        for ticker in period_stock_classification_df[period_stock_classification_df['industry_perform']==group]['ticker']:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_industry_perform']
        score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
        period_group_score_dict[period][group] = score_df['total']

    #Thêm các cột điểm dòng tiền nhóm vốn hoá
    for marketcap in marketcap_group_list:
        score_df = period_date_series_dict[period].copy()
        for ticker in period_stock_classification_df[period_stock_classification_df['marketcap_group']==marketcap]['ticker']:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_marketcap_group']
        score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
        period_group_score_dict[period][marketcap] = score_df['total']

#Ghép các bảng dòng tiền nhóm cổ phiếu từng giai đoạn thành bảng full
group_score_df = pd.DataFrame()
for period in period_stock_df.columns[1:].tolist():
    group_score_df = pd.concat([group_score_df, period_group_score_dict[period]]).sort_values('date', ascending=False).reset_index(drop=True)

group_score_df = group_score_df.fillna(0)

In [None]:
def mean_of_positive_values(df, length):
    positive_values = df[df >= 0]  # Lọc ra các giá trị âm
    return positive_values.sum(axis=1)/length

#Tạo dict dòng tiền các nhóm cổ phiếu từng giai đoạn
period_group_score_positive_dict = {}
for period in period_stock_df.columns[1:].tolist():
    period_group_score_positive_dict[period] = period_date_series_dict[period].copy()
    period_stock_classification_df = period_stock_classification_dict[period].copy()

    #Thêm cột điểm dòng tiền toàn bộ cổ phiếu
    for key in all_stock_key_list:
        score_df = period_date_series_dict[period].copy()
        temp_stock_list = period_stock_classification_df['ticker']
        for ticker in temp_stock_list:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_all']
        score_df['total'] = mean_of_positive_values(score_df.iloc[:, 1:], len(temp_stock_list))
        period_group_score_positive_dict[period][key] = score_df['total']

    #Thêm các cột điểm dòng tiền ngành
    for nganh in industry_name_list:
        score_df = period_date_series_dict[period].copy()
        temp_stock_list = period_stock_classification_df[period_stock_classification_df['industry_name']==nganh]['ticker']
        for ticker in temp_stock_list:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_industry_name']
        score_df['total'] = mean_of_positive_values(score_df.iloc[:, 1:], len(temp_stock_list))
        period_group_score_positive_dict[period][nganh] = score_df['total']

    #Thêm các cột điểm dòng tiền nhóm hiệu suất
    for group in industry_perform_list:
        score_df = period_date_series_dict[period].copy()
        temp_stock_list = period_stock_classification_df[period_stock_classification_df['industry_perform']==group]['ticker']
        for ticker in temp_stock_list:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_industry_perform']
        score_df['total'] = mean_of_positive_values(score_df.iloc[:, 1:], len(temp_stock_list))
        period_group_score_positive_dict[period][group] = score_df['total']

    #Thêm các cột điểm dòng tiền nhóm vốn hoá
    for marketcap in marketcap_group_list:
        score_df = period_date_series_dict[period].copy()
        temp_stock_list = period_stock_classification_df[period_stock_classification_df['marketcap_group']==marketcap]['ticker']
        for ticker in temp_stock_list:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_marketcap_group']
        score_df['total'] = mean_of_positive_values(score_df.iloc[:, 1:], len(temp_stock_list))
        period_group_score_positive_dict[period][marketcap] = score_df['total']

#Ghép các bảng dòng tiền nhóm cổ phiếu từng giai đoạn thành bảng full
group_score_positive_df = pd.DataFrame()
for period in period_stock_df.columns[1:].tolist():
    group_score_positive_df = pd.concat([group_score_positive_df, period_group_score_positive_dict[period]]).sort_values('date', ascending=False).reset_index(drop=True)

group_score_positive_df = group_score_positive_df.fillna(0)


In [None]:
def mean_of_negative_values(df, length):
    negative_values = df[df < 0]  # Lọc ra các giá trị âm
    return negative_values.sum(axis=1)/length

#Tạo dict dòng tiền các nhóm cổ phiếu từng giai đoạn
period_group_score_negative_dict = {}
for period in period_stock_df.columns[1:].tolist():
    period_group_score_negative_dict[period] = period_date_series_dict[period].copy()
    period_stock_classification_df = period_stock_classification_dict[period].copy()

    #Thêm cột điểm dòng tiền toàn bộ cổ phiếu
    for key in all_stock_key_list:
        score_df = period_date_series_dict[period].copy()
        temp_stock_list = period_stock_classification_df['ticker']
        for ticker in temp_stock_list:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_all']
        score_df['total'] = mean_of_negative_values(score_df.iloc[:, 1:], len(temp_stock_list))
        period_group_score_negative_dict[period][key] = score_df['total']

    #Thêm các cột điểm dòng tiền ngành
    for nganh in industry_name_list:
        score_df = period_date_series_dict[period].copy()
        temp_stock_list = period_stock_classification_df[period_stock_classification_df['industry_name']==nganh]['ticker']
        for ticker in temp_stock_list:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_industry_name']
        score_df['total'] = mean_of_negative_values(score_df.iloc[:, 1:], len(temp_stock_list))
        period_group_score_negative_dict[period][nganh] = score_df['total']

    #Thêm các cột điểm dòng tiền nhóm hiệu suất
    for group in industry_perform_list:
        score_df = period_date_series_dict[period].copy()
        temp_stock_list = period_stock_classification_df[period_stock_classification_df['industry_perform']==group]['ticker']
        for ticker in temp_stock_list:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_industry_perform']
        score_df['total'] = mean_of_negative_values(score_df.iloc[:, 1:], len(temp_stock_list))
        period_group_score_negative_dict[period][group] = score_df['total']

    #Thêm các cột điểm dòng tiền nhóm vốn hoá
    for marketcap in marketcap_group_list:
        score_df = period_date_series_dict[period].copy()
        temp_stock_list = period_stock_classification_df[period_stock_classification_df['marketcap_group']==marketcap]['ticker']
        for ticker in temp_stock_list:
            score_df[ticker] = period_stock_score_dict[period][ticker]['t0_marketcap_group']
        score_df['total'] = mean_of_negative_values(score_df.iloc[:, 1:], len(temp_stock_list))
        period_group_score_negative_dict[period][marketcap] = score_df['total']

#Ghép các bảng dòng tiền nhóm cổ phiếu từng giai đoạn thành bảng full
group_score_negative_df = pd.DataFrame()
for period in period_stock_df.columns[1:].tolist():
    group_score_negative_df = pd.concat([group_score_negative_df, period_group_score_negative_dict[period]]).sort_values('date', ascending=False).reset_index(drop=True)

group_score_negative_df = group_score_negative_df.fillna(0)

#### Xếp hạng các nhóm cổ phiếu

In [None]:
#Tạo bảng xếp hạng cho các nhóm cổ phiếu
def create_ranking_df(score_df):
    socre_dict = {}
    for group in score_df.columns[1:]:
        socre_dict[group] = date_series.copy()
        socre_dict[group]['t0_score'] = score_df[group]
        socre_dict[group]['t5_score'] = socre_dict[group]['t0_score'][::-1].rolling(window=5).mean()[::-1]

    ranking_score = date_series.copy()
    for group in socre_dict.keys():
        ranking_score[group] = socre_dict[group]['t5_score']
        ranking_score.fillna(0,inplace=True)

    ranking_df = date_series.copy()
    for group in socre_dict.keys():
        ranking_df[group] = 0

    for i in range(len(date_series.copy())):
        ranking_df.iloc[i, 1:] = ranking_score.iloc[i, 1:].rank(ascending=False, method='min')

    return ranking_df

industry_name_ranking_df = create_ranking_df(group_score_df[['date'] + industry_name_list])
industry_perform_ranking_df = create_ranking_df(group_score_df[['date'] + industry_perform_list])
marketcap_group_ranking_df = create_ranking_df(group_score_df[['date'] + marketcap_group_list])
group_score_ranking_df = industry_name_ranking_df.merge(industry_perform_ranking_df, on='date', how='left').merge(marketcap_group_ranking_df, on='date', how='left')

#Thêm cột xếp hạng cho nhóm 'all' là 1 để khớp dữ liệu bảng
group_score_ranking_df['all'] = 1

#### Thanh khoản các nhóm cổ phiếu

In [None]:
#Tạo dict chứa thanh khoản trung bình của mỗi nhóm cổ phiếu trong các giai đoạn
period_group_volume_dict = {}

for period in period_stock_df.columns[1:].tolist():

    period_group_volume_dict[period] = period_date_series_dict[period].copy()
    period_date_series = period_date_series_dict[period].copy()
    
    for name in all_stock_key_list:
        temp_volume_df = period_date_series.copy()
        for ticker, df in period_all_stock[period][name].items():
            temp_volume_df[ticker] = df['volume']
        temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
        period_group_volume_dict[period][name] = temp_volume_df['volume']

    for name in industry_name_list:
        temp_volume_df = period_date_series.copy()
        for ticker, df in period_industry_name[period][name].items():
            temp_volume_df[ticker] = df['volume']
        temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
        period_group_volume_dict[period][name] = temp_volume_df['volume']

    for name in industry_perform_list:
        temp_volume_df = period_date_series.copy()
        for ticker, df in period_industry_perform[period][name].items():
            temp_volume_df[ticker] = df['volume']
        temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
        period_group_volume_dict[period][name] = temp_volume_df['volume']

    for name in marketcap_group_list:
        temp_volume_df = period_date_series.copy()
        for ticker, df in period_marketcap_group[period][name].items():
            temp_volume_df[ticker] = df['volume']
        temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
        period_group_volume_dict[period][name] = temp_volume_df['volume']

#Ghép các bảng dòng tiền nhóm cổ phiếu từng giai đoạn thành bảng full thanh khoản
group_volume_df = pd.DataFrame()
for period in period_stock_df.columns[1:].tolist():
    group_volume_df = pd.concat([group_volume_df, period_group_volume_dict[period]]).sort_values('date', ascending=False).reset_index(drop=True)

#Tạo bảng hệ số thanh khoản để lấy phiên cuối
group_vol_ratio_df = date_series.copy()
temp_df = date_series.copy()
for key in group_stock_key_list:
    temp_df[key] = group_volume_df[key][::-1].rolling(window=5).mean()[::-1].shift(-1)
    group_vol_ratio_df[key] = group_volume_df[key]/temp_df[key]
    group_vol_ratio_df[key].iloc[0] = group_volume_df[key].iloc[0]/(temp_df[key].iloc[0])

#### Price Index các nhóm cổ phiếu

In [None]:
def calculate_total_change(stock_group, name, price_index_date_series):
    period_index_df = price_index_date_series.copy()

    for ticker, df in stock_group[name].items():
        period_index_df[ticker] = df['close']
        period_index_df[ticker] = period_index_df[ticker][::-1].pct_change()[::-1]

    period_index_df['total_change'] = period_index_df.iloc[:,1:].sum(axis=1)
    period_index_df['total_change'] = ((period_index_df['total_change']/len(stock_group[name]))*100)
    period_index_df['total_change'] = period_index_df['total_change']*10

    return period_index_df['total_change']

In [None]:
period_group_price_index_dict = {}
for period in period_stock_df.columns[1:].tolist():

    period_date_series = period_date_series_dict[period].copy()
    temp_df = period_date_series.copy()

    for key in all_stock_key_list:
        temp_df[key] = calculate_total_change(period_all_stock[period], key, period_date_series)

    for key in industry_name_list:
        temp_df[key] = calculate_total_change(period_industry_name[period], key, period_date_series)

    for key in industry_perform_list:
        temp_df[key] = calculate_total_change(period_industry_perform[period], key, period_date_series)

    for key in marketcap_group_list:
        temp_df[key] = calculate_total_change(period_marketcap_group[period], key, period_date_series)

    period_group_price_index_dict[period] = temp_df

group_price_index_df= pd.DataFrame()
for period in period_stock_df.columns[1:].tolist():
    group_price_index_df = pd.concat([group_price_index_df, period_group_price_index_dict[period]]).sort_values('date', ascending=False).reset_index(drop=True)

for key in group_stock_key_list:
    group_price_index_df[key] = group_price_index_df[key][::-1].cumsum()[::-1] + 1000

#### Tạo các bảng lịch sử dữ liệu

In [82]:
def calculate_extreme_2period(df, period_col, value_col, periods=2, date_col='date'):
    """
    Tính giá trị cực trị (max với 'high' hoặc min với 'low') của cột value_col
    trên các dòng có ngày <= date_col và thuộc các nhóm thời gian từ
    (current period và (periods-1) nhóm liền trước), sử dụng các thao tác vectorized.
    
    Tham số:
      - df: DataFrame chứa dữ liệu.
      - period_col: tên cột định danh kỳ (ví dụ: 'week', 'month', 'quarter', 'year').
      - value_col: tên cột giá trị cần tính (chỉ hỗ trợ 'high' hoặc 'low').
      - periods: số nhóm cần gộp (mặc định 2: nhóm hiện tại và nhóm liền trước).
      - date_col: tên cột ngày (mặc định 'date').
    
    Hàm trả về Series chứa giá trị cực trị ứng với mỗi dòng.
    """
    df = df.copy()
    # Đảm bảo cột ngày ở dạng datetime và sắp xếp theo ngày
    df[date_col] = pd.to_datetime(df[date_col])
    df = df.sort_values(date_col)
    
    # Xác định thứ tự của các nhóm dựa trên ngày xuất hiện đầu tiên của mỗi nhóm
    period_min_dates = df.groupby(period_col)[date_col].min().sort_values()
    period_order = period_min_dates.index.tolist()
    mapping = {p: i for i, p in enumerate(period_order)}
    df['period_idx'] = df[period_col].map(mapping)
    
    # Tính giá trị tích lũy (cum_ext) trong mỗi nhóm: với 'high' dùng cummax, với 'low' dùng cummin
    if value_col == 'high':
        df['cum_ext'] = df.groupby(period_col)[value_col].cummax()
    elif value_col == 'low':
        df['cum_ext'] = df.groupby(period_col)[value_col].cummin()
    else:
        raise ValueError("value_col phải là 'high' hoặc 'low'")
    
    # Tính giá trị cực trị tổng thể của mỗi nhóm (group_ext)
    if value_col == 'high':
        group_ext = df.groupby(period_col)[value_col].max()
    else:  # value_col == 'low'
        group_ext = df.groupby(period_col)[value_col].min()
    
    groups_df = group_ext.reset_index().rename(columns={value_col: 'group_ext'})
    groups_df['period_idx'] = groups_df[period_col].map(mapping)
    groups_df = groups_df.sort_values('period_idx')
    
    # Tính giá trị cực trị của các nhóm liền trước, dùng rolling trên các group_ext (không tính group hiện tại)
    if periods > 1:
        if value_col == 'high':
            groups_df['prev_ext'] = groups_df['group_ext'].shift(1).rolling(window=periods-1, min_periods=1).max()
        else:  # value_col == 'low'
            groups_df['prev_ext'] = groups_df['group_ext'].shift(1).rolling(window=periods-1, min_periods=1).min()
    else:
        groups_df['prev_ext'] = pd.NA
    
    # Gộp kết quả của các nhóm (prev_ext) vào DataFrame gốc theo period_col
    df = df.merge(groups_df[[period_col, 'prev_ext']], on=period_col, how='left')
    
    # Với mỗi dòng, kết hợp giá trị tích lũy của nhóm hiện tại (cum_ext) với giá trị cực trị của các nhóm trước (prev_ext)
    if value_col == 'high':
        # Nếu prev_ext là NaN thì chỉ dùng cum_ext, ngược lại lấy max của hai giá trị
        df['extreme'] = df[['cum_ext', 'prev_ext']].max(axis=1)
    else:
        df['extreme'] = df[['cum_ext', 'prev_ext']].min(axis=1)

    return df['extreme']

In [75]:
def add_prev_period_metrics(df, period_col, date_col='date', prefix=None):
    df = df.copy()
    # Chuyển đổi cột date và sắp xếp theo ngày tăng dần
    df[date_col] = pd.to_datetime(df[date_col])
    df = df.sort_values(date_col)
    
    # Xác định thứ tự các kỳ dựa trên ngày xuất hiện đầu tiên của mỗi kỳ
    period_order = df.groupby(period_col)[date_col].min().sort_values().index.tolist()
    
    # Tính toán các chỉ số cho từng kỳ
    agg_df = df.groupby(period_col).agg(
        close_period = ('close', 'last'),  # giá đóng cửa của ngày cuối cùng trong nhóm
        high_period  = ('high', 'max'),      # giá cao nhất của nhóm
        low_period   = ('low', 'min')        # giá thấp nhất của nhóm
    ).reset_index()
    
    # Đặt cột period_col thành kiểu categorical với thứ tự xác định
    agg_df[period_col] = pd.Categorical(agg_df[period_col], categories=period_order, ordered=True)
    agg_df = agg_df.sort_values(period_col)
    
    # Dịch chuyển các chỉ số để lấy giá của kỳ liền trước
    agg_df['prev_close'] = agg_df['close_period'].shift(1)
    agg_df['prev_high']  = agg_df['high_period'].shift(1)
    agg_df['prev_low']   = agg_df['low_period'].shift(1)
    
    if prefix:
        agg_df = agg_df.rename(columns={
            'prev_close': f'{prefix}_prev_close',
            'prev_high':  f'{prefix}_prev_high',
            'prev_low':   f'{prefix}_prev_low'
        })
        merge_cols = [period_col, f'{prefix}_prev_close', f'{prefix}_prev_high', f'{prefix}_prev_low']
    else:
        merge_cols = [period_col, 'prev_close', 'prev_high', 'prev_low']
    
    # Gộp các chỉ số của kỳ liền trước vào DataFrame ban đầu
    df = df.merge(agg_df[merge_cols], on=period_col, how='left')
    
    return df

##### Bảng lịch sử biểu đồ MS

In [70]:
def transform_ms(stock_group, period):
    stock_dict = copy.deepcopy(stock_group)
    # Prepare a base date DataFrame from date_series
    dates_df = period_date_series_dict[period]
    
    for group_name, stocks in stock_dict.items():
        # Initialize a DataFrame for group trends
        group_trends = dates_df.copy()

        # Compute trends across stocks
        for trend in ['trend_5p', 'trend_20p', 'trend_60p', 'trend_120p', 'trend_240p', 'trend_480p']:
            # Concatenate all trend data for current trend across all stocks
            trend_data = pd.concat([stocks[ticker][trend] for ticker in stocks], axis=1)
            trend_data.fillna(0, inplace=True)
            
            # Calculate the sum and percent for the trend
            sum_trend = trend_data.sum(axis=1)
            percent_trend = sum_trend / len(stocks)
            
            # Add to group trends DataFrame
            group_trends[f'{trend}'] = percent_trend

        stock_dict[group_name] = group_trends.sort_values('date', ascending=False)
        
    return stock_dict

In [72]:
#Tạo các bảng MS cho từng giai đoạn
period_all_stock_ms = {}
period_industry_name_ms = {}
period_industry_perform_ms = {}
period_marketcap_group_ms = {}

for period in period_stock_df.columns[1:].tolist():
    period_all_stock_ms[period] = transform_ms(period_all_stock[period], period)
    period_industry_name_ms[period] = transform_ms(period_industry_name[period], period)
    period_industry_perform_ms[period] = transform_ms(period_industry_perform[period], period)
    period_marketcap_group_ms[period] = transform_ms(period_marketcap_group[period], period)

In [None]:
#Ghép các bảng MS vào chung 1 bảng full lịch sử
all_stock_ms = {}
industry_name_ms = {}
industry_perform_ms = {}
marketcap_group_ms = {}

for group in all_stock_key_list:
    all_stock_ms[group] = pd.DataFrame()
    for period in period_stock_df.columns[1:].tolist():
        all_stock_ms[group] = pd.concat([all_stock_ms[group], period_all_stock_ms[period][group]])

for group in industry_name_list:
    industry_name_ms[group] = pd.DataFrame()
    for period in period_stock_df.columns[1:].tolist():
        industry_name_ms[group] = pd.concat([industry_name_ms[group], period_industry_name_ms[period][group]])
    industry_name_ms[group] = industry_name_ms[group]

for group in industry_perform_list:
    industry_perform_ms[group] = pd.DataFrame()
    for period in period_stock_df.columns[1:].tolist():
        industry_perform_ms[group] = pd.concat([industry_perform_ms[group], period_industry_perform_ms[period][group]])
    industry_perform_ms[group] = industry_perform_ms[group]

for group in marketcap_group_list:
    marketcap_group_ms[group] = pd.DataFrame()
    for period in period_stock_df.columns[1:].tolist():
        marketcap_group_ms[group] = pd.concat([marketcap_group_ms[group], period_marketcap_group_ms[period][group]])
    marketcap_group_ms[group] = marketcap_group_ms[group]

#Gộp tất cả biểu đồ MS vào 1 bảng
history_ms_chart_df = pd.DataFrame()
for item in [all_stock_ms, industry_name_ms, industry_perform_ms, marketcap_group_ms]:
    for group, df in item.items():
        temp_df = df[df['date'] != today.strftime('%Y-%m-%d')]
        temp_df['ticker'] = group
        history_ms_chart_df = pd.concat([history_ms_chart_df, temp_df], axis=0).sort_values('date', ascending=False)

##### Bảng lịch sử từng cổ phiếu

In [91]:
def merge_remove_duplicates(df1, df2, key):
    # Thực hiện merge với tùy chọn suffixes để phân biệt các cột trùng lặp từ df2
    merged = pd.merge(df1, df2, on=key, how='outer', suffixes=('', '_dup'))
    # Tìm các cột có suffix '_dup' (tức là các cột trùng lặp từ df2)
    dup_cols = [col for col in merged.columns if col.endswith('_dup')]
    # Loại bỏ các cột trùng lặp
    merged.drop(columns=dup_cols, inplace=True)
    return merged

history_stock_dict = {}
for ticker in stock_dict.keys():
# for ticker in ['AAA','ACB']:
	df1 = stock_dict[ticker]
	df2 = stock_score_dict[ticker]

	df_merge = merge_remove_duplicates(df1, df2, 'date').sort_values('date').reset_index(drop=True)
	df_merge = df_merge.drop(columns=['ma5', 'trend_5p', 'trend_20p', 'trend_60p', 'trend_120p', 'trend_240p', 'trend_480p'])

	#Tạo thêm các cột mốc tuần tháng
	df_merge['week'] = df_merge['date'].dt.strftime('%W-%Y').apply(lambda x: f'53-{x[-4:]}' if x[:2] == '00' else x)
	df_merge['month'] = df_merge['date'].dt.strftime('%m-%Y')
	df_merge['year'] = df_merge['date'].dt.strftime('%Y')

	#Tính toán giá của các nến
	df_merge['week_high'] = df_merge.groupby('week')['high'].cummax()
	df_merge['week_low'] = df_merge.groupby('week')['low'].cummin()
	df_merge['week_open'] = df_merge.groupby('week')['open'].transform('first')     
	df_merge['month_high'] = df_merge.groupby('month')['high'].cummax()
	df_merge['month_low'] = df_merge.groupby('month')['low'].cummin()
	df_merge['month_open'] = df_merge.groupby('month')['open'].transform('first')
	df_merge['quarter_high'] = df_merge.groupby('quarter')['high'].cummax()
	df_merge['quarter_low'] = df_merge.groupby('quarter')['low'].cummin()
	df_merge['quarter_open'] = df_merge.groupby('quarter')['open'].transform('first')
	df_merge['year_high'] = df_merge.groupby('year')['high'].cummax()
	df_merge['year_low'] = df_merge.groupby('year')['low'].cummin()
	df_merge['year_open'] = df_merge.groupby('year')['open'].transform('first')

	#Tính toán cho chỉ báo Fibbonachi
	df_merge['2week_high'] = calculate_extreme_2period(df_merge, 'week', 'high')
	df_merge['2week_low'] = calculate_extreme_2period(df_merge, 'week', 'low')
	df_merge['2month_high'] = calculate_extreme_2period(df_merge, 'month', 'high')
	df_merge['2month_low'] = calculate_extreme_2period(df_merge, 'month', 'low')
	df_merge['2quarter_high'] = calculate_extreme_2period(df_merge, 'quarter', 'high')
	df_merge['2quarter_low'] = calculate_extreme_2period(df_merge, 'quarter', 'low')
	df_merge['2year_high'] = calculate_extreme_2period(df_merge, 'year', 'high')
	df_merge['2year_low'] = calculate_extreme_2period(df_merge, 'year', 'low')
      
	df_merge['WFIBO_0382'] = df_merge['2week_high'] - (df_merge['2week_high']-df_merge['2week_low'])*0.382
	df_merge['WFIBO_0500'] = df_merge['2week_high'] - (df_merge['2week_high']-df_merge['2week_low'])*0.500
	df_merge['WFIBO_0618'] = df_merge['2week_high'] - (df_merge['2week_high']-df_merge['2week_low'])*0.618
	df_merge['MFIBO_0382'] = df_merge['2month_high'] - (df_merge['2month_high']-df_merge['2month_low'])*0.382
	df_merge['MFIBO_0500'] = df_merge['2month_high'] - (df_merge['2month_high']-df_merge['2month_low'])*0.500
	df_merge['MFIBO_0618'] = df_merge['2month_high'] - (df_merge['2month_high']-df_merge['2month_low'])*0.618
	df_merge['QFIBO_0382'] = df_merge['2quarter_high'] - (df_merge['2quarter_high']-df_merge['2quarter_low'])*0.382
	df_merge['QFIBO_0500'] = df_merge['2quarter_high'] - (df_merge['2quarter_high']-df_merge['2quarter_low'])*0.500
	df_merge['QFIBO_0618'] = df_merge['2quarter_high'] - (df_merge['2quarter_high']-df_merge['2quarter_low'])*0.618
	df_merge['YFIBO_0382'] = df_merge['2year_high'] - (df_merge['2year_high']-df_merge['2year_low'])*0.382
	df_merge['YFIBO_0500'] = df_merge['2year_high'] - (df_merge['2year_high']-df_merge['2year_low'])*0.500
	df_merge['YFIBO_0618'] = df_merge['2year_high'] - (df_merge['2year_high']-df_merge['2year_low'])*0.618
  
	#Tính toán cho chỉ báo Pivot
	df_merge = add_prev_period_metrics(df_merge, period_col='week', prefix='week') #Thêm 2 cột 'week_prev_high', 'week_prev_low'
	df_merge = add_prev_period_metrics(df_merge, period_col='month', prefix='month') #Thêm 2 cột 'month_prev_high', 'month_prev_low'
	df_merge = add_prev_period_metrics(df_merge, period_col='quarter', prefix='quarter') #Thêm 2 cột 'quarter_prev_high', 'quarter_prev_low'
	df_merge = add_prev_period_metrics(df_merge, period_col='year', prefix='year') #Thêm 2 cột 'year_prev_high', 'year_prev_low'
      
	df_merge['WPIBOT_P'] = (df_merge['week_prev_high'] + df_merge['week_prev_low'] + df_merge['week_prev_close'])/3
	df_merge['WPIVOT_R1'] = 2*df_merge['WPIBOT_P'] - df_merge['week_prev_low']
	df_merge['WPIVOT_S1'] = 2*df_merge['WPIBOT_P'] - df_merge['week_prev_high']
	df_merge['MPIBOT_P'] = (df_merge['month_prev_high'] + df_merge['month_prev_low'] + df_merge['month_prev_close'])/3
	df_merge['mPIVOT_R1'] = 2*df_merge['MPIBOT_P'] - df_merge['month_prev_low']
	df_merge['mPIVOT_S1'] = 2*df_merge['MPIBOT_P'] - df_merge['month_prev_high']
	df_merge['QPIBOT_P'] = (df_merge['quarter_prev_high'] + df_merge['quarter_prev_low'] + df_merge['quarter_prev_close'])/3
	df_merge['QPIVOT_R1'] = 2*df_merge['QPIBOT_P'] - df_merge['quarter_prev_low']
	df_merge['QPIVOT_S1'] = 2*df_merge['QPIBOT_P'] - df_merge['quarter_prev_high']
	df_merge['YPIBOT_P'] = (df_merge['year_prev_high'] + df_merge['year_prev_low'] + df_merge['year_prev_close'])/3
	df_merge['YPIVOT_R1'] = 2*df_merge['YPIBOT_P'] - df_merge['year_prev_low']
	df_merge['YPIVOT_S1'] = 2*df_merge['YPIBOT_P'] - df_merge['year_prev_high']

	#Tính toán cho các chỉ báo khác vẽ cùng biểu đồ giá
	df_merge.ta.sma(close='close', length=5, append=True)  # Tạo cột 'SMA_5'
	df_merge.ta.sma(close='close', length=20, append=True)  # Tạo cột 'SMA_20'
	df_merge.ta.sma(close='close', length=60, append=True)  # Tạo cột 'SMA_60'
	df_merge.ta.sma(close='close', length=120, append=True)  # Tạo cột 'SMA_120'
	df_merge.ta.sma(close='close', length=240, append=True)  # Tạo cột 'SMA_240'
	df_merge.ta.sma(close='close', length=480, append=True)  # Tạo cột 'SMA_480'

	#Tính toán cho các chỉ báo vẽ dưới biểu đồ giá
	df_merge.ta.rsi(close='close', length=14, scalar=100, append=True)  # Tạo cột 'RSI_14'
	df_merge.ta.macd(close='close', fast=12, slow=26, signal=9, append=True) #Tạo cột 'MACD_12_26_9', 'MACDh_12_26_9', 'MACDs_12_26_9'

	history_stock_dict[ticker] = df_merge[df_merge['date'] != today].sort_values('date', ascending=False).reset_index(drop=True)

#Ghép tất cả cổ phiếu vào chung một bảng
history_stock_df = pd.DataFrame()
for ticker, df in history_stock_dict.items():
    history_stock_df = pd.concat([history_stock_df, df], axis=0)

##### Bảng lịch sử các nhóm cổ phiếu

- Lịch sử dữ liệu dòng tiền các nhóm cổ phiếu cho website

In [92]:
history_group_dict = {}
for ticker in group_stock_key_list:
    temp_df = date_series.sort_values('date')
    temp_df['ticker'] = ticker
    temp_df['close'] = group_price_index_df[ticker]
    temp_df['volume'] = group_volume_df[ticker]
    temp_df['vol_ratio'] = group_vol_ratio_df[ticker]
    temp_df['t0_score'] = group_score_df[ticker]
    temp_df['t5_score'] = temp_df['t0_score'][::-1].rolling(window=5, min_periods=1).mean()[::-1]
    temp_df['rank'] = group_score_ranking_df[ticker]
    
    history_group_dict[ticker] = temp_df.sort_values('date', ascending=False)

#Ghép tất cả cổ phiếu vào chung một bảng
history_group_df = pd.DataFrame()
for ticker, df in history_group_dict.items():
    history_group_df = pd.concat([history_group_df, df[df['date'] != today]], axis=0)

- Lịch sử dữ liệu âm dương dùng cho tín hiệu

In [93]:
group_score_positive_df['type'] = 'pos'
group_score_negative_df['type'] = 'neg'
history_signed_group_df = pd.concat([group_score_positive_df[group_score_positive_df['date'] != today], 
                                    group_score_negative_df[group_score_negative_df['date'] != today]], axis=0)

##### Bảng lịch sử các index

In [94]:
history_index_dict = {}
for ticker, df in index_dict.items():
	df_copy = df.sort_values('date').reset_index(drop=True)
      
	#Tạo thêm các cột mốc tuần tháng
	df_copy['week'] = df_copy['date'].dt.strftime('%W-%Y').apply(lambda x: f'53-{x[-4:]}' if x[:2] == '00' else x)
	df_copy['month'] = df_copy['date'].dt.strftime('%m-%Y')
	df_copy['quarter'] = df_copy['date'].apply(lambda x: next((key for key, value in period_timestamp_map_dict.items() if value[0] <= x <= value[1]), None))
	df_copy['year'] = df_copy['date'].dt.strftime('%Y')

	#Tính toán giá của các nến
	df_copy['week_high'] = df_copy.groupby('week')['high'].cummax()
	df_copy['week_low'] = df_copy.groupby('week')['low'].cummin()
	df_copy['week_open'] = df_copy.groupby('week')['open'].transform('first')     
	df_copy['month_high'] = df_copy.groupby('month')['high'].cummax()
	df_copy['month_low'] = df_copy.groupby('month')['low'].cummin()
	df_copy['month_open'] = df_copy.groupby('month')['open'].transform('first')
	df_copy['quarter_high'] = df_copy.groupby('quarter')['high'].cummax()
	df_copy['quarter_low'] = df_copy.groupby('quarter')['low'].cummin()
	df_copy['quarter_open'] = df_copy.groupby('quarter')['open'].transform('first')
	df_copy['year_high'] = df_copy.groupby('year')['high'].cummax()
	df_copy['year_low'] = df_copy.groupby('year')['low'].cummin()
	df_copy['year_open'] = df_copy.groupby('year')['open'].transform('first')

	#Tính toán cho chỉ báo Fibbonachi
	df_copy['2week_high'] = calculate_extreme_2period(df_copy, 'week', 'high')
	df_copy['2week_low'] = calculate_extreme_2period(df_copy, 'week', 'low')
	df_copy['2month_high'] = calculate_extreme_2period(df_copy, 'month', 'high')
	df_copy['2month_low'] = calculate_extreme_2period(df_copy, 'month', 'low')
	df_copy['2quarter_high'] = calculate_extreme_2period(df_copy, 'quarter', 'high')
	df_copy['2quarter_low'] = calculate_extreme_2period(df_copy, 'quarter', 'low')
	df_copy['2year_high'] = calculate_extreme_2period(df_copy, 'year', 'high')
	df_copy['2year_low'] = calculate_extreme_2period(df_copy, 'year', 'low')
			
	df_copy['WFIBO_0382'] = df_copy['2week_high'] - (df_copy['2week_high']-df_copy['2week_low'])*0.382
	df_copy['WFIBO_0500'] = df_copy['2week_high'] - (df_copy['2week_high']-df_copy['2week_low'])*0.500
	df_copy['WFIBO_0618'] = df_copy['2week_high'] - (df_copy['2week_high']-df_copy['2week_low'])*0.618
	df_copy['MFIBO_0382'] = df_copy['2month_high'] - (df_copy['2month_high']-df_copy['2month_low'])*0.382
	df_copy['MFIBO_0500'] = df_copy['2month_high'] - (df_copy['2month_high']-df_copy['2month_low'])*0.500
	df_copy['MFIBO_0618'] = df_copy['2month_high'] - (df_copy['2month_high']-df_copy['2month_low'])*0.618
	df_copy['QFIBO_0382'] = df_copy['2quarter_high'] - (df_copy['2quarter_high']-df_copy['2quarter_low'])*0.382
	df_copy['QFIBO_0500'] = df_copy['2quarter_high'] - (df_copy['2quarter_high']-df_copy['2quarter_low'])*0.500
	df_copy['QFIBO_0618'] = df_copy['2quarter_high'] - (df_copy['2quarter_high']-df_copy['2quarter_low'])*0.618
	df_copy['YFIBO_0382'] = df_copy['2year_high'] - (df_copy['2year_high']-df_copy['2year_low'])*0.382
	df_copy['YFIBO_0500'] = df_copy['2year_high'] - (df_copy['2year_high']-df_copy['2year_low'])*0.500
	df_copy['YFIBO_0618'] = df_copy['2year_high'] - (df_copy['2year_high']-df_copy['2year_low'])*0.618

	#Tính toán cho chỉ báo Pivot
	df_copy = add_prev_period_metrics(df_copy, period_col='week', prefix='week') #Thêm 2 cột 'week_prev_high', 'week_prev_low'
	df_copy = add_prev_period_metrics(df_copy, period_col='month', prefix='month') #Thêm 2 cột 'month_prev_high', 'month_prev_low'
	df_copy = add_prev_period_metrics(df_copy, period_col='quarter', prefix='quarter') #Thêm 2 cột 'quarter_prev_high', 'quarter_prev_low'
	df_copy = add_prev_period_metrics(df_copy, period_col='year', prefix='year') #Thêm 2 cột 'year_prev_high', 'year_prev_low'
			
	df_copy['WPIBOT_P'] = (df_copy['week_prev_high'] + df_copy['week_prev_low'] + df_copy['week_prev_close'])/3
	df_copy['WPIVOT_R1'] = 2*df_copy['WPIBOT_P'] - df_copy['week_prev_low']
	df_copy['WPIVOT_S1'] = 2*df_copy['WPIBOT_P'] - df_copy['week_prev_high']
	df_copy['MPIBOT_P'] = (df_copy['month_prev_high'] + df_copy['month_prev_low'] + df_copy['month_prev_close'])/3
	df_copy['mPIVOT_R1'] = 2*df_copy['MPIBOT_P'] - df_copy['month_prev_low']
	df_copy['mPIVOT_S1'] = 2*df_copy['MPIBOT_P'] - df_copy['month_prev_high']
	df_copy['QPIBOT_P'] = (df_copy['quarter_prev_high'] + df_copy['quarter_prev_low'] + df_copy['quarter_prev_close'])/3
	df_copy['QPIVOT_R1'] = 2*df_copy['QPIBOT_P'] - df_copy['quarter_prev_low']
	df_copy['QPIVOT_S1'] = 2*df_copy['QPIBOT_P'] - df_copy['quarter_prev_high']
	df_copy['YPIBOT_P'] = (df_copy['year_prev_high'] + df_copy['year_prev_low'] + df_copy['year_prev_close'])/3
	df_copy['YPIVOT_R1'] = 2*df_copy['YPIBOT_P'] - df_copy['year_prev_low']
	df_copy['YPIVOT_S1'] = 2*df_copy['YPIBOT_P'] - df_copy['year_prev_high']

	#Tính toán cho các chỉ báo khác vẽ cùng biểu đồ giá
	df_copy.ta.sma(close='close', length=5, append=True)  # Tạo cột 'SMA_5'
	df_copy.ta.sma(close='close', length=20, append=True)  # Tạo cột 'SMA_20'
	df_copy.ta.sma(close='close', length=60, append=True)  # Tạo cột 'SMA_60'
	df_copy.ta.sma(close='close', length=120, append=True)  # Tạo cột 'SMA_120'
	df_copy.ta.sma(close='close', length=240, append=True)  # Tạo cột 'SMA_240'
	df_copy.ta.sma(close='close', length=480, append=True)  # Tạo cột 'SMA_480'

	#Tính toán cho các chỉ báo vẽ dưới biểu đồ giá
	df_copy.ta.rsi(close='close', length=14, scalar=100, append=True)  # Tạo cột 'RSI_14'
	df_copy.ta.macd(close='close', fast=12, slow=26, signal=9, append=True) #Tạo cột 'MACD_12_26_9', 'MACDh_12_26_9', 'MACDs_12_26_9'

	history_index_dict[ticker] = df_copy[df_copy['date'] != today].sort_values('date', ascending=False).reset_index(drop=True)

history_index_df = pd.DataFrame()
for ticker, df in history_index_dict.items():
    history_index_df = pd.concat([history_index_df, df], axis=0)

#### Lưu dữ liệu vào mongo

In [95]:
#Lưu file phân loại quý hiện tại để sử dụng cho các code khác
with pd.ExcelWriter("xlsx_data/current_quarter_classification.xlsx", engine='openpyxl') as writer:
    period_stock_classification_dict[get_quarter('current_quarter')].to_excel(writer, sheet_name='current_quarter_classification', index=False)

In [96]:
from pymongo import MongoClient

# --- Kết nối tới MongoDB đích ---
mongo_client = MongoClient("mongodb://t2m:t2minvest@14.225.192.30:27017/?authSource=admin")
stock_db = mongo_client["stock_db"]
    
def overwrite_mongo(collection, df, mongo_client=None):
    # Lấy tên collection hiện tại và database
    collection_name = collection.name
    db = collection.database  # Truy cập database từ collection
    temp_collection_name = f"temp_{collection_name}"
    old_collection_name = f"old_{collection_name}"

    # Reset index của DataFrame
    df = df.reset_index(drop=True)

    # 1. Lưu dữ liệu vào collection tạm
    temp_collection = db[temp_collection_name]
    temp_collection.drop()  # Đảm bảo collection tạm sạch trước khi insert
    temp_collection.insert_many(df.to_dict(orient='records'))

    # 2. Rename collection cũ thành 'old_' (nếu tồn tại)
    if collection_name in db.list_collection_names():
        db[collection_name].rename(old_collection_name, dropTarget=True)

    # 3. Rename collection tạm thành tên chuẩn
    temp_collection.rename(collection_name, dropTarget=True)

    # 4. Xóa collection 'old_' (nếu tồn tại)
    if old_collection_name in db.list_collection_names():
        db[old_collection_name].drop()
        
overwrite_mongo(stock_db["history_stock"], history_stock_df)
overwrite_mongo(stock_db["history_index"], history_index_df)
overwrite_mongo(stock_db["history_ms_chart"], history_ms_chart_df)
overwrite_mongo(stock_db["history_group"], history_group_df)
overwrite_mongo(stock_db["history_signed_group"], history_signed_group_df)
