In [1]:
import os
import pandas as pd
import numpy as np
from datetime import timedelta, datetime
import datetime as dt
import pandas_ta as ta
import yfinance as yf
import copy
from pymongo import MongoClient

import warnings
warnings.filterwarnings("ignore")
warnings.simplefilter('ignore', category=FutureWarning)
pd.options.mode.chained_assignment = None

#### Chuẩn bị các dữ liệu

##### Các dữ liệu dùng để làm map tham chiếu

In [2]:
mongo_client = MongoClient("mongodb://t2m:t2minvest@14.225.192.30:27017/?authSource=admin")
stock_db = mongo_client["stock_db"]

def get_mongo_df(df_name, find_query=None, projection=None):
    # Truy cập collection
    collection = stock_db[df_name]
    # Nếu không truyền vào find_query thì mặc định lấy tất cả document
    if find_query is None:
        find_query = {}
    # Nếu không truyền vào projection thì mặc định loại bỏ trường _id
    if projection is None:
        projection = {"_id": 0}
    # Thực hiện lệnh find với điều kiện và projection đã cho
    docs = collection.find(find_query, projection)
    # Chuyển đổi kết quả sang DataFrame và trả về
    df = pd.DataFrame(list(docs))
    return df

In [3]:
#Đọc name map để chuyển đỏi các tên thành dạng full
name_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'order'],axis=1)
name_map_dict = name_map.set_index('code')['full_name'].to_dict()

order_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'full_name'],axis=1)
order_map_dict = order_map.set_index('code')['order'].to_dict()

group_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['order', 'full_name'],axis=1)
group_map_dict = group_map.set_index('code')['group'].to_dict()

#Tạo các danh sách nhóm trong mỗi cách chia cổ phiếu
all_stock_key_list = [key for key, value in group_map_dict.items() if value == 'all']
industry_name_list = [key for key, value in group_map_dict.items() if value in ['hsA', 'hsB', 'hsC', 'hsD']]
industry_perform_list = [key for key, value in group_map_dict.items() if value == 'hs']
marketcap_group_list = [key for key, value in group_map_dict.items() if value == 'cap']

#Tạo danh danh key cho tổng tất cả các nhóm
group_stock_key_list = all_stock_key_list + industry_name_list + industry_perform_list + marketcap_group_list

In [4]:
def get_file_name_list(folder_path):
    file_name_list = []
    files = os.listdir(folder_path)
    for file in files:
        file_name_list.append(file[:-4])
    return file_name_list

def filter_market_file_name_list(file_name_list):
    filtered_list = [item for item in file_name_list if not (item.endswith('_AC') or item.endswith('_CC'))]
    return filtered_list

eod_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\stock"
eod_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\index"
eod_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\futures"
itd_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\stock"
itd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\index"
itd_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\futures"
nn_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\foreign"
td_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\prop"
nntd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\market"
other_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\other"

In [5]:
#Tạo dict map thời gian và số lượng cổ phiếu
period_map = pd.read_excel("xlsx_data/period_stock_list.xlsx", sheet_name='period_map')
period_map_dict = period_map.set_index('index').apply(lambda row: row.tolist(), axis=1).to_dict()

#Xoá đi quý hiện tại để chỉ tính toán tới quý trước đó
def get_quarter(name):
    now = datetime.now()
    year = now.year
    month = now.month
    if 1 <= month <= 3:
        quarter = "q1"
        previous_quarter = "q4"
        previous_year = year - 1
    elif 4 <= month <= 6:
        quarter = "q2"
        previous_quarter = "q1"
        previous_year = year
    elif 7 <= month <= 9:
        quarter = "q3"
        previous_quarter = "q2"
        previous_year = year
    else:
        quarter = "q4"
        previous_quarter = "q3"
        previous_year = year
    
    if name == 'current_quarter':
        return f'{quarter}_{year}'
    if name == 'previous_quarter':
        return f'{previous_quarter}_{previous_year}'

#Lấy ra list cổ phiếu của giai đoạn hiện tại
period_stock_list = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='period_stock_list')

current_quarter_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) 
                                  & set(period_stock_list[get_quarter('current_quarter')].dropna().tolist()))

total_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) & set(period_stock_list['all'].dropna().tolist()))

#Lấy ra khoảng thời gian tính toán cho quý này và quý trước
calculate_time_span = [period_map_dict['q2_2020'][0], period_map_dict[get_quarter('current_quarter')][1]]
current_quarter_span = [period_map_dict[get_quarter('current_quarter')][0], period_map_dict[get_quarter('current_quarter')][1]]
previous_quarter_span = [period_map_dict[get_quarter('previous_quarter')][0], period_map_dict[get_quarter('previous_quarter')][1]]

##### Đọc dữ liệu từ file .dat và lưu vào dict

In [6]:
def decode_data(file_path):
    # Đọc dữ liệu vào một numpy array
    data = np.fromfile(file_path, dtype=np.uint8)

    # Giả định kích thước mỗi bản ghi (có thể thay đổi tùy theo cấu trúc tệp thực tế)
    record_size = 32  # Giả định
    num_records = len(data) // record_size

    # Số lượng cột dữ liệu (bao gồm ngày, thời gian và các giá trị int32 còn lại)
    num_columns = record_size // 4  # Mỗi giá trị int32 chiếm 4 byte

    # Sử dụng numpy để cắt và giải mã dữ liệu hiệu quả hơn
    # Tạo một numpy array để chứa các giá trị int32 và float32
    raw_data = data.reshape(num_records, record_size // 4, 4)

    # Giải mã ngày và thời gian (int32) ở cột 0 và 1, các cột còn lại là float32
    int_data = raw_data[:, :2].view(np.int32)  # Giải mã int32 (2 cột)
    float_data = raw_data[:, 2:].view(np.float32)  # Giải mã float32 (các cột còn lại)

    # Kết hợp dữ liệu
    records = np.hstack((int_data, float_data))

    # Đảm bảo rằng dữ liệu là 2D
    records = records.reshape(num_records, num_columns)

    # Đảo ngược lại dữ liệu trước khi chuyển thành DataFrame
    records = records[::-1]

    # Chuyển đổi thành DataFrame và loại bỏ dòng đầu tiên
    df = pd.DataFrame(records, columns=[f"Col_{i}" for i in range(num_columns)])
    return df  # Loại bỏ đi dòng dữ liệu đầu tiên không cần thiết

In [7]:
def clean_itd_data(df_raw):
    #Lọc ra đúng 1 ngày dữ liệu cuối cùng
    df_raw = df_raw[df_raw['Col_0'] == max(df_raw['Col_0'])]
    #Tạo cột date-time mới từ 2 cột date và time cũ
    df_raw['date'] = df_raw['Col_0'].astype(int).astype(str) + ' ' + df_raw['Col_1'].astype(int).astype(str)
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_0', 'Col_1', 'Col_7'])
    #Sắp xếp lại thứ tự các cột
    df_clean = df_clean[['date'] + [f"Col_{i}" for i in range(2, len(df_clean.columns)+1)]]
    # #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['date'] = pd.to_datetime(df_clean['date'], format='%Y%m%d %H%M%S')
    # #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume']
    #Làm tròn khung thời gian tới 5 phút
    df_clean['date'] = df_clean['date'].dt.floor('1T')
    df_clean = df_clean.set_index("date").resample("1T", closed='right', label='right').agg({    
        "open": "first",  
        "high": "max",  
        "low": "min", 
        "close": "last",  
        "volume": "sum"   
    }).dropna().reset_index()

    return df_clean.sort_values(by="date", ascending=False).reset_index(drop=True)

index_dict = {}
for ticker in get_file_name_list(itd_index_folder_path):
    temp_file_path = itd_index_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_itd_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean
for ticker in get_file_name_list(itd_futures_folder_path):
    temp_file_path = itd_futures_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_itd_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean


stock_dict = {}
for ticker in total_stock_list:
    if ticker not in get_file_name_list(itd_stock_folder_path):
        pass
    else:
        temp_file_path = itd_stock_folder_path + f'\\{ticker}.dat'
        temp_df_raw = decode_data(temp_file_path)
        temp_df_clean = clean_itd_data(temp_df_raw)
        temp_df_clean.insert(0, 'ticker', ticker)
        stock_dict[ticker] = temp_df_clean

##### Các biến thời gian

In [9]:
def clean_eod_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_7'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume']
    
    return df_clean.reset_index(drop=True)

In [10]:
#Khởi tạo vnindex_series để xác định ngày hiện tại
vnindex_series = clean_eod_data(decode_data(eod_index_folder_path + '\\VNINDEX.dat'))['date']

#Tạo date_series cho thời gian tính toán
date_series = pd.DataFrame(vnindex_series).rename(columns={0:'date'})
date_series = date_series[(date_series['date'] >= calculate_time_span[0]) & (date_series['date'] <= calculate_time_span[1])]

#Xác định ngày hiện tại
today = vnindex_series.iloc[0]

#Xác định thời gian hiện tại
current_time = index_dict['HNXINDEX']['date'].iloc[0]

#Khởi tạo time_series bao gồm tất cả khung thời gian của ngày hiện tại
time_series_list = []
time_series_list.extend(pd.date_range(start=f'{today} 09:00:00', end=f'{today} 11:25:00', freq='1T'))
time_series_list.extend(pd.date_range(start=f'{today} 13:00:00', end=f'{today} 14:59:00', freq='1T'))
time_series = pd.DataFrame(time_series_list).rename(columns={0:'date'})

#Điều chỉnh lại time_series bỏ đi các hàng thời gian chưa có dữ liệu
time_series = time_series.loc[time_series['date'].dt.time <= current_time.time()].sort_values('date', ascending=False).reset_index(drop=True)

#Khởi tạo khung thời gian bắt đầu từ 9h00 để vẽ các biểu đồ
itd_series = pd.DataFrame(time_series_list).rename(columns={0:'date'}).sort_values('date', ascending=False).reset_index(drop=True)

#Đọc file phân bổ thanh khoản trong phiên
itd_time_percent = pd.read_excel('xlsx_data/itd_time_percent.xlsx')
#Chuyển đổi ngày thành này hôm nay
itd_time_percent['date'] = itd_time_percent['date'].apply(lambda x: today.replace(hour=x.hour, minute=x.minute, second=x.second))
#Khởi tạo hệ số thời gian
current_time_percent = itd_time_percent[itd_time_percent['date'] == current_time]['percent'].item()

##### Điều chỉnh dữ liệu

In [11]:
#Đọc dữ liệu ngày hôm nay và hôm trước của eod để thay thế vào
eod_stock_df = get_mongo_df('eod_stock', find_query=None, projection=None)
prev_stock_df = get_mongo_df("history_stock", find_query={"date": date_series.iloc[1].item()})

#Đọc dữ liệu ngày hôm nay và hôm trước của eod để thay thế vào
eod_index_df = get_mongo_df('eod_index', find_query=None, projection=None)
prev_index_df = get_mongo_df("history_index", find_query={"date": date_series.iloc[1].item()})

In [12]:
#Bù lại những dòng thời gian bị thiếu của các cổ phiếu sàn HSX
for ticker, df in stock_dict.items():
    df = time_series.merge(df, on='date', how='left').sort_values('date', ascending=False)
    #Thêm giá trị mở cửa lúc 9h cho các cổ phiếu HSX
    if pd.isna(df['ticker'].iloc[-1]):
        df.loc[df.index[-1], ['open', 'high', 'low', 'close']] = prev_stock_df[prev_stock_df['ticker']==ticker]['close'].iloc[0]

    df[['open','high','low','close']] = df[['open','high','low','close']].bfill()
    df['volume'] = df['volume'].fillna(0)
    df['ticker'] = ticker

    #Điều chỉnh lại giá cuối của itd cho giống với eod
    df.loc[0, 'close'] = eod_stock_df[eod_stock_df['ticker']==ticker]['close'].item()
    df.loc[0, 'low'] = eod_stock_df[eod_stock_df['ticker']==ticker]['low'].item()
    df.loc[0, 'high'] = eod_stock_df[eod_stock_df['ticker']==ticker]['high'].item()

    stock_dict[ticker] = df

#Bù lại những dòng thời gian bị thiếu của index sàn HSX
for ticker, df in index_dict.items():
    df = time_series.merge(df, on='date', how='left').sort_values('date', ascending=False)
    
    #Thêm giá trị mở cửa lúc 9h cho các cổ phiếu HSX
    if pd.isna(df['ticker'].iloc[-1]):
        df.loc[df.index[-1], ['open', 'high', 'low', 'close']] = prev_index_df[prev_index_df['ticker']==ticker]['close'].iloc[0]

    df[['open','high','low','close']] = df[['open','high','low','close']].bfill()
    df['volume'] = df['volume'].fillna(0)
    df['ticker'] = ticker

    #Điều chỉnh lại giá cuối của itd cho giống với eod
    df.loc[0, 'close'] = eod_index_df[eod_index_df['ticker']==ticker]['close'].item()
    df.loc[0, 'low'] = eod_index_df[eod_index_df['ticker']==ticker]['low'].item()
    df.loc[0, 'high'] = eod_index_df[eod_index_df['ticker']==ticker]['high'].item()

    index_dict[ticker] = df

In [13]:
#Thêm các cột trend để tính MS ITD
for key, df in stock_dict.items():
    temp_df = df.copy()
    
    # Gán các cột high/low từ eod_stock_df
    columns = ['high5', 'low5', 'high20', 'low20', 'high60', 'low60', 
               'high120', 'low120', 'high240', 'low240', 'high480', 'low480']
    eod_data = prev_stock_df[prev_stock_df['ticker'] == key]
    if not eod_data.empty:
        temp_df[columns] = eod_data[columns].iloc[0].values
    
    # Thêm các cột trend
    temp_df = temp_df.assign(
        trend_5p=(temp_df['close'] > ((temp_df['high5'] + temp_df['low5'])/2)).astype(int),
        trend_20p=(temp_df['close'] > ((temp_df['high20'] + temp_df['low20'])/2)).astype(int),
        trend_60p=(temp_df['close'] > ((temp_df['high60'] + temp_df['low60'])/2)).astype(int),
        trend_120p=(temp_df['close'] > ((temp_df['high120'] + temp_df['low120'])/2)).astype(int),
        trend_240p=(temp_df['close'] > ((temp_df['high240'] + temp_df['low240'])/2)).astype(int),
        trend_480p=(temp_df['close'] > ((temp_df['high480'] + temp_df['low480'])/2)).astype(int)
    )
    
    stock_dict[key] = temp_df

##### Phân nhóm cổ phiếu vào các dict

In [14]:
#Lấy danh sách phân loại cổ phiếu
stock_classification_df = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='classification')
stock_classification_df = stock_classification_df[stock_classification_df['ticker'].isin(total_stock_list)].reset_index(drop=True)

#Lấy phân loại của quý này từ dữ liệu lịch sử, các cổ phiếu không thuộc danh sách theo dõi quý này sẽ không được phân loại và nhận giá trị Nan
current_quarter_classification_df = pd.read_excel("xlsx_data/current_quarter_classification.xlsx", sheet_name='current_quarter_classification')
stock_classification_df['marketcap_group'] = stock_classification_df['ticker'].map(current_quarter_classification_df.set_index('ticker')['marketcap_group'])

In [15]:
# Convert DataFrame columns to dictionaries for quick access
stock_by_industry = stock_classification_df.set_index('ticker')['industry_name'].to_dict()
stock_by_perform = stock_classification_df.set_index('ticker')['industry_perform'].to_dict()
stock_by_marketcap = stock_classification_df.set_index('ticker')['marketcap_group'].to_dict()

# Initialize dictionaries
itd_all_stock = {}
itd_industry_name = {}
itd_industry_perform = {}
itd_marketcap_group = {}

# Function to create mappings based on category
def create_mapping(stock_dict, category_dict):
    category_map = {}
    for category, stocks in category_dict.items():
        category_map[category] = {ticker: stock_dict[ticker] for ticker in stocks if ticker in stock_dict}
    return category_map

# Precompute unique categories and relevant stocks
unique_industries = np.unique(list(stock_by_industry.values()))
unique_performs = np.unique(list(stock_by_perform.values()))
unique_marketcaps = ['large', 'mid', 'small', 'penny']

# Mapping for all_stock
itd_all_stock['all'] = {ticker: value for ticker, value in stock_dict.items() if ticker in current_quarter_stock_list}

# Mapping for industry
for industry in unique_industries:
    relevant_stocks = [ticker for ticker, ind in stock_by_industry.items() if (ind == industry) and (ticker in current_quarter_stock_list)]
    itd_industry_name[industry] = {ticker: stock_dict[ticker] for ticker in relevant_stocks if ticker in stock_dict}

# Mapping for performance
for performance in unique_performs:
    relevant_stocks = [ticker for ticker, perf in stock_by_perform.items() if (perf == performance) and (ticker in current_quarter_stock_list)]
    itd_industry_perform[performance] = {ticker: stock_dict[ticker] for ticker in relevant_stocks if ticker in stock_dict}

# Mapping for marketcap
for marketcap in unique_marketcaps:
    relevant_stocks = [ticker for ticker, mcap in stock_by_marketcap.items() if (mcap == marketcap) and (ticker in current_quarter_stock_list)]
    itd_marketcap_group[marketcap] = {ticker: stock_dict[ticker] for ticker in relevant_stocks if ticker in stock_dict}


#### Điểm dòng tiền từng cổ phiếu

In [16]:
def score_calculation(row):
    try:
        # Tính toán giá trị điểm số
        result = (((row['close'] - row['low']) - (row['high'] - row['close'])) / (row['high'] - row['low']) *
                  abs((row['close'] - row['close_prev'])) / row['close_prev'] *
                  (row['volume'] * row['close']) / (row['ma5_prev'] * row['ma5_V'])) * 100 \
                  + ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        
        # Kiểm tra nếu kết quả là inf, trả về 0 nếu đúng
        if np.isinf(result):
            # Xử lý khi xảy ra lỗi chia cho 0, trả về giá trị tính toán thêm
            return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        return result
    except ZeroDivisionError:
        # Xử lý khi xảy ra lỗi chia cho 0, trả về giá trị tính toán thêm
        return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100

In [17]:
# Giả định date_series và itd_stock_dict đã được định nghĩa
itd_start = pd.Timestamp(date_series['date'].iloc[0].replace(hour=9, minute=15, second=0, microsecond=0))

# Lọc ra các khung giwof nhỏ hơn 9h15 của các cổ phiếu HNX và UPCOM
stock_score_dict = {k: v[['ticker', 'date', 'open', 'high', 'low', 'close', 'volume']]
                  
                  for k, v in copy.deepcopy(stock_dict).items()}

for ticker, itd_df in stock_score_dict.items():

    itd_df['ma5_V'] = itd_time_percent['percent']*eod_stock_df[eod_stock_df['ticker']==ticker]['ma5_V'].item()
    itd_df['ma5_prev'] = eod_stock_df[eod_stock_df['ticker']==ticker]['ma5_prev'].item()
    itd_df['close_prev'] = eod_stock_df[eod_stock_df['ticker']==ticker]['close_prev'].item()

    itd_df['high'] = itd_df['high'][::-1].cummax()[::-1]
    itd_df['low'] = itd_df['low'][::-1].cummin()[::-1]
    itd_df['volume'] = itd_df['volume'][::-1].cumsum()[::-1]
    itd_df['vol_ratio'] = itd_df['volume']/itd_df['ma5_V']

    itd_df.loc[0, 'volume'] = eod_stock_df[eod_stock_df['ticker']==ticker]['volume'].item()
    itd_df.loc[0, 'close'] = eod_stock_df[eod_stock_df['ticker']==ticker]['close'].item()
    itd_df.loc[0, 'low'] = eod_stock_df[eod_stock_df['ticker']==ticker]['low'].item()
    itd_df.loc[0, 'high'] = eod_stock_df[eod_stock_df['ticker']==ticker]['high'].item()

    itd_df['t0_score'] = itd_df.apply(score_calculation, axis=1)
    itd_df['price_change'] = (itd_df['close'] - prev_stock_df[prev_stock_df['ticker']==ticker]['close'].item())\
                                                    /prev_stock_df[prev_stock_df['ticker']==ticker]['close'].item()

    itd_df['industry_name'] = stock_classification_df[stock_classification_df['ticker']==ticker]['industry_name'].item()
    itd_df['industry_perform'] = stock_classification_df[stock_classification_df['ticker']==ticker]['industry_perform'].item()
    itd_df['marketcap_group'] = stock_classification_df[stock_classification_df['ticker']==ticker]['marketcap_group'].item()

    # Cắt đi các cột thừa của itd_stock_dict khi ko dùng nữa
    stock_score_dict[ticker] = itd_df[['ticker', 'date','close', 'volume','t0_score','vol_ratio','industry_name','industry_perform','marketcap_group', 'price_change']]

#### Điểm dòng tiền nhóm cổ phiếu

In [18]:
#Chỉnh sửa lại điểm dòng tiền t0 cho từng cổ phiếu với tác động của độ rộng từng nhóm
def adjust_score_by_breath(t0_score, ratio_column):
    adjusted_score = []
    for score, ratio in zip(t0_score, ratio_column):
        if score >= 0:
            adjusted_score.append(score*ratio)
        else:
            adjusted_score.append(score*(1-ratio))
    return adjusted_score

#Hàm điều chỉnh điểm dòng tiền của cổ phiếu tránh sự đột biến khi đóng góp vào nhóm chung
def adjust_score_for_smooth(row, column_name, max_percent, mark):
    origin_score = row[column_name]
    
    if abs(origin_score) > row['total'] * max_percent:

        sum_abs = row['total'] - abs(row[column_name])
        fixed_score = sum_abs / (1 - max_percent) - sum_abs

        if origin_score >= 0:
            return fixed_score
        else:
            return -fixed_score
    else:
        mark[0] = 0
        return origin_score

#Áp dụng hàm điều chỉnh điểm phía trên vào các nhóm cổ phiếu, việc này lặp lại nhiều lần cho tới khi triệt tiêu sự đột biến
def apply_smooth_score(score_dict, group_type):
    if group_type == 'all':
        key_list = all_stock_key_list
    elif group_type == 'industry_perform':
        key_list = [key for key, value in group_map_dict.items() if value == 'hs']
    elif group_type == 'marketcap_group':
        key_list = [key for key, value in group_map_dict.items() if value == 'cap'] 
    elif group_type == 'industry_name':
        key_list = [key for key, value in group_map_dict.items() if value in industry_perform_list]

    for key in key_list:
        score_df = time_series.copy()
        if group_type == 'all':
            stock_list = current_quarter_stock_list
        else:
            stock_list = [ticker for ticker in current_quarter_classification_df[current_quarter_classification_df[group_type]==key]['ticker'].dropna().tolist()]
        for ticker in stock_list:
            try: score_df[ticker] = score_dict[ticker][f't0_score']
            except: pass

        max_percent = max(0.1, min(5*(1/len(stock_list)), 0.5))
        score_df['total'] = score_df.iloc[:, 1:].abs().sum(axis=1)

        mark = [1]
        while True:
            if mark[0] == 1:
                for ticker in stock_list:
                    if ticker in score_dict.keys():
                        score_df[ticker] = score_df.iloc[:, 1:].apply(adjust_score_for_smooth, axis=1, args=(ticker, max_percent, mark))
            if mark[0] == 0: break

        for ticker in score_dict.keys():
            if ticker in current_quarter_stock_list:
                if ticker in stock_list:
                    score_dict[ticker][f't0_{group_type}'] = score_df[ticker]
            else:
                score_dict[ticker][f't0_{group_type}'] = 0

In [19]:
#Thêm các cột dòng tiền đóng góp vào các nhóm cổ phiếu vào các dict period (đã loại bỏ đột biến)
for group_type in ['all','industry_name','industry_perform','marketcap_group']:
    apply_smooth_score(stock_score_dict, group_type)

In [20]:
#Tính độ rộng cho từng phiên phục vụ cho việc điều chỉnh điểm dòng tiền
temp_df = time_series.copy()
for ticker, df in stock_score_dict.items():
    temp_df[ticker] = stock_score_dict[ticker]['t0_score']
temp_df.iloc[:,1:] = temp_df.iloc[:,1:].applymap(lambda x: 1 if x > 0 else 0)

itd_market_breath = time_series.copy()

industry_name_breadth_dict = {}
for key in itd_industry_name.keys():
    temp_stock_list_full = current_quarter_classification_df[current_quarter_classification_df['industry_name']==key]['ticker'].tolist()
    stock_list = [item for item in list(set(temp_stock_list_full) & set(current_quarter_stock_list)) ]

    industry_name_breadth_dict[key] = temp_df[['date'] + [columns for columns in stock_list]]
    itd_market_breath[key] = industry_name_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

industry_perform_breadth_dict = {}
for key in itd_industry_perform.keys():
    temp_stock_list_full = current_quarter_classification_df[current_quarter_classification_df['industry_perform']==key]['ticker'].tolist()
    stock_list = [item for item in list(set(temp_stock_list_full) & set(current_quarter_stock_list)) ]

    industry_perform_breadth_dict[key] = temp_df[['date'] + [columns for columns in stock_list]]
    itd_market_breath[key] = industry_perform_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

marketcap_group_breadth_dict = {}
for key in itd_marketcap_group.keys():
    temp_stock_list_full = current_quarter_classification_df[current_quarter_classification_df['marketcap_group']==key]['ticker'].tolist()
    stock_list = [item for item in list(set(temp_stock_list_full) & set(current_quarter_stock_list)) ]

    marketcap_group_breadth_dict[key] = temp_df[['date'] + [columns for columns in stock_list]]
    itd_market_breath[key] = marketcap_group_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

all_stock_breadth_dict = {}
for key in itd_all_stock.keys():
    temp_stock_list_full = current_quarter_classification_df['ticker'].tolist()
    stock_list = [item for item in list(set(temp_stock_list_full) & set(current_quarter_stock_list)) ]

    all_stock_breadth_dict[key] = temp_df[['date'] + [columns for columns in stock_list]]
    itd_market_breath[key] = all_stock_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

#Chỉnh sửa lại điểm dòng tiền t0 cho từng cổ phiếu với tác động của độ rộng từng nhóm
for ticker, df in stock_score_dict.items():
    if ticker in current_quarter_stock_list:
        name_of_industry_name = current_quarter_classification_df[current_quarter_classification_df['ticker']==ticker]['industry_name'].item()
        name_of_industry_perform = current_quarter_classification_df[current_quarter_classification_df['ticker']==ticker]['industry_perform'].item()
        name_of_marketcap_group = current_quarter_classification_df[current_quarter_classification_df['ticker']==ticker]['marketcap_group'].item()

        df['t0_industry_name'] = adjust_score_by_breath(df['t0_industry_name'], itd_market_breath[name_of_industry_name])
        df['t0_industry_perform'] = adjust_score_by_breath(df['t0_industry_perform'], itd_market_breath[name_of_industry_perform])
        df['t0_marketcap_group'] = adjust_score_by_breath(df['t0_marketcap_group'], itd_market_breath[name_of_marketcap_group])
        df['t0_all'] = adjust_score_by_breath(df['t0_all'], itd_market_breath['all'])


In [21]:
#Tạo bảng dữ liệu điểm dòng tiền cho các nhóm cổ phiếu
group_score_df = time_series.copy()

#Thêm cột điểm dòng tiền toàn bộ cổ phiếu
for nganh in itd_all_stock.keys():
    score_df = time_series.copy()
    for ticker in stock_classification_df['ticker']:
        score_df[ticker] = stock_score_dict[ticker]['t0_all']
    score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
    group_score_df[nganh] = score_df['total']

#Thêm các cột điểm dòng tiền ngành
itd_industry_name_score_df = time_series.copy()
for nganh in itd_industry_name.keys():
    score_df = time_series.copy()
    for ticker in stock_classification_df[stock_classification_df['industry_name']==nganh]['ticker']:
        score_df[ticker] = stock_score_dict[ticker]['t0_industry_name']
    score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
    group_score_df[nganh] = score_df['total']
    if nganh == 'bao_hiem': temp_df = score_df.copy()

#Thêm các cột điểm dòng tiền nhóm hiệu suất
itd_industry_perform_score_df = time_series.copy()
for group in itd_industry_perform.keys():
    score_df = time_series.copy()
    for ticker in stock_classification_df[stock_classification_df['industry_perform']==group]['ticker']:
        score_df[ticker] = stock_score_dict[ticker]['t0_industry_perform']
    score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
    group_score_df[group] = score_df['total']

#Thêm các cột điểm dòng tiền nhóm vốn hoá
itd_marketcap_group_score_df = time_series.copy()
for marketcap in itd_marketcap_group.keys():
    score_df = time_series.copy()
    for ticker in stock_classification_df[stock_classification_df['marketcap_group']==marketcap]['ticker']:
        score_df[ticker] = stock_score_dict[ticker]['t0_marketcap_group']
    score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
    group_score_df[marketcap] = score_df['total']

#### Thanh khoản nhóm cổ phiếu

In [22]:
#Thanh khoản theo từng phút
group_volume_df = time_series.copy()

for name in all_stock_key_list:
    temp_volume_df = time_series.copy()
    for stock, df in itd_all_stock[name].items():
        temp_volume_df[stock] = df['volume']
    temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
    group_volume_df[name] = temp_volume_df['volume']

for name in industry_name_list:
    temp_volume_df = time_series.copy()
    for stock, df in itd_industry_name[name].items():
        temp_volume_df[stock] = df['volume']
    temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
    group_volume_df[name] = temp_volume_df['volume']

for name in industry_perform_list:
    temp_volume_df = time_series.copy()
    for stock, df in itd_industry_perform[name].items():
        temp_volume_df[stock] = df['volume']
    temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
    group_volume_df[name] = temp_volume_df['volume']

for name in marketcap_group_list:
    temp_volume_df = time_series.copy()
    for stock, df in itd_marketcap_group[name].items():
        temp_volume_df[stock] = df['volume']
    temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
    group_volume_df[name] = temp_volume_df['volume']

In [23]:
#Hệ số thanh khoản từng phút
group_vol_ratio_df = time_series.copy().sort_values('date').reset_index(drop=True)

#Thêm cột toàn bộ cổ phiếu
for name in itd_all_stock.keys():
    vol_ratio_t0 = itd_time_percent[itd_time_percent['date'] >= date_series['date'].iloc[0]].sort_values('date').reset_index(drop=True)
    prev_volume_ma5 = 0

    for ticker, df in itd_all_stock[name].items():
        vol_ratio_t0[ticker] = df[df['date'] >= date_series['date'].iloc[0]].sort_values('date')['volume'].reset_index(drop=True)
        prev_volume_ma5 += eod_stock_df[eod_stock_df['ticker']==ticker]['ma5_V'].item()
    for column in vol_ratio_t0.columns[2:]:
        vol_ratio_t0[column] = vol_ratio_t0[column].cumsum()

    vol_ratio_t0['volume_t0'] = vol_ratio_t0.iloc[:,2:].sum(axis=1)
    vol_ratio_t0['volume_month_ma5'] = prev_volume_ma5 * vol_ratio_t0['percent']
    vol_ratio_t0['ratio'] = vol_ratio_t0['volume_t0']/vol_ratio_t0['volume_month_ma5']
    vol_ratio_t0.loc[0, 'ratio'] = 0 

    group_vol_ratio_df[name] = vol_ratio_t0['ratio']

#Thêm các cột cho các ngành
for name in itd_industry_name.keys():
    vol_ratio_t0 = itd_time_percent[itd_time_percent['date'] >= date_series['date'].iloc[0]].sort_values('date').reset_index(drop=True)
    prev_volume_ma5 = 0

    for ticker, df in itd_industry_name[name].items():
        vol_ratio_t0[ticker] = df[df['date'] >= date_series['date'].iloc[0]].sort_values('date')['volume'].reset_index(drop=True)
        prev_volume_ma5 += eod_stock_df[eod_stock_df['ticker']==ticker]['ma5_V'].item()
    for column in vol_ratio_t0.columns[2:]:
        vol_ratio_t0[column] = vol_ratio_t0[column].cumsum()

    vol_ratio_t0['volume_t0'] = vol_ratio_t0.iloc[:,2:].sum(axis=1)
    vol_ratio_t0['volume_month_ma5'] = prev_volume_ma5 * vol_ratio_t0['percent']
    vol_ratio_t0['ratio'] = vol_ratio_t0['volume_t0']/vol_ratio_t0['volume_month_ma5']
    vol_ratio_t0.loc[0, 'ratio'] = 0 

    group_vol_ratio_df[name] = vol_ratio_t0['ratio']

#Thêm các cột cho các nhóm hiệu suất
for name in itd_industry_perform.keys():
    vol_ratio_t0 = itd_time_percent[itd_time_percent['date'] >= date_series['date'].iloc[0]].sort_values('date').reset_index(drop=True)
    prev_volume_ma5 = 0

    for ticker, df in itd_industry_perform[name].items():
        vol_ratio_t0[ticker] = df[df['date'] >= date_series['date'].iloc[0]].sort_values('date')['volume'].reset_index(drop=True)
        prev_volume_ma5 += eod_stock_df[eod_stock_df['ticker']==ticker]['ma5_V'].item()
    for column in vol_ratio_t0.columns[2:]:
        vol_ratio_t0[column] = vol_ratio_t0[column].cumsum()

    vol_ratio_t0['volume_t0'] = vol_ratio_t0.iloc[:,2:].sum(axis=1)
    vol_ratio_t0['volume_month_ma5'] = prev_volume_ma5 * vol_ratio_t0['percent']
    vol_ratio_t0['ratio'] = vol_ratio_t0['volume_t0']/vol_ratio_t0['volume_month_ma5']
    vol_ratio_t0.loc[0, 'ratio'] = 0 

    group_vol_ratio_df[name] = vol_ratio_t0['ratio']

#Thêm các cột cho các nhóm vốn hoá
for name in itd_marketcap_group.keys():
    vol_ratio_t0 = itd_time_percent[itd_time_percent['date'] >= date_series['date'].iloc[0]].sort_values('date').reset_index(drop=True)
    prev_volume_ma5 = 0

    for ticker, df in itd_marketcap_group[name].items():
        vol_ratio_t0[ticker] = df[df['date'] >= date_series['date'].iloc[0]].sort_values('date')['volume'].reset_index(drop=True)
        prev_volume_ma5 += eod_stock_df[eod_stock_df['ticker']==ticker]['ma5_V'].item()
    for column in vol_ratio_t0.columns[2:]:
        vol_ratio_t0[column] = vol_ratio_t0[column].cumsum()

    vol_ratio_t0['volume_t0'] = vol_ratio_t0.iloc[:,2:].sum(axis=1)
    vol_ratio_t0['volume_month_ma5'] = prev_volume_ma5 * vol_ratio_t0['percent']
    vol_ratio_t0['ratio'] = vol_ratio_t0['volume_t0']/vol_ratio_t0['volume_month_ma5']
    vol_ratio_t0.loc[0, 'ratio'] = 0 

    group_vol_ratio_df[name] = vol_ratio_t0['ratio']

group_vol_ratio_df = group_vol_ratio_df.sort_values('date', ascending=False).reset_index(drop=True)

#### Price Index nhóm cổ phiếu

In [24]:
def calculate_total_change(stock_group, name, price_index_date_series):
    period_index_df = price_index_date_series.copy()

    for ticker, df in stock_group[name].items():
        period_index_df[ticker] = df['close']
        period_index_df[ticker] = (period_index_df[ticker] - prev_stock_df[prev_stock_df['ticker'] == ticker]['close'].item())\
                                        /prev_stock_df[prev_stock_df['ticker'] == ticker]['close'].item()

    period_index_df['total_change'] = period_index_df.iloc[:,1:].sum(axis=1)
    period_index_df['total_change'] = (period_index_df['total_change']/len(stock_group[name]))*100
    period_index_df['total_change'] = period_index_df['total_change']*10

    return period_index_df['total_change']

In [25]:
history_group_last_price_df = get_mongo_df("history_group", find_query={"date": date_series.iloc[1].item()}, projection={"ticker": 1, "close": 1, "_id": 0})

#Tính dữ liệu group price change của quý hiện tại
group_price_change = time_series.copy()
for key in all_stock_key_list:
    group_price_change[key] = calculate_total_change(itd_all_stock, key, time_series)

for key in industry_name_list:
    group_price_change[key] = calculate_total_change(itd_industry_name, key, time_series)

for key in industry_perform_list:
    group_price_change[key] = calculate_total_change(itd_industry_perform, key, time_series)

for key in marketcap_group_list:
    group_price_change[key] = calculate_total_change(itd_marketcap_group, key, time_series)

group_price_index_df = time_series.copy()
for key in group_price_change.columns[1:]:
    group_price_index_df[key] = group_price_change[key] + history_group_last_price_df[history_group_last_price_df['ticker']==key]['close'].item()

#### Tạo các bảng dữ liệu hôm nay

##### Dữ liệu MS chart

In [26]:
def transform_ms(stock_group):
    temp_stock_dict = copy.deepcopy(stock_group)

    # Prepare a base date DataFrame from date_series
    time_df = pd.DataFrame(time_series['date'].tolist(), columns=['date'])
    
    for group_name, stocks in temp_stock_dict.items():
        # Initialize a DataFrame for group trends
        group_trends = time_df.copy()

        # Compute trends across stocks
        for trend in ['trend_5p', 'trend_20p', 'trend_60p', 'trend_120p', 'trend_240p', 'trend_480p']:
            # Concatenate all trend data for current trend across all stocks
            trend_data = pd.concat([stocks[stock][trend] for stock in stocks], axis=1)
            trend_data.fillna(0, inplace=True)
            
            # Calculate the sum and percent for the trend
            sum_trend = trend_data.sum(axis=1)
            percent_trend = sum_trend / len(stocks)
            
            # Add to group trends DataFrame
            group_trends[f'{trend}'] = percent_trend

        temp_stock_dict[group_name] = group_trends.sort_values('date', ascending=False)

    return temp_stock_dict

In [27]:
#Tính toán các biểu đồ MS cho các nhóm cổ phiếu
all_stock_ms = transform_ms(itd_all_stock)
industry_name_ms = transform_ms(itd_industry_name)
industry_perform_ms = transform_ms(itd_industry_perform)
marketcap_group_ms = transform_ms(itd_marketcap_group)

#Gộp tất cả biểu đồ MS vào 1 bảng
itd_ms_chart_df = pd.DataFrame()
for item in [all_stock_ms, industry_name_ms, industry_perform_ms, marketcap_group_ms]:
    for group, df in item.items():
        temp_df = itd_series.merge(df, on='date', how='left')
        temp_df['ticker'] = group
        itd_ms_chart_df = pd.concat([itd_ms_chart_df, temp_df], axis=0)

##### Bảng dữ liệu từng cổ phiếu

In [28]:
def merge_remove_duplicates(df1, df2, key):
    # Thực hiện merge với tùy chọn suffixes để phân biệt các cột trùng lặp từ df2
    merged = pd.merge(df1, df2, on=key, how='outer', suffixes=('', '_dup'))
    # Tìm các cột có suffix '_dup' (tức là các cột trùng lặp từ df2)
    dup_cols = [col for col in merged.columns if col.endswith('_dup')]
    # Loại bỏ các cột trùng lặp
    merged.drop(columns=dup_cols, inplace=True)
    return merged

itd_stock_dict = {}
for ticker in stock_dict.keys():
    df1 = stock_dict[ticker]
    df2 = stock_score_dict[ticker]

    df_merge = merge_remove_duplicates(df1, df2, 'date')
    df_merge = df_merge.drop(columns=['open', 'high', 'low','t0_all', 't0_industry_name', 't0_industry_perform', 't0_marketcap_group'])
    df_merge = itd_series.merge(df_merge, on='date', how='left')
    df_merge[['date', 'ticker', 'industry_name', 'industry_perform', 'marketcap_group']] = df_merge[['date', 'ticker', 'industry_name', 'industry_perform', 'marketcap_group']].bfill()
    itd_stock_dict[ticker] = df_merge

#Ghép tất cả cổ phiếu vào chung một bảng
itd_stock_df = pd.DataFrame()
for ticker, df in itd_stock_dict.items():
    itd_stock_df = pd.concat([itd_stock_df, df], axis=0)

##### Bảng dữ liệu nhóm cổ phiếu

In [29]:
itd_group_dict = {}
for ticker in group_stock_key_list:
    itd_group_dict[ticker] = time_series.copy()
    itd_group_dict[ticker]['close'] = group_price_index_df[ticker]
    itd_group_dict[ticker]['volume'] = group_volume_df[ticker]
    itd_group_dict[ticker]['vol_ratio'] = group_vol_ratio_df[ticker]
    itd_group_dict[ticker]['t0_score'] = group_score_df[ticker]

    itd_group_dict[ticker] = itd_series.merge(itd_group_dict[ticker], on='date', how='left')    
    itd_group_dict[ticker]['ticker'] = ticker

itd_group_df = pd.DataFrame()
for ticker, df in itd_group_dict.items():
    itd_group_df = pd.concat([itd_group_df, df], axis=0)

##### Bảng dữ liệu các index

In [30]:
itd_index_df = pd.DataFrame()
for ticker, df in index_dict.items():
    temp_df = itd_series.merge(df, on='date', how='left')    
    temp_df['ticker'] = ticker
    itd_index_df = pd.concat([itd_index_df, temp_df], axis=0)

#### Lưu dữ liệu vào mongo

In [31]:
from pymongo import MongoClient

# --- Kết nối tới MongoDB đích ---
mongo_client = MongoClient("mongodb://t2m:t2minvest@14.225.192.30:27017/?authSource=admin")
stock_db = mongo_client["stock_db"]
    
def overwrite_mongo(collection, df):
    # Lấy tên collection hiện tại và database
    collection_name = collection.name
    db = collection.database  # Truy cập database từ collection
    temp_collection_name = f"temp_{collection_name}"
    old_collection_name = f"old_{collection_name}"

    # Reset index của DataFrame
    df = df.reset_index(drop=True)

    # 1. Lưu dữ liệu vào collection tạm
    temp_collection = db[temp_collection_name]
    temp_collection.drop()  # Đảm bảo collection tạm sạch trước khi insert
    temp_collection.insert_many(df.to_dict(orient='records'))

    # 2. Rename collection cũ thành 'old_' (nếu tồn tại)
    if collection_name in db.list_collection_names():
        db[collection_name].rename(old_collection_name, dropTarget=True)

    # 3. Rename collection tạm thành tên chuẩn
    temp_collection.rename(collection_name, dropTarget=True)

    # 4. Xóa collection 'old_' (nếu tồn tại)
    if old_collection_name in db.list_collection_names():
        db[old_collection_name].drop()
        
overwrite_mongo(stock_db["itd_stock"], itd_stock_df)
overwrite_mongo(stock_db["itd_index"], itd_index_df)
overwrite_mongo(stock_db["itd_group"], itd_group_df)
overwrite_mongo(stock_db["itd_ms_chart"], itd_ms_chart_df)