In [1]:
import os
import pandas as pd
import numpy as np
from datetime import timedelta, datetime
import datetime as dt
import pandas_ta as ta
import yfinance as yf
import copy
from pymongo import MongoClient

import warnings
warnings.filterwarnings("ignore")
warnings.simplefilter('ignore', category=FutureWarning)
pd.options.mode.chained_assignment = None

#### Chuẩn bị các dữ liệu

##### Các dữ liệu dùng để làm map tham chiếu

In [2]:
mongo_client = MongoClient("mongodb://t2m:t2minvest@14.225.192.30:27017/?authSource=admin")
stock_db = mongo_client["stock_db"]

def get_mongo_df(df_name, find_query=None, projection=None):
    # Truy cập collection
    collection = stock_db[df_name]
    # Nếu không truyền vào find_query thì mặc định lấy tất cả document
    if find_query is None:
        find_query = {}
    # Nếu không truyền vào projection thì mặc định loại bỏ trường _id
    if projection is None:
        projection = {"_id": 0}
    # Thực hiện lệnh find với điều kiện và projection đã cho
    docs = collection.find(find_query, projection)
    # Chuyển đổi kết quả sang DataFrame và trả về
    df = pd.DataFrame(list(docs))
    return df

In [3]:
#Đọc name map để chuyển đỏi các tên thành dạng full
name_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'order'],axis=1)
name_map_dict = name_map.set_index('code')['full_name'].to_dict()

order_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['group', 'full_name'],axis=1)
order_map_dict = order_map.set_index('code')['order'].to_dict()

group_map = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='name_map').drop(columns=['order', 'full_name'],axis=1)
group_map_dict = group_map.set_index('code')['group'].to_dict()

#Tạo các danh sách nhóm trong mỗi cách chia cổ phiếu
all_stock_key_list = [key for key, value in group_map_dict.items() if value == 'all']
industry_name_list = [key for key, value in group_map_dict.items() if value in ['hsA', 'hsB', 'hsC', 'hsD']]
industry_perform_list = [key for key, value in group_map_dict.items() if value == 'hs']
marketcap_group_list = [key for key, value in group_map_dict.items() if value == 'cap']

#Tạo danh danh key cho tổng tất cả các nhóm
group_stock_key_list = all_stock_key_list + industry_name_list + industry_perform_list + marketcap_group_list

In [4]:
def get_file_name_list(folder_path):
    file_name_list = []
    files = os.listdir(folder_path)
    for file in files:
        file_name_list.append(file[:-4])
    return file_name_list

def filter_market_file_name_list(file_name_list):
    filtered_list = [item for item in file_name_list if not (item.endswith('_AC') or item.endswith('_CC'))]
    return filtered_list

eod_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\stock"
eod_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\index"
eod_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\futures"
itd_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\stock"
itd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\index"
itd_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\futures"
nn_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\foreign"
td_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\prop"
nntd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\market"
other_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\other"

In [5]:
#Tạo dict map thời gian và số lượng cổ phiếu
period_map = pd.read_excel("xlsx_data/period_stock_list.xlsx", sheet_name='period_map')
period_map_dict = period_map.set_index('index').apply(lambda row: row.tolist(), axis=1).to_dict()

#Xoá đi quý hiện tại để chỉ tính toán tới quý trước đó
def get_quarter(name):
    now = datetime.now()
    year = now.year
    month = now.month
    if 1 <= month <= 3:
        quarter = "q1"
        previous_quarter = "q4"
        previous_year = year - 1
    elif 4 <= month <= 6:
        quarter = "q2"
        previous_quarter = "q1"
        previous_year = year
    elif 7 <= month <= 9:
        quarter = "q3"
        previous_quarter = "q2"
        previous_year = year
    else:
        quarter = "q4"
        previous_quarter = "q3"
        previous_year = year
    
    if name == 'current_quarter':
        return f'{quarter}_{year}'
    if name == 'previous_quarter':
        return f'{previous_quarter}_{previous_year}'

#Lấy ra list cổ phiếu của giai đoạn hiện tại
period_stock_list = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='period_stock_list')

current_quarter_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) 
                                  & set(period_stock_list[get_quarter('current_quarter')].dropna().tolist()))

total_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) & set(period_stock_list['all'].dropna().tolist()))

#Lấy ra khoảng thời gian tính toán cho quý này và quý trước
calculate_time_span = [period_map_dict['q2_2020'][0], period_map_dict[get_quarter('current_quarter')][1]]
current_quarter_span = [period_map_dict[get_quarter('current_quarter')][0], period_map_dict[get_quarter('current_quarter')][1]]
previous_quarter_span = [period_map_dict[get_quarter('previous_quarter')][0], period_map_dict[get_quarter('previous_quarter')][1]]

##### Đọc dữ liệu từ file .dat và lưu vào dict

In [6]:
def decode_data(file_path):
    # Đọc dữ liệu vào một numpy array
    data = np.fromfile(file_path, dtype=np.uint8)

    # Giả định kích thước mỗi bản ghi (có thể thay đổi tùy theo cấu trúc tệp thực tế)
    record_size = 32  # Giả định
    num_records = len(data) // record_size

    # Số lượng cột dữ liệu (bao gồm ngày, thời gian và các giá trị int32 còn lại)
    num_columns = record_size // 4  # Mỗi giá trị int32 chiếm 4 byte

    # Sử dụng numpy để cắt và giải mã dữ liệu hiệu quả hơn
    # Tạo một numpy array để chứa các giá trị int32 và float32
    raw_data = data.reshape(num_records, record_size // 4, 4)

    # Giải mã ngày và thời gian (int32) ở cột 0 và 1, các cột còn lại là float32
    int_data = raw_data[:, :2].view(np.int32)  # Giải mã int32 (2 cột)
    float_data = raw_data[:, 2:].view(np.float32)  # Giải mã float32 (các cột còn lại)

    # Kết hợp dữ liệu
    records = np.hstack((int_data, float_data))

    # Đảm bảo rằng dữ liệu là 2D
    records = records.reshape(num_records, num_columns)

    # Đảo ngược lại dữ liệu trước khi chuyển thành DataFrame
    records = records[::-1]

    # Chuyển đổi thành DataFrame và loại bỏ dòng đầu tiên
    df = pd.DataFrame(records, columns=[f"Col_{i}" for i in range(num_columns)])
    return df  # Loại bỏ đi dòng dữ liệu đầu tiên không cần thiết


In [7]:
def clean_stock_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Tạo cột cap cho cổ phiếu
    df_raw['cap'] = (df_raw['Col_5'] * df_raw['Col_7'])/1000000
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_7'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'cap']

    return df_clean.reset_index(drop=True)

def clean_index_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
    #Điều chỉnh lại giá trị các cột
    df_clean['option'] = df_clean['option']/1000000000
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'spot')
    
    return df_clean.reset_index(drop=True)

def clean_futures_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'futures')
    
    return df_clean.reset_index(drop=True)

index_dict = {}
for ticker in get_file_name_list(eod_index_folder_path):
    temp_file_path = eod_index_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_index_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean
for ticker in get_file_name_list(eod_futures_folder_path):
    temp_file_path = eod_futures_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_futures_data(temp_df_raw)
    temp_df_clean.insert(0, 'ticker', ticker)
    index_dict[ticker] = temp_df_clean

stock_dict = {}
for ticker in total_stock_list:
    if ticker not in get_file_name_list(eod_stock_folder_path):
        pass
    else:
        temp_file_path = eod_stock_folder_path + f'\\{ticker}.dat'
        temp_df_raw = decode_data(temp_file_path)
        temp_df_clean = clean_stock_data(temp_df_raw)
        temp_df_clean.insert(0, 'ticker', ticker)
        stock_dict[ticker] = temp_df_clean


##### Các biến thời gian

In [8]:
def clean_itd_data(df_raw):
    #Lọc ra đúng 1 ngày dữ liệu cuối cùng
    df_raw = df_raw[df_raw['Col_0'] == max(df_raw['Col_0'])]
    #Tạo cột date-time mới từ 2 cột date và time cũ
    df_raw['date'] = df_raw['Col_0'].astype(int).astype(str) + ' ' + df_raw['Col_1'].astype(int).astype(str)
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_0', 'Col_1', 'Col_7'])
    #Sắp xếp lại thứ tự các cột
    df_clean = df_clean[['date'] + [f"Col_{i}" for i in range(2, len(df_clean.columns)+1)]]
    # #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['date'] = pd.to_datetime(df_clean['date'], format='%Y%m%d %H%M%S')
    # #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume']
    #Làm tròn khung thời gian tới 5 phút
    df_clean['date'] = df_clean['date'].dt.floor('1T')
    df_clean = df_clean.set_index("date").resample("1T", closed='right', label='right').agg({    
        "open": "first",  
        "high": "max",  
        "low": "min", 
        "close": "last",  
        "volume": "sum"   
    }).dropna().reset_index()

    return df_clean.sort_values(by="date", ascending=False).reset_index(drop=True)

In [9]:
#Khởi tạo vnindex_series để xác định ngày hiện tại
vnindex_series = index_dict['VNINDEX'].sort_values('date', ascending=False).reset_index(drop=True)['date']

#Tạo date_series cho thời gian tính toán
date_series = pd.DataFrame(vnindex_series).rename(columns={0:'date'})

#Xác định ngày hiện tại
today = vnindex_series.iloc[0]

#Xác định thời gian hiện tại
current_time = clean_itd_data(decode_data(itd_index_folder_path + '\\HNXINDEX.dat'))['date'].iloc[0]

#Đọc file phân bổ thanh khoản trong phiên
itd_time_percent = pd.read_excel('xlsx_data/itd_time_percent.xlsx')
#Chuyển đổi ngày thành này hôm nay
itd_time_percent['date'] = itd_time_percent['date'].apply(lambda x: today.replace(hour=x.hour, minute=x.minute, second=x.second))
#Khởi tạo hệ số thời gian
current_time_percent = itd_time_percent[itd_time_percent['date'] == current_time]['percent'].item()

##### Điều chỉnh dữ liệu

In [10]:
#Bù dữ liệu vào những ngày cổ phiếu không có giao dịch
for ticker, df in stock_dict.items():
    temp_df = date_series.merge(df, on='date', how='left')
    temp_df[['open','high','low','close','cap']] = temp_df[['open','high','low','close','cap']].bfill()
    temp_df['ticker'] = temp_df['ticker'].fillna(ticker)
    temp_df['volume'] = temp_df['volume'].fillna(0)
    stock_dict[ticker] = temp_df

In [11]:
#Tính toán các đường trung bình và các đường MA
stock_dict = {k: v.sort_values(by=['date'], ascending=True).reset_index(drop=True) for k, v in stock_dict.items()}

stock_dict = {
    key: df.assign(
        high5=df['high'].rolling(window=5, min_periods=1).max(),
        low5=df['low'].rolling(window=5, min_periods=1).min(),
        high20=df['high'].rolling(window=20, min_periods=1).max(),
        low20=df['low'].rolling(window=20, min_periods=1).min(),
        high60=df['high'].rolling(window=60, min_periods=1).max(),
        low60=df['low'].rolling(window=60, min_periods=1).min(),
        high120=df['high'].rolling(window=120, min_periods=1).max(),
        low120=df['low'].rolling(window=120, min_periods=1).min(),
        high240=df['high'].rolling(window=240, min_periods=1).max(),
        low240=df['low'].rolling(window=240, min_periods=1).min(),
        high480=df['high'].rolling(window=480, min_periods=1).max(),
        low480=df['low'].rolling(window=480, min_periods=1).min(),

        ma5=df['close'].rolling(window=5, min_periods=1).mean(),
        ma5_V=df['volume'].rolling(window=5, min_periods=1).mean().shift(1),
    )
    for key, df in stock_dict.items()
}

stock_dict = {
    key: df.assign(
        trend_5p=(df['close'] > ((df['high5'] + df['low5'])/2).shift(1)).astype(int),
        trend_20p=(df['close'] > ((df['high20'] + df['low20'])/2).shift(1)).astype(int),
        trend_60p=(df['close'] > ((df['high60'] + df['low60'])/2).shift(1)).astype(int),
        trend_120p=(df['close'] > ((df['high120'] + df['low120'])/2).shift(1)).astype(int),
        trend_240p=(df['close'] > ((df['high240'] + df['low240'])/2).shift(1)).astype(int),
        trend_480p=(df['close'] > ((df['high480'] + df['low480'])/2).shift(1)).astype(int)
    )
    for key, df in stock_dict.items()
}

stock_dict = {k: v.sort_values(by=['date'], ascending=False).reset_index(drop=True) for k, v in stock_dict.items()}

In [12]:
#Chuyển đổi thời gian trong period_map_dict sang pd.Timestamp để có thể so sánh với ngày trong df
period_timestamp_map_dict = {}
for key, value in period_map_dict.items():
    period_timestamp_map_dict[key] = (pd.Timestamp(value[0]), pd.Timestamp(value[1]), value[2])

#Thêm các cột count và period vào df
for ticker, df in stock_dict.items():
    # Đảm bảo cột 'date' là kiểu Timestamp
    df['date'] = pd.to_datetime(df['date'])
    # Gán 'quarter' dựa trên việc kiểm tra khoảng thời gian
    df['quarter'] = df['date'].apply(lambda x: next((key for key, value in period_timestamp_map_dict.items() if value[0] <= x <= value[1]), None))
    # Gán 'count' dựa trên 'period'
    df['stock_count'] = df['quarter'].apply(lambda x: period_timestamp_map_dict[x][2] if x else None)
    # Cập nhật lại DataFrame vào stock_dict
    stock_dict[ticker] = df

#Tính hệ số thanh khoản và sửa các giá trị 0 và inf
for df in stock_dict.values():
    df['vol_ratio'] = df['volume'] / df['ma5_V']
    # Tính giá trị đầu tiên của vol_ratio với current_time_percent
    df['vol_ratio'].iloc[0] = df['volume'].iloc[0] / (df['ma5_V'].iloc[0] * current_time_percent)
    # Thay thế các giá trị inf trong vol_ratio bằng 0
    df['vol_ratio'].replace([np.inf, -np.inf], 0, inplace=True)


#### Phân nhóm cổ phiếu

In [13]:
#Lấy danh sách phân loại cổ phiếu
stock_classification_df = pd.read_excel("xlsx_data/full_stock_classification.xlsx", sheet_name='classification')
stock_classification_df = stock_classification_df[stock_classification_df['ticker'].isin(total_stock_list)].reset_index(drop=True)

#Lấy phân loại của quý này từ dữ liệu lịch sử, các cổ phiếu không thuộc danh sách theo dõi quý này sẽ không được phân loại và nhận giá trị Nan
current_quarter_classification_df = pd.read_excel("xlsx_data/current_quarter_classification.xlsx", sheet_name='current_quarter_classification')
stock_classification_df['marketcap_group'] = stock_classification_df['ticker'].map(current_quarter_classification_df.set_index('ticker')['marketcap_group'])

##### Phân nhóm stock_perform

In [14]:
def stock_perform_map(df):
    stock_perform_dict = {}
    for i in range(len(df)):
        temp_stock = df[df['ticker'] == df['ticker'].iloc[i]]['ticker'].item()
        temp_industry_perform = df[df['ticker'] == temp_stock]['industry_perform'].item()
        temp_group_df = df[df['industry_perform'] == temp_industry_perform]

        temp_group_df['rank'] = temp_group_df['price_change'].rank(ascending=False)
        temp_group_df['stock_perform'] = temp_group_df['rank'].apply(
                lambda x: f'{temp_industry_perform}1' if x < 0.25 * len(temp_group_df) else
                        f'{temp_industry_perform}2' if x <= 0.5 * len(temp_group_df) else
                        f'{temp_industry_perform}3' if x <= 0.75 * len(temp_group_df) else
                        f'{temp_industry_perform}4')

        stock_perform = temp_group_df[temp_group_df['ticker'] == temp_stock]['stock_perform'].item()
        stock_perform_dict[temp_stock] = stock_perform
        
    return stock_perform_dict

In [15]:
temp_dict = {}
for ticker in stock_dict.keys():

    stock_df = stock_dict[ticker]
    stock_df = stock_df[(stock_df['date'] >= period_map[0].iloc[-2]) & (stock_df['date'] <= period_map[1].iloc[-2])]

    start_value = stock_df['close'].iloc[-1]
    end_value = stock_df['close'].iloc[0]

    temp_dict[ticker] = ((end_value - start_value)/start_value)

temp_df = pd.DataFrame.from_dict(temp_dict, orient='index').reset_index().rename(columns={'index':'ticker',0:'price_change'})

temp_df = temp_df.merge(stock_classification_df[['ticker','industry_perform']], on='ticker', how='left')

temp_df['stock_perform'] = temp_df['ticker'].map(stock_perform_map(temp_df))

# Lưu lại vào phân chia nhóm
if 'stock_perform' not in stock_classification_df.columns:
    stock_classification_df = stock_classification_df.merge(temp_df[['ticker','stock_perform']], on='ticker', how='left')

##### Phân ra các dict theo nhóm

In [16]:
# Convert DataFrame columns to dictionaries for quick access
stock_by_industry = stock_classification_df.set_index('ticker')['industry_name'].to_dict()
stock_by_perform = stock_classification_df.set_index('ticker')['industry_perform'].to_dict()
stock_by_marketcap = stock_classification_df.set_index('ticker')['marketcap_group'].to_dict()

# Initialize dictionaries
eod_all_stock = {}
eod_industry_name = {}
eod_industry_perform = {}
eod_marketcap_group = {}

# Function to create mappings based on category
def create_mapping(stock_dict, category_dict):
    category_map = {}
    for category, stocks in category_dict.items():
        category_map[category] = {ticker: stock_dict[ticker] for ticker in stocks if ticker in stock_dict}
    return category_map

# Precompute unique categories and relevant stocks
unique_industries = np.unique(list(stock_by_industry.values()))
unique_performs = np.unique(list(stock_by_perform.values()))
unique_marketcaps = ['large', 'mid', 'small', 'penny']

# Mapping for all_stock
eod_all_stock['all'] = {ticker: value for ticker, value in stock_dict.items() if ticker in current_quarter_stock_list}

# Mapping for industry
for industry in unique_industries:
    relevant_stocks = [ticker for ticker, ind in stock_by_industry.items() if (ind == industry) and (ticker in current_quarter_stock_list)]
    eod_industry_name[industry] = {ticker: stock_dict[ticker] for ticker in relevant_stocks if ticker in stock_dict}

# Mapping for performance
for performance in unique_performs:
    relevant_stocks = [ticker for ticker, perf in stock_by_perform.items() if (perf == performance) and (ticker in current_quarter_stock_list)]
    eod_industry_perform[performance] = {ticker: stock_dict[ticker] for ticker in relevant_stocks if ticker in stock_dict}

# Mapping for marketcap
for marketcap in unique_marketcaps:
    relevant_stocks = [ticker for ticker, mcap in stock_by_marketcap.items() if (mcap == marketcap) and (ticker in current_quarter_stock_list)]
    eod_marketcap_group[marketcap] = {ticker: stock_dict[ticker] for ticker in relevant_stocks if ticker in stock_dict}


#### Cắt dữ liệu để tính toán nhannh hơn

In [17]:
#Lọc lại stock_dict và index_dict để chỉ lấy thời gian 61 phiên để tính toán
for ticker, df in stock_dict.items():
    df_copy = df.sort_values('date')
    #Tính toán trước các MA dài để cắt đi thì không tính được nữa
    df_copy.ta.sma(close='close', length=5, append=True)  # Tạo cột 'SMA_5'
    df_copy.ta.sma(close='close', length=20, append=True)  # Tạo cột 'SMA_20'
    df_copy.ta.sma(close='close', length=60, append=True)  # Tạo cột 'SMA_60'
    df_copy.ta.sma(close='close', length=120, append=True)  # Tạo cột 'SMA_120'
    df_copy.ta.sma(close='close', length=240, append=True)  # Tạo cột 'SMA_240'
    df_copy.ta.sma(close='close', length=480, append=True)  # Tạo cột 'SMA_480'

    df_copy.ta.rsi(close='close', length=14, scalar=100, append=True)  # Tạo cột 'RSI_14'
    df_copy.ta.macd(close='close', fast=12, slow=26, signal=9, append=True) #Tạo cột 'MACD_12_26_9', 'MACDh_12_26_9', 'MACDs_12_26_9'

    df_copy = df_copy.sort_values('date', ascending=False).iloc[:7]
    stock_dict[ticker] = df_copy

#Lọc lại stock_dict và index dict để chỉ lấy thời gian cho quý này và quý trước
for ticker, df in index_dict.items():
    df_copy = df.sort_values('date')
    #Tính toán trước các MA dài để cắt đi thì không tính được nữa
    df_copy.ta.sma(close='close', length=5, append=True)  # Tạo cột 'SMA_5'
    df_copy.ta.sma(close='close', length=20, append=True)  # Tạo cột 'SMA_20'
    df_copy.ta.sma(close='close', length=60, append=True)  # Tạo cột 'SMA_60'
    df_copy.ta.sma(close='close', length=120, append=True)  # Tạo cột 'SMA_120'
    df_copy.ta.sma(close='close', length=240, append=True)  # Tạo cột 'SMA_240'
    df_copy.ta.sma(close='close', length=480, append=True)  # Tạo cột 'SMA_480'

    df_copy.ta.rsi(close='close', length=14, scalar=100, append=True)  # Tạo cột 'RSI_14'
    df_copy.ta.macd(close='close', fast=12, slow=26, signal=9, append=True) #Tạo cột 'MACD_12_26_9', 'MACDh_12_26_9', 'MACDs_12_26_9'

    df_copy = df_copy.sort_values('date', ascending=False).iloc[:7]
    index_dict[ticker] = df_copy

#Cắt lại date_series chỉ lấy 61 phiên
date_series = date_series.iloc[:7]

#### Điểm dòng tiền từng cổ phiếu

In [18]:
def score_calculation(row):
    try:
        # Tính toán giá trị điểm số
        result = (((row['close'] - row['low']) - (row['high'] - row['close'])) / (row['high'] - row['low']) *
                  abs((row['close'] - row['close_prev'])) / row['close_prev'] *
                  (row['volume'] * row['close']) / (row['ma5_prev'] * row['ma5_V'])) * 100 \
                  + ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        
        # Kiểm tra nếu kết quả là inf, trả về 0 nếu đúng
        if np.isinf(result):
            # Xử lý khi xảy ra lỗi chia cho 0, trả về giá trị tính toán thêm
            return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        return result
    except ZeroDivisionError:
        # Xử lý khi xảy ra lỗi chia cho 0, trả về giá trị tính toán thêm
        return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100

def score_calculation_t0(row):
    try:
        # Tính toán giá trị điểm số
        result = (((row['close'] - row['low']) - (row['high'] - row['close'])) / (row['high'] - row['low']) *
                  abs((row['close'] - row['close_prev'])) / row['close_prev'] *
                  (row['volume'] * row['close']) / (row['ma5_prev'] * row['ma5_V'] * current_time_percent)) * 100 \
                  + ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        
        # Kiểm tra nếu kết quả là inf hoặc NaN
        if np.isinf(result):
            # Xử lý khi xảy ra lỗi chia cho 0, trả về giá trị tính toán thêm
            return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        elif np.isnan(result):
            return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100
        
        return result
    except ZeroDivisionError:
        # Xử lý khi xảy ra lỗi chia cho 0, trả về giá trị tính toán thêm
        return ((row['close'] - row['ma5_prev']) / row['ma5_prev']) / 100

In [19]:
#Tính điểm dòng tiền cho từng cổ phiếu
stock_score_dict = {}
for ticker in stock_dict.keys():

    #Lọc ra các cột cần sử dụng và chỉ lấy quý này và quý trước gần nhất để tính
    temp_df = stock_dict[ticker][['ticker', 'date', 'quarter', 'stock_count', 'open', 'high', 'low', 'close', 'volume', 'vol_ratio', 'ma5', 'ma5_V']]
    temp_df = temp_df[temp_df['date']>=previous_quarter_span[0]]

    #Tính điểm dòng tiền t0 và t5
    temp_df['ma5_prev'] = temp_df['ma5'].shift(-1)
    temp_df['close_prev'] = temp_df['close'].shift(-1)

    temp_df['t0_score'] = temp_df.apply(score_calculation, axis=1)
    temp_df['t0_score'].iloc[0] = score_calculation_t0(temp_df.iloc[0])

    temp_df['t5_score'] = temp_df['t0_score'][::-1].rolling(window=5, min_periods=1).mean()[::-1]
    temp_df['price_change'] = temp_df['close'][::-1].pct_change()[::-1]
    temp_df['value_change'] = temp_df['close'][::-1].diff()[::-1]

    #Gán lại temp_df cho dict
    stock_score_dict[ticker] = temp_df

#Tính xếp hạng cho cổ phiếu
t0_ranking_df = date_series.copy()
t5_ranking_df = date_series.copy()
for ticker in stock_score_dict.keys():
    t0_ranking_df[ticker] = stock_score_dict[ticker]['t0_score']
    t0_ranking_df.fillna(0, inplace=True)
    t5_ranking_df[ticker] = stock_score_dict[ticker]['t5_score']
    t5_ranking_df.fillna(0, inplace=True)
t0_ranking_df = t0_ranking_df.iloc[:,1:].rank(ascending=False, method='min', axis=1)
t5_ranking_df = t5_ranking_df.iloc[:,1:].rank(ascending=False, method='min', axis=1)

#Ghép xếp hạng vào bảng thông tin cổ phiếu
for ticker, df in stock_score_dict.items():
    df['rank_t0'] = t0_ranking_df[ticker]
    df['rank_t5'] = t5_ranking_df[ticker]
    
    #Check xem xếp hạng T0 nằm trong top 10% hay không
    df['top_check'] = df.apply(lambda x: 1 if x['rank_t0'] <= x['stock_count']*0.1 else 0, axis=1)

    #Tính số phiên lọt top 10% trong 20 phiên
    df['top_count'] = df['top_check'][::-1].rolling(window=20).sum()[::-1]

    stock_score_dict[ticker] = df

#### Điểm dòng tiền nhóm cổ phiếu

In [20]:
#Chỉnh sửa lại điểm dòng tiền t0 cho từng cổ phiếu với tác động của độ rộng từng nhóm
def adjust_score_by_breath(t0_score, ratio_column):
    adjusted_score = []
    for score, ratio in zip(t0_score, ratio_column):
        if score >= 0:
            adjusted_score.append(score*ratio)
        else:
            adjusted_score.append(score*(1-ratio))
    return adjusted_score

#Hàm điều chỉnh điểm dòng tiền của cổ phiếu tránh sự đột biến khi đóng góp vào nhóm chung
def adjust_score_for_smooth(row, column_name, max_percent, mark):
    origin_score = row[column_name]
    
    if abs(origin_score) > row['total'] * max_percent:

        sum_abs = row['total'] - abs(row[column_name])
        fixed_score = sum_abs / (1 - max_percent) - sum_abs

        if origin_score >= 0:
            return fixed_score
        else:
            return -fixed_score
    else:
        mark[0] = 0
        return origin_score

#Áp dụng hàm điều chỉnh điểm phía trên vào các nhóm cổ phiếu, việc này lặp lại nhiều lần cho tới khi triệt tiêu sự đột biến
def apply_smooth_score(score_dict, group_type):
    if group_type == 'all':
        key_list = all_stock_key_list
    elif group_type == 'industry_perform':
        key_list = [key for key, value in group_map_dict.items() if value == 'hs']
    elif group_type == 'marketcap_group':
        key_list = [key for key, value in group_map_dict.items() if value == 'cap'] 
    elif group_type == 'industry_name':
        key_list = [key for key, value in group_map_dict.items() if value in industry_perform_list]

    for key in key_list:
        score_df = date_series.copy()
        if group_type == 'all':
            stock_list = current_quarter_stock_list
        else:
            stock_list = [ticker for ticker in current_quarter_classification_df[current_quarter_classification_df[group_type]==key]['ticker'].dropna().tolist()]
        for ticker in stock_list:
            try: score_df[ticker] = score_dict[ticker][f't0_score']
            except: pass

        max_percent = max(0.1, min(5*(1/len(stock_list)), 0.5))
        score_df['total'] = score_df.iloc[:, 1:].abs().sum(axis=1)

        mark = [1]
        while True:
            if mark[0] == 1:
                for ticker in stock_list:
                    if ticker in score_dict.keys():
                        score_df[ticker] = score_df.iloc[:, 1:].apply(adjust_score_for_smooth, axis=1, args=(ticker, max_percent, mark))
            if mark[0] == 0: break

        for ticker in score_dict.keys():
            if ticker in current_quarter_stock_list:
                if ticker in stock_list:
                    score_dict[ticker][f't0_{group_type}'] = score_df[ticker]
            else:
                score_dict[ticker][f't0_{group_type}'] = 0

In [21]:
#Thêm các cột dòng tiền đóng góp vào các nhóm cổ phiếu vào các dict period (đã loại bỏ đột biến)
for group_type in ['all','industry_name','industry_perform','marketcap_group']:
    apply_smooth_score(stock_score_dict, group_type)

In [22]:
#Tính độ rộng cho từng phiên phục vụ cho việc điều chỉnh điểm dòng tiền
temp_df = date_series.copy()
for ticker, df in stock_score_dict.items():
    temp_df[ticker] = stock_score_dict[ticker]['t0_score']
temp_df.iloc[:,1:] = temp_df.iloc[:,1:].applymap(lambda x: 1 if x > 0 else 0)

eod_market_breath = date_series.copy()

industry_name_breadth_dict = {}
for key in eod_industry_name.keys():
    stock_list = current_quarter_classification_df[current_quarter_classification_df['industry_name']==key]['ticker'].tolist()
    industry_name_breadth_dict[key] = temp_df[['date'] + [columns for columns in stock_list]]
    eod_market_breath[key] = industry_name_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

industry_perform_breadth_dict = {}
for key in eod_industry_perform.keys():
    stock_list = current_quarter_classification_df[current_quarter_classification_df['industry_perform']==key]['ticker'].tolist()
    industry_perform_breadth_dict[key] = temp_df[['date'] + [columns for columns in stock_list]]
    eod_market_breath[key] = industry_perform_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

marketcap_group_breadth_dict = {}
for key in eod_marketcap_group.keys():
    stock_list = current_quarter_classification_df[current_quarter_classification_df['marketcap_group']==key]['ticker'].tolist()
    marketcap_group_breadth_dict[key] = temp_df[['date'] + [columns for columns in stock_list]]
    eod_market_breath[key] = marketcap_group_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

all_stock_breadth_dict = {}
for key in eod_all_stock.keys():
    stock_list = current_quarter_classification_df['ticker'].tolist()
    all_stock_breadth_dict[key] = temp_df[['date'] + [columns for columns in stock_list]]
    eod_market_breath[key] = all_stock_breadth_dict[key].iloc[:,1:].sum(axis=1)/len(stock_list)

#Chỉnh sửa lại điểm dòng tiền t0 cho từng cổ phiếu với tác động của độ rộng từng nhóm
for ticker, df in stock_score_dict.items():
    if ticker in current_quarter_stock_list:
        name_of_industry_name = current_quarter_classification_df[current_quarter_classification_df['ticker']==ticker]['industry_name'].item()
        name_of_industry_perform = current_quarter_classification_df[current_quarter_classification_df['ticker']==ticker]['industry_perform'].item()
        name_of_marketcap_group = current_quarter_classification_df[current_quarter_classification_df['ticker']==ticker]['marketcap_group'].item()

        df[f't0_industry_name'] = adjust_score_by_breath(df['t0_industry_name'], eod_market_breath[name_of_industry_name])
        df[f't0_industry_perform'] = adjust_score_by_breath(df['t0_industry_perform'], eod_market_breath[name_of_industry_perform])
        df[f't0_marketcap_group'] = adjust_score_by_breath(df['t0_marketcap_group'], eod_market_breath[name_of_marketcap_group])
        df[f't0_all'] = adjust_score_by_breath(df['t0_all'], eod_market_breath['all'])

In [23]:
#Tạo bảng dữ liệu điểm dòng tiền cho các nhóm cổ phiếu
group_score_df = date_series.copy()

#Thêm cột điểm dòng tiền toàn bộ cổ phiếu
for nganh in eod_all_stock.keys():
    score_df = date_series.copy()
    for ticker in stock_classification_df['ticker']:
        score_df[ticker] = stock_score_dict[ticker]['t0_all']
    score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
    group_score_df[nganh] = score_df['total']

#Thêm các cột điểm dòng tiền ngành
eod_industry_name_score_df = date_series.copy()
for nganh in eod_industry_name.keys():
    score_df = date_series.copy()
    for ticker in stock_classification_df[stock_classification_df['industry_name']==nganh]['ticker']:
        score_df[ticker] = stock_score_dict[ticker]['t0_industry_name']
    score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
    group_score_df[nganh] = score_df['total']
    if nganh == 'bao_hiem': temp_df = score_df.copy()

#Thêm các cột điểm dòng tiền nhóm hiệu suất
eod_industry_perform_score_df = date_series.copy()
for group in eod_industry_perform.keys():
    score_df = date_series.copy()
    for ticker in stock_classification_df[stock_classification_df['industry_perform']==group]['ticker']:
        score_df[ticker] = stock_score_dict[ticker]['t0_industry_perform']
    score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
    group_score_df[group] = score_df['total']

#Thêm các cột điểm dòng tiền nhóm vốn hoá
eod_marketcap_group_score_df = date_series.copy()
for marketcap in eod_marketcap_group.keys():
    score_df = date_series.copy()
    for ticker in stock_classification_df[stock_classification_df['marketcap_group']==marketcap]['ticker']:
        score_df[ticker] = stock_score_dict[ticker]['t0_marketcap_group']
    score_df['total'] = score_df.iloc[:, 1:].mean(axis=1)
    group_score_df[marketcap] = score_df['total']



#### Xếp hạng các nhóm cổ phiếu

In [24]:
#Tạo bảng xếp hạng cho các nhóm cổ phiếu
def create_ranking_df(score_df):
    socre_dict = {}
    for group in score_df.columns[1:]:
        socre_dict[group] = date_series.copy()
        socre_dict[group]['t0_score'] = score_df[group]
        socre_dict[group]['t5_score'] = socre_dict[group]['t0_score'][::-1].rolling(window=5).mean()[::-1]

    ranking_score = date_series.copy()
    for group in socre_dict.keys():
        ranking_score[group] = socre_dict[group]['t5_score']
        ranking_score.fillna(0,inplace=True)

    ranking_df = date_series.copy()
    for group in socre_dict.keys():
        ranking_df[group] = 0

    for i in range(len(date_series.copy())):
        ranking_df.iloc[i, 1:] = ranking_score.iloc[i, 1:].rank(ascending=False, method='min')

    return ranking_df

industry_name_ranking_df = create_ranking_df(group_score_df[['date'] + industry_name_list])
industry_perform_ranking_df = create_ranking_df(group_score_df[['date'] + industry_perform_list])
marketcap_group_ranking_df = create_ranking_df(group_score_df[['date'] + marketcap_group_list])
group_score_ranking_df = industry_name_ranking_df.merge(industry_perform_ranking_df, on='date', how='left').merge(marketcap_group_ranking_df, on='date', how='left')

#Thêm cột xếp hạng cho nhóm 'all' là 1 để khớp dữ liệu bảng
group_score_ranking_df['all'] = 1

#### Thanh khoản các nhóm cổ phiếu

In [25]:
#Tạo dict chứa thanh khoản trung bình của mỗi nhóm cổ phiếu trong các giai đoạn
group_volume_df = date_series.copy()

for name in all_stock_key_list:
    temp_volume_df = date_series.copy()
    for stock, df in eod_all_stock[name].items():
        temp_volume_df[stock] = df['volume']
    temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
    group_volume_df[name] = temp_volume_df['volume']

for name in industry_name_list:
    temp_volume_df = date_series.copy()
    for stock, df in eod_industry_name[name].items():
        temp_volume_df[stock] = df['volume']
    temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
    group_volume_df[name] = temp_volume_df['volume']

for name in industry_perform_list:
    temp_volume_df = date_series.copy()
    for stock, df in eod_industry_perform[name].items():
        temp_volume_df[stock] = df['volume']
    temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
    group_volume_df[name] = temp_volume_df['volume']

for name in marketcap_group_list:
    temp_volume_df = date_series.copy()
    for stock, df in eod_marketcap_group[name].items():
        temp_volume_df[stock] = df['volume']
    temp_volume_df['volume'] = temp_volume_df.iloc[:, 1:].sum(axis=1)
    group_volume_df[name] = temp_volume_df['volume']

#Tạo bảng hệ số thanh khoản để lấy phiên cuối
group_vol_ratio_df = date_series.copy()
temp_df = date_series.copy()
for key in group_stock_key_list:
    temp_df[key] = group_volume_df[key][::-1].rolling(window=5).mean()[::-1].shift(-1)
    group_vol_ratio_df[key] = group_volume_df[key]/temp_df[key]
    group_vol_ratio_df[key].iloc[0] = group_volume_df[key].iloc[0]/(temp_df[key].iloc[0])


#### Price Index các nhóm cổ phiếu

In [26]:
def calculate_total_change(stock_group, name, price_index_date_series):
    period_index_df = price_index_date_series.copy()

    for ticker, df in stock_group[name].items():
        period_index_df[ticker] = df['close']
        period_index_df[ticker] = period_index_df[ticker][::-1].pct_change()[::-1]

    period_index_df['total_change'] = period_index_df.iloc[:,1:].sum(axis=1)
    period_index_df['total_change'] = (period_index_df['total_change']/len(stock_group[name]))*100
    period_index_df['total_change'] = period_index_df['total_change']*10

    return period_index_df['total_change']

In [27]:
history_group_last_price_df = get_mongo_df("history_group", find_query={"date": date_series.iloc[1].item()}, projection={"ticker": 1, "close": 1, "_id": 0})

#Tính dữ liệu group price change của quý hiện tại
group_price_change = date_series.copy()
for key in all_stock_key_list:
    group_price_change[key] = calculate_total_change(eod_all_stock, key, date_series)

for key in industry_name_list:
    group_price_change[key] = calculate_total_change(eod_industry_name, key, date_series)

for key in industry_perform_list:
    group_price_change[key] = calculate_total_change(eod_industry_perform, key, date_series)

for key in marketcap_group_list:
    group_price_change[key] = calculate_total_change(eod_marketcap_group, key, date_series)

today_group_last_price_df = group_price_change[group_price_change['date'] == today].drop(columns='date')\
    .transpose().reset_index().rename(columns={'index':'ticker', 0:'close'})

group_price_index_df = pd.merge(history_group_last_price_df, today_group_last_price_df, on='ticker', how='left')
group_price_index_df['date'] = today
group_price_index_df['close'] = group_price_index_df['close_x'] + group_price_index_df['close_y']
group_price_index_df = group_price_index_df.drop(columns=['close_x', 'close_y'])

#### Tạo các bảng dữ liệu hôm nay

In [28]:
def calculate_extreme_2period(df, period_col, value_col, periods=2, date_col='date'):
    """
    Tính giá trị cực trị (max với 'high' hoặc min với 'low') của cột value_col
    trên các dòng có ngày <= date_col và thuộc các nhóm thời gian từ
    (current period và (periods-1) nhóm liền trước), sử dụng các thao tác vectorized.
    
    Tham số:
      - df: DataFrame chứa dữ liệu.
      - period_col: tên cột định danh kỳ (ví dụ: 'week', 'month', 'quarter', 'year').
      - value_col: tên cột giá trị cần tính (chỉ hỗ trợ 'high' hoặc 'low').
      - periods: số nhóm cần gộp (mặc định 2: nhóm hiện tại và nhóm liền trước).
      - date_col: tên cột ngày (mặc định 'date').
    
    Hàm trả về Series chứa giá trị cực trị ứng với mỗi dòng.
    """
    df = df.copy()
    # Đảm bảo cột ngày ở dạng datetime và sắp xếp theo ngày
    df[date_col] = pd.to_datetime(df[date_col])
    df = df.sort_values(date_col)
    
    # Xác định thứ tự của các nhóm dựa trên ngày xuất hiện đầu tiên của mỗi nhóm
    period_min_dates = df.groupby(period_col)[date_col].min().sort_values()
    period_order = period_min_dates.index.tolist()
    mapping = {p: i for i, p in enumerate(period_order)}
    df['period_idx'] = df[period_col].map(mapping)
    
    # Tính giá trị tích lũy (cum_ext) trong mỗi nhóm: với 'high' dùng cummax, với 'low' dùng cummin
    if value_col == 'high':
        df['cum_ext'] = df.groupby(period_col)[value_col].cummax()
    elif value_col == 'low':
        df['cum_ext'] = df.groupby(period_col)[value_col].cummin()
    else:
        raise ValueError("value_col phải là 'high' hoặc 'low'")
    
    # Tính giá trị cực trị tổng thể của mỗi nhóm (group_ext)
    if value_col == 'high':
        group_ext = df.groupby(period_col)[value_col].max()
    else:  # value_col == 'low'
        group_ext = df.groupby(period_col)[value_col].min()
    
    groups_df = group_ext.reset_index().rename(columns={value_col: 'group_ext'})
    groups_df['period_idx'] = groups_df[period_col].map(mapping)
    groups_df = groups_df.sort_values('period_idx')
    
    # Tính giá trị cực trị của các nhóm liền trước, dùng rolling trên các group_ext (không tính group hiện tại)
    if periods > 1:
        if value_col == 'high':
            groups_df['prev_ext'] = groups_df['group_ext'].shift(1).rolling(window=periods-1, min_periods=1).max()
        else:  # value_col == 'low'
            groups_df['prev_ext'] = groups_df['group_ext'].shift(1).rolling(window=periods-1, min_periods=1).min()
    else:
        groups_df['prev_ext'] = pd.NA
    
    # Gộp kết quả của các nhóm (prev_ext) vào DataFrame gốc theo period_col
    df = df.merge(groups_df[[period_col, 'prev_ext']], on=period_col, how='left')
    
    # Với mỗi dòng, kết hợp giá trị tích lũy của nhóm hiện tại (cum_ext) với giá trị cực trị của các nhóm trước (prev_ext)
    if value_col == 'high':
        # Nếu prev_ext là NaN thì chỉ dùng cum_ext, ngược lại lấy max của hai giá trị
        df['extreme'] = df[['cum_ext', 'prev_ext']].max(axis=1)
    else:
        df['extreme'] = df[['cum_ext', 'prev_ext']].min(axis=1)
    
    return df['extreme']

In [29]:
def add_prev_period_metrics(df, period_col, date_col='date', prefix=None):
    df = df.copy()
    # Chuyển đổi cột date và sắp xếp theo ngày tăng dần
    df[date_col] = pd.to_datetime(df[date_col])
    df = df.sort_values(date_col)
    
    # Xác định thứ tự các kỳ dựa trên ngày xuất hiện đầu tiên của mỗi kỳ
    period_order = df.groupby(period_col)[date_col].min().sort_values().index.tolist()
    
    # Tính toán các chỉ số cho từng kỳ
    agg_df = df.groupby(period_col).agg(
        close_period = ('close', 'last'),  # giá đóng cửa của ngày cuối cùng trong nhóm
        high_period  = ('high', 'max'),      # giá cao nhất của nhóm
        low_period   = ('low', 'min')        # giá thấp nhất của nhóm
    ).reset_index()
    
    # Đặt cột period_col thành kiểu categorical với thứ tự xác định
    agg_df[period_col] = pd.Categorical(agg_df[period_col], categories=period_order, ordered=True)
    agg_df = agg_df.sort_values(period_col)
    
    # Dịch chuyển các chỉ số để lấy giá của kỳ liền trước
    agg_df['prev_close'] = agg_df['close_period'].shift(1)
    agg_df['prev_high']  = agg_df['high_period'].shift(1)
    agg_df['prev_low']   = agg_df['low_period'].shift(1)
    
    if prefix:
        agg_df = agg_df.rename(columns={
            'prev_close': f'{prefix}_prev_close',
            'prev_high':  f'{prefix}_prev_high',
            'prev_low':   f'{prefix}_prev_low'
        })
        merge_cols = [period_col, f'{prefix}_prev_close', f'{prefix}_prev_high', f'{prefix}_prev_low']
    else:
        merge_cols = [period_col, 'prev_close', 'prev_high', 'prev_low']
    
    # Gộp các chỉ số của kỳ liền trước vào DataFrame ban đầu
    df = df.merge(agg_df[merge_cols], on=period_col, how='left')
    
    return df

##### Bảng dữ liệu MS

In [30]:
def transform_ms(stock_group):
    temp_stock_dict = copy.deepcopy(stock_group)

    # Prepare a base date DataFrame from date_series
    dates_df = pd.DataFrame(date_series['date'].tolist(), columns=['date'])
    
    for group_name, stocks in temp_stock_dict.items():
        # Initialize a DataFrame for group trends
        group_trends = dates_df.copy()

        # Compute trends across stocks
        for trend in ['trend_5p', 'trend_20p', 'trend_60p', 'trend_120p', 'trend_240p', 'trend_480p']:
            # Concatenate all trend data for current trend across all stocks
            trend_data = pd.concat([stocks[stock][trend] for stock in stocks], axis=1)
            trend_data.fillna(0, inplace=True)
            
            # Calculate the sum and percent for the trend
            sum_trend = trend_data.sum(axis=1)
            percent_trend = sum_trend / len(stocks)
            
            # Add to group trends DataFrame
            group_trends[f'{trend}'] = percent_trend

        temp_stock_dict[group_name] = group_trends.sort_values('date', ascending=False)

    return temp_stock_dict

In [36]:
#Tính toán các biểu đồ MS cho các nhóm cổ phiếu
all_stock_ms = transform_ms(eod_all_stock)
industry_name_ms = transform_ms(eod_industry_name)
industry_perform_ms = transform_ms(eod_industry_perform)
marketcap_group_ms = transform_ms(eod_marketcap_group)

#Gộp tất cả biểu đồ MS vào 1 bảng
eod_ms_chart_df = pd.DataFrame()
for item in [all_stock_ms, industry_name_ms, industry_perform_ms, marketcap_group_ms]:
    for group, df in item.items():
        temp_df = df[df['date'] == today.strftime('%Y-%m-%d')]
        temp_df['ticker'] = group
        eod_ms_chart_df = pd.concat([eod_ms_chart_df, temp_df], axis=0)

##### Bảng dữ liệu từng cổ phiếu

In [33]:
def merge_remove_duplicates(df1, df2, key):
    # Thực hiện merge với tùy chọn suffixes để phân biệt các cột trùng lặp từ df2
    merged = pd.merge(df1, df2, on=key, how='outer', suffixes=('', '_dup'))
    # Tìm các cột có suffix '_dup' (tức là các cột trùng lặp từ df2)
    dup_cols = [col for col in merged.columns if col.endswith('_dup')]
    # Loại bỏ các cột trùng lặp
    merged.drop(columns=dup_cols, inplace=True)
    return merged

eod_stock_dict = {}
for ticker in stock_dict.keys():
    df1 = stock_dict[ticker]
    df2 = stock_score_dict[ticker]

    df_merge = merge_remove_duplicates(df1, df2, 'date')
    df_merge = df_merge.drop(columns=['ma5', 'price_change', 'value_change',
                't0_all', 't0_industry_name', 't0_industry_perform', 't0_marketcap_group',
                'trend_5p', 'trend_20p', 'trend_60p', 'trend_120p', 'trend_240p', 'trend_480p'])
    
    #Tạo thêm các cột mốc tuần tháng
    df_merge['week'] = df_merge['date'].dt.strftime('%W-%Y').apply(lambda x: f'53-{x[-4:]}' if x[:2] == '00' else x)
    df_merge['month'] = df_merge['date'].dt.strftime('%m-%Y')
    df_merge['year'] = df_merge['date'].dt.strftime('%Y')

    eod_stock_dict[ticker] = df_merge[df_merge['date'] == today]

#Ghép tất cả cổ phiếu vào chung một bảng
eod_stock_df = pd.DataFrame()
for ticker, df in eod_stock_dict.items():
    eod_stock_df = pd.concat([eod_stock_df, df], axis=0)

#Lấy dữ liệu ngày hôm trước từ lịch sử cổ phiếu bổ sung sang hôm nay
history_stock_last_df = get_mongo_df("history_stock", find_query={"date": date_series.iloc[1].item()})
eod_stock_df = merge_remove_duplicates(eod_stock_df, history_stock_last_df, 'ticker')

##### Bảng dữ liệu các nhóm cổ phiếu

In [34]:
eod_group_df = group_price_index_df[['date','ticker','close']]

eod_group_df['volume'] = eod_group_df['ticker'].map(
    group_volume_df[group_volume_df['date'] == today].drop(columns='date')\
    .transpose().reset_index().rename(columns={'index':'ticker', 0:'volume'}).set_index('ticker')['volume']
)

eod_group_df['vol_ratio'] = eod_group_df['ticker'].map(
group_vol_ratio_df[group_vol_ratio_df['date'] == today].drop(columns='date')\
    .transpose().reset_index().rename(columns={'index':'ticker', 0:'vol_ratio'}).set_index('ticker')['vol_ratio']
)

eod_group_df['t0_score'] = eod_group_df['ticker'].map(
group_score_df[group_score_df['date'] == today].drop(columns='date')\
    .transpose().reset_index().rename(columns={'index':'ticker', 0:'t0_score'}).set_index('ticker')['t0_score']
)

eod_group_df['t5_score'] = eod_group_df['t0_score'][::-1].rolling(window=5, min_periods=1).mean()[::-1]

eod_group_df['rank'] = eod_group_df['ticker'].map(
group_score_ranking_df[group_score_ranking_df['date'] == today].drop(columns='date')\
    .transpose().reset_index().rename(columns={'index':'ticker', 0:'rank'}).set_index('ticker')['rank']
)

##### Bảng các index

In [35]:
eod_index_dict = {}
for ticker, df in index_dict.items():
	df_copy = df.copy()
      
	#Tạo thêm các cột mốc tuần tháng
	df_copy['week'] = df_copy['date'].dt.strftime('%W-%Y').apply(lambda x: f'53-{x[-4:]}' if x[:2] == '00' else x)
	df_copy['month'] = df_copy['date'].dt.strftime('%m-%Y')
	df_copy['quarter'] = df_copy['date'].apply(lambda x: next((key for key, value in period_timestamp_map_dict.items() if value[0] <= x <= value[1]), None))
	df_copy['year'] = df_copy['date'].dt.strftime('%Y')

	#Tính toán giá của các nến
	df_copy['month_high'] = df_copy.groupby('month')['high'].cummax()
	df_copy['month_low'] = df_copy.groupby('month')['low'].cummin()
	df_copy['month_open'] = df_copy.groupby('month')['open'].transform('first')

	eod_index_dict[ticker] = df_copy[df_copy['date'] == today]

eod_index_df = pd.DataFrame()
for ticker, df in eod_index_dict.items():
    eod_index_df = pd.concat([eod_index_df, df], axis=0)

#Lấy dữ liệu ngày hôm trước từ lịch sử cổ phiếu bổ sung sang hôm nay
history_index_last_df = get_mongo_df("history_index", find_query={"date": date_series.iloc[1].item()})
eod_index_df = merge_remove_duplicates(eod_index_df, history_index_last_df, 'ticker')

##### Bảng các ticker quốc tế

In [36]:
def clean_other_data(df_raw, type):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200000]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', type)
    
    return df_clean.reset_index(drop=True)

def get_yfinance_df(ticker, symbol, type_name):
	temp_df = yf.download(symbol, start="2020-04-01", end=today.strftime('%Y-%m-%d'), progress=False, auto_adjust=True).reset_index()
	temp_df.columns = temp_df.columns.droplevel(1)
	temp_df.columns.name = None
	temp_df = temp_df.reset_index(drop=True)
	temp_df.columns = ['date','open','high','low','close','volume']
	temp_df['ticker'] = ticker
	temp_df['type'] = type_name
	return temp_df[['ticker','type','date','open','high','low','close','volume']]

other_dict = {}

#DXY và USDVND
other_dict['DXY'] = get_yfinance_df('DXY', "DX-Y.NYB", 'forex')
other_dict['USD_VND'] = get_yfinance_df('USD_VND', "USDVND=X", 'forex')

#Bạc và đồng
other_dict['SI=F'] = get_yfinance_df('SI=F', "SI=F", 'commodity')
other_dict['HG=F'] = get_yfinance_df('HG=F', "HG=F", 'commodity')

#Hai loại dâu mỏ và khí tự nhiên
other_dict['BZ=F'] = get_yfinance_df('BZ=F', "BZ=F", 'commodity')
other_dict['CL=F'] = get_yfinance_df('CL=F', "CL=F", 'commodity')
other_dict['NG=F'] = get_yfinance_df('NG=F', "NG=F", 'commodity')

#XAU USD
for ticker in ['^XAU']:
    temp_file_path = other_folder_path + f'\\{ticker}' + '\\USD.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'commodity')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}_USD'] = temp_df_clean
    
for ticker in ['^SPX','^DJI','^IXIC','^NYA','^N225','^FTSE','^HIS','^SSEC','^STOXX50E','^SPX','^SPX']:
    temp_file_path = other_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'index')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}_USD'] = temp_df_clean

#Các cặp tiền forex
for ticker in ['^AUD','^EUR','^GBP','^NZD']:
    temp_file_path = other_folder_path + f'\\{ticker}' + '\\USD.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'forex')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}_USD'] = temp_df_clean
for ticker in get_file_name_list(f'{other_folder_path}\\^USD'):
    temp_file_path = other_folder_path+ '\\^USD' + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'forex')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'USD_{ticker}'] = temp_df_clean
    
#Các cặp tiền crypto
for ticker in ['^BTC','^BCH','^LTC','^XRP','^ETH']:
    temp_file_path = other_folder_path + f'\\{ticker}' + '\\USD.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'crypto')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}_USD'] = temp_df_clean
    
#Trái phiếu chính phủ
for ticker in ['^USBY10Y', '^USBY1Y', '^USBY5Y', '^VNBY10Y', '^VNBY1Y', '^VNBY5Y']:
    temp_file_path = other_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'bond')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}'] = temp_df_clean


#Tạo bảng tất cả chỉ số
other_ticker_df = pd.DataFrame()
for ticker, df in other_dict.items():
    other_ticker_df = pd.concat([other_ticker_df, df], axis=0).sort_values('date', ascending=False)

#### Lưu dữ liệu vào mongo

In [None]:
from pymongo import MongoClient

# --- Kết nối tới MongoDB đích ---
mongo_client = MongoClient("mongodb://t2m:t2minvest@14.225.192.30:27017/?authSource=admin")
stock_db = mongo_client["stock_db"]
    
def overwrite_mongo(collection, df):
    # Lấy tên collection hiện tại và database
    collection_name = collection.name
    db = collection.database  # Truy cập database từ collection
    temp_collection_name = f"temp_{collection_name}"
    old_collection_name = f"old_{collection_name}"

    # Reset index của DataFrame
    df = df.reset_index(drop=True)

    # 1. Lưu dữ liệu vào collection tạm
    temp_collection = db[temp_collection_name]
    temp_collection.drop()  # Đảm bảo collection tạm sạch trước khi insert
    temp_collection.insert_many(df.to_dict(orient='records'))

    # 2. Rename collection cũ thành 'old_' (nếu tồn tại)
    if collection_name in db.list_collection_names():
        db[collection_name].rename(old_collection_name, dropTarget=True)

    # 3. Rename collection tạm thành tên chuẩn
    temp_collection.rename(collection_name, dropTarget=True)

    # 4. Xóa collection 'old_' (nếu tồn tại)
    if old_collection_name in db.list_collection_names():
        db[old_collection_name].drop()
        
overwrite_mongo(stock_db["eod_stock"], eod_stock_df)
overwrite_mongo(stock_db["eod_index"], eod_index_df)
overwrite_mongo(stock_db["eod_ms_chart"], eod_ms_chart_df)
overwrite_mongo(stock_db["eod_group"], eod_group_df)