In [8]:
import os
import pandas as pd
import numpy as np
from datetime import timedelta, datetime
import datetime as dt
import pandas_ta as ta
import yfinance as yf
import copy
import random
from pymongo import MongoClient
import sys
from dotenv import load_dotenv
import warnings
import time
from sqlalchemy import create_engine, text

warnings.filterwarnings("ignore")
warnings.simplefilter('ignore', category=FutureWarning)
pd.options.mode.chained_assignment = None

load_dotenv()
mongo_client = MongoClient(os.environ.get("MONGO_URI"))
stock_db = mongo_client["stock_db"]
ref_db = mongo_client["ref_db"]

vsuccess_engine = create_engine(os.environ.get("VSUCCESS_URI"))
twan_engine = create_engine(os.environ.get("TWAN_URI"))

#### Chuẩn bị các dữ liệu

##### Các hàm giải mã và lấy dữ liệu

- Lấy dữ liệu từ MongoDB

In [9]:
def get_mongo_df(db_collection, df_name, find_query=None, projection=None):
    # Truy cập collection
    collection = db_collection[df_name]
    # Nếu không truyền vào find_query thì mặc định lấy tất cả document
    if find_query is None:
        find_query = {}
    # Nếu không truyền vào projection thì mặc định loại bỏ trường _id
    if projection is None:
        projection = {"_id": 0}
    # Thực hiện lệnh find với điều kiện và projection đã cho
    docs = collection.find(find_query, projection)
    # Chuyển đổi kết quả sang DataFrame và trả về
    df = pd.DataFrame(list(docs))
    return df

def overwrite_mongo(collection, df):
    # Lấy tên collection hiện tại và database
    collection_name = collection.name
    db = collection.database  # Truy cập database từ collection
    temp_collection_name = f"temp_{collection_name}"
    old_collection_name = f"old_{collection_name}"

    # Reset index của DataFrame
    df = df.reset_index(drop=True)
    records = df.replace({pd.NaT: None}).to_dict(orient='records')

    # 1. Lưu dữ liệu vào collection tạm
    temp_collection = db[temp_collection_name]
    temp_collection.drop()  # Đảm bảo collection tạm sạch trước khi insert
    temp_collection.insert_many(records)

    # 2. Rename collection cũ thành 'old_' (nếu tồn tại)
    if collection_name in db.list_collection_names():
        db[collection_name].rename(old_collection_name, dropTarget=True)

    # 3. Rename collection tạm thành tên chuẩn
    temp_collection.rename(collection_name, dropTarget=True)

    # 4. Xóa collection 'old_' (nếu tồn tại)
    if old_collection_name in db.list_collection_names():
        db[old_collection_name].drop()

- Lấy ra tên quý hiện tại hoặc quý trước đó

In [10]:
def get_quarter(name):
    now = datetime.now()
    year = now.year
    month = now.month
    if 1 <= month <= 3:
        quarter = "q1"
        previous_quarter = "q4"
        previous_year = year - 1
    elif 4 <= month <= 6:
        quarter = "q2"
        previous_quarter = "q1"
        previous_year = year
    elif 7 <= month <= 9:
        quarter = "q3"
        previous_quarter = "q2"
        previous_year = year
    else:
        quarter = "q4"
        previous_quarter = "q3"
        previous_year = year
    
    if name == 'current_quarter':
        return f'{quarter}_{year}'
    if name == 'previous_quarter':
        return f'{previous_quarter}_{previous_year}'

- Giải mã dữ liệu từ file .dat

In [11]:
def decode_data(file_path):
    # Đọc dữ liệu vào một numpy array
    data = np.fromfile(file_path, dtype=np.uint8)

    # Giả định kích thước mỗi bản ghi (có thể thay đổi tùy theo cấu trúc tệp thực tế)
    record_size = 32  # Giả định
    num_records = len(data) // record_size

    # Số lượng cột dữ liệu (bao gồm ngày, thời gian và các giá trị int32 còn lại)
    num_columns = record_size // 4  # Mỗi giá trị int32 chiếm 4 byte

    # Sử dụng numpy để cắt và giải mã dữ liệu hiệu quả hơn
    # Tạo một numpy array để chứa các giá trị int32 và float32
    raw_data = data.reshape(num_records, record_size // 4, 4)

    # Giải mã ngày và thời gian (int32) ở cột 0 và 1, các cột còn lại là float32
    int_data = raw_data[:, :2].view(np.int32)  # Giải mã int32 (2 cột)
    float_data = raw_data[:, 2:].view(np.float32)  # Giải mã float32 (các cột còn lại)

    # Kết hợp dữ liệu
    records = np.hstack((int_data, float_data))

    # Đảm bảo rằng dữ liệu là 2D
    records = records.reshape(num_records, num_columns)

    # Đảo ngược lại dữ liệu trước khi chuyển thành DataFrame
    records = records[::-1]

    # Chuyển đổi thành DataFrame và loại bỏ dòng đầu tiên
    df = pd.DataFrame(records, columns=[f"Col_{i}" for i in range(num_columns)])
    return df  # Loại bỏ đi dòng dữ liệu đầu tiên không cần thiết


- Làm sạch dữ liệu sau khi giải mã

In [12]:
def clean_stock_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Tạo cột cap cho cổ phiếu
    df_raw['cap'] = (df_raw['Col_5'] * df_raw['Col_7'])/1000000
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_7'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'cap']
    df_clean = df_clean.drop_duplicates(subset=['date'], keep='first')

    return df_clean.reset_index(drop=True)

def clean_index_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
    df_clean = df_clean.drop_duplicates(subset=['date'], keep='first')
    #Điều chỉnh lại giá trị các cột
    df_clean['option'] = df_clean['option']/1000000000
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'spot')
    
    return df_clean.reset_index(drop=True)

def clean_futures_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
    df_clean = df_clean.drop_duplicates(subset=['date'], keep='first')
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', 'futures')
    
    return df_clean.reset_index(drop=True)

def clean_itd_data(df_raw):
    #Lọc ra đúng 1 ngày dữ liệu cuối cùng
    df_raw = df_raw[df_raw['Col_0'] == max(df_raw['Col_0'])]
    #Tạo cột date-time mới từ 2 cột date và time cũ
    df_raw['date'] = df_raw['Col_0'].astype(int).astype(str) + ' ' + df_raw['Col_1'].astype(int).astype(str)
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_0', 'Col_1', 'Col_7'])
    #Sắp xếp lại thứ tự các cột
    df_clean = df_clean[['date'] + [f"Col_{i}" for i in range(2, len(df_clean.columns)+1)]]
    # #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['date'] = pd.to_datetime(df_clean['date'], format='%Y%m%d %H%M%S')
    # #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume']
    df_clean = df_clean.drop_duplicates(subset=['date'], keep='first')
    #Làm tròn khung thời gian tới 5 phút
    df_clean['date'] = df_clean['date'].dt.floor('1T')
    df_clean = df_clean.set_index("date").resample("1T", closed='right', label='right').agg({    
        "open": "first",  
        "high": "max",  
        "low": "min", 
        "close": "last",  
        "volume": "sum"   
    }).dropna().reset_index()

    return df_clean.sort_values(by="date", ascending=False).reset_index(drop=True)


- Lấy và làm sạch các dữ liệu khác

In [13]:
def clean_nntd_index_data(df_raw, ticker):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_3', 'Col_4'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'sell_volume', 'buy_volume', 'sell_value', 'buy_value']
    df_clean = df_clean.drop_duplicates(subset=['date'], keep='first')
    #Điều chỉnh lại giá trị các cột
    df_clean['buy_volume'] = df_clean['buy_volume']
    df_clean['sell_volume'] = -df_clean['sell_volume']
    df_clean['buy_value'] = df_clean['buy_value']/1000000000
    df_clean['sell_value'] = -df_clean['sell_value']/1000000000
    df_clean['net_volume'] = df_clean['buy_volume'] + df_clean['sell_volume']
    df_clean['net_value'] = df_clean['buy_value'] + df_clean['sell_value']

    if ticker in ['VN30F1M_NN', 'VN30F1M_TD', 'VN30F1Q_NN', 'VN30F1Q_TD', 'VN30F2M_NN', 'VN30F2M_TD', 'VN30F2Q_NN', 'VN30F2Q_TD']:
        df_clean['type'] = 'futures'
    else:
        df_clean['type'] = 'spot'

    df_clean['ticker'] = ticker

    return df_clean.reset_index(drop=True)

def clean_nntd_stock_data(df_raw):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1', 'Col_3', 'Col_4'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'sell_volume', 'buy_volume', 'sell_value', 'buy_value']
    df_clean = df_clean.drop_duplicates(subset=['date'], keep='first')
    #Điều chỉnh lại giá trị các cột
    df_clean['buy_volume'] = df_clean['buy_volume']
    df_clean['sell_volume'] = -df_clean['sell_volume']
    df_clean['buy_value'] = df_clean['buy_value']/1000000000
    df_clean['sell_value'] = -df_clean['sell_value']/1000000000
    df_clean['net_volume'] = df_clean['buy_volume'] + df_clean['sell_volume']
    df_clean['net_value'] = df_clean['buy_value'] + df_clean['sell_value']
    
    return df_clean.reset_index(drop=True)

def clean_other_data(df_raw, type):
    #Lọc ra ra dữ liệu từ năm 2020
    df_raw = df_raw[df_raw['Col_0'] > 20200400]
    #Xoá đi các cột khong sử dụng
    df_clean = df_raw.drop(columns=['Col_1'])
    #Chuyển đổi định dạng dữ liệu dang datetime
    df_clean['Col_0'] = pd.to_datetime(df_clean['Col_0'], format='%Y%m%d')
    #Đổi tên cột cho đúng
    df_clean.columns = ['date', 'open', 'high', 'low', 'close', 'volume', 'option']
    df_clean = df_clean.drop_duplicates(subset=['date'], keep='first')
		#Thêm cột phân loại index
    df_clean.insert(0, 'type', type)
    
    return df_clean.reset_index(drop=True)

def get_yfinance_df(ticker, symbol, type_name, today):
	temp_df = yf.download(symbol, start="2020-04-01", end=today.strftime('%Y-%m-%d'), progress=False, auto_adjust=True).reset_index()
	temp_df.columns = temp_df.columns.droplevel(1)
	temp_df.columns.name = None
	temp_df = temp_df.reset_index(drop=True)
	temp_df.columns = ['date','open','high','low','close','volume']
	temp_df['ticker'] = ticker
	temp_df['type'] = type_name
	return temp_df[['ticker','type','date','open','high','low','close','volume']]

- Lấy danh sách và đường dẫn thư mục .dat

In [14]:
def get_file_name_list(folder_path):
    file_name_list = []
    files = os.listdir(folder_path)
    for file in files:
        file_name_list.append(file[:-4])
    return file_name_list

def filter_market_file_name_list(file_name_list):
    filtered_list = [item for item in file_name_list if not (item.endswith('_AC') or item.endswith('_CC'))]
    return filtered_list

eod_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\stock"
eod_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\index"
eod_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\futures"
itd_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\stock"
itd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\index"
itd_futures_folder_path = "D:\\fireant_metakit\\AmiBroker\\Intraday\\futures"
nn_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\foreign"
td_stock_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\prop"
nntd_index_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\market"
other_folder_path = "D:\\fireant_metakit\\AmiBroker\\EOD\\other"

##### Đọc và tạo các dữ liệu để tham chiếu

- Các biến dùng cho việc maping tên và danh sách tên

In [15]:
#Đọc name map để chuyển đỏi các tên thành dạng full
name_map = get_mongo_df(ref_db, "name_map")
name_map_dict = name_map.set_index('code')['full_name'].to_dict()

order_map = get_mongo_df(ref_db, "order_map")
order_map_dict = order_map.set_index('code')['order'].to_dict()

group_map = get_mongo_df(ref_db, "group_map")
group_map_dict = group_map.set_index('code')['group'].to_dict()

#Tạo các danh sách nhóm trong mỗi cách chia cổ phiếu
all_stock_key_list = [key for key, value in group_map_dict.items() if value == 'all']
industry_name_list = [key for key, value in group_map_dict.items() if value in ['hsA', 'hsB', 'hsC', 'hsD']]
industry_perform_list = [key for key, value in group_map_dict.items() if value == 'hs']
marketcap_group_list = [key for key, value in group_map_dict.items() if value == 'cap']

#Tạo danh danh key cho tổng tất cả các nhóm
group_stock_key_list = all_stock_key_list + industry_name_list + industry_perform_list + marketcap_group_list

- Các biến liên quan tới định nghĩa các quý

In [16]:
#Tạo dict map thời gian và số lượng cổ phiếu
quarter_map = get_mongo_df(ref_db, 'quarter_map')
quarter_map_dict = quarter_map.set_index('quarter').apply(lambda row: row.tolist(), axis=1).to_dict()
quarter_name_list = list(quarter_map_dict.keys())


#Lấy ra list cổ phiếu của giai đoạn hiện tại
quarter_stock_map = get_mongo_df(ref_db, 'quarter_stock_map')
total_stock_list = get_mongo_df(ref_db, 'current_total_stock_list')['ticker'].tolist()
current_quarter_stock_list = list(set(get_file_name_list(itd_stock_folder_path)) 
                                & set(quarter_stock_map[get_quarter('current_quarter')].dropna().tolist()))

#Lấy ra khoảng thời gian tính toán cho quý này và quý trước
calculate_time_span = [quarter_map_dict['q2_2020'][0], quarter_map_dict[get_quarter('current_quarter')][1]]
current_quarter_span = [quarter_map_dict[get_quarter('current_quarter')][0], quarter_map_dict[get_quarter('current_quarter')][1]]
previous_quarter_span = [quarter_map_dict[get_quarter('previous_quarter')][0], quarter_map_dict[get_quarter('previous_quarter')][1]]

- Các biến định nghĩa thời gian

In [17]:
#Tạo date_series cho thời gian tính toán
date_series = get_mongo_df(ref_db, 'date_series')

#Xác định ngày hiện tại
today = date_series['date'].iloc[0]

#Xác định thời gian hiện tại
current_time = clean_itd_data(decode_data(itd_index_folder_path + '\\UPINDEX.dat'))['date'].iloc[0]

#Khởi tạo time_series bao gồm tất cả khung thời gian của ngày hiện tại
time_series_list = []
time_series_list.extend(pd.date_range(start=f'{today} 09:00:00', end=f'{today} 11:30:00', freq='1T'))
time_series_list.extend(pd.date_range(start=f'{today} 13:00:00', end=f'{today} 15:00:00', freq='1T'))
time_series = pd.DataFrame(time_series_list).rename(columns={0:'date'})

#Điều chỉnh lại time_series bỏ đi các hàng thời gian chưa có dữ liệu
time_series = time_series.loc[time_series['date'].dt.time <= current_time.time()].sort_values('date', ascending=False).reset_index(drop=True)

#Khởi tạo khung thời gian bắt đầu từ 9h00 để vẽ các biểu đồ
itd_series = pd.DataFrame(time_series_list).rename(columns={0:'date'}).sort_values('date', ascending=False).reset_index(drop=True)

#Đọc file phân bổ thanh khoản trong phiên va chuyển đổi thành ngày hôm nay
itd_time_percent = get_mongo_df(ref_db, 'itd_time_percent')
itd_time_percent['date'] = itd_time_percent['date'].apply(lambda x: current_time.replace(hour=x.hour, minute=x.minute, second=x.second))

#Khởi tạo hệ số thời gian
current_time_percent = itd_time_percent[itd_time_percent['date'] == current_time]['percent'].item()

- Danh sách phân loại cổ phiếu

In [18]:
#Lấy danh sách phân loại cổ phiếu
stock_classification_df = get_mongo_df(ref_db, 'full_stock_classification')
stock_classification_df = stock_classification_df[stock_classification_df['ticker'].isin(total_stock_list)].reset_index(drop=True)

#Lấy phân loại của quý này từ dữ liệu lịch sử, các cổ phiếu không thuộc danh sách theo dõi quý này sẽ không được phân loại và nhận giá trị Nan
current_quarter_classification_df = get_mongo_df(ref_db, 'current_quarter_classification')
stock_classification_df['marketcap_group'] = stock_classification_df['ticker'].map(current_quarter_classification_df.set_index('ticker')['marketcap_group'])

### Phần NNTD và Yfinance

#### Định nghĩa các ticker_dict

- Xử lý dữ liệu NN và TD

In [19]:
index_td_nn_dict = {}
for ticker in filter_market_file_name_list(get_file_name_list(nntd_index_folder_path)):
    temp_file_path = nntd_index_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_nntd_index_data(temp_df_raw, ticker)
    index_td_nn_dict[ticker] = temp_df_clean

stock_nn_dict = {}
for ticker in total_stock_list:
    if f'{ticker}_NN' not in get_file_name_list(nn_stock_folder_path):
        pass
    else:
        temp_file_path = nn_stock_folder_path + f'\\{ticker}_NN.dat'
        temp_df_raw = decode_data(temp_file_path)
        temp_df_clean = clean_nntd_stock_data(temp_df_raw)
        temp_df_clean.insert(0, 'ticker', f'{ticker}_NN')
        stock_nn_dict[f'{ticker}_NN'] = temp_df_clean

stock_td_dict = {}
for ticker in total_stock_list:
    if f'{ticker}_TD' not in get_file_name_list(td_stock_folder_path):
        pass
    else:
        temp_file_path = td_stock_folder_path + f'\\{ticker}_TD.dat'
        temp_df_raw = decode_data(temp_file_path)
        temp_df_clean = clean_nntd_stock_data(temp_df_raw)
        temp_df_clean.insert(0, 'ticker', f'{ticker}_TD')
        stock_td_dict[f'{ticker}_TD'] = temp_df_clean

In [20]:
#Bù dữ liệu vào những ngày index không có giao dịch
for ticker, df in index_td_nn_dict.items():
    temp_df = date_series.merge(df, on='date', how='left')
    temp_df[['sell_volume','buy_volume','sell_value','buy_value','net_volume','net_value']] = temp_df[['sell_volume','buy_volume','sell_value','buy_value','net_volume','net_value']].fillna(0)
    temp_df['ticker'] = temp_df['ticker'].fillna(ticker)
    temp_df['type'] = temp_df['type'].bfill()
    temp_df['type'] = temp_df['type'].ffill()
    index_td_nn_dict[ticker] = temp_df.iloc[:20]

#Bù dữ liệu vào những ngày cổ phiếu không có giao dịch
for ticker, df in stock_td_dict.items():
    temp_df = date_series.merge(df, on='date', how='left')
    temp_df[['sell_volume','buy_volume','sell_value','buy_value','net_volume','net_value']] = temp_df[['sell_volume','buy_volume','sell_value','buy_value','net_volume','net_value']].fillna(0)
    temp_df['ticker'] = temp_df['ticker'].fillna(ticker)
    stock_td_dict[ticker] = temp_df.iloc[:20]

#Bù dữ liệu vào những ngày cổ phiếu không có giao dịch
for ticker, df in stock_nn_dict.items():
    temp_df = date_series.merge(df, on='date', how='left')
    temp_df[['sell_volume','buy_volume','sell_value','buy_value','net_volume','net_value']] = temp_df[['sell_volume','buy_volume','sell_value','buy_value','net_volume','net_value']].fillna(0)
    temp_df['ticker'] = temp_df['ticker'].fillna(ticker)
    stock_nn_dict[ticker] = temp_df.iloc[:20]

- Các ticker quốc tế

In [21]:
other_dict = {}

#DXY và USDVND
other_dict['DXY'] = get_yfinance_df('DXY', "DX-Y.NYB", 'forex', today)
other_dict['USD_VND'] = get_yfinance_df('USD_VND', "USDVND=X", 'forex', today)

#Bạc và đồng
other_dict['SI=F'] = get_yfinance_df('SI=F', "SI=F", 'commodity', today)
other_dict['HG=F'] = get_yfinance_df('HG=F', "HG=F", 'commodity', today)

#Hai loại dâu mỏ và khí tự nhiên
other_dict['BZ=F'] = get_yfinance_df('BZ=F', "BZ=F", 'commodity', today)
other_dict['CL=F'] = get_yfinance_df('CL=F', "CL=F", 'commodity', today)
other_dict['NG=F'] = get_yfinance_df('NG=F', "NG=F", 'commodity', today)

#XAU USD
for ticker in ['^XAU']:
    temp_file_path = other_folder_path + f'\\{ticker}' + '\\USD.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'commodity')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}_USD'] = temp_df_clean
    
for ticker in ['^SPX','^DJI','^IXIC','^NYA','^N225','^FTSE','^HIS','^SSEC','^STOXX50E','^SPX','^SPX']:
    temp_file_path = other_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'index')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[ticker] = temp_df_clean

#Các cặp tiền forex
for ticker in ['^AUD','^EUR','^GBP','^NZD']:
    temp_file_path = other_folder_path + f'\\{ticker}' + '\\USD.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'forex')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}_USD'] = temp_df_clean
for ticker in get_file_name_list(f'{other_folder_path}\\^USD'):
    temp_file_path = other_folder_path+ '\\^USD' + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'forex')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'USD_{ticker}'] = temp_df_clean
    
#Các cặp tiền crypto
for ticker in ['^BTC','^BCH','^LTC','^XRP','^ETH']:
    temp_file_path = other_folder_path + f'\\{ticker}' + '\\USD.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'crypto')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}_USD'] = temp_df_clean
    
#Trái phiếu chính phủ
for ticker in ['^USBY10Y', '^USBY1Y', '^USBY5Y', '^VNBY10Y', '^VNBY1Y', '^VNBY5Y']:
    temp_file_path = other_folder_path + f'\\{ticker}.dat'
    temp_df_raw = decode_data(temp_file_path)
    temp_df_clean = clean_other_data(temp_df_raw, 'bond')
    temp_df_clean.insert(0, 'ticker', ticker)
    other_dict[f'{ticker[1:]}'] = temp_df_clean


#Tạo bảng tất cả chỉ số
other_ticker_df = pd.DataFrame()
for ticker, df in other_dict.items():
    other_ticker_df = pd.concat([other_ticker_df, df], axis=0).sort_values('date', ascending=False)

#### Tạo các bảng tổng hợp

In [22]:
#Tạo bảng cho index
nntd_index_df = pd.DataFrame()
for ticker, df in index_td_nn_dict.items():
    nntd_index_df = pd.concat([nntd_index_df, df], axis=0)

In [23]:
#Tạo bảng cho cổ phiếu
nntd_stock_df = pd.DataFrame()
for ticker, df in stock_nn_dict.items():
    nntd_stock_df = pd.concat([nntd_stock_df, df], axis=0)
for ticker, df in stock_td_dict.items():
    nntd_stock_df = pd.concat([nntd_stock_df, df], axis=0)

#### Lưu dữ liệu

In [24]:
overwrite_mongo(stock_db["other_ticker"], other_ticker_df)
overwrite_mongo(stock_db["nntd_stock"], nntd_stock_df)
overwrite_mongo(stock_db["nntd_index"], nntd_index_df)

### Phần Data cho Vsuccess

##### Đọc các dữ liệu cổ phiếu

In [25]:
# #Đọc dữ liệu lịch sử cổ phiếu
eod_stock_df = get_mongo_df(stock_db, "eod_stock", projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, 'volume': 1, "t0_score": 1, "t5_score": 1})
prev_stock_df = get_mongo_df(stock_db, "history_stock", find_query={"date": date_series.iloc[1].item()}, projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, 'volume': 1, "t0_score": 1, "t5_score": 1})

#Đọc dữ liệu lịch sử cổ phiếu
eod_index_df = get_mongo_df(stock_db, "eod_index", projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, 'volume': 1, 'option': 1, "t0_score": 1, "t5_score": 1})
history_index_df = get_mongo_df(stock_db, "history_index", find_query={"type": "spot"}, projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, 'volume': 1, 'option': 1, "t0_score": 1, "t5_score": 1})
full_index_df = pd.concat([eod_index_df, history_index_df], axis=0).reset_index(drop=True)

#Đọc dữ liệu lịch sử cổ phiếu
itd_index_df = get_mongo_df(stock_db, "itd_index", projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, 'volume': 1, "t0_score": 1, "t5_score": 1})
#Đọc dữ liệu lịch sử cổ phiếu
itd_stock_df = get_mongo_df(stock_db, "itd_stock", projection={"_id": 0, "ticker": 1, "date": 1, "open": 1, "high": 1, "low": 1, "close": 1, 'volume': 1, "t0_score": 1, "t5_score": 1})

#Đọc dữ liệu điểm dòng tiền nhóm cổ phiếu
eod_group_df = get_mongo_df(stock_db, "eod_group")

#Đọc dữ liệu điểm dòng tiền nhóm cổ phiếu
itd_group_df = get_mongo_df(stock_db, "itd_group")

#Đọc dữ liệu giao dịch của other
other_ticker_df = get_mongo_df(stock_db, "other_ticker")

#Đọc dữ liệu nntd_index
nntd_index_df = get_mongo_df(stock_db, "nntd_index")

#Đọc dữ liệu nntd_stock
nntd_stock_df = get_mongo_df(stock_db, "nntd_stock")

#Đọc dữ liệu market_phase
eod_market_phase = get_mongo_df(stock_db, "eod_portfolio_progress",  find_query={"portfolio_name": "small_6stocks"}, projection={"_id": 0, "date": 1, "phase": 1})
history_market_phase = get_mongo_df(stock_db, "history_portfolio_progress",  find_query={"portfolio_name": "small_6stocks"}, projection={"_id": 0, "date": 1, "phase": 1})
market_phase_df = pd.concat([eod_market_phase, history_market_phase], axis=0).reset_index(drop=True)
market_phase_df.columns = ['date', 'market_phase_final']

#Đọc dữ liệu ms lịch sử
eod_ms_chart_df = get_mongo_df(stock_db, "eod_ms_chart")
history_ms_chart_df = get_mongo_df(stock_db, "history_ms_chart")
full_ms_chart_df = pd.concat([eod_ms_chart_df, history_ms_chart_df], axis=0).reset_index(drop=True)

In [26]:
#Tạo lại eod_index_dict từ dữ liệu monggoDB
eod_index_dict = {}
for ticker in full_index_df['ticker'].unique():
    temp_df = full_index_df[full_index_df['ticker'] == ticker].reset_index(drop=True)
    eod_index_dict[ticker] = temp_df

#Tạo lại itd_index_dict từ dữ liệu monggoDB
itd_index_dict = {}
for ticker in itd_index_df['ticker'].unique():
    temp_df = itd_index_df[itd_index_df['ticker'] == ticker].reset_index(drop=True)
    itd_index_dict[ticker] = temp_df

#Tạo lại itd_stock_dict từ dữ liệu monggoDB
itd_stock_dict = {}
for ticker in itd_stock_df['ticker'].unique():
    temp_df = itd_stock_df[itd_stock_df['ticker'] == ticker].reset_index(drop=True)
    itd_stock_dict[ticker] = temp_df

#Tạo lại itd_group_dict từ dữ liệu monggoDB
itd_group_dict = {}
for ticker in itd_group_df['ticker'].unique():
    temp_df = itd_group_df[itd_group_df['ticker'] == ticker].reset_index(drop=True)
    itd_group_dict[ticker] = temp_df

#Tạo lại other_dict từ dữ liệu monggoDB
other_dict = {}
for ticker in other_ticker_df['ticker'].unique():
    temp_df = other_ticker_df[other_ticker_df['ticker'] == ticker].reset_index(drop=True)
    other_dict[ticker] = temp_df

##### Chỉ số thị trường

In [27]:
world_index_history = date_series.copy()
for ticker, df in other_dict.items():
    if ticker in ['^BTC', '^DJI', '^XAU', 'CL=F', 'DXY']:
        world_index_history[f'{ticker}_value'] = df['close']
        world_index_history[f'{ticker}_volume'] = df['volume']
for ticker, df in eod_index_dict.items():
    if ticker == 'VNINDEX':
        world_index_history[f'{ticker}_value'] = df['close']
        world_index_history[f'{ticker}_volume'] = df['volume']

world_index_history = world_index_history.iloc[:60].sort_values('date')

In [28]:
world_index_volatility = pd.DataFrame()
for ticker, df in other_dict.items():
    if ticker in ['^BTC', '^DJI', '^XAU', 'CL=F', 'DXY']:
        temp_df = df.copy()
        temp_df['value_traded'] = 0
        temp_df['value_change'] = temp_df['close'][::-1].diff()[::-1].fillna(0)
        temp_df['pct_change'] = temp_df['close'][::-1].pct_change()[::-1].fillna(0)
        temp_df['1w_change'] = temp_df['close'][::-1].rolling(window=5, min_periods=1).apply(lambda x: (x.iloc[-1] - x.iloc[0])/x.iloc[-1])[::-1]
        temp_df['1m_change'] = temp_df['close'][::-1].rolling(window=20, min_periods=1).apply(lambda x: (x.iloc[-1] - x.iloc[0])/x.iloc[-1])[::-1]
        temp_df['3m_change'] = temp_df['close'][::-1].rolling(window=60, min_periods=1).apply(lambda x: (x.iloc[-1] - x.iloc[0])/x.iloc[-1])[::-1]
        temp_df = temp_df.iloc[[0]][['ticker','open','high','low','close','volume','value_traded','value_change','pct_change','1w_change','1m_change','3m_change']]

        world_index_volatility = pd.concat([world_index_volatility, temp_df], axis=0)

for ticker, df in eod_index_dict.items():
    if ticker == 'VNINDEX':
        temp_df = df.copy()
        temp_df['value_traded'] = temp_df['option']
        temp_df['value_change'] = temp_df['close'][::-1].diff()[::-1].fillna(0)
        temp_df['pct_change'] = temp_df['close'][::-1].pct_change()[::-1].fillna(0)
        temp_df['1w_change'] = temp_df['close'][::-1].rolling(window=5, min_periods=1).apply(lambda x: (x.iloc[-1] - x.iloc[0])/x.iloc[-1])[::-1]
        temp_df['1m_change'] = temp_df['close'][::-1].rolling(window=20, min_periods=1).apply(lambda x: (x.iloc[-1] - x.iloc[0])/x.iloc[-1])[::-1]
        temp_df['3m_change'] = temp_df['close'][::-1].rolling(window=60, min_periods=1).apply(lambda x: (x.iloc[-1] - x.iloc[0])/x.iloc[-1])[::-1]
        temp_df = temp_df.iloc[[0]][['ticker','open','high','low','close','volume','value_traded','value_change','pct_change','1w_change','1m_change','3m_change']]

        world_index_volatility = pd.concat([world_index_volatility, temp_df], axis=0)

##### Khối ngoại tự doanh

In [29]:
#Tạo bảng giá trị giao dịch ngày hiện tại
nn_index_df = nntd_index_df.copy()
nn_index_df = nn_index_df[(nn_index_df['date'] == today) & nn_index_df['ticker'].isin(['VNINDEX_NN', 'HNXINDEX_NN', 'UPINDEX_NN'])]
nn_index_df = nn_index_df.drop(columns=['date','type','ticker'])

td_index_df = nntd_index_df.copy()
td_index_df = td_index_df[(td_index_df['date'] == date_series['date'].iloc[1]) & td_index_df['ticker'].isin(['VNINDEX_TD', 'HNXINDEX_TD', 'UPINDEX_TD'])]
td_index_df = td_index_df.drop(columns=['date','type','ticker'])

nntd_value = pd.DataFrame({'NN': nn_index_df.sum(axis=0),'TD': td_index_df.sum(axis=0)}).reset_index()

In [30]:
#Bảng lịch sử giao dịch 10 phiên
nn_history_df = nntd_index_df.copy()
nn_history_df = nn_history_df[nn_history_df['ticker'].isin(['VNINDEX_NN', 'HNXINDEX_NN', 'UPINDEX_NN'])]
nn_history_df = nn_history_df.groupby('date')['net_value'].sum()

td_history_df = nntd_index_df.copy()
td_history_df = td_history_df[td_history_df['ticker'].isin(['VNINDEX_TD', 'HNXINDEX_TD', 'UPINDEX_TD'])]
td_history_df = td_history_df.groupby('date')['net_value'].sum()

#Ghép bảng và chỉ lấy 10 ngày gần nhất
nntd_history = pd.concat([nn_history_df, td_history_df], axis=1).reset_index().tail(10)
nntd_history.columns = ['date','NN','TD']

In [31]:
#Bảng top cổ phiếu giao dịch phiên hiện tại

#Tính toán cho nước ngoài
nn_stock_df = nntd_stock_df.copy()
nn_stock_df = nn_stock_df[(nn_stock_df['date'] == today) & nn_stock_df['ticker'].str.endswith('_NN')]
nn_stock_df['ticker'] = nn_stock_df['ticker'].apply(lambda x: x[:3])

top_nn_stock = nn_stock_df.sort_values('net_value', ascending=False).iloc[:5].reset_index(drop=True)
top_nn_stock_string = ", ".join([f"{r['ticker']} ({r['net_value']:.2f} tỷ)" for _, r in top_nn_stock.head(5).iterrows()])

bot_nn_stock = nn_stock_df.sort_values('net_value', ascending=True).iloc[:5].reset_index(drop=True)
bot_nn_stock_string = ", ".join([f"{r['ticker']} ({r['net_value']:.2f} tỷ)" for _, r in bot_nn_stock.head(5).iterrows()])

#Tính toán cho tự doanh
td_stock_df = nntd_stock_df.copy()
td_stock_df = td_stock_df[(td_stock_df['date'] == date_series['date'].iloc[1]) & td_stock_df['ticker'].str.endswith('_TD')]
td_stock_df['ticker'] = td_stock_df['ticker'].apply(lambda x: x[:3])

top_td_stock = td_stock_df.sort_values('net_value', ascending=False).iloc[:5].reset_index(drop=True)
top_td_stock_string = ", ".join([f"{r['ticker']} ({r['net_value']:.2f} tỷ)" for _, r in top_td_stock.head(5).iterrows()])

bot_td_stock = td_stock_df.sort_values('net_value', ascending=True).iloc[:5].reset_index(drop=True)
bot_td_stock_string = ", ".join([f"{r['ticker']} ({r['net_value']:.2f} tỷ)" for _, r in bot_td_stock.head(5).iterrows()])

nntd_top_stock = pd.DataFrame({"NN": [top_nn_stock_string, bot_nn_stock_string], "TD": [top_td_stock_string, bot_td_stock_string]}, index=["buy", "sell"]).reset_index()

##### Trạng thái thị trường

In [32]:
def add_count_columns(df):
    # Lấy danh sách các cột ban đầu để tính toán, tránh đếm cả các cột mới tạo
    original_columns = df.columns.tolist()
    
    df['positive_count'] = df[original_columns].gt(0).sum(axis=1) + df[original_columns].eq(0).sum(axis=1)
    df['negative_count'] = df[original_columns].lt(0).sum(axis=1)
    df['total_count']    = df[original_columns].count(axis=1)
    
    return df

itd_market_sentiment = itd_series.copy().set_index('date')
for ticker, df in itd_stock_dict.items():
    if ticker in current_quarter_stock_list:
        itd_market_sentiment[ticker] = df.set_index('date')['t0_score']

itd_market_sentiment = add_count_columns(itd_market_sentiment)
itd_market_sentiment['sentiment'] = (itd_market_sentiment['positive_count'] / itd_market_sentiment['total_count'])*100

itd_market_state = itd_index_dict['VNINDEX'].copy().set_index('date')
itd_market_state = itd_market_state.drop(columns=['ticker'])
itd_market_state['vol_ratio'] = itd_group_dict['all'].set_index('date')['vol_ratio']
itd_market_state['sentiment'] = itd_market_sentiment['sentiment']

itd_market_state = itd_market_state.sort_index().reset_index().dropna()
itd_market_state['last_vol_ratio'] = itd_market_state['vol_ratio'].iloc[-1]
itd_market_state['quote_vol_ratio'] = itd_market_state['last_vol_ratio'].apply(lambda x: 'Rất thấp' if x < 0.5 else (
                                                                            'Thấp' if (x >= 0.5) & (x < 0.8) else (
                                                                            'Trung bình' if (x >= 0.8) & (x < 1.2) else (
                                                                            'Cao' if (x >= 1.2) & (x < 1.5) else 'Rất cao'))))

itd_market_state['last_sentiment'] = itd_market_state['sentiment'].iloc[-1]
itd_market_state['quote_sentiment'] = itd_market_state['last_sentiment'].apply(lambda x: 'Sợ hãi' if x < 20 else
                                                                ('Tiêu cực' if (x >= 20) & (x < 40) else
                                                                ('Trung lập' if (x >= 40) & (x < 60) else
                                                                ('Tích cực' if (x >= 60) & (x < 80) else 'Hưng phấn'))))

##### Dòng tiền thị trường

In [33]:
# Tạo bảng để vẽ biểu đồ tròn
market_score = itd_market_sentiment.dropna()[['positive_count','negative_count']]
market_score.columns = ['Dòng tiền dương', 'Dòng tiền âm']
market_score = market_score.iloc[[0]].reset_index(drop=True)
market_score = market_score.transpose().reset_index()
market_score.columns = ['index','value']

temp_industry_name_df = eod_group_df[eod_group_df['ticker'].isin(industry_name_list)].sort_values('t0_score', ascending=False)
temp_industry_name_df = temp_industry_name_df[['ticker', 't0_score']]
temp_industry_name_df['ticker'] = temp_industry_name_df['ticker'].map(name_map_dict)
temp_industry_name_df.columns = ['index','value']

temp_industry_perform_df = eod_group_df[eod_group_df['ticker'].isin(industry_perform_list)].sort_values('t0_score', ascending=False)
temp_industry_perform_df = temp_industry_perform_df[['ticker', 't0_score']]
temp_industry_perform_df['ticker'] = temp_industry_perform_df['ticker'].map(name_map_dict)
temp_industry_perform_df.columns = ['index','value']

temp_marketcap_group_df = eod_group_df[eod_group_df['ticker'].isin(marketcap_group_list)].sort_values('t0_score', ascending=False)
temp_marketcap_group_df = temp_marketcap_group_df[['ticker', 't0_score']]
temp_marketcap_group_df['ticker'] = temp_marketcap_group_df['ticker'].map(name_map_dict)
temp_marketcap_group_df.columns = ['index','value']

market_score = pd.concat([market_score, temp_industry_name_df, temp_industry_perform_df, temp_marketcap_group_df], axis=0)

In [34]:
def calculate_pct_change(eod_stock_df, prev_stock_df):
    eod_df = eod_stock_df.copy().set_index('ticker')
    prev_df = prev_stock_df.copy().set_index('ticker')
    eod_df['pct_change'] = (eod_df['close'] - prev_df['close'])/prev_df['close']
    eod_df = eod_df.reset_index()

    return eod_df[['ticker','pct_change']]

market_stock_df = eod_stock_df.merge(calculate_pct_change(eod_stock_df, prev_stock_df), on='ticker', how='left')
temp_top_stock = market_stock_df.sort_values('t0_score', ascending=False).head(10)
temp_top_stock['type'] = 'Tích cực'
temp_bot_stock = market_stock_df.sort_values('t0_score', ascending=True).head(10)
temp_bot_stock['pct_change'] = temp_bot_stock['pct_change'].abs()
temp_bot_stock['type'] = 'Tiêu cực'

market_top_stock = pd.concat([temp_top_stock, temp_bot_stock], axis=0)
market_top_stock = market_top_stock[['type', 'ticker', 'pct_change']]

##### Giai đoạn thị trường

In [35]:
temp_ms_df = full_ms_chart_df[full_ms_chart_df['ticker']=='all']
temp_ms_df = temp_ms_df[['date','trend_5p','trend_20p','trend_60p','trend_120p','trend_240p','trend_480p']].set_index('date')
temp_vnidex_df = eod_index_dict['VNINDEX'][['date','close']].set_index('date')
temp_phase_df = market_phase_df[['date', 'market_phase_final']].set_index('date')
temp_phase_df.columns = ['market_phase']

market_phase_history = pd.concat([temp_vnidex_df, temp_phase_df, temp_ms_df], axis = 1)
market_phase_history = market_phase_history.iloc[:80].sort_index().reset_index()

In [36]:
market_phase_quote = market_phase_history.iloc[[-1]]
market_phase_quote['phase_name'] = market_phase_quote['market_phase'].apply(lambda x: 'An toàn' if x == 1 else "Rủi ro")

#### Lưu vào MSSQL

In [37]:
update_time = pd.DataFrame({'today': [f"Ngày {time_series['date'].max().strftime('%d/%m/%Y %H:%M')}"]})

#Các bảng cho báo cáo hàng ngày
update_time.to_sql('update_time', vsuccess_engine, if_exists='replace', index=False)
world_index_history.to_sql('world_index_history', vsuccess_engine, if_exists='replace', index=False)
world_index_volatility.to_sql('world_index_volatility', vsuccess_engine, if_exists='replace', index=False)
nntd_value.to_sql('nntd_value', vsuccess_engine, if_exists='replace', index=False)
nntd_history.to_sql('nntd_history', vsuccess_engine, if_exists='replace', index=False)
nntd_top_stock.to_sql('nntd_top_stock', vsuccess_engine, if_exists='replace', index=False)
itd_market_state.to_sql('itd_market_state', vsuccess_engine, if_exists='replace', index=False)
market_score.to_sql('market_score', vsuccess_engine, if_exists='replace', index=False)
market_top_stock.to_sql('market_top_stock', vsuccess_engine, if_exists='replace', index=False)
market_phase_history.to_sql('market_phase_history', vsuccess_engine, if_exists='replace', index=False)
market_phase_quote.to_sql('market_phase_quote', vsuccess_engine, if_exists='replace', index=False)
market_stock_df.to_sql('market_stock_df', vsuccess_engine, if_exists='replace', index=False)

200

### Phần Data cho Origin Portfolio

#### Đọc dữ liệu từ Mongo

In [38]:
history_portfolio_progress_df = get_mongo_df(stock_db, "history_portfolio_progress")
eod_portfolio_progress_df = get_mongo_df(stock_db, "eod_portfolio_progress")
portfolio_progress_df = pd.concat([eod_portfolio_progress_df, history_portfolio_progress_df], axis=0).reset_index(drop=True)
portfolio_progress_df['portfolio_name'] = portfolio_progress_df['portfolio_name'].map(name_map_dict)

eod_portfolio_order_df = get_mongo_df(stock_db, "eod_portfolio_order")
history_portfolio_order_df = get_mongo_df(stock_db, "history_portfolio_order")
portfolio_order_df = pd.concat([eod_portfolio_order_df, history_portfolio_order_df], axis=0).dropna().reset_index(drop=True)
portfolio_order_df['portfolio_name'] = portfolio_order_df['portfolio_name'].map(name_map_dict)
portfolio_order_df['type'] = portfolio_order_df['type'].apply(lambda x: 'Mua' if x == 'buy' else 'Bán')

portfolio_trading_df = get_mongo_df(stock_db, "history_portfolio_trading")
portfolio_trading_df['portfolio_name'] = portfolio_trading_df['portfolio_name'].map(name_map_dict)

eod_portfolio_holding_df = get_mongo_df(stock_db, "eod_portfolio_holding")
history_portfolio_holding_df = get_mongo_df(stock_db, "history_portfolio_holding")
portfolio_holding_df = pd.concat([eod_portfolio_holding_df, history_portfolio_holding_df], axis=0).dropna().reset_index(drop=True)
portfolio_holding_df['portfolio_name'] = portfolio_holding_df['portfolio_name'].map(name_map_dict)
portfolio_holding_df['industry_name'] = portfolio_holding_df['industry_name'].map(name_map_dict)
portfolio_holding_df['industry_perform'] = portfolio_holding_df['industry_perform'].map(name_map_dict)

eod_portfolio_signal_df = get_mongo_df(stock_db, "eod_portfolio_signal")
history_portfolio_signal_df = get_mongo_df(stock_db, "history_portfolio_signal")
portfolio_signal_df = pd.concat([eod_portfolio_signal_df, history_portfolio_signal_df], axis=0).dropna().reset_index(drop=True)
portfolio_signal_df['portfolio_name'] = portfolio_signal_df['portfolio_name'].map(name_map_dict)

eod_portfolio_filtered_df = get_mongo_df(stock_db, "eod_portfolio_filtered")
history_portfolio_filtered_df = get_mongo_df(stock_db, "history_portfolio_filtered", find_query={"date": {"$in": date_series['date'].iloc[:100].tolist()}})
portfolio_filtered_df = pd.concat([eod_portfolio_filtered_df, history_portfolio_filtered_df], axis=0).dropna().reset_index(drop=True)
portfolio_filtered_df['portfolio_name'] = portfolio_filtered_df['portfolio_name'].map(name_map_dict)
portfolio_filtered_df['industry_name'] = portfolio_filtered_df['industry_name'].map(name_map_dict)

In [39]:
range_order_dict = {'3M': 1, '6M': 2, '1Y': 3, '2Y': 4, 'ALL': 5}
portfolio_order_dict = {'SMALL10': 1, 'SMALL6': 2, 'MEDIUM6': 3, 'LARGE6': 4}

# Chia lại bảng giai đoạn thị trường thành các khung thời gian để tính cum return
portfolio_progress_refined = pd.DataFrame()
for portfolio_name in portfolio_progress_df['portfolio_name'].unique():
    for time_range, number in {'3M': 60, '6M': 120, '1Y': 240, '2Y': 480, 'ALL': -1}.items():
        temp_df = portfolio_progress_df[portfolio_progress_df['portfolio_name'] == portfolio_name].sort_values('date', ascending=False).reset_index(drop=True)
        temp_df['reverse_phase'] = temp_df['phase'].apply(lambda x: 1 if x == 0 else 0)

        if time_range == 'ALL': pass
        else: temp_df = temp_df.iloc[:number]

        temp_df.at[len(temp_df)-1, 'raw_return'] = 0
        temp_df['raw_cum_return'] = temp_df['raw_return'][::-1].cumsum()[::-1]

        temp_df.at[len(temp_df)-1, 'index_return'] = 0
        temp_df['index_cum_return'] = temp_df['index_return'][::-1].cumsum()[::-1]

        temp_df.at[len(temp_df)-1, 'portfolio_return'] = 0
        temp_df['portfolio_cum_return'] = temp_df['portfolio_return'][::-1].cumsum()[::-1]

        temp_df['range'] = time_range
        temp_df['range_order'] = temp_df['range'].map(range_order_dict)
        temp_df['portfolio_order'] = temp_df['portfolio_name'].map(portfolio_order_dict)

        temp_df['phase_state'] = temp_df['phase'].apply(lambda x: 'An toàn' if x == 1 else 'Rủi ro')

        portfolio_progress_refined = pd.concat([portfolio_progress_refined, temp_df], axis=0)

portfolio_progress_refined['raw_list'] = portfolio_progress_refined['raw_list'].apply(lambda x: ', '.join(x))
portfolio_progress_refined['filtered_list'] = portfolio_progress_refined['filtered_list'].apply(lambda x: ', '.join(x))
portfolio_progress_refined['holding_list'] = portfolio_progress_refined['holding_list'].apply(lambda x: ', '.join(x))
portfolio_progress_refined['buy_signal'] = portfolio_progress_refined['buy_signal'].apply(lambda x: ', '.join(x))
portfolio_progress_refined['sell_signal'] = portfolio_progress_refined['sell_signal'].apply(lambda x: ', '.join(x))

In [40]:
portfolio_name_df = pd.DataFrame({'portfolio_name': portfolio_progress_refined['portfolio_name'].unique()})
portfolio_name_df['portfolio_order'] = portfolio_name_df['portfolio_name'].map(portfolio_order_dict)

#Các bảng cho báo cáo PowerBI
date_series.to_sql('date_series', vsuccess_engine, if_exists='replace', index=False)
portfolio_name_df.to_sql('portfolio_name', vsuccess_engine, if_exists='replace', index=False)
portfolio_progress_refined.to_sql('portfolio_progress', vsuccess_engine, if_exists='replace', index=False)
portfolio_order_df.to_sql('portfolio_order', vsuccess_engine, if_exists='replace', index=False)
portfolio_trading_df.to_sql('portfolio_trading', vsuccess_engine, if_exists='replace', index=False)
portfolio_holding_df.to_sql('portfolio_holding', vsuccess_engine, if_exists='replace', index=False)
portfolio_signal_df.to_sql('portfolio_signal', vsuccess_engine, if_exists='replace', index=False)
portfolio_filtered_df.to_sql('portfolio_filtered', vsuccess_engine, if_exists='replace', index=False)

34

### Phần Data cho Custom Portfolio

In [51]:
portfolio_progress_df = get_mongo_df(stock_db, "custom_portfolio_progress")

portfolio_order_df = get_mongo_df(stock_db, "custom_portfolio_order")
portfolio_order_df['type'] = portfolio_order_df['type'].apply(lambda x: 'Mua' if x == 'buy' else 'Bán')

portfolio_trading_df = get_mongo_df(stock_db, "custom_portfolio_trading")

portfolio_holding_df = get_mongo_df(stock_db, "custom_portfolio_holding")
portfolio_holding_df['industry_name'] = portfolio_holding_df['industry_name'].map(name_map_dict)
portfolio_holding_df['industry_perform'] = portfolio_holding_df['industry_perform'].map(name_map_dict)

portfolio_signal_df = get_mongo_df(stock_db, "custom_portfolio_signal")

portfolio_filtered_df = get_mongo_df(stock_db, "custom_portfolio_filtered", find_query={"date": {"$in": date_series['date'].iloc[:100].tolist()}})
portfolio_filtered_df['industry_name'] = portfolio_filtered_df['industry_name'].map(name_map_dict)

In [None]:
range_order_dict = {'3M': 1, '6M': 2, '1Y': 3, '2Y': 4, 'ALL': 5}

# Chia lại bảng giai đoạn thị trường thành các khung thời gian để tính cum return
portfolio_progress_refined = pd.DataFrame()
for portfolio_name in portfolio_progress_df['portfolio_name'].unique():
    for time_range, number in {'3M': 60, '6M': 120, '1Y': 240, '2Y': 480, 'ALL': -1}.items():
        temp_df = portfolio_progress_df[portfolio_progress_df['portfolio_name'] == portfolio_name].sort_values('date', ascending=False).reset_index(drop=True)
        temp_df['reverse_phase'] = temp_df['phase'].apply(lambda x: 1 if x == 0 else 0)

        if time_range == 'ALL': pass
        else: temp_df = temp_df.iloc[:number]

        temp_df.at[len(temp_df)-1, 'raw_return'] = 0
        temp_df['raw_cum_return'] = temp_df['raw_return'][::-1].cumsum()[::-1]

        temp_df.at[len(temp_df)-1, 'index_return'] = 0
        temp_df['index_cum_return'] = temp_df['index_return'][::-1].cumsum()[::-1]

        temp_df.at[len(temp_df)-1, 'portfolio_return'] = 0
        temp_df['portfolio_cum_return'] = temp_df['portfolio_return'][::-1].cumsum()[::-1]

        temp_df['range'] = time_range
        temp_df['range_order'] = temp_df['range'].map(range_order_dict)

        temp_df['phase_state'] = temp_df['phase'].apply(lambda x: 'An toàn' if x == 1 else 'Rủi ro')

        portfolio_progress_refined = pd.concat([portfolio_progress_refined, temp_df], axis=0)

portfolio_progress_refined['raw_list'] = portfolio_progress_refined['raw_list'].apply(lambda x: ', '.join(x))
portfolio_progress_refined['filtered_list'] = portfolio_progress_refined['filtered_list'].apply(lambda x: ', '.join(x))
portfolio_progress_refined['holding_list'] = portfolio_progress_refined['holding_list'].apply(lambda x: ', '.join(x))
portfolio_progress_refined['buy_signal'] = portfolio_progress_refined['buy_signal'].apply(lambda x: ', '.join(x))
portfolio_progress_refined['sell_signal'] = portfolio_progress_refined['sell_signal'].apply(lambda x: ', '.join(x))


In [53]:
portfolio_name_df = pd.DataFrame({'portfolio_name': portfolio_progress_refined['portfolio_name'].unique()})

#Các bảng cho báo cáo PowerBI
portfolio_name_df.to_sql('custom_portfolio_name', vsuccess_engine, if_exists='replace', index=False)
portfolio_progress_refined.to_sql('custom_portfolio_progress', vsuccess_engine, if_exists='replace', index=False)
portfolio_order_df.to_sql('custom_portfolio_order', vsuccess_engine, if_exists='replace', index=False)
portfolio_trading_df.to_sql('custom_portfolio_trading', vsuccess_engine, if_exists='replace', index=False)
portfolio_holding_df.to_sql('custom_portfolio_holding', vsuccess_engine, if_exists='replace', index=False)
portfolio_signal_df.to_sql('custom_portfolio_signal', vsuccess_engine, if_exists='replace', index=False)
portfolio_filtered_df.to_sql('custom_portfolio_filtered', vsuccess_engine, if_exists='replace', index=False)

14