In [4]:
import os
import pandas as pd

def process_price_files(company_names, folder_path, output_folder):
    os.makedirs(output_folder, exist_ok=True)

    for name in company_names:
        file_path = os.path.join(folder_path, f"{name}.txt")
        if os.path.exists(file_path):
            # Đọc file .txt, cách nhau bằng tab, không có header
            df = pd.read_csv(file_path, sep='\t', header=None)

            # Đặt tên cột
            df.columns = ['Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume']

            # Lọc từ ngày 2020-02-19 trở đi
            df['Date'] = pd.to_datetime(df['Date'])
            df = df[df['Date'] >= '2020-02-19']

            # Cứ 5 dòng lấy 1 dòng
            df = df.iloc[::5].reset_index(drop=True)

            # Ghi lại file .txt
            output_path = os.path.join(output_folder, f"{name}.txt")
            with open(output_path, 'w') as f:
                for _, row in df.iterrows():
                    line = f"{row['Date'].strftime('%Y-%m-%d')}\t"
                    line += "\t".join(f"{row[col]:.6f}" for col in ['Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume'])
                    f.write(line + "\n")

            print(f"Đã xử lý xong và ghi vào: {output_path}")
        else:
            print(f"Không tìm thấy file: {file_path}")


In [6]:
company_names_top1_stock = ['BHP','BRK-A','WMT', 'NEE', 'XOM', 'AAPL','AMZN', 'AMT', 'UNH', 'GOOG', 'UPS']
company_names_top1_stock = ['WMT', 'NEE', 'XOM', 'UNH', 'GOOG', 'UPS']

folder_path = os.path.join('Data', 'price', 'preprocessed')
output_folder = os.path.join('Data', 'sample', 'top_1_stock')

# process_price_files(company_names_top1_stock, folder_path, output_folder)


In [None]:
import os

def get_remaining_companies(price_folder, company_names, extension='.txt'):
    # Lấy danh sách tất cả các file trong thư mục
    all_files = os.listdir(price_folder)

    # Lọc lấy tên công ty từ file có đúng phần mở rộng
    all_company_names = [
        os.path.splitext(filename)[0]
        for filename in all_files
        if filename.endswith(extension)
    ]

    # Loại bỏ các tên đã có sẵn trong company_names
    remaining = [name for name in all_company_names if name not in company_names]
    return remaining

company_names_top1_stock = ['BHP','BRK-A','WMT', 'NEE', 'XOM', 'AAPL','AMZN', 'AMT', 'UNH', 'GOOG', 'UPS',                   'ABBV', 'AEP', 'APD', 'AVGO', 'BABA', 'BAC', 'CAT']
price_folder = os.path.join('Data', 'price', 'preprocessed')  # hoặc 'Data/price/raw', tuỳ bạn

company_names_remaining = get_remaining_companies(price_folder, company_names_top1_stock, extension='.txt')
print("Các công ty còn lại:", company_names_remaining)

output_folder_remaining = os.path.join('Data', 'sample', 'remain_stock')

process_price_files(company_names_remaining, folder_path, output_folder_remaining)

Các công ty còn lại: ['CCI', 'CMCSA', 'COP', 'COST', 'CVX', 'D', 'DIS', 'DUK', 'EQIX', 'HD', 'HON', 'JNJ', 'JPM', 'KO', 'LLY', 'LMT', 'MA', 'META', 'MSFT', 'NVDA', 'PEP', 'PFE', 'PG', 'PLD', 'PSA', 'RIO', 'SHEL', 'SHW', 'SO', 'TM', 'TSLA', 'TSM', 'TTE', 'UNP', 'V', 'VALE', 'VZ']
Đã xử lý xong và ghi vào: Data\sample\remain_stock\CCI.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\CMCSA.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\COP.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\COST.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\CVX.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\D.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\DIS.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\DUK.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\EQIX.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\HD.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\HON.txt
Đã xử lý xong và ghi vào: Data\sample\remain_stock\JNJ.txt
Đã xử lý xo

In [1]:
import argparse
import numpy as np
from data_load.dataloader import DataLoader

parser = argparse.ArgumentParser(description='generating')

# load data
args = argparse.Namespace(
    price_dir="Data/sample/top_1_stock/",  # Thư mục dữ liệu giá
    tweet_dir="Data/tweet/raw/",  # Thư mục dữ liệu tweet
    seq_len=5,  # Độ dài chuỗi đầu vào
    technical_indicator_dir="Data/price/technical_indicator/",
    llm_summarize="OpenAILLM", # OpenAILLM // DeepSeekLLM
)


print('Args in experiment:')
print(args)

#===========================================================================================================================================
# Collect demonstration data
print("Loading Train Agents...")
dataloader = DataLoader(args)
data = dataloader.load(flag="train")
# print(data)


# Lưu DataFrame vào tệp CSV
path = args.llm_summarize + "_top1_stock_data_train_sample.csv"
data.to_csv(path, index=False)  # index=False để không lưu chỉ số dòng
print(f"DataFrame đã được lưu vào '{path}'")


api_key:  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
Args in experiment:
Namespace(price_dir='Data/sample/top_1_stock/', tweet_dir='Data/tweet/raw/', seq_len=5, technical_indicator_dir='Data/price/technical_indicator/', llm_summarize='OpenAILLM')
Loading Train Agents...
GOOG = ticker, end_date =  2020-02-24 00:00:00
tweets len =  10
seq_date =  2020-02-19 00:00:00
tweets len =  3
seq_date =  2020-02-20 00:00:00
tweets len =  9
seq_date =  2020-02-21 00:00:00
tweets len =  2
seq_date =  2020-02-22 00:00:00
tweets len =  2
seq_date =  2020-02-23 00:00:00
GOOG = ticker, end_date =  2020-03-02 00:00:00
tweets len =  6
seq_date =  2020-02-26 00:00:00
tweets len =  3
seq_date =  2020-02-27 00:00:00
tweets len =  3
seq_date =  2020-02-28 00:00:00
tweets len =  3
seq_date =  2020-02-29 00:00:00
tweets len =  3
seq_date =  2020-03-01 00:00:00
GOOG = ticker, end_date =  2020-

In [2]:
import argparse
import numpy as np
from data_load.dataloader import DataLoader

parser = argparse.ArgumentParser(description='generating')

# load data
args = argparse.Namespace(
    price_dir="Data/sample/remain_stock/",  # Thư mục dữ liệu giá
    tweet_dir="Data/tweet/raw/",  # Thư mục dữ liệu tweet
    seq_len=5,  # Độ dài chuỗi đầu vào
    technical_indicator_dir="Data/price/technical_indicator/",
    llm_summarize="OpenAILLM", # OpenAILLM // DeepSeekLLM
)


print('Args in experiment:')
print(args)

#===========================================================================================================================================
# Collect demonstration data
print("Loading Train Agents...")
dataloader = DataLoader(args)
data = dataloader.load(flag="train")
# print(data)


# Lưu DataFrame vào tệp CSV
path = args.llm_summarize + "_remain_stock_data_train_sample.csv"
data.to_csv(path, index=False)  # index=False để không lưu chỉ số dòng
print(f"DataFrame đã được lưu vào '{path}'")


Args in experiment:
Namespace(price_dir='Data/sample/remain_stock/', tweet_dir='Data/tweet/raw/', seq_len=5, technical_indicator_dir='Data/price/technical_indicator/', llm_summarize='OpenAILLM')
Loading Train Agents...
ABBV = ticker, end_date =  2020-02-24 00:00:00
tweets len =  2
seq_date =  2020-02-19 00:00:00
tweets len =  2
seq_date =  2020-02-20 00:00:00
seq_date =  2020-02-21 00:00:00
tweets len =  2
seq_date =  2020-02-22 00:00:00
seq_date =  2020-02-23 00:00:00
ABBV = ticker, end_date =  2020-03-02 00:00:00
tweets len =  2
seq_date =  2020-02-26 00:00:00
seq_date =  2020-02-27 00:00:00
seq_date =  2020-02-28 00:00:00
tweets len =  2
seq_date =  2020-02-29 00:00:00
seq_date =  2020-03-01 00:00:00
ABBV = ticker, end_date =  2020-03-09 00:00:00
tweets len =  2
seq_date =  2020-03-04 00:00:00
tweets len =  2
seq_date =  2020-03-05 00:00:00
tweets len =  2
seq_date =  2020-03-06 00:00:00
tweets len =  2
seq_date =  2020-03-07 00:00:00
tweets len =  2
seq_date =  2020-03-08 00:00:00


In [None]:
from data_load.dataloader import DataLoader
import argparse
# load data
args = argparse.Namespace(
    price_dir="Data/sample/top_1_stock/",  # Thư mục dữ liệu giá
    tweet_dir="Data/tweet/raw/",  # Thư mục dữ liệu tweet
    seq_len=5,  # Độ dài chuỗi đầu vào
    technical_indicator_dir="Data/price/technical_indicator/",
    llm_summarize="OpenAILLM", # OpenAILLM // DeepSeekLLM
)


print('Args in experiment:')
print(args)

#===========================================================================================================================================
dataloader = DataLoader(args)

print("Loading Test Agents...")
data_test = dataloader.load(flag="test")

# Lưu DataFrame vào tệp CSV
path = args.llm_summarize+"_top1_stock_data_test.csv"
data_test.to_csv(path, index=False)  # index=False để không lưu chỉ số dòng
print(f"DataFrame đã được lưu vào '{path}'")

Args in experiment:
Namespace(price_dir='Data/sample/top_1_stock/', tweet_dir='Data/tweet/raw/', seq_len=5, technical_indicator_dir='Data/price/technical_indicator/', llm_summarize='OpenAILLM')
Loading Test Agents...
GOOG = ticker, end_date =  2022-06-10 00:00:00
tweets len =  4
seq_date =  2022-06-05 00:00:00
tweets len =  18
seq_date =  2022-06-06 00:00:00
tweets len =  12
seq_date =  2022-06-07 00:00:00
tweets len =  14
seq_date =  2022-06-08 00:00:00
tweets len =  18
seq_date =  2022-06-09 00:00:00
GOOG = ticker, end_date =  2022-06-17 00:00:00
tweets len =  5
seq_date =  2022-06-12 00:00:00
tweets len =  23
seq_date =  2022-06-13 00:00:00
tweets len =  19
seq_date =  2022-06-14 00:00:00
tweets len =  10
seq_date =  2022-06-15 00:00:00
tweets len =  26
seq_date =  2022-06-16 00:00:00
GOOG = ticker, end_date =  2022-06-27 00:00:00
tweets len =  19
seq_date =  2022-06-22 00:00:00
tweets len =  23
seq_date =  2022-06-23 00:00:00
tweets len =  22
seq_date =  2022-06-24 00:00:00
tweets 

In [None]:
from data_load.dataloader import DataLoader
import argparse
# load data
args = argparse.Namespace(
    price_dir="Data/sample/remain_stock/",  # Thư mục dữ liệu giá
    tweet_dir="Data/tweet/raw/",  # Thư mục dữ liệu tweet
    seq_len=5,  # Độ dài chuỗi đầu vào
    technical_indicator_dir="Data/price/technical_indicator/",
    llm_summarize="OpenAILLM", # OpenAILLM // DeepSeekLLM
)


print('Args in experiment:')
print(args)

#===========================================================================================================================================
dataloader = DataLoader(args)

print("Loading Test Agents...")
data_test = dataloader.load(flag="test")

# Lưu DataFrame vào tệp CSV
path = args.llm_summarize+"_remain_stock_data_test.csv"
data_test.to_csv(path, index=False)  # index=False để không lưu chỉ số dòng
print(f"DataFrame đã được lưu vào '{path}'")

Args in experiment:
Namespace(price_dir='Data/sample/remain_stock/', tweet_dir='Data/tweet/raw/', seq_len=5, technical_indicator_dir='Data/price/technical_indicator/', llm_summarize='OpenAILLM')
Loading Test Agents...
CCI = ticker, end_date =  2022-06-10 00:00:00
seq_date =  2022-06-05 00:00:00
seq_date =  2022-06-06 00:00:00
seq_date =  2022-06-07 00:00:00
seq_date =  2022-06-08 00:00:00
seq_date =  2022-06-09 00:00:00
CCI = ticker, end_date =  2022-06-17 00:00:00
seq_date =  2022-06-12 00:00:00
seq_date =  2022-06-13 00:00:00
seq_date =  2022-06-14 00:00:00
seq_date =  2022-06-15 00:00:00
seq_date =  2022-06-16 00:00:00
CCI = ticker, end_date =  2022-06-27 00:00:00
tweets len =  2
seq_date =  2022-06-22 00:00:00
seq_date =  2022-06-23 00:00:00
seq_date =  2022-06-24 00:00:00
seq_date =  2022-06-25 00:00:00
seq_date =  2022-06-26 00:00:00
CCI = ticker, end_date =  2022-07-05 00:00:00
seq_date =  2022-06-30 00:00:00
seq_date =  2022-07-01 00:00:00
seq_date =  2022-07-02 00:00:00
seq_da

In [2]:
import pandas as pd

# Đọc file CSV
df = pd.read_csv("checkpoint_remain_test.csv")
df["ticker"].unique()

array(['ABBV', 'AEP', 'APD', 'AVGO', 'BABA', 'BAC', 'CAT'], dtype=object)