In [None]:
!pip install pandas faiss-cpu sentence-transformers openai

Collecting faiss-cpu
  Downloading faiss_cpu-1.11.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.8 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cufft_cu12-11.2.1.3-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.5.147 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_curand_cu12-10.3.5.147-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cusolver-cu12==11.6.1.9 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cusolver_cu12-11.6.1.9-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB

# Đọc và tiền xử lý dữ liệu tin tức từ các nguồn

In [None]:
import pandas as pd
import numpy as np
import re
import json
from sentence_transformers import SentenceTransformer
import faiss
import openai
import matplotlib.pyplot as plt
import seaborn as sns

def clean_text(text):
    if pd.isna(text):
        return ""
    text = re.sub(r'<[^>]+>', '', str(text))
    text = re.sub(r'<[^>]+>|[\*\#\@]', '', text)
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

def extract_ticker(text):
    text = str(text).upper()
    # Thêm các pattern phức tạp hơn và xử lý viết tắt
    patterns = [
        r'\b(FPT|CMG)\b',
        r'\b(FPT\d*[A-Z]*)\b',
        r'\b(CMG\d*[A-Z]*)\b'
    ]
    for pattern in patterns:
        match = re.search(pattern, text)
        if match:
            return match.group(0)
    return 'UNKNOWN'

def preprocess_news(df, source_label):
    title_col = 'title' if 'title' in df.columns else df.columns[0]
    content_col = 'summary' if 'summary' in df.columns else df.columns[1]

    # Cột ngày
    if 'date' in df.columns:
        date_col = 'date'
    else:
        possible_date = [col for col in df.columns if "date" in col.lower() or "ngày" in col.lower()]
        if possible_date:
            date_col = possible_date[0]
        else:
            raise ValueError(f"Không tìm thấy cột ngày trong DataFrame {source_label}")

    # Làm sạch
    df['title'] = df[title_col].apply(clean_text)
    df['content'] = df[content_col].apply(clean_text)
    df['text'] = df['title'] + ". " + df['content']

    # Parse ngày: mặc định mm/dd/yyyy → dayfirst=False
    df['date'] = pd.to_datetime(df[date_col], errors='coerce', dayfirst=False)

    df['source'] = source_label
    df['record_date'] = df['date']

    ticker_col = 'ticker' if 'ticker' in df.columns else None

    # Nếu có ticker thì dùng, không thì trích
    if ticker_col:
        df['ticker'] = df[ticker_col]
    else:
        df['ticker'] = df['text'].apply(extract_ticker)

    return df[['record_date', 'date', 'ticker', 'text', 'source']]

def process_divided(df, source_label):

    # Đầu tiên, chuẩn hóa tên cột về dạng dễ xử lý nếu cần
    df.columns = df.columns.str.strip().str.lower()

    # Đổi tên cho dễ code
    rename_mapping = {
        'exchange': 'exchange',
        'ex-dividend date': 'ex_dividend_date',
        'record date': 'record_date',
        'execution date': 'execution_date',
        'event content': 'event_content',
        'event type': 'event_type'
    }
    df = df.rename(columns=rename_mapping)

    # Tạo cột mới gộp thông tin
    def combine_event_info(row):
        parts = []
        parts.append(f"Sàn giao dịch: {row['exchange'] if pd.notna(row['exchange']) and row['exchange'] else 'UNKNOWN'}.")
        parts.append(f"Ngày giao dịch không hưởng quyền: {row['ex_dividend_date'] if pd.notna(row['ex_dividend_date']) and row['ex_dividend_date'] else 'UNKNOWN'}.")
        parts.append(f"Ngày chốt danh sách: {row['record_date'] if pd.notna(row['record_date']) and row['record_date'] else 'UNKNOWN'}.")
        parts.append(f"Ngày thực hiện: {row['execution_date'] if pd.notna(row['execution_date']) and row['execution_date'] else 'UNKNOWN'}.")
        parts.append(f"Nội dung sự kiện: {row['event_content'] if pd.notna(row['event_content']) and row['event_content'] else 'UNKNOWN'}.")
        parts.append(f"Loại sự kiện: {row['event_type'] if pd.notna(row['event_type']) and row['event_type'] else 'UNKNOWN'}.")
        return " ".join(parts)

    df['text'] = df.apply(combine_event_info, axis=1)
    df['date'] = pd.to_datetime(df['execution_date'], errors='coerce', dayfirst=True)
    df['record_date'] = pd.to_datetime(df['record_date'], errors='coerce', dayfirst=True)

    df['source'] = source_label
    df['ticker'] = df['stockid'] if 'stockid' in df.columns else 'UNKNOWN'
    # df[['record_date', 'date', 'ticker', 'text', 'source']]

    return df[['record_date', 'date', 'ticker', 'text', 'source']]

def process_shareholder(df, source_label):

    # Đầu tiên, chuẩn hóa tên cột về dạng dễ xử lý nếu cần
    df.columns = df.columns.str.strip().str.lower()

    # Đổi tên cho dễ code
    rename_mapping = {
        'exchange': 'exchange',
        'ex-rights date': 'ex_rights_date',
        'record date': 'record_date',
        'execution date': 'execution_date',
        'event type': 'event_type'
    }
    df = df.rename(columns=rename_mapping)

    # Tạo cột mới gộp thông tin
    def combine_event_info(row):
        parts = []
        parts.append(f"Sàn giao dịch: {row['exchange'] if pd.notna(row['exchange']) and row['exchange'] else 'UNKNOWN'}.")
        parts.append(f"Ngày giao dịch không hưởng quyền: {row['ex_rights_date'] if pd.notna(row['ex_rights_date']) and row['ex_rights_date'] else 'UNKNOWN'}.")
        parts.append(f"Ngày chốt danh sách: {row['record_date'] if pd.notna(row['record_date']) and row['record_date'] else 'UNKNOWN'}.")
        parts.append(f"Ngày thực hiện: {row['execution_date'] if pd.notna(row['execution_date']) and row['execution_date'] else 'UNKNOWN'}.")
        parts.append(f"Loại sự kiện: {row['event_type'] if pd.notna(row['event_type']) and row['event_type'] else 'UNKNOWN'}.")
        return " ".join(parts)


    df['text'] = df.apply(combine_event_info, axis=1)
    df['date'] = pd.to_datetime(df['execution_date'], errors='coerce', dayfirst=True)
    df['record_date'] = pd.to_datetime(df['record_date'], errors='coerce', dayfirst=True)
    df['source'] = source_label
    df['ticker'] = df['stockid'] if 'stockid' in df.columns else 'UNKNOWN'

    return df[['record_date', 'date', 'ticker', 'text', 'source']]


def process_internal(df, source_label):
    # Chuẩn hóa tên cột
    df.columns = df.columns.str.strip().str.lower()

    # Các cột bạn muốn gộp
    columns_to_combine = [
        'transaction type', 'executor name', 'executor position', 'related person name',
        'related person position', 'relation', 'before transaction volume', 'before transaction percentage',
        'registered transaction volume', 'registered from date', 'registered to date',
        'executed transaction volume', 'executed from date', 'executed to date',
        'after transaction volume', 'after transaction percentage'
    ]

    for col in columns_to_combine:
        if col in df.columns:
            df[col] = df[col].apply(clean_text)

    # Hàm gộp thành text
    def combine_fields(row):
        parts = []
        parts.append(f"Loại giao dịch: {row['transaction type'] if pd.notna(row['transaction type']) and row['transaction type'] else 'UNKNOWN'}.")
        parts.append(f"Người thực hiện: {row['executor name'] if pd.notna(row['executor name']) and row['executor name'] else 'UNKNOWN'}.")
        parts.append(f"Chức vụ người thực hiện: {row['executor position'] if pd.notna(row['executor position']) and row['executor position'] else 'UNKNOWN'}.")
        parts.append(f"Người liên quan: {row['related person name'] if pd.notna(row['related person name']) and row['related person name'] else 'UNKNOWN'}.")
        parts.append(f"Chức vụ người liên quan: {row['related person position'] if pd.notna(row['related person position']) and row['related person position'] else 'UNKNOWN'}.")
        parts.append(f"Quan hệ: {row['relation'] if pd.notna(row['relation']) and row['relation'] else 'UNKNOWN'}.")
        parts.append(f"Số lượng trước giao dịch: {row['before transaction volume'] if pd.notna(row['before transaction volume']) and row['before transaction volume'] else 'UNKNOWN'}.")
        parts.append(f"Tỷ lệ trước giao dịch: {row['before transaction percentage'] if pd.notna(row['before transaction percentage']) and row['before transaction percentage'] else 'UNKNOWN'}%.")
        parts.append(f"Số lượng đăng ký: {row['registered transaction volume'] if pd.notna(row['registered transaction volume']) and row['registered transaction volume'] else 'UNKNOWN'}.")
        parts.append(f"Ngày bắt đầu đăng ký: {row['registered from date'] if pd.notna(row['registered from date']) and row['registered from date'] else 'UNKNOWN'}.")
        parts.append(f"Ngày kết thúc đăng ký: {row['registered to date'] if pd.notna(row['registered to date']) and row['registered to date'] else 'UNKNOWN'}.")
        parts.append(f"Số lượng thực tế giao dịch: {row['executed transaction volume'] if pd.notna(row['executed transaction volume']) and row['executed transaction volume'] else 'UNKNOWN'}.")
        parts.append(f"Ngày bắt đầu thực hiện: {row['executed from date'] if pd.notna(row['executed from date']) and row['executed from date'] else 'UNKNOWN'}.")
        parts.append(f"Ngày kết thúc thực hiện: {row['executed to date'] if pd.notna(row['executed to date']) and row['executed to date'] else 'UNKNOWN'}.")
        parts.append(f"Số lượng sau giao dịch: {row['after transaction volume'] if pd.notna(row['after transaction volume']) and row['after transaction volume'] else 'UNKNOWN'}.")
        parts.append(f"Tỷ lệ sau giao dịch: {row['after transaction percentage'] if pd.notna(row['after transaction percentage']) and row['after transaction percentage'] else 'UNKNOWN'}%.")
        return " ".join(parts)


    # Tạo cột text
    df['text'] = df.apply(combine_fields, axis=1)
    df['date'] = pd.to_datetime(df['executed to date'], errors='coerce', dayfirst=True)
    df['record_date'] = pd.to_datetime(df['executed from date'], errors='coerce', dayfirst=True)
    df['source'] = source_label
    df['ticker'] = df['stockid'] if 'stockid' in df.columns else 'UNKNOWN'

    return df[['record_date', 'date', 'ticker', 'text', 'source']]



#Đọc file từ các nguồn
df_cafef = pd.read_excel("/kaggle/input/barefoots/CafeF_News_FPT_CM1.xlsx")
df_dividend = pd.read_excel("/kaggle/input/barefoots/32news_dividend_issue FPT_CMG_processed.xlsx")
df_shareholder = pd.read_excel("/kaggle/input/barefoots/33news_shareholder_meetingFPT_CMG_processed.xlsx")
df_internal = pd.read_csv("/kaggle/input/barefoots/34news_internal_transactionsFPT_CMG_processed.csv")

#Tiền xử lý từng DataFrame
df_cafef_clean = preprocess_news(df_cafef, "cafef").fillna("UNKNOWN")
df_dividend_clean = process_divided(df_dividend, "dividend").fillna("UNKNOWN")
df_shareholder_clean = process_shareholder(df_shareholder, "shareholder").fillna("UNKNOWN")
df_internal_clean = process_internal(df_internal, "internal").fillna("UNKNOWN")

# Gộp
df_all_news = pd.concat([
    df_cafef_clean, df_dividend_clean, df_shareholder_clean, df_internal_clean
], ignore_index=True)


#Hợp nhất tất cả dữ liệu tin tức
df_all_news = pd.concat([
    df_cafef_clean, df_dividend_clean, df_shareholder_clean, df_internal_clean
], ignore_index=True)

print(df_all_news)

2025-05-09 03:18:20.213958: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1746760700.398551      31 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1746760700.449151      31 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


             record_date                 date ticker  \
0    2025-03-12 00:00:00  2025-03-12 00:00:00    FPT   
1    2025-03-11 00:00:00  2025-03-11 00:00:00    FPT   
2    2025-03-11 00:00:00  2025-03-11 00:00:00    FPT   
3    2025-03-11 00:00:00  2025-03-11 00:00:00    FPT   
4    2025-03-11 00:00:00  2025-03-11 00:00:00    FPT   
..                   ...                  ...    ...   
982  2023-05-22 00:00:00  2023-06-20 00:00:00    CMG   
983  2023-04-26 00:00:00  2023-05-25 00:00:00    CMG   
984  2023-03-23 00:00:00  2023-04-21 00:00:00    CMG   
985  2023-03-15 00:00:00  2023-04-13 00:00:00    CMG   
986  2023-03-14 00:00:00  2023-03-14 00:00:00    CMG   

                                                  text    source  
0    Phiên 12/3: Khối ngoại bán chiến biến hơn 900 ...     cafef  
1    Chứng minh ngày mai (12-3): VN-Index tiếp tục ...     cafef  
2    FPT "Bắt tay" Tỉnh Bắc Giang phát triển toàn d...     cafef  
3    CTCK tự doanh không mong đợi trở lại "gom" một...     

# Chunking

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
import pandas as pd

# Thiết lập bộ chunking
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n", "\n", ".", " ", ""],
)

# Áp dụng chunking vào từng dòng trong df_all_news
chunks = []

for idx, row in df_all_news.iterrows():
    split_texts = text_splitter.split_text(row['text'])
    for chunk_text in split_texts:
        chunks.append({
            "text": chunk_text + " .Ngày: " + str(row['date']) + " .Công ty:" + str(row['ticker']),
            "ticker": row['ticker'],
            "record_date": row['record_date'],
            "date": row['date'],
            "source": row['source']
        })

df_chunks = pd.DataFrame(chunks)

# Kết quả
print(f"Số lượng chunk tạo ra: {len(df_chunks)}")
print(df_chunks.head())
df_chunks = df_chunks[df_chunks['text'].notna() & df_chunks['text'].str.strip().ne("")]

Số lượng chunk tạo ra: 4272
                                                text ticker  \
0  Phiên 12/3: Khối ngoại bán chiến biến hơn 900 ...    FPT   
1  . Hoạt động giao dịch của khối ngoại: Khối ngo...    FPT   
2  . Tổng quan HNX và UPCOM: Trên HNX, khối ngoại...    FPT   
3  . Nhìn chung, trong khi VN-Index cho thấy khả ...    FPT   
4  Chứng minh ngày mai (12-3): VN-Index tiếp tục ...    FPT   

           record_date                 date source  
0  2025-03-12 00:00:00  2025-03-12 00:00:00  cafef  
1  2025-03-12 00:00:00  2025-03-12 00:00:00  cafef  
2  2025-03-12 00:00:00  2025-03-12 00:00:00  cafef  
3  2025-03-12 00:00:00  2025-03-12 00:00:00  cafef  
4  2025-03-11 00:00:00  2025-03-11 00:00:00  cafef  


# embedding

In [None]:
# login vào huggingface
from huggingface_hub import login
login(token='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')

In [None]:
from transformers import AutoTokenizer, AutoModel
import torch
import numpy as np
from tqdm import tqdm

# Tải mô hình PhoBERT
embedding_tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base")
embedding_model = AutoModel.from_pretrained("vinai/phobert-base")
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
embedding_model = embedding_model.to(device)

# Hàm mean pooling
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]  # (batch_size, seq_len, hidden_size)
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)
    sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)
    return sum_embeddings / sum_mask

# Hàm encode toàn bộ df_chunks['text']
def encode_phobert(texts):
    embeddings = []
    for text in tqdm(texts, desc="Encoding with PhoBERT"):
        encoded_input = embedding_tokenizer(text, padding=True, truncation=True, return_tensors='pt', max_length=512)
        # Move encoded_input to the same device as the model
        encoded_input = encoded_input.to(device) # This line has been added to move the input to the GPU
        with torch.no_grad():
            model_output = embedding_model(**encoded_input)
        sentence_embedding = mean_pooling(model_output, encoded_input['attention_mask'])
        embeddings.append(sentence_embedding.squeeze(0).cpu().numpy())
    return np.vstack(embeddings)

# Dùng để embedding
texts = df_chunks['text'].tolist()
embeddings = encode_phobert(texts)

print("Embedding shape:", embeddings.shape)

config.json:   0%|          | 0.00/557 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/895k [00:00<?, ?B/s]

bpe.codes:   0%|          | 0.00/1.14M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/3.13M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/543M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/543M [00:00<?, ?B/s]


Encoding with PhoBERT:   0%|          | 0/4272 [00:00<?, ?it/s][A
Encoding with PhoBERT:   0%|          | 1/4272 [00:00<27:06,  2.63it/s][A
Encoding with PhoBERT:   0%|          | 8/4272 [00:00<03:27, 20.50it/s][A
Encoding with PhoBERT:   0%|          | 13/4272 [00:00<02:28, 28.60it/s][A
Encoding with PhoBERT:   0%|          | 20/4272 [00:00<01:49, 38.89it/s][A
Encoding with PhoBERT:   1%|          | 28/4272 [00:00<01:26, 48.87it/s][A
Encoding with PhoBERT:   1%|          | 36/4272 [00:00<01:14, 56.92it/s][A
Encoding with PhoBERT:   1%|          | 45/4272 [00:01<01:06, 64.00it/s][A
Encoding with PhoBERT:   1%|▏         | 54/4272 [00:01<00:59, 70.62it/s][A
Encoding with PhoBERT:   1%|▏         | 62/4272 [00:01<01:07, 62.42it/s][A
Encoding with PhoBERT:   2%|▏         | 69/4272 [00:01<01:06, 63.27it/s][A
Encoding with PhoBERT:   2%|▏         | 78/4272 [00:01<01:01, 68.32it/s][A
Encoding with PhoBERT:   2%|▏         | 87/4272 [00:01<00:57, 72.24it/s][A
Encoding with PhoBERT:

Embedding shape: (4272, 768)





# Lưu trữ vào FAISS

In [None]:
import faiss
import numpy as np
from transformers import AutoModelForCausalLM, AutoTokenizer, AutoModel
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from datetime import datetime, timedelta
from tqdm import tqdm

# Normalize embedding trước khi add
faiss.normalize_L2(embeddings)

# Chuẩn bị dimension
dimension = embeddings.shape[1]

# Khởi tạo FAISS Index
index = faiss.IndexFlatIP(dimension)   # Dùng Inner Product thay vì L2 (vì đã normalize rồi)

# Add vào FAISS index
index.add(embeddings)

print("FAISS index có số vector:", index.ntotal)

# Gán mapping index vào df_chunks
df_chunks['embedding_index'] = list(range(len(df_chunks)))
faiss.write_index(index, "phobert_index.faiss")

# IF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df_chunks['text'])


FAISS index có số vector: 4272


# Metadata Filtering

In [None]:
def hybrid_search_with_metadata(query, top_k=10, alpha=0.5, ticker=None, source=None, date_range=None):
    """
    Kết hợp FAISS + TF-IDF search, sau đó lọc kết quả bằng metadata.
    """
    # Bước 1: Semantic + Lexical search (FAISS + TF-IDF)
    query_vec = encode_phobert(query)  # (1, dim)
    faiss.normalize_L2(query_vec)
    D, I = index.search(query_vec, top_k * 50)  # tìm nhiều hơn để lọc sau

    tfidf_query = vectorizer.transform([query])
    bm25_scores = cosine_similarity(tfidf_query, tfidf_matrix)[0]

    combined_scores = {}
    for i in I[0]:
        score_faiss = D[0][np.where(I[0] == i)[0][0]]
        score_tfidf = bm25_scores[i]
        combined_scores[i] = alpha * score_faiss + (1 - alpha) * score_tfidf

    sorted_candidates = sorted(combined_scores.items(), key=lambda x: x[1], reverse=True)

    # Bước 2: Metadata filtering
    filtered = []
    seen_indices = set()
    for i, _ in sorted_candidates:
        row = df_chunks.iloc[i]
        if ticker and row['ticker'].lower() != ticker.lower():
            continue
        if source and row['source'].lower() != source.lower():
            continue
        if date_range:
            rdate = pd.to_datetime(row["date"], errors="coerce")
            ldate = pd.to_datetime(row["record_date"], errors="coerce")
            if pd.isna(rdate) or (not pd.isna(ldate) and (date_range[0] > rdate or date_range[1] < ldate)):
                continue
        filtered.append(row)
        seen_indices.add(i)
        if len(filtered) >= top_k:
            break

    # Bước 3: Fallback nếu không đủ
    if len(filtered) < top_k:
        for i, _ in sorted_candidates:
            if i not in seen_indices:
                filtered.append(df_chunks.iloc[i])
                seen_indices.add(i)
            if len(filtered) >= top_k:
                break

    return filtered


# Metadata Extraction from query

In [None]:
def format_metadata_prompt_qwen_full(query):
    return f"""<|im_start|>system
Bạn là một hệ thống trích xuất metadata tài chính.
<|im_end|>
<|im_start|>user
Nhiệm vụ của bạn là đọc câu hỏi và xuất ra metadata ở dạng JSON với các trường sau:

- "ticker": mã cổ phiếu trong câu hỏi (ví dụ: FPT, CMG). Nếu không rõ thì null.
- "source": nguồn nếu có (ví dụ: cafef, internal, shareholder). Nếu không có, để null.
- "start_date": ngày bắt đầu truy vấn, định dạng YYYY-MM-DD
- "end_date": ngày kết thúc truy vấn, định dạng YYYY-MM-DD

QUY TẮC:
- Nếu câu hỏi đề cập đến "quý", hãy map sang mốc thời gian:
  - "quý 1 năm 2025" → "start_date": "2025-01-01", "end_date": "2025-03-31"
  - "quý 2 năm 2025" → "start_date": "2025-04-01", "end_date": "2025-06-30"
  - "quý 3 năm 2025" → "start_date": "2025-07-01", "end_date": "2025-09-30"
  - "quý 4 năm 2025" → "start_date": "2025-10-01", "end_date": "2025-12-31"
- Nếu câu hỏi chỉ đề cập đến "năm 2025" → start = "2025-01-01", end = "2025-12-31"
- Nếu nói "năm ngoái" → lấy năm hiện tại là 2024 → map thành 2023
- Nếu nói "gần đây", "mới đây", "thời gian gần đây" → chọn 3 tháng gần nhất tính từ hôm nay
- Nếu không có thông tin thời gian → start_date và end_date = null

Câu hỏi: "{query}"

Kết quả JSON:
<|im_end|>
<|im_start|>assistant
"""


In [None]:
def parse_llm_json(text):
    try:
        start = text.find("{")
        end = text.rfind("}") + 1
        return json.loads(text[start:end])
    except Exception as e:
        print("❌ Lỗi parse JSON:", e)
        return {
            "ticker": None,
            "start_date": None,
            "end_date": None,
            "source": None
        }


In [None]:
!pip install hf_xet

Collecting hf_xet
  Downloading hf_xet-1.1.0-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (494 bytes)
Downloading hf_xet-1.1.0-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (53.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.6/53.6 MB[0m [31m33.4 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[?25hInstalling collected packages: hf_xet
Successfully installed hf_xet-1.1.0
Note: you may need to restart the kernel to use updated packages.


In [None]:
%%capture
import os
if "COLAB_" not in "".join(os.environ.keys()):
    !pip install unsloth
else:
    # Do this only in Colab notebooks! Otherwise use pip install unsloth
    !pip install --no-deps bitsandbytes accelerate xformers==0.0.29.post3 peft trl==0.15.2 triton cut_cross_entropy unsloth_zoo
    !pip install sentencepiece protobuf datasets huggingface_hub hf_transfer
    !pip install --no-deps unsloth

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel, PeftConfig

# Đường dẫn tới model trên Hugging Face Hub
model_name = "KKcom0028/ragftqwen2"

# Load base model (Qwen2.5-7B-Instruct) từ Hugging Face
base_model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2.5-7B-Instruct",
    torch_dtype=torch.float16,
    device_map="auto"  # Sử dụng GPU nếu có
)

# Load model đã fine-tune với LoRA/QLoRA
model_llm = PeftModel.from_pretrained(
    base_model,
    model_name,
    adapter_name="default"
)

# Load tokenizer
tokenizer_llm = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")



# Hàm trích metadata
def extract_metadata_with_qwen(question):
    prompt = format_metadata_prompt_qwen_full(question)  # giữ nguyên nếu prompt dùng được với llama
    inputs = tokenizer_llm(prompt, return_tensors="pt", truncation=True, max_length=2048).to("cuda")

    with torch.no_grad():
        outputs = model_llm.generate(
            **inputs,
            max_new_tokens=100,
            use_cache=True
        )

    output_text = tokenizer_llm.decode(outputs[0], skip_special_tokens=True)
    return output_text


config.json:   0%|          | 0.00/663 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/27.8k [00:00<?, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model-00004-of-00004.safetensors:   0%|          | 0.00/3.56G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/3.95G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/243 [00:00<?, ?B/s]

adapter_config.json:   0%|          | 0.00/815 [00:00<?, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/162M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/7.30k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/2.78M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/1.67M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/7.03M [00:00<?, ?B/s]

In [None]:
def search_with_qwen_metadata(query, top_k=10):
    metadata_raw = extract_metadata_with_qwen(query)
    metadata = parse_llm_json(metadata_raw)

    ticker = metadata.get("ticker") or None
    source = metadata.get("source") or None

    date_range = None

    if metadata.get("start_date") and metadata.get("end_date"):
        date_range = (
            pd.to_datetime(metadata["start_date"]),
            pd.to_datetime(metadata["end_date"])
        )
    return hybrid_search_with_metadata(query, top_k=top_k, ticker=ticker, source=source, date_range=date_range)


# Query Transformation

In [None]:
# prompt: lấy kết quả từ truy vấn retrieve và chuyển chúng thành một chuỗi văn bản có thể hiển thị

def retrieve_and_format(query, top_k=10):
    results = search_with_qwen_metadata(query, top_k)
    formatted_results = ""
    for i, result in enumerate(results):
        formatted_results += f"Thông tin {i+1}:\n{result}\n"
    return formatted_results

In [None]:
query = "Lợi nhuận FPT có tăng vào quý 1 năm 2025 không?"
source_information = retrieve_and_format(query, 10)
print("Phản hồi từ hệ thống RAG:")
print(source_information)

Encoding with PhoBERT: 100%|██████████| 43/43 [00:00<00:00, 131.40it/s]

Phản hồi từ hệ thống RAG:
Thông tin 1:
text               Loại giao dịch: GD CĐ lớn. Người thực hiện: Ge...
ticker                                                           CMG
record_date                                      2024-03-26 00:00:00
date                                             2024-03-26 00:00:00
source                                                      internal
embedding_index                                                 4239
Name: 4239, dtype: object
Thông tin 2:
text               Loại giao dịch: GD CĐ lớn. Người thực hiện: Ge...
ticker                                                           CMG
record_date                                      2024-03-05 00:00:00
date                                             2024-03-05 00:00:00
source                                                      internal
embedding_index                                                 4240
Name: 4240, dtype: object
Thông tin 3:
text                                 .
ticker          




# Triển khai

In [None]:
!pip install transformers

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Note: you may need to restart the kernel to use updated packages.


In [None]:
!pip install tiktoken

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




In [None]:
!pip install transformers_stream_generator

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Collecting transformers_stream_generator
  Downloading transformers-stream-generator-0.0.5.tar.gz (13 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: transformers_stream_generator
  Building wheel for transformers_stream_generator (setup.py) ... [?25l[?25hdone
  Created wheel for transformers_stream_generator: filename=transformers_stream_generator-0.0.5-py3-none-any.whl size=12425 sha256=77f3f81aa28504d917c81cc5ca80fdf502564b1cbe7cc908b1d6e431925a54dd
  Stored in directory: /root/.cache/pip/wheels/23/e8/f0/b3c58c12d1ffe60bcc8c7d121115f26b2c1878653edfca48db
Successfully built transformers_stream_generator
Installing collected packages: transformers_stream_generator
Successfully installed transformers_stream_generator-0.0.5


In [None]:
import torch

def format_prompt(query, context):
    prompt = f"""<|im_start|>system
Bạn là chuyên gia phân tích tài chính. Hãy trả lời câu hỏi và bạn có thể dựa trên thông tin sau hoặc không nếu không cần:
<|im_end|>
<|im_start|>user
Câu hỏi: {query.strip()}

Thông tin tham khảo:
{context.strip()}

Yêu cầu:
- Chỉ sử dụng thông tin tham khảo, không đề cập nó trong câu trả lời của bạn
- Trả lời tự nhiên, có logic
- Nếu không có thông tin, hãy tự trả lời theo cách của bạn
- Nếu không đủ thông tin để kết luận, hãy nói rõ
<|im_end|>
<|im_start|>assistant
"""
    return prompt

def generate_response_from_qwen(query, context_chunks, max_new_tokens=512):
    # Prepare the prompt
    prompt = format_prompt(query, context_chunks)
    inputs = tokenizer_llm(prompt, return_tensors="pt", truncation=True, max_length=2048).to("cuda")

    # Generating response with optimized settings for Qwen
    with torch.inference_mode():
        outputs = model_llm.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            temperature=0.7,
            do_sample=False,
        )

    # Decoding and post-processing the response
    response = tokenizer_llm.decode(outputs[0], skip_special_tokens=True)

    # Cleaning up the response using a more robust method
    response_cleaned = clean_qwen_response(response)

    return response_cleaned.strip()

def clean_qwen_response(response):
    """
    Clean the response generated by the Qwen model to ensure it only returns the assistant's answer.
    """
    # Split by the assistant's section start marker
    if "<|im_start|>assistant" in response:
        response = response.split("<|im_start|>assistant")[-1]

    # Remove any remaining Qwen special tokens
    response = response.replace("<|im_end|>", "").replace("<|im_start|>", "")

    # Remove any leading or trailing whitespace
    return response.strip()


In [None]:
context_chunks = format_prompt(query, source_information)
answer = generate_response_from_qwen(query, context_chunks, 512)
print("🧠 Câu trả lời từ Qwen:")
print(answer)


🧠 Câu trả lời từ Qwen:
system
Bạn là chuyên gia phân tích tài chính. Hãy trả lời câu hỏi và bạn có thể dựa trên thông tin sau hoặc không nếu không cần:

user
Câu hỏi: Lợi nhuận quý I/2024 của CMG có tăng không?

Thông tin tham khảo:
system
Bạn là chuyên gia phân tích tài chính. Hãy trả lời câu hỏi và bạn có thể dựa trên thông tin sau hoặc không nếu không cần:

user
Câu hỏi: Lợi nhuận quý I/2024 của CMG có tăng không?

Thông tin tham khảo:
Thông tin 1:
text               Loại giao dịch: GD CĐ lớn. Người thực hiện: Ge...
ticker                                                           CMG
record_date                                      2024-03-26 00:00:00
date                                             2024-03-26 00:00:00
source                                                      internal
embedding_index                                                 4239
Name: 4239, dtype: object
Thông tin 2:
text               Loại giao dịch: GD CĐ lớn. Người thực hiện: Ge...
ticker                

# Fine-tune RAG model

## **1. Chuẩn bị dữ liệu train**

In [None]:
!pip install openai

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Note: you may need to restart the kernel to use updated packages.


In [None]:
import openai

# Đảm bảo bạn đã thiết lập API Key của OpenAI trong biến môi trường
openai.api_key = "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"

def generate_instruction(text):
    """
    Gọi API OpenAI để tạo câu hỏi đọc hiểu dựa trên đoạn văn đầu vào.
    """
    # Định dạng prompt cho API OpenAI
    prompt = f"""Bạn là một chuyên gia tạo câu hỏi đọc hiểu.
Tạo một câu hỏi ngắn, rõ ràng để kiểm tra khả năng hiểu đoạn văn sau:
{text}

Câu hỏi là gì?"""

    try:
        # Gọi API OpenAI với mô hình GPT-4 (có thể thay đổi thành mô hình khác)
        response = openai.chat.completions.create(
            model="gpt-4",   # Thay đổi mô hình nếu bạn muốn (vd: gpt-3.5-turbo)
            messages=[
                {"role": "system", "content": "Bạn là một chuyên gia tạo câu hỏi đọc hiểu."},
                {"role": "user", "content": prompt}
            ],
            max_tokens=64,
            temperature=0.7,
            n=1,
            stop=None
        )

        # Lấy câu trả lời từ API
        question = response.choices[0].message.content
        return question

    except openai.error.OpenAIError as e:
        print(f"Đã xảy ra lỗi khi gọi API OpenAI: {str(e)}")
        return "Lỗi khi gọi API OpenAI."


In [None]:
train_data = []

for _, row in df_chunks.iterrows():
    context = row['text']
    question = generate_instruction(context)

    sample = {
        "instruction": question,
        "input": "",
        "output": context  # hoặc bạn sinh câu trả lời nếu muốn huấn luyện trả lời ngắn gọn
    }
    train_data.append(sample)
    print(sample)

AttributeError: module 'openai' has no attribute 'error'

In [None]:
print(train_data)

In [None]:
import json

with open("/kaggle/working/finetune_dataset.json", "w", encoding="utf-8") as f:
    for example in train_data:
        f.write(json.dumps(example, ensure_ascii=False) + "\n")


In [None]:
!pip install transformers peft accelerate bitsandbytes torch datasets

## Train


In [None]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

# 4bit pre quantized models we support for 4x faster downloading + no OOMs.
fourbit_models = [
    "unsloth/Meta-Llama-3.1-8B-bnb-4bit",      # Llama-3.1 15 trillion tokens model 2x faster!
    "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit",
    "unsloth/Meta-Llama-3.1-70B-bnb-4bit",
    "unsloth/Meta-Llama-3.1-405B-bnb-4bit",    # We also uploaded 4bit for 405b!
    "unsloth/Mistral-Nemo-Base-2407-bnb-4bit", # New Mistral 12b 2x faster!
    "unsloth/Mistral-Nemo-Instruct-2407-bnb-4bit",
    "unsloth/mistral-7b-v0.3-bnb-4bit",        # Mistral v3 2x faster!
    "unsloth/mistral-7b-instruct-v0.3-bnb-4bit",
    "unsloth/Phi-3.5-mini-instruct",           # Phi-3.5 2x faster!
    "unsloth/Phi-3-medium-4k-instruct",
    "unsloth/gemma-2-9b-bnb-4bit",
    "unsloth/gemma-2-27b-bnb-4bit",            # Gemma 2x faster!
] # More models at https://huggingface.co/unsloth

model, tokenizer = FastLanguageModel.from_pretrained(
    # Can select any from the below:
    # "unsloth/Qwen2.5-0.5B", "unsloth/Qwen2.5-1.5B", "unsloth/Qwen2.5-3B"
    # "unsloth/Qwen2.5-14B",  "unsloth/Qwen2.5-32B",  "unsloth/Qwen2.5-72B",
    # And also all Instruct versions and Math. Coding verisons!
    model_name = "unsloth/Qwen2.5-7B-Instruct",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    # token = "hf_...", # use one if using gated models like meta-llama/Llama-2-7b-hf
)

In [None]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

In [None]:
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""
from datasets import Dataset
import json

EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input, output in zip(instructions, inputs, outputs):
        # Must add EOS_TOKEN, otherwise your generation will go on forever!
        text = alpaca_prompt.format(instruction, input, output) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }
pass

# from datasets import load_dataset
# dataset = load_dataset("yahma/alpaca-cleaned", split = "train")
jsonl_file_path = '/kaggle/input/finetunerag/finetune_dataset.json'
with open(jsonl_file_path, "r", encoding="utf-8") as file:
    data = [json.loads(line) for line in file]

dataset = Dataset.from_list(data)
dataset = dataset.map(formatting_prompts_func, batched = True,)

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # Can make training 5x faster for short sequences.
    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        # num_train_epochs = 1, # Set this for 1 full training run.
        max_steps = 100,
        learning_rate = 2e-4,
        fp16 = not is_bfloat16_supported(),
        bf16 = is_bfloat16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
        report_to = "none", # Use this for WandB etc
    ),
)

In [None]:
# @title Show current memory stats
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

In [None]:
trainer_stats = trainer.train()

# Evaluation (Đánh giá mô hình)

In [None]:

# Đường dẫn tới tập dữ liệu đánh giá (JSONL)
jsonl_file_path = '/kaggle/input/finetunerag/finetune_dataset.json'
with open(jsonl_file_path, "r", encoding="utf-8") as file:
    data = [json.loads(line) for line in file]

# Khởi tạo danh sách đánh giá
prompts = [entry['instruction'] for entry in data]
expected_answers = [entry['output'] for entry in data]

# Khởi tạo metric BLEU và ROUGE
bleu_metric = load_metric("sacrebleu")
rouge_metric = load_metric("rouge")

# Hàm sinh văn bản từ mô hình
def generate_response(prompt, max_tokens=100):
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    with torch.cuda.amp.autocast():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_tokens,
            do_sample=False,
            num_beams=1,
            use_cache=True
        )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# Đánh giá mô hình
predictions = []
start_time = time.time()

print("\n🔍 Đang đánh giá mô hình...")
for prompt, expected in zip(prompts, expected_answers):
    generated_answer = generate_response(prompt)
    predictions.append(generated_answer)
    print(f"\nPrompt: {prompt}")
    print(f"Expected Answer: {expected}")
    print(f"Generated Answer: {generated_answer}")

# Đo thời gian inference trung bình
end_time = time.time()
average_time = (end_time - start_time) / len(prompts)
print(f"\n Thời gian trung bình để sinh văn bản: {average_time:.4f} giây")

# Đánh giá BLEU và ROUGE
bleu_score = bleu_metric.compute(predictions=predictions, references=[[ref] for ref in expected_answers])
rouge_score = rouge_metric.compute(predictions=predictions, references=expected_answers, rouge_types=["rouge2"])["rouge2"]

# Đánh giá độ chính xác (Exact Match Accuracy)
accuracy = sum([1 if pred.strip().lower() == ref.strip().lower() else 0 for pred, ref in zip(predictions, expected_answers)]) / len(prompts)

# In kết quả đánh giá
print("\n Kết Quả Đánh Giá:")
print(f"BLEU Score: {bleu_score['score']:.2f}")
print(f"ROUGE-2 Score: {rouge_score['fmeasure']:.2f}")
print(f"Accuracy (Exact Match): {accuracy * 100:.2f}%")
print(f"Average Inference Time: {average_time:.4f} seconds")

# Lưu kết quả đánh giá vào file
evaluation_results = {
    "BLEU Score": bleu_score['score'],
    "ROUGE-2 Score": rouge_score['fmeasure'],
    "Accuracy": accuracy,
    "Average Inference Time": average_time
}

with open("evaluation_results.json", "w") as f:
    json.dump(evaluation_results, f, indent=4)

print("\n Đánh giá hoàn tất. Kết quả đã được lưu trong file 'evaluation_results.json'.")

## Lưu model

In [None]:
model.save_pretrained("/kaggle/working/ragftqwen2")  # Local saving
tokenizer.save_pretrained("/kaggle/working/ragftqwen2")

In [None]:
login vào huggingface
from huggingface_hub import login
login(token='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')

In [None]:
from huggingface_hub import HfApi

api = HfApi()
repo_id = "KKcom0028/ragftqwen2"  # Thay bằng username và tên repo bạn muốn

api.create_repo(
    repo_id=repo_id,
    repo_type="model",
    private=False,  # Đặt thành True nếu bạn muốn repo riêng tư
    exist_ok=True   # Không báo lỗi nếu repo đã tồn tại
)

In [None]:
from huggingface_hub import HfApi

api = HfApi()

api.upload_folder(
    folder_path="/kaggle/working/ragftqwen2",
    repo_id="KKcom0028/ragftqwen2",
    commit_message="Push fine-tuned model from Kaggle",
    token=True
)