In [1]:
# Parameters
test = True


In [2]:
# # Param
# test = "True"

In [3]:
is_test = True
if test == "False" or test == False:
    is_test = False

In [4]:
import os
print(os.getcwd())

/Users/dauduchieu/Documents/iSE2025/CBM


In [5]:
is_test = True

In [6]:
# Param
dataset = 'data'

In [7]:
from utils.data_loader import DataLoader

In [8]:
data_loader = DataLoader(dataset)

In [9]:
train_df = data_loader.get_data_train()

In [10]:
data_desc = data_loader.get_data_desc()
label_column = data_desc['label_column']
text_column = data_desc['text_column']

In [11]:
keyword_concepts = data_loader.get_keyword_concepts()
abstract_concepts = data_loader.get_abstract_concepts()

In [12]:
if is_test:
    train_df = train_df.groupby(label_column).sample(50)

In [13]:
from abc import ABC, abstractmethod
class LLMCaller(ABC):
    @abstractmethod
    def structed_output(self, prompt:str, output_struct):
        pass

from time import time, sleep
from typing import List, Callable, TypeVar

T = TypeVar('T')

class GeminiRateLimiter:
    def __init__(self, requests_per_minute: int = 15):
        self.rpm = requests_per_minute
        self.times: List[float] = []

    def wait(self):
        now = time()
        self.times = [t for t in self.times if now - t <= 60]
        if len(self.times) >= self.rpm:
            sleep(60 - (now - self.times[0]))
            now = time()
            self.times = [t for t in self.times if now - t <= 60]

    def record(self):
        self.times.append(time())

    def execute(self, f: Callable[..., T], *args, **kwargs) -> T:
        self.wait()
        try:
            r = f(*args, **kwargs)
            self.record()
            return r
        except:
            self.record()
            raise

    def __call__(self, f: Callable[..., T]) -> Callable[..., T]:
        def wrapper(*args, **kwargs):
            return self.execute(f, *args, **kwargs)
        return wrapper

    def __enter__(self):
        self.wait()
        return self

    def __exit__(self, *args):
        self.record()

from google import genai

class GeminiAPICaller(LLMCaller):
    def __init__(self, api_key:str, api_model:str, api_rpm:int):
        self.client = genai.Client(api_key=api_key)
        self.api_model = api_model
        self.rate_limiter = GeminiRateLimiter(requests_per_minute=api_rpm)

    def structed_output(self, prompt:str, output_struct):
        with self.rate_limiter:
            response = self.client.models.generate_content(
                model=self.api_model,
                contents=prompt,
                config={
                    'response_mime_type': 'application/json',
                    'response_schema': output_struct,
                },
            )

        res = response.parsed
        return res
    
llm_api_config = data_loader.get_llm_config()

llm_caller = GeminiAPICaller(
    api_key=llm_api_config['api_key'],
    api_model=llm_api_config['model'],
    api_rpm=llm_api_config['rate_per_minute']
)

In [14]:
import pandas as pd
import spacy
from tqdm import tqdm

In [15]:
nlp = spacy.load("en_core_web_sm")

In [16]:
tqdm.pandas(desc="Lemmatizing")
def lemmatize_text(text):
    doc = nlp(text)
    return ' '.join([token.lemma_ for token in doc])
train_df['text_lemma'] = train_df[text_column].progress_apply(lemmatize_text)

Lemmatizing:   0%|                                                                                                                                                    | 0/250 [00:00<?, ?it/s]

Lemmatizing:   2%|██▊                                                                                                                                         | 5/250 [00:00<00:06, 36.38it/s]

Lemmatizing:   4%|█████                                                                                                                                       | 9/250 [00:00<00:08, 29.09it/s]

Lemmatizing:   5%|██████▋                                                                                                                                    | 12/250 [00:00<00:08, 27.54it/s]

Lemmatizing:   6%|████████▉                                                                                                                                  | 16/250 [00:00<00:08, 26.96it/s]

Lemmatizing:   8%|██████████▌                                                                                                                                | 19/250 [00:00<00:08, 27.66it/s]

Lemmatizing:   9%|████████████▏                                                                                                                              | 22/250 [00:00<00:08, 27.93it/s]

Lemmatizing:  10%|█████████████▉                                                                                                                             | 25/250 [00:00<00:08, 27.57it/s]

Lemmatizing:  11%|███████████████▌                                                                                                                           | 28/250 [00:00<00:08, 27.57it/s]

Lemmatizing:  13%|█████████████████▊                                                                                                                         | 32/250 [00:01<00:07, 30.25it/s]

Lemmatizing:  15%|████████████████████▌                                                                                                                      | 37/250 [00:01<00:06, 32.99it/s]

Lemmatizing:  16%|██████████████████████▊                                                                                                                    | 41/250 [00:01<00:06, 32.10it/s]

Lemmatizing:  18%|█████████████████████████                                                                                                                  | 45/250 [00:01<00:06, 30.49it/s]

Lemmatizing:  20%|███████████████████████████▏                                                                                                               | 49/250 [00:01<00:07, 28.58it/s]

Lemmatizing:  21%|████████████████████████████▉                                                                                                              | 52/250 [00:01<00:07, 26.51it/s]

Lemmatizing:  22%|███████████████████████████████▏                                                                                                           | 56/250 [00:01<00:06, 27.97it/s]

Lemmatizing:  24%|█████████████████████████████████▎                                                                                                         | 60/250 [00:02<00:06, 27.44it/s]

Lemmatizing:  26%|███████████████████████████████████▌                                                                                                       | 64/250 [00:02<00:06, 29.40it/s]

Lemmatizing:  27%|█████████████████████████████████████▊                                                                                                     | 68/250 [00:02<00:06, 28.85it/s]

Lemmatizing:  29%|████████████████████████████████████████▌                                                                                                  | 73/250 [00:02<00:05, 32.99it/s]

Lemmatizing:  31%|██████████████████████████████████████████▊                                                                                                | 77/250 [00:02<00:05, 31.42it/s]

Lemmatizing:  33%|█████████████████████████████████████████████▌                                                                                             | 82/250 [00:02<00:04, 35.32it/s]

Lemmatizing:  34%|███████████████████████████████████████████████▊                                                                                           | 86/250 [00:02<00:04, 33.87it/s]

Lemmatizing:  36%|██████████████████████████████████████████████████                                                                                         | 90/250 [00:02<00:04, 32.38it/s]

Lemmatizing:  38%|████████████████████████████████████████████████████▎                                                                                      | 94/250 [00:03<00:04, 33.81it/s]

Lemmatizing:  39%|██████████████████████████████████████████████████████▍                                                                                    | 98/250 [00:03<00:04, 31.45it/s]

Lemmatizing:  41%|████████████████████████████████████████████████████████▎                                                                                 | 102/250 [00:03<00:04, 33.45it/s]

Lemmatizing:  42%|██████████████████████████████████████████████████████████▌                                                                               | 106/250 [00:03<00:04, 30.94it/s]

Lemmatizing:  44%|████████████████████████████████████████████████████████████▋                                                                             | 110/250 [00:03<00:04, 30.11it/s]

Lemmatizing:  46%|██████████████████████████████████████████████████████████████▉                                                                           | 114/250 [00:03<00:04, 31.01it/s]

Lemmatizing:  48%|█████████████████████████████████████████████████████████████████▋                                                                        | 119/250 [00:03<00:03, 35.32it/s]

Lemmatizing:  49%|███████████████████████████████████████████████████████████████████▉                                                                      | 123/250 [00:04<00:04, 30.84it/s]

Lemmatizing:  51%|██████████████████████████████████████████████████████████████████████                                                                    | 127/250 [00:04<00:03, 32.69it/s]

Lemmatizing:  52%|████████████████████████████████████████████████████████████████████████▎                                                                 | 131/250 [00:04<00:03, 34.28it/s]

Lemmatizing:  54%|███████████████████████████████████████████████████████████████████████████                                                               | 136/250 [00:04<00:03, 36.94it/s]

Lemmatizing:  56%|█████████████████████████████████████████████████████████████████████████████▎                                                            | 140/250 [00:04<00:03, 32.60it/s]

Lemmatizing:  58%|███████████████████████████████████████████████████████████████████████████████▍                                                          | 144/250 [00:04<00:03, 29.42it/s]

Lemmatizing:  59%|█████████████████████████████████████████████████████████████████████████████████▋                                                        | 148/250 [00:04<00:03, 30.80it/s]

Lemmatizing:  61%|███████████████████████████████████████████████████████████████████████████████████▉                                                      | 152/250 [00:04<00:03, 27.82it/s]

Lemmatizing:  62%|█████████████████████████████████████████████████████████████████████████████████████▌                                                    | 155/250 [00:05<00:03, 27.86it/s]

Lemmatizing:  64%|███████████████████████████████████████████████████████████████████████████████████████▊                                                  | 159/250 [00:05<00:02, 30.75it/s]

Lemmatizing:  65%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                | 163/250 [00:05<00:02, 32.80it/s]

Lemmatizing:  67%|████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 167/250 [00:05<00:02, 32.84it/s]

Lemmatizing:  68%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 171/250 [00:05<00:02, 32.37it/s]

Lemmatizing:  70%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 175/250 [00:05<00:02, 30.69it/s]

Lemmatizing:  72%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 179/250 [00:05<00:02, 31.38it/s]

Lemmatizing:  73%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 183/250 [00:05<00:02, 29.43it/s]

Lemmatizing:  75%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 187/250 [00:06<00:02, 31.18it/s]

Lemmatizing:  76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 191/250 [00:06<00:01, 31.16it/s]

Lemmatizing:  78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 195/250 [00:06<00:01, 32.36it/s]

Lemmatizing:  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 200/250 [00:06<00:01, 35.72it/s]

Lemmatizing:  82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 204/250 [00:06<00:01, 34.80it/s]

Lemmatizing:  83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 208/250 [00:06<00:01, 35.21it/s]

Lemmatizing:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 213/250 [00:06<00:00, 37.11it/s]

Lemmatizing:  87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 218/250 [00:06<00:00, 39.02it/s]

Lemmatizing:  89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 223/250 [00:06<00:00, 40.40it/s]

Lemmatizing:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 228/250 [00:07<00:00, 37.88it/s]

Lemmatizing:  93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 232/250 [00:07<00:00, 36.92it/s]

Lemmatizing:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 237/250 [00:07<00:00, 39.82it/s]

Lemmatizing:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 242/250 [00:07<00:00, 34.56it/s]

Lemmatizing:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 246/250 [00:07<00:00, 32.31it/s]

Lemmatizing: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 250/250 [00:07<00:00, 28.27it/s]

Lemmatizing: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 250/250 [00:07<00:00, 31.58it/s]




In [17]:
keywords = []
for k in keyword_concepts.keys():
    keywords += keyword_concepts[k]

print(keywords)

['hypertension', 'myocardial', 'infarction', 'ischemia', 'coronary', 'pancreatitis', 'ulcer', 'obstruction', 'biliary', 'bowel', 'deficiency', 'disorder', 'necrosis', 'oncogene', 'bone', 'tumor', 'carcinoma', 'adenocarcinoma', 'malignant', 'metastasis', 'neurologic', 'epilepsy', 'seizure', 'spinal', 'cord']


In [18]:
def llm_get_synonyms(data_topic, keyword, n_syn=10):
    prompt = f"""
You are an expert in the {data_topic} domain.

Please list {n_syn} synonyms or alternative expressions for the term: "{keyword}".

The synonyms should be relevant to the {data_topic} context. If the term has multiple meanings, only return synonyms that are appropriate within this context.

Only return a list of synonyms as an array of strings, no explanation.
"""

    output_struct = {
        "type": "array",
        "items": {
            "type": "string"
        }
    }

    synonyms = llm_caller.structed_output(
        prompt=prompt.strip(),
        output_struct=output_struct
    )

    synonyms = [lemmatize_text(t) for t in synonyms]

    return synonyms

In [19]:
print(llm_get_synonyms(
    data_topic=data_desc['data_topic'],
    keyword='hypertension',
    n_syn=5
))

['high blood pressure', 'elevated blood pressure', 'arterial hypertension', 'essential hypertension', 'secondary hypertension']


In [20]:
kw_synonym_dict = {}
for kw in tqdm(keywords, total=len(keywords), desc="Create synonym dict"):
    llm_syn = llm_get_synonyms(data_topic=data_desc['data_topic'], keyword=kw, n_syn=5)
    llm_syn = [lemmatize_text(s) for s in llm_syn]
    kw_synonym_dict.update({
        f"{kw}": [kw] + llm_syn
    })

print(kw_synonym_dict)

Create synonym dict:   0%|                                                                                                                                             | 0/25 [00:00<?, ?it/s]

Create synonym dict:   4%|█████▎                                                                                                                               | 1/25 [00:01<00:24,  1.04s/it]

Create synonym dict:   8%|██████████▋                                                                                                                          | 2/25 [00:01<00:20,  1.15it/s]

Create synonym dict:  12%|███████████████▉                                                                                                                     | 3/25 [00:02<00:19,  1.15it/s]

Create synonym dict:  16%|█████████████████████▎                                                                                                               | 4/25 [00:03<00:17,  1.22it/s]

Create synonym dict:  20%|██████████████████████████▌                                                                                                          | 5/25 [00:06<00:33,  1.67s/it]

Create synonym dict:  24%|███████████████████████████████▉                                                                                                     | 6/25 [00:07<00:24,  1.31s/it]

Create synonym dict:  28%|█████████████████████████████████████▏                                                                                               | 7/25 [00:08<00:22,  1.22s/it]

Create synonym dict:  32%|██████████████████████████████████████████▌                                                                                          | 8/25 [00:08<00:17,  1.06s/it]

Create synonym dict:  36%|███████████████████████████████████████████████▉                                                                                     | 9/25 [00:10<00:17,  1.07s/it]

Create synonym dict:  40%|████████████████████████████████████████████████████▊                                                                               | 10/25 [01:01<04:11, 16.75s/it]

Create synonym dict:  44%|██████████████████████████████████████████████████████████                                                                          | 11/25 [01:02<02:46, 11.88s/it]

Create synonym dict:  48%|███████████████████████████████████████████████████████████████▎                                                                    | 12/25 [01:03<01:49,  8.46s/it]

Create synonym dict:  52%|████████████████████████████████████████████████████████████████████▋                                                               | 13/25 [01:04<01:14,  6.18s/it]

Create synonym dict:  56%|█████████████████████████████████████████████████████████████████████████▉                                                          | 14/25 [01:04<00:49,  4.52s/it]

Create synonym dict:  60%|███████████████████████████████████████████████████████████████████████████████▏                                                    | 15/25 [01:07<00:38,  3.82s/it]

Create synonym dict:  64%|████████████████████████████████████████████████████████████████████████████████████▍                                               | 16/25 [01:08<00:26,  2.95s/it]

Create synonym dict:  68%|█████████████████████████████████████████████████████████████████████████████████████████▊                                          | 17/25 [01:08<00:18,  2.29s/it]

Create synonym dict:  72%|███████████████████████████████████████████████████████████████████████████████████████████████                                     | 18/25 [01:09<00:13,  1.93s/it]

Create synonym dict:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 19/25 [01:10<00:09,  1.53s/it]

Create synonym dict:  76%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 19/25 [01:31<00:29,  4.84s/it]




KeyboardInterrupt: 

In [None]:
texts = train_df['text_lemma']
print(len(texts))
print(keywords)
print(kw_synonym_dict)

In [None]:
def keyword_presence_matrix_from_df(df, keywords, kw_synonym_dict,
                                    text_col='text_column', lemma_col='text_lemma'):
    results = []

    for _, row in tqdm(df.iterrows(), total=len(df), desc="Keyword weak labeling"):
        original_text = row[text_col]
        lemmatized_text = row[lemma_col]

        for kw in keywords:
            syns = kw_synonym_dict.get(kw, [])
            all_terms = [kw] + syns
            score = int(any(term in lemmatized_text for term in all_terms))
            results.append((original_text, kw, score))

    return pd.DataFrame(results, columns=["text", "keyword", "score"])


In [None]:
kw_wl_df = keyword_presence_matrix_from_df(train_df, keywords, kw_synonym_dict, text_column)

In [None]:
kw_wl_df.sample(5)

In [None]:
kw_wl_df.value_counts('score')

In [None]:
print(abstract_concepts)

In [None]:
def aggregate_full_concept_matrix(wl_df, abstract_concepts):
    # Lọc score == 1 trong wl_df để dễ truy cập
    matched = wl_df[wl_df['score'] == 1]

    # Tạo set {(text, keyword)} đã match
    matched_pairs = set(zip(matched['text'], matched['keyword']))

    # Lấy danh sách unique texts
    texts = wl_df['text'].unique()

    # Kết quả
    results = []

    for text in tqdm(texts, total=len(texts), desc="Abstract concept weak labeling"):
        for concept in abstract_concepts:
            concept_name = concept['abstract_concept_name']
            concept_keywords = concept['keywords']

            # Nếu có ít nhất một keyword trong concept xuất hiện trong matched_pairs → score = 1
            score = int(any((text, kw) in matched_pairs for kw in concept_keywords))

            results.append((text, concept_name, score))

    return pd.DataFrame(results, columns=["text", "abstract_concept", "score"])


In [None]:
abstract_df = aggregate_full_concept_matrix(kw_wl_df, abstract_concepts)

In [None]:
abstract_df.sample(5)

In [None]:
abstract_df.value_counts('score')

In [None]:
from utils.data_io import join_path, save_csv

In [None]:
save_csv(kw_wl_df, dir=join_path(dataset, 'weak_label_data'), file_name='keyword_wl.csv')

In [None]:
save_csv(abstract_df, dir=join_path(dataset, 'weak_label_data'), file_name='abstract_wl.csv')