In [None]:
!pip install keybert

In [None]:
!huggingface-cli login --token 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

#  TEx

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from datasets import load_dataset
import torch
import gc
from tqdm import tqdm 
import random
import numpy as np

def set_seed(seed=42):
    random.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed) 
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

set_seed(1510)

checkpoint = "lengocquangLAB/t5-small-tags-extraction-800"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

model.cuda()

dataset = load_dataset("lengocquangLAB/vie-news-tags-extraction")
documents = dataset['validation']['content'][:100]
true_tags = dataset['validation']['tags'][:100]

candidates = []

batch_size = 128

for i in tqdm(range(0, len(documents), batch_size), desc="TEx is running"):
    sentences = documents[i:i+batch_size]
    
    encoding = tokenizer(sentences, return_tensors="pt", padding=True, truncation=True, max_length = 800)
    input_ids, attention_masks = encoding["input_ids"].to("cuda"), encoding["attention_mask"].to("cuda")
    
    with torch.no_grad():
        outputs = model.generate(
            input_ids=input_ids,
            attention_mask=attention_masks,
            max_length=90,
            early_stopping=True
        ).to('cpu')
        
    for output in outputs:
        line = tokenizer.decode(output, skip_special_tokens=True, clean_up_tokenization_spaces=True)
        temp = line.split(', ')  
        temp = list(set(temp))  
        candidates.append(temp)

        del line, temp
        gc.collect()  
        torch.cuda.empty_cache() 

    del encoding, sentences, input_ids, attention_masks, outputs
    gc.collect()
    torch.cuda.empty_cache()

del tokenizer, model


In [None]:
import pandas as pd


df = pd.DataFrame({
    'content': documents,
    'pred_tags': [','.join(sublist) for sublist in candidates],
    'true_tags': true_tags
})

df.to_csv('val_onlyTEx.csv', index=False, encoding='utf-8')

In [None]:
df.head(5)

In [None]:
import pandas as pd
import ast

true_tags = df['true_tags'].apply(ast.literal_eval).tolist()
pred_tags = df['pred_tags'].apply(lambda x: x.split(',')).tolist()

TP = FP = FN = TN = 0

for true_set, pred_set in zip(true_tags, pred_tags):
    print("This is true set")
    print(true_set)
    print("This is pred set")
    print(pred_set)
    for tag in true_set:
        if tag in pred_set:
            print(tag)
            TP += 1 
        else:
            FN += 1  
            
    for tag in pred_set:
        if tag not in true_set:
            FP += 1  

micro_precision = TP / (TP + FP) if (TP + FP) != 0 else 0
micro_recall = TP / (TP + FN) if (TP + FN) != 0 else 0
micro_f1 = 2 * (micro_precision * micro_recall) / (micro_precision + micro_recall) if (micro_precision + micro_recall) != 0 else 0

print(f"True Positives (TP): {TP}")
print(f"False Positives (FP): {FP}")
print(f"False Negatives (FN): {FN}")
print(f"True Negatives (TN): {TN}")  
print(f"Micro F1 Score: {micro_f1}")


# keyLLM

In [None]:
from torch import cuda, bfloat16
import transformers

model_id = 'Qwen/Qwen2.5-1.5B-Instruct'

# Llama 2 Model & Tokenizer
tokenizer = transformers.AutoTokenizer.from_pretrained(model_id)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    device_map='auto',
)
model.eval()

# Our text generator
generator = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    task='text-generation',
    temperature=0.1,
    max_new_tokens=500,
    repetition_penalty=1.1
)

In [None]:
from keybert.llm import TextGeneration
from keybert import KeyLLM

prompt = """
<s>[INST] <<SYS>>

Bạn là một trợ lý hữu ích chuyên trích xuất 20 từ khóa khác nhau phân cách bằng dấu phẩy từ văn bản. 
Bạn cần trả lời trực tiếp và chỉ đưa ra 20 từ khóa khác nhau mà không có bất kỳ lời giải thích hay thông tin thừa nào. 

<</SYS>> 
Tôi có tài liệu sau:
- Trang web nói rằng chỉ mất vài ngày để giao hàng nhưng tôi vẫn chưa nhận được đơn hàng của mình.

Vui lòng cho tôi biết các từ khóa có trong tài liệu này và phân tách chúng bằng dấu phẩy. 
Hãy chắc chắn rằng bạn chỉ trả về các từ khóa mà không nói gì thêm. 
Ví dụ, đừng nói: "Đây là các từ khóa có trong tài liệu" [/INST] thịt, bò, ăn, ăn uống, khí thải, bít tết, thực phẩm, sức khỏe, chế biến, gà [INST]]

Tôi có tài liệu sau:

- [DOCUMENT]

Với các từ khoá gợi ý:
[CANDIDATES]


Dựa trên các từ khoá gợi ý ở phía trên vui lòng cho tôi biết 20 từ khóa khác nhau có trong tài liệu này và phân tách chúng bằng dấu phẩy. 
Hãy chắc chắn rằng bạn chỉ trả về các từ khóa mà không nói gì thêm. 
Ví dụ, đừng nói: "Đây là các từ khóa có trong tài liệu" 
[/INST]
"""

# Load it in KeyLLM
llm = TextGeneration(generator, prompt=prompt)
kw_model = KeyLLM(llm)



In [None]:
merged = []
max_tags = 19

# Wrap the loop with tqdm to show progress
for i in tqdm(range(0, len(documents), batch_size), desc="keyLLM is running"):
    sentences = documents[i:i+batch_size]
    candidate_keywords = candidates[i:i+batch_size]
    
    # Extract keywords using the kw_model
    keywords = kw_model.extract_keywords(sentences, candidate_keywords=candidate_keywords) 
    
    for j in range(len(keywords)):
        # Remove words longer than 15 characters, duplicates, empty strings, and words containing '\n' or '[s]'
        keywords[j] = list(set(word for word in keywords[j] 
                               if len(word) < 15 and word != "" and '\n' not in word and '[s]' not in word))
    
    # Merge candidate_keywords with the newly extracted keywords
    for j in range(len(keywords)):
        # Start with the candidate keywords
        merged_sublist = candidate_keywords[j]
        
        # If there are fewer than 20 words, add from keywords
        if len(merged_sublist) < max_tags:
            # Filter words that are not already in merged_sublist and remove empty strings
            remaining_words = [word for word in keywords[j] if word not in merged_sublist and word != ""]
            # Add enough to reach 20
            merged_sublist.extend(remaining_words[:max_tags - len(merged_sublist)])
        
        # Ensure no more than 20 words in the list
        merged_sublist = merged_sublist[:max_tags]
        
        # Add the merged sublist to the final list
        merged.append(merged_sublist)

# Convert each sublist into a comma-separated string
merged = [','.join(sublist) for sublist in merged]


# Export files

In [None]:
import pandas as pd


# Tạo DataFrame từ danh sách sentences và merged
df = pd.DataFrame({
    'content': documents,
    'pred_tags': merged,
    'true_tags': true_tags
})

# Xuất DataFrame ra file CSV với mã hóa UTF-8
df.to_csv('val_TEx_keyLLM.csv', index=False, encoding='utf-8')


In [None]:
df['pred_tags']

# Evaluate

In [None]:
import pandas as pd
import ast

# Convert the columns to list of tags
# Check the first few rows to verify the column type
print(type(df['true_tags'].iloc[0]))  # Check if it's a string or list

# If it's a string representation of a list, use ast.literal_eval
if isinstance(df['true_tags'].iloc[0], str):
    import ast
    true_tags = df['true_tags'].apply(ast.literal_eval).tolist()
else:
    true_tags = df['true_tags'].tolist()
    
pred_tags = df['pred_tags'].apply(lambda x: x.split(',')).tolist()

# Initialize counters for TP, FP, FN, TN
TP = FP = FN = TN = 0

# Loop through each sample
for true_set, pred_set in zip(true_tags, pred_tags):
    # Loop through each tag in true_set
    print("This is true set")
    print(true_set)
    print("This is pred set")
    print(pred_set)
    for tag in true_set:
        if tag in pred_set:
            print(tag)
            TP += 1  # True Positive: tag is in both true and predicted
        else:
            FN += 1  # False Negative: tag is in true but not in predicted
            
    # Loop through each tag in pred_set
    for tag in pred_set:
        if tag not in true_set:
            FP += 1  # False Positive: tag is in predicted but not in true

# Calculate Precision, Recall, and Micro F1 score
micro_precision = TP / (TP + FP) if (TP + FP) != 0 else 0
micro_recall = TP / (TP + FN) if (TP + FN) != 0 else 0
micro_f1 = 2 * (micro_precision * micro_recall) / (micro_precision + micro_recall) if (micro_precision + micro_recall) != 0 else 0

# Print results
print(f"True Positives (TP): {TP}")
print(f"False Positives (FP): {FP}")
print(f"False Negatives (FN): {FN}")
print(f"True Negatives (TN): {TN}")  # This will be 0 unless you define a universal set of tags
print(f"Micro F1 Score: {micro_f1}")


In [None]:
df.head(5)