In [1]:
from core_pro.ultilities import make_sync_folder, update_df
import polars as pl
from pathlib import Path
from transformers import AutoTokenizer
from datetime import datetime
import duckdb
from huggingface_hub import login, HfApi
import sys

sys.path.extend([str(Path.home() / 'PycharmProjects/model_train')])
from src.model_train.data_loading import TrainDistribution
from src.model_train.pipeline_train import Pipeline
from src.model_train.func import training_report

path = make_sync_folder('cx/buyer_listening')

In [2]:
query = f"""
select *
, concat_ws(' >> ', l1, l2) combine_category
from read_parquet('{path / "raw_cleaned.parquet"}')
"""
df = duckdb.sql(query).pl()
print(df.shape)
df

(330566, 8)


index,text,l1,l2,sentiment,text_clean,text_clean_word_count,combine_category
u32,str,str,str,str,str,u32,str
0,"""Trả ngay và liền ạ""","""Commercial""","""Games/Minigames""","""neutral""","""trả ngay và liền ạ""",5,"""Commercial >> Games/Minigames"""
1,"""Nhờ thằng te tò te nên app đc …","""Others""","""Cannot defined""","""""","""nhờ thằng te tò te nên app đc …",11,"""Others >> Cannot defined"""
2,"""Lười trả lời""","""Others""","""Cannot defined""","""healthy""","""lười trả lời""",3,"""Others >> Cannot defined"""
3,"""‼️‼️‼️ GÓC CẢNH BÁO ‼️ ‼️‼️ ‼️…","""Others""","""Scam""","""negative""","""em bảo gửi e ck trực giác cho …",40,"""Others >> Scam"""
4,"""Đặt shoppe food hơn 1 tiếng đồ…","""Feature""","""Digital Product""","""""","""đặt shoppe food hơn 1 tiếng đồ…",31,"""Feature >> Digital Product"""
…,…,…,…,…,…,…,…
330561,"""💥 Chọn số Trúng Voucher Shopee…","""Commercial""","""Shopee Programs""","""neutral""","""chọn số trúng voucher shopee m…",25,"""Commercial >> Shopee Programs"""
330562,"""Rất đúng theo tiêu chuẩn""","""Buyer complained seller""","""Sellers packed fake orders""","""""","""rất đúng theo tiêu chuẩn""",5,"""Buyer complained seller >> Sel…"
330563,"""Mỹ cấm TikTok: Facebook, Googl…","""Others""","""Cannot defined""","""neutral""","""mỹ cấm tiktok: facebook, googl…",7,"""Others >> Cannot defined"""
330564,"""Vì có vài món đồ tôi mua và đa…","""Delivery""","""Delivery status/info""","""poor""","""vì có vài món đồ tôi mua và đa…",26,"""Delivery >> Delivery status/in…"


In [3]:
df['text_clean_word_count'].describe(percentiles=[.25, .5, .75, .9, .99])

statistic,value
str,f64
"""count""",330566.0
"""null_count""",0.0
"""mean""",26.900755
"""std""",55.753364
"""min""",2.0
…,…
"""50%""",13.0
"""75%""",25.0
"""90%""",51.0
"""99%""",265.0


In [4]:
df.columns

['index',
 'text',
 'l1',
 'l2',
 'sentiment',
 'text_clean',
 'text_clean_word_count',
 'combine_category']

In [5]:
label = "combine_category"
select_cols = ["index", "text", label]
label_list = df[label].unique().to_list()
dist_check = TrainDistribution(path, df, col_label=label, col_item="text", label_list=label_list)
dict_split, dict_ds = dist_check.split_train_valid_test(select_cols=select_cols, test_size=0.2)

[Data Loading]
-> Train/Test/Validation Split
-> Shape train: 211,561, valid: 52,891, test: 66,114
-> Show data example: 1
train: {'index': 105935, 'text': 'Shipper giao không đúng ngày hẹn', 'combine_category': 'Delivery >> Delivery time'}
valid: {'index': 173628, 'text': 'Mua hàng đừng mua trả trước shoopee pay. Tui mua hàng trả lại nhân viên hướng dẫn hủy đơn, hủy rồi hàng trả về nhưng báo đơn hàng đã hủy không hoàn tiền lại, rốt cuộc mất tiền', 'combine_category': 'Return/Refund >> Dispute'}
test: {'index': 1071, 'text': 'https://shp.ee/xrjjey5xdbq Tưới chéo. Cmt link mình trả link ạ. Acc 2', 'combine_category': 'Others >> Seller'}


In [6]:
pretrain_name = "bkai-foundation-models/vietnamese-bi-encoder"

# tokenizer
tokenizer = AutoTokenizer.from_pretrained(pretrain_name)
dict_train = dist_check.ds_tokenize(tokenizer, show_index=1)

Tokenizing data:   0%|          | 0/211561 [00:00<?, ? examples/s]

Tokenizing data:   0%|          | 0/52891 [00:00<?, ? examples/s]

Tokenizing data:   0%|          | 0/66114 [00:00<?, ? examples/s]

-> Show token example: 1
-> Keys: dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'labels'])
-> Token: <s> B ÔE2 </s> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>
-> Labels: 34



In [7]:
pipe = Pipeline(
    pretrain_name=pretrain_name,
    id2label=dist_check.id2label,
    label2id=dist_check.label2id,
    bf16=True,
    flash_attention_2=False,
)

time_now = datetime.now().strftime("%Y%m%d%H%M%S")
folder = path / f'model/{pretrain_name.split('/')[-1]}/{time_now}'
config = dict(
    log_step=500,
    num_train_epochs=5,
    learning_rate=1e-4,
)
trainer = pipe.train(
    folder=folder,
    train=dict_train['train'],
    val=dict_train['valid'],
    **config
)

Pretrain: bkai-foundation-models/vietnamese-bi-encoder


Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at bkai-foundation-models/vietnamese-bi-encoder and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.



*** [Device Summary] ***
Torch version: 2.6.0+cu124
Device: cuda
CUDA: NVIDIA GeForce RTX 4090
"FlashAttention available: True

*** [Training Summary] ***
BF16: True
Model Name: bkai-foundation-models/vietnamese-bi-encoder



Step,Training Loss,Validation Loss,F1,Accuracy
500,2.1737,1.143173,0.715528,0.715528
1000,0.9864,0.920191,0.76565,0.76565
1500,0.8356,0.902804,0.770207,0.770207
2000,0.7984,0.897483,0.773062,0.773062


***** train metrics *****
  epoch                    =        5.0
  total_flos               = 25327846GF
  train_loss               =     1.1848
  train_runtime            = 0:07:03.95
  train_samples_per_second =   2495.117
  train_steps_per_second   =      4.883


In [8]:
# report
valid_result = trainer.predict(dict_train["test"])
y_pred = valid_result.predictions.argmax(-1)
y_true = valid_result.label_ids
df_report = training_report(y_true=y_true, y_pred=y_pred, id2label=dist_check.id2label)

# sh = '1TsAxRmQDPIuL_enHMyHZSsb1aZZs9VCSzOYyXo83uZA'
# update_df(df_report, 'train_report', sh)

                                                                                                     precision    recall  f1-score   support

                                                                         Feature >> Digital Product       1.00      0.00      0.00        76
                                                                   Payment >> Other payment methods       0.46      0.36      0.41       295
                                                                          Payment >> Payment Others       1.00      0.00      0.00        49
                                                                            Feature >> Cart & Order       0.86      0.68      0.76       163
                                            Buyer complained seller >> Illegal/counterfeit products       0.75      0.83      0.79       772
                                                                    Order/Item >> Order/Item Others       1.00      0.00      0.00       100
            

In [25]:
# upload = False
# if upload:
#     hf_token = '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'
#     login(token=hf_token)
#
#     repo = 'kevinkhang2909/buyer_listening'
#     api = HfApi()
#     api.upload_folder(
#         folder_path=folder,
#         repo_id=repo,
#         commit_message='model updated',
#         ignore_patterns=['checkpoint*']
#     )

No files have been modified since last commit. Skipping to prevent empty commit.


CommitInfo(commit_url='https://huggingface.co/kevinkhang2909/buyer_listening/commit/c5eb32ddf808ca01d0d63ec813bbf3b6befd3243', commit_message='model updated', commit_description='', oid='c5eb32ddf808ca01d0d63ec813bbf3b6befd3243', pr_url=None, repo_url=RepoUrl('https://huggingface.co/kevinkhang2909/buyer_listening', endpoint='https://huggingface.co', repo_type='model', repo_id='kevinkhang2909/buyer_listening'), pr_revision=None, pr_num=None)