In [1]:
from core_pro.ultilities import make_sync_folder, update_df
import polars as pl
from pathlib import Path
from transformers import AutoTokenizer
from datetime import datetime
from huggingface_hub import login, HfApi
import duckdb
import sys
from core_eda import TextEDA

sys.path.extend([str(Path.home() / 'PycharmProjects/model_train')])
from src.model_train.data_loading import TrainDistribution
from src.model_train.pipeline_train import Pipeline
from src.model_train.func import training_report

path = make_sync_folder('cx/buyer_listening')

In [2]:
query = f"""
select *
from read_parquet('{path / "sentiment.parquet"}')
where lower(sentiment) in ('neutral', 'positive', 'negative')
"""
df = (
    duckdb.sql(query).pl()
    .pipe(TextEDA.clean_text_pipeline_polars, col="input")
    .pipe(TextEDA.len_text, col="input")
)
print(df.shape)
df

[TextEDA] Clean Text: 100%|██████████| 111380/111380 [00:07<00:00, 15864.90it/s]


(111380, 6)


index,input,sentiment,explain,input_clean,input_word_count
u32,str,str,str,str,u32
6,"""B2C e-commerce market sees rap…","""neutral""","""The review is a general statem…","""b2c e commerce market sees rap…",9
9,"""https://shp.ee/xx430ikqekp Acc…","""neutral""","""The review does not contain an…","""https://shp.ee/xx430ikqekp acc…",7
14,"""https://shp.ee/w45aox54oz1 Trả…","""neutral""","""The review does not contain an…","""https://shp.ee/w45aox54oz1 trả…",5
16,"""Liên kết tài khoản shoppe pay …","""neutral""","""Review này chỉ đề cập đến việc…","""liên kết tài khoản shoppe pay …",13
26,"""Đại diện TikTok Việt Nam: Cá n…","""neutral""","""Review này không mang tính chủ…","""đại diện tiktok việt nam: cá n…",25
…,…,…,…,…,…
161784,"""Còn nhiều lắm mà làm mấy cái d…","""negative""","""Reviewer expresses frustration…","""còn nhiều lắm mà làm mấy cái d…",31
161790,"""Tôi muốn được giảm giá nhiều h…","""negative""","""The review expresses dissatisf…","""tôi muốn được giảm giá nhiều h…",7
161791,"""Thật tế có sản phẩm giả cùng g…","""negative""","""Review này thể hiện sự bất mãn…","""thật tế có sản phẩm giả cùng g…",35
161793,"""Vì trên app có rất nhiều hàng …","""negative""","""Review này thể hiện sự không h…","""vì trên app có rất nhiều hàng …",27


In [3]:
df["sentiment"].value_counts()

sentiment,count
str,u32
"""neutral""",26175
"""negative""",47031
"""positive""",38174


In [4]:
df['input_word_count'].describe(percentiles=[.25, .5, .75, .9, .99])

statistic,value
str,f64
"""count""",111380.0
"""null_count""",0.0
"""mean""",36.00378
"""std""",78.776783
"""min""",1.0
…,…
"""50%""",15.0
"""75%""",29.0
"""90%""",71.0
"""99%""",382.0


In [5]:
label = "sentiment"
select_cols = ["index", "input", label]
label_list = df[label].unique().to_list()
dist_check = TrainDistribution(path, df, col_label=label, col_item="input", label_list=label_list)
dict_split, dict_ds = dist_check.split_train_valid_test(select_cols=select_cols, test_size=0.2)

[Data Loading]
-> Train/Test/Validation Split
-> Shape train: 71,283, valid: 17,821, test: 22,276
-> Show data example: 1
train: {'index': 30459, 'input': 'Đại biểu Quốc hội: quản lý chặt việc bán thuốc qua sàn thương mại điện tử', 'sentiment': 'neutral'}
valid: {'index': 69665, 'input': 'Dịch vụ mua trước trả sau của shoppe mình thanh toán rồi mà hoàn vào tài khoản bị thiếu tới 90k mình có nhắn nhân viên hỗ trợ rồi mà hơn tháng không thấy hoàn lại rất buồn ', 'sentiment': 'negative'}
test: {'index': 110572, 'input': 'hóng quá lum', 'sentiment': 'positive'}


In [6]:
pretrain_name = "bkai-foundation-models/vietnamese-bi-encoder"

# tokenizer
tokenizer = AutoTokenizer.from_pretrained(pretrain_name)
dict_train = dist_check.ds_tokenize(tokenizer, show_index=1)

Tokenizing data:   0%|          | 0/71283 [00:00<?, ? examples/s]

Tokenizing data:   0%|          | 0/17821 [00:00<?, ? examples/s]

Tokenizing data:   0%|          | 0/22276 [00:00<?, ? examples/s]

-> Show token example: 1
-> Keys: dict_keys(['input_ids', 'token_type_ids', 'attention_mask', 'labels'])
-> Token: <s> Phần mềm app không tự động hiện lên các mã giảm giá vào thời điểm thanh toán. </s> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>
-> Labels: 1



In [7]:
# train
pipe = Pipeline(
    pretrain_name=pretrain_name,
    id2label=dist_check.id2label,
    label2id=dist_check.label2id,
    bf16=True,
    flash_attention_2=False,
    # per_device_train_batch_size=16,
    # per_device_eval_batch_size=4,
    hub_model_id="kevinkhang2909/sentiment",
)
time_now = datetime.now().strftime("%Y%m%d%H%M%S")
folder = str(path / f"model_sentiment/{label}_{pretrain_name.split('/')[-1]}/{time_now}")
config = dict(
    log_step=200,
    num_train_epochs=5,
    learning_rate=1e-4,
)
trainer = pipe.train(folder=folder, train=dict_train["train"], val=dict_train["valid"], **config)

Pretrain: bkai-foundation-models/vietnamese-bi-encoder


Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at bkai-foundation-models/vietnamese-bi-encoder and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.



*** [Device Summary] ***
Torch version: 2.6.0+cu124
Device: cuda
CUDA: NVIDIA GeForce RTX 4090
"FlashAttention available: True

*** [Training Summary] ***
BF16: True
Model Name: bkai-foundation-models/vietnamese-bi-encoder



Step,Training Loss,Validation Loss,F1,Accuracy
200,0.6029,0.440948,0.831828,0.831828
400,0.3581,0.420922,0.837495,0.837495
600,0.2944,0.434794,0.837832,0.837832


***** train metrics *****
  epoch                    =        5.0
  total_flos               =  8529020GF
  train_loss               =     0.3989
  train_runtime            = 0:02:26.34
  train_samples_per_second =   2435.373
  train_steps_per_second   =      4.783


In [8]:
# report
valid_result = trainer.predict(dict_train["test"])
y_pred = valid_result.predictions.argmax(-1)
y_true = valid_result.label_ids
df_report = training_report(y_true=y_true, y_pred=y_pred, id2label=dist_check.id2label)

              precision    recall  f1-score   support

    positive       0.85      0.85      0.85      7648
    negative       0.90      0.90      0.90      9379
     neutral       0.73      0.73      0.73      5249

    accuracy                           0.84     22276
   macro avg       0.83      0.83      0.83     22276
weighted avg       0.84      0.84      0.84     22276



In [9]:
# sh = '1TsAxRmQDPIuL_enHMyHZSsb1aZZs9VCSzOYyXo83uZA'
# update_df(df_report, 'train_report', sh, start="H1")

In [10]:
# upload = False
# if upload:
#     hf_token = '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'
#     login(token=hf_token)
#
#     repo = 'kevinkhang2909/buyer_listening'
#     api = HfApi()
#     api.upload_folder(
#         folder_path=folder,
#         repo_id=repo,
#         commit_message='model updated',
#         ignore_patterns=['checkpoint*']
#     )