# Loading data

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount = True)

Mounted at /content/drive


In [None]:
!pip install transformers
!pip install sentence_transformers
!pip install wandb



In [None]:
import csv
dataset = []
LOAD_DIR = "/content/drive/MyDrive/UIT fake news/rerank_dataset.csv"
with open(LOAD_DIR, 'r', encoding='utf-8-sig') as file:
    csvreader = csv.reader(x.replace('\0', '') for x in file)
    header = next(csvreader)
    for row in csvreader:
        dataset.append(row)
print(header)
print(dataset[:10])

['sent1', 'sent2', 'label']
[['Cạnh đó, thanh niên quân đội và thanh niên tiền phon cũng phải thực hiện tốt công tác dân vận, tham gia tích cực vào các chương trình an sinh xã hội, xây dựng nông thôn mới, phòng, chống khắc phục thiên tai, dịch bệnh, xóa đói giảm nghèo.', 'Cạnh đó, thanh niên quân đội cũng phải thực hiện tốt công tác dân vận, tham gia tích cực vào các chương trình an sinh xã hội, xây dựng nông thôn mới, phòng, chống khắc phục thiên tai, dịch bệnh.', '1'], ['Cạnh đó, thanh niên quân đội và thanh niên tiền phon cũng phải thực hiện tốt công tác dân vận, tham gia tích cực vào các chương trình an sinh xã hội, xây dựng nông thôn mới, phòng, chống khắc phục thiên tai, dịch bệnh, xóa đói giảm nghèo.', 'Thay mặt 10 thanh niên tiêu biểu nhận bằng khen của Bộ trưởng Quốc phòng, thượng úy Lê Hảo (Trợ lý Thanh niên, Phòng Chính trị, Bộ Tư lệnh TP HCM) cho biết sau khi tốt nghiệp trường Sĩ quan Chính trị năm 2020, anh được phân công về Sư đoàn Gia Định. Đây là thời điểm TP HCM bước v

In [None]:
print(f"before: {len(dataset)} rows")
dataset =  [i for i in dataset if i[2] == '1']
#  = list(filter(lambda x: x[2] == 0, dataset))
print(f"after: {len(dataset)} rows")

before: 103639 rows
after: 25956 rows


In [None]:
import random
SPLIT = int(len(dataset)*0.8)

random.shuffle(dataset)
train_set = dataset[:SPLIT]
test_set = dataset[SPLIT:]

print(len(train_set))
print(len(test_set))

20764
5192


In [None]:
from sentence_transformers import InputExample
from tqdm.auto import tqdm  # so we see progress bar

train_samples = []
for row in tqdm(train_set):
    train_samples.append(InputExample(
        texts=[row[0], row[1]]
    ))

In [None]:
queries = [x[0] for x in test_set]
corpus = [x[1] for x in test_set]
print(len(queries))
print(len(corpus))

In [None]:
print(queries[1])
print(corpus[1])

In [None]:
#  queries: Dict[str, str],  #qid => query
#  corpus: Dict[str, str],  #cid => doc
#  relevant_docs: Dict[str, Set[str]],  #qid => Set[cid]

txt2id_query = {x:i for i,x in enumerate(queries)}
id2txt_query = {i:x for i,x in enumerate(queries)}

txt2id_corpus = {x:i for i,x in enumerate(corpus)}
id2txt_corpus = {i:x for i,x in enumerate(corpus)}

relevant_docs = {x:set([x]) for x in range(0, len(corpus))}

In [None]:
print(id2txt_query)
print(id2txt_corpus)
print(relevant_docs)

# Trainning model

In [None]:
import torch
import gc
torch.cuda.empty_cache()
gc.collect()

In [None]:
from sentence_transformers import datasets

batch_size = 32

loader = datasets.NoDuplicatesDataLoader(
    train_samples, batch_size=batch_size)

In [None]:
from sentence_transformers import models, SentenceTransformer

bert = models.Transformer('keepitreal/vietnamese-sbert')
# bert = models.Transformer('vinai/phobert-large')
pooler = models.Pooling(
    bert.get_word_embedding_dimension(),
    pooling_mode_mean_tokens=True
)

model = SentenceTransformer(modules=[bert, pooler])

model

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

In [None]:
from sentence_transformers import losses
from sentence_transformers import evaluation
loss = losses.MultipleNegativesRankingLoss(model)
evaluator = evaluation.InformationRetrievalEvaluator(id2txt_query, id2txt_corpus, relevant_docs)

In [None]:
epochs = 10
warmup_steps = int(len(loader) * epochs * 0.1)
model.fit(
    train_objectives=[(loader, loss)],
    epochs=epochs,
    warmup_steps=warmup_steps,
    save_best_model= True,
    output_path='./sbert_test_mnr_withevaluator',
    show_progress_bar=True,
    evaluator=evaluator,
    evaluation_steps= 10,
    callback = callbackfn
)  # I set 'show_progress_bar=False' as it printed every step
#    on to a new line

In [None]:
import pandas as pd
data = pd.read_csv("/content/sbert_test_mnr_withevaluator/eval/Information-Retrieval_evaluation_results.csv")
data

# Pushing models to hub

In [None]:
from transformers import pipeline, AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained('./sbert_test_mnr_withevaluator')
model = AutoModel.from_pretrained('./sbert_test_mnr_withevaluator')

In [None]:
!pip install huggingface_hub
!huggingface-cli login --token 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

In [None]:
from huggingface_hub import create_repo
# create_repo("Oztobuzz/phoBert_test", private=False)
model.push_to_hub("Oztobuzz/sbert_mnr_10_epoch_v1")
tokenizer.push_to_hub("Oztobuzz/sbert_mnr_10_epoch_v1")