Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
My_dataset_script.py		My_dataset_script.py
README.md		README.md
evaluate_with_class.py		evaluate_with_class.py
tokenization_and_mask_in_train_loop.py		tokenization_and_mask_in_train_loop.py

Repository files navigation

Bert pre-training with retrieval purposes

The project is the LM pre-training pipeline with retrieval purposes.
Here you can find:

Evaluations tasks for retrieval (MRPC, STS-b). Both from GLUE benchmark
Dataset preparation scripts
Pre-training using Masked LM task on Wikipedia data.
WanDB logging
MultiGPU training code
Checkpointing
Fine-tune code using contrastive learning.
Results and checkpoints reported

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

Contributors

Languages

Python 100.0%