Pytorch MiniLM

Unofficial Pytorch Reimplementation of MiniLM and MiniLM v2. (Incompleted)

MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers (Neruips 2020)
MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers (ACL 2021 Findings)

Examples

Generate the corpus

python generate_corpus.py --cache_dir /input/dataset --corpus_dir /input/osilab-nlp/wikipedia

Generate the datasets

python generate_data.py \
        --train_corpus /input/osilab-nlp/wikipedia/corpus.txt \
        --bert_model ./models/bert-base-uncased \
        --output_dir ./data \
        --do_lower_case --reduce_memory

Pretrain

python -m torch.distributed.launch \
    --nproc_per_node=2 \
    run_pretrain.py \
    --pregenerated_data ./data \
    --cache_dir ./cache \
    --epochs 4 \
    --gradient_accumulation_steps 1 \
    --train_batch_size 8 \
    --learning_rate 1e-4 \
    --max_seq_length 128 \
    --student_model ./models/bert-base-uncased \
    --masked_lm_prob 0.15 \
    --do_lower_case --fp16 --scratch

Finetune

python -m torch.distributed.launch --nproc_per_node=4 \
        run_finetune.py --model ./models/bert-base-uncased \
        --data_dir ./glue_data \
        --task_name RTE \
        --output_dir ./outputs \
        --do_lower_case --fp16 \
        --num_train_epochs 5 \
        --learning_rate 2e-05 \
        --eval_step 50 \
        --max_seq_length 128 \
        --train_batch_size 8

Experiments (To Be Continued)

MiniLM (BERT with 4 Layers, 312 Dims)

	Accuracy (%)
RTE	65.70%
SST-2	86.85%

Issues

(22.01.01) ~~Unknown error occurs in finetuning code with multi-gpu setting in RTX 3090 (CUDA VER 11.4)~~ (Solved).
(22.01.04) Complete the pretrain code on tiny size dataset (~~Wikipedia datasets with 100 documents~~ also done with 6M documents).
(22.01.05) ~~Learning Rate presents as zero if using knowledge distillation.~~ (Solved)
(22.01.07) ~~Unknown error occurs in pretraining code with more than 3 GPUs. Our code works well on 2 GPUs server.~~ (Solved)
(22.01.11) ~~If we do not use --reduce_memory option, the code do not make any errors on multiple GPU~~ (with gpu numbers > 3, Solved).

TODO

Generate wikipedia corpus and generate dataset
Pretraining on multi-gpu setting
Finetuning on multi-gpu setting

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commits
transformer		transformer
README.md		README.md
download_glue_data.py		download_glue_data.py
generate_corpus.py		generate_corpus.py
generate_data.py		generate_data.py
requirements.txt		requirements.txt
run_finetune.py		run_finetune.py
run_pretrain.py		run_pretrain.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

transformer

transformer

README.md

README.md

download_glue_data.py

download_glue_data.py

generate_corpus.py

generate_corpus.py

generate_data.py

generate_data.py

requirements.txt

requirements.txt

run_finetune.py

run_finetune.py

run_pretrain.py

run_pretrain.py

Repository files navigation

Pytorch MiniLM

Examples

Experiments (To Be Continued)

Issues

TODO

References

About

Releases

Packages

Languages

jongwooko/Pytorch-MiniLM

Folders and files

Latest commit

History

Repository files navigation

Pytorch MiniLM

Examples

Experiments (To Be Continued)

Issues

TODO

References

About

Topics

Resources

Stars

Watchers

Forks

Languages