Fix Meta Tensor checkpoint load for OPT models #2990

lekurile · 2023-03-10T02:11:19Z

This PR fixes Meta Tensor checkpoint loading for OPT models where the SD keys start with model..

Command:

deepspeed --num_nodes 1 --num_gpus 1 inference-test.py --ds_inference --use_kernel --name <model_name> --use_meta_tensor --dtype <model_dtype>

Model table:

OPT Model	SD Key	Before Fix	After Fix
facebook/opt-125m	model.decoder.embed_tokens.weight	FAIL	PASS
facebook/opt-350m	decoder.embed_tokens.weight	PASS	PASS
facebook/opt-1.3b	model.decoder.embed_tokens.weight	FAIL	PASS
facebook/opt-2.7b	model.decoder.embed_tokens.weight	FAIL	PASS
facebook/opt-6.7b	decoder.layers.23.fc2.weight	PASS	PASS
facebook/opt-13b	decoder.embed_tokens.weight	PASS	PASS
facebook/opt-30b	decoder.layers.31.fc1.weight	PASS	PASS

Fix Meta Tensor checkpoint load for OPT models

9a669ba

lekurile requested review from RezaYazdaniAminabadi, jeffra, mrwyattii, awan-10, cmikeh2 and arashb as code owners March 10, 2023 02:11

molly-smith approved these changes Mar 10, 2023

View reviewed changes

mrwyattii approved these changes Mar 10, 2023

View reviewed changes

lekurile merged commit 3798e60 into master Mar 10, 2023

Provide feedback