Skip to content

TypeError: CLIPTextModel.__init__() got an unexpected keyword argument 'offload_state_dict' #12436

@zillur01

Description

@zillur01

Describe the bug

Getting this TypeError: CLIPTextModel.__init__() got an unexpected keyword argument 'offload_state_dict' when running a DiffusionPipeline.from_pretrained

Reproduction

I was following this https://huggingface.co/docs/diffusers/main/en/installation for installation. This is what I have done so far:

conda create -n diffusion python=3.10
conda activate diffusion
pip install diffusers["torch"] transformers

Then I tried to start a pipeline by running:

from diffusers import DiffusionPipeline
pipeline = DiffusionPipeline.from_pretrained("stable-diffusion-v1-5/stable-diffusion-v1-5", use_safetensors=True)

Logs

>>> from diffusers import DiffusionPipeline
>>> pipeline = DiffusionPipeline.from_pretrained("stable-diffusion-v1-5/stable-diffusion-v1-5", use_safetensors=True)
model_index.json: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 541/541 [00:00<00:00, 4.34MB/s]
scheduler_config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 308/308 [00:00<00:00, 3.30MB/s]
config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 617/617 [00:00<00:00, 166kB/s]
preprocessor_config.json: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 342/342 [00:00<00:00, 336kB/s]
special_tokens_map.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 472/472 [00:00<00:00, 378kB/s]
config.json: 4.72kB [00:00, 10.2MB/s]                                                                                                   | 1/15 [00:00<00:08,  1.65it/s]
merges.txt: 525kB [00:00, 5.92MB/s]
tokenizer_config.json: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 806/806 [00:00<00:00, 5.94MB/s]
config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 743/743 [00:00<00:00, 933kB/s]
config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 547/547 [00:00<00:00, 310kB/s]
vocab.json: 1.06MB [00:00, 10.7MB/s]                                                                                                         | 0.00/547 [00:00<?, ?B/s]
safety_checker/model.safetensors: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 1.22G/1.22G [00:05<00:00, 233MB/s]
unet/diffusion_pytorch_model.safetensors: 100%|████████████████████████████████████████████████████████████████████████████████████| 3.44G/3.44G [00:06<00:00, 566MB/s]
vae/diffusion_pytorch_model.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████| 335M/335M [00:06<00:00, 55.1MB/s]
text_encoder/model.safetensors: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 492M/492M [00:06<00:00, 73.1MB/s]
Fetching 15 files: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [00:07<00:00,  2.03it/s]
Loading pipeline components...:  14%|██████████████▎                                                                                     | 1/7 [00:00<00:00, 18.78it/s]
Traceback (most recent call last):0%|████████████████████████████████████████████████████████████████████████████████████████████████| 492M/492M [00:06<00:00, 212MB/s]
  File "<stdin>", line 1, in <module>
  File "/home/zillur/miniconda3/envs/diffusion/lib/python3.10/site-packages/huggingface_hub/utils/_validators.py", line 114, in _inner_fn
    return fn(*args, **kwargs)
  File "/home/zillur/miniconda3/envs/diffusion/lib/python3.10/site-packages/diffusers/pipelines/pipeline_utils.py", line 1025, in from_pretrained
    loaded_sub_model = load_sub_model(
  File "/home/zillur/miniconda3/envs/diffusion/lib/python3.10/site-packages/diffusers/pipelines/pipeline_loading_utils.py", line 849, in load_sub_model
    loaded_sub_model = load_method(os.path.join(cached_folder, name), **loading_kwargs)
  File "/home/zillur/miniconda3/envs/diffusion/lib/python3.10/site-packages/transformers/modeling_utils.py", line 277, in _wrapper
    return func(*args, **kwargs)
  File "/home/zillur/miniconda3/envs/diffusion/lib/python3.10/site-packages/transformers/modeling_utils.py", line 4974, in from_pretrained
    model = cls(config, *model_args, **model_kwargs)
TypeError: CLIPTextModel.__init__() got an unexpected keyword argument 'offload_state_dict'

System Info

Python version: 3.10.18
PyTorch version: 2.8.0
CUDA runtime: 12.8.90
huggingface-hub: 0.35.3
OS: Ubuntu 24.04.3 LTS
diffusers version: 0.35.1
transformers version: 4.57.0
accelerate version: 1.10.1

Who can help?

@sayakpaul @DN6

Metadata

Metadata

Assignees

No one assigned

    Labels

    bugSomething isn't working

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions