-
Notifications
You must be signed in to change notification settings - Fork 1.1k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[BUG] RuntimeError: probability tensor contains either inf, nan or element < 0 #848
Comments
同样 ,我也有这问题。 |
没装flash-attn的话,会走torch的SDPA,好像torch 2.1.2的这个操作有BUG,试试降级到比如2.1.1? |
@mtl940610 环境啥样的? |
之前是cu11.8版本+2.1.1torch+flash-attn,不管开不开flashattn都有这个问题。之后部署vllm时,xformer安装后,版本冲突,一直无法正常调用,所以现在升级到了12.1,torch2.1.2。 |
|
同样的环境 4090 没有问题,我把conda 复制到了A6000的机器 就会有这个问题 |
按理说不用了,不是这里的问题。
感谢信息!这个很有用,我们检查下。 |
两位环境跟我们测试过的主要差异点就是卡型A6000,且是多卡下异常,单卡下正常。我们找了个类似的机器试了下,emm... 还是没复现出来 😢 主要配置
显存占用8卡:
5卡:
测试样例结果In [1]: from transformers import AutoModelForCausalLM, AutoTokenizer
In [2]: tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-14B-Chat", trust_remote_code=True)
In [3]: model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-14B-Chat", device_map="auto", trust_remote_code=True).eval()
Warning: please make sure that you are using the latest codes and checkpoints, especially if you used Qwen-7B before 09.25.2023.请使用最新模型和代码,尤其如果你在9月25日前已经开始使用Qwen-7B,千万注意不要使用错误代码和模型。
The model is automatically converting to bf16 for faster inference. If you want to disable the automatic precision, please manually add bf16/fp16/fp32=True to "AutoModelForCausalLM.from_pretrained".
Try importing flash-attention for faster inference...
Warning: import flash_attn rotary fail, please install FlashAttention rotary to get higher efficiency https://github.com/Dao-AILab/flash-attention/tree/main/csrc/rotary
Warning: import flash_attn rms_norm fail, please install FlashAttention layer_norm to get higher efficiency https://github.com/Dao-AILab/flash-attention/tree/main/csrc/layer_norm
Warning: import flash_attn fail, please install FlashAttention to get higher efficiency https://github.com/Dao-AILab/flash-attention
Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 15/15 [00:05<00:00, 2.58it/s]
In [4]: response, history = model.chat(tokenizer, "你好", history=None)
In [5]: response
Out[5]: '你好!有什么我能帮助你的吗?'
In [6]: response, history = model.chat(tokenizer, "给我讲一个年轻人奋斗创业最终取得成功的故事。", history=history)
In [7]: print(response)
当然可以!
故事的主角是一个名叫张强的年轻人,他有一个梦想,那就是创办自己的公司。
在大学毕业后,他决定投身于他的梦想中,开始了艰苦的创业之路。他开始做市场调查、写商业计划书,并尝试找寻投资者。
然而,在最初的几年里,他遇到了很多困难和挫折。有时候他会感到无助和绝望,但他从未放弃。
经过几年的努力,他的公司在市场上逐渐崭露头角,得到了越来越多的关注和认可。他在行业内赢得了口碑,公司的规模也不断扩大。
终于有一天,他的努力得到了回报。一家大型投资机构决定向他的公司投资,并且支持他实现更大的目标。
张强的成功并非偶然,而是他对梦想的坚持和不屈不挠的努力所换来的。他的故事告诉我们,只要有梦想,不怕困难,坚持不懈地去追求,就一定能够实现自己的目标。
In [8]: response, history = model.chat(tokenizer, "给这个故事起一个标题", history=history)
In [9]: print(response)
《青年创业者:从零到一的奋斗之旅》 conda export环境name: cu121
channels:
- pytorch
- nvidia
- defaults
dependencies:
- _libgcc_mutex=0.1=main
- _openmp_mutex=5.1=1_gnu
- abseil-cpp=20211102.0=hd4dd3e8_0
- arrow-cpp=11.0.0=h374c478_2
- asttokens=2.0.5=pyhd3eb1b0_0
- aws-c-common=0.6.8=h5eee18b_1
- aws-c-event-stream=0.1.6=h6a678d5_6
- aws-checksums=0.1.11=h5eee18b_2
- aws-sdk-cpp=1.8.185=h721c034_1
- backcall=0.2.0=pyhd3eb1b0_0
- blas=1.0=mkl
- boost-cpp=1.82.0=hdb19cb5_2
- bottleneck=1.3.5=py311hbed6279_0
- brotli-python=1.0.9=py311h6a678d5_7
- bzip2=1.0.8=h7b6447c_0
- c-ares=1.19.1=h5eee18b_0
- ca-certificates=2023.12.12=h06a4308_0
- certifi=2023.11.17=py311h06a4308_0
- cffi=1.16.0=py311h5eee18b_0
- charset-normalizer=2.0.4=pyhd3eb1b0_0
- cryptography=41.0.7=py311hdda0065_0
- cuda-cudart=12.1.105=0
- cuda-cupti=12.1.105=0
- cuda-libraries=12.1.0=0
- cuda-nvrtc=12.1.105=0
- cuda-nvtx=12.1.105=0
- cuda-opencl=12.3.101=0
- cuda-runtime=12.1.0=0
- decorator=5.1.1=pyhd3eb1b0_0
- executing=0.8.3=pyhd3eb1b0_0
- ffmpeg=4.3=hf484d3e_0
- filelock=3.13.1=py311h06a4308_0
- freetype=2.12.1=h4a9f257_0
- gflags=2.2.2=he6710b0_0
- giflib=5.2.1=h5eee18b_3
- glog=0.5.0=h2531618_0
- gmp=6.2.1=h295c915_3
- gmpy2=2.1.2=py311hc9b5ff0_0
- gnutls=3.6.15=he1e5248_0
- grpc-cpp=1.48.2=he1ff14a_1
- icu=73.1=h6a678d5_0
- idna=3.4=py311h06a4308_0
- intel-openmp=2023.1.0=hdb19cb5_46306
- ipython=8.15.0=py311h06a4308_0
- jedi=0.18.1=py311h06a4308_1
- jinja2=3.1.2=py311h06a4308_0
- jpeg=9e=h5eee18b_1
- krb5=1.20.1=h143b758_1
- lame=3.100=h7b6447c_0
- lcms2=2.12=h3be6417_0
- ld_impl_linux-64=2.38=h1181459_1
- lerc=3.0=h295c915_0
- libboost=1.82.0=h109eef0_2
- libbrotlicommon=1.0.9=h5eee18b_7
- libbrotlidec=1.0.9=h5eee18b_7
- libbrotlienc=1.0.9=h5eee18b_7
- libcublas=12.1.0.26=0
- libcufft=11.0.2.4=0
- libcufile=1.8.1.2=0
- libcurand=10.3.4.101=0
- libcurl=8.4.0=h251f7ec_1
- libcusolver=11.4.4.55=0
- libcusparse=12.0.2.55=0
- libdeflate=1.17=h5eee18b_1
- libedit=3.1.20230828=h5eee18b_0
- libev=4.33=h7f8727e_1
- libevent=2.1.12=hdbd6064_1
- libffi=3.4.4=h6a678d5_0
- libgcc-ng=11.2.0=h1234567_1
- libgfortran-ng=11.2.0=h00389a5_1
- libgfortran5=11.2.0=h1234567_1
- libgomp=11.2.0=h1234567_1
- libiconv=1.16=h7f8727e_2
- libidn2=2.3.4=h5eee18b_0
- libjpeg-turbo=2.0.0=h9bf148f_0
- libnghttp2=1.57.0=h2d74bed_0
- libnpp=12.0.2.50=0
- libnvjitlink=12.1.105=0
- libnvjpeg=12.1.1.14=0
- libpng=1.6.39=h5eee18b_0
- libprotobuf=3.20.3=he621ea3_0
- libssh2=1.10.0=hdbd6064_2
- libstdcxx-ng=11.2.0=h1234567_1
- libtasn1=4.19.0=h5eee18b_0
- libthrift=0.15.0=h1795dd8_2
- libtiff=4.5.1=h6a678d5_0
- libunistring=0.9.10=h27cfd23_0
- libuuid=1.41.5=h5eee18b_0
- libwebp=1.3.2=h11a3e52_0
- libwebp-base=1.3.2=h5eee18b_0
- llvm-openmp=14.0.6=h9e868ea_0
- lz4-c=1.9.4=h6a678d5_0
- markupsafe=2.1.1=py311h5eee18b_0
- matplotlib-inline=0.1.6=py311h06a4308_0
- mkl=2023.1.0=h213fc3f_46344
- mkl-service=2.4.0=py311h5eee18b_1
- mkl_fft=1.3.8=py311h5eee18b_0
- mkl_random=1.2.4=py311hdb19cb5_0
- mpc=1.1.0=h10f8cd9_1
- mpfr=4.0.2=hb69a4c5_1
- mpi=1.0=mpich
- mpi4py=3.1.4=py311hfc96bbd_0
- mpich=3.3.2=external_0
- mpmath=1.3.0=py311h06a4308_0
- ncurses=6.4=h6a678d5_0
- nettle=3.7.3=hbbd107a_1
- networkx=3.1=py311h06a4308_0
- numexpr=2.8.7=py311h65dcdc2_0
- numpy=1.26.2=py311h08b1b3b_0
- numpy-base=1.26.2=py311hf175353_0
- openh264=2.1.1=h4ff587b_0
- openjpeg=2.4.0=h3ad879b_0
- openssl=3.0.12=h7f8727e_0
- orc=1.7.4=hb3bc3d3_1
- pandas=2.1.4=py311ha02d727_0
- parso=0.8.3=pyhd3eb1b0_0
- pexpect=4.8.0=pyhd3eb1b0_3
- pickleshare=0.7.5=pyhd3eb1b0_1003
- pillow=10.0.1=py311ha6cbd5a_0
- pip=23.3.1=py311h06a4308_0
- prompt-toolkit=3.0.36=py311h06a4308_0
- ptyprocess=0.7.0=pyhd3eb1b0_2
- pure_eval=0.2.2=pyhd3eb1b0_0
- pyarrow=11.0.0=py311hd8e8d9b_1
- pycparser=2.21=pyhd3eb1b0_0
- pygments=2.15.1=py311h06a4308_1
- pyopenssl=23.2.0=py311h06a4308_0
- pysocks=1.7.1=py311h06a4308_0
- python=3.11.5=h955ad1f_0
- python-dateutil=2.8.2=pyhd3eb1b0_0
- python-tzdata=2023.3=pyhd3eb1b0_0
- pytorch=2.1.1=py3.11_cuda12.1_cudnn8.9.2_0
- pytorch-cuda=12.1=ha16c6d3_5
- pytorch-mutex=1.0=cuda
- pytz=2023.3.post1=py311h06a4308_0
- pyyaml=6.0.1=py311h5eee18b_0
- re2=2022.04.01=h295c915_0
- readline=8.2=h5eee18b_0
- requests=2.31.0=py311h06a4308_0
- scipy=1.11.4=py311h08b1b3b_0
- setuptools=68.2.2=py311h06a4308_0
- six=1.16.0=pyhd3eb1b0_1
- snappy=1.1.10=h6a678d5_1
- sqlite=3.41.2=h5eee18b_0
- stack_data=0.2.0=pyhd3eb1b0_0
- sympy=1.12=py311h06a4308_0
- tbb=2021.8.0=hdb19cb5_0
- tk=8.6.12=h1ccaba5_0
- torchaudio=2.1.1=py311_cu121
- torchtriton=2.1.0=py311
- torchvision=0.16.1=py311_cu121
- traitlets=5.7.1=py311h06a4308_0
- tzdata=2023c=h04d1e81_0
- urllib3=1.26.18=py311h06a4308_0
- utf8proc=2.6.1=h27cfd23_0
- wcwidth=0.2.5=pyhd3eb1b0_0
- wheel=0.41.2=py311h06a4308_0
- xz=5.4.5=h5eee18b_0
- yaml=0.2.5=h7b6447c_0
- zlib=1.2.13=h5eee18b_0
- zstd=1.5.5=hc292b87_0
- pip:
- accelerate==0.25.0
- aiofiles==23.2.1
- altair==5.2.0
- annotated-types==0.6.0
- anyio==3.7.1
- attrs==23.1.0
- click==8.1.7
- contourpy==1.2.0
- cycler==0.12.1
- einops==0.7.0
- fastapi==0.105.0
- ffmpy==0.3.1
- fonttools==4.47.0
- fsspec==2023.12.2
- gradio==3.41.2
- gradio-client==0.5.0
- h11==0.14.0
- httpcore==1.0.2
- httpx==0.26.0
- huggingface-hub==0.20.1
- importlib-resources==6.1.1
- jsonschema==4.20.0
- jsonschema-specifications==2023.11.2
- kiwisolver==1.4.5
- latex2mathml==3.77.0
- markdown==3.5.1
- matplotlib==3.8.2
- mdtex2html==1.2.0
- orjson==3.9.10
- packaging==23.2
- psutil==5.9.7
- pydantic==2.5.2
- pydantic-core==2.14.5
- pydub==0.25.1
- pyparsing==3.1.1
- python-multipart==0.0.6
- referencing==0.32.0
- regex==2023.10.3
- rpds-py==0.15.2
- safetensors==0.4.1
- semantic-version==2.10.0
- sniffio==1.3.0
- starlette==0.27.0
- tiktoken==0.5.2
- tokenizers==0.15.0
- toolz==0.12.0
- tqdm==4.66.1
- transformers==4.36.2
- transformers-stream-generator==0.0.4
- typing-extensions==4.9.0
- uvicorn==0.25.0
- websockets==11.0.3
prefix: /root/miniconda3/envs/cu121 |
有没有容易复现的样例供我们参考下 |
name: Qwen_vllm
dependencies:
- _libgcc_mutex=0.1=conda_forge
- _openmp_mutex=4.5=2_gnu
- bzip2=1.0.8=hd590300_5
- ca-certificates=2023.11.17=hbcca054_0
- ld_impl_linux-64=2.40=h41732ed_0
- libffi=3.4.2=h7f98852_5
- libgcc-ng=13.2.0=h807b86a_3
- libgomp=13.2.0=h807b86a_3
- libnsl=2.0.1=hd590300_0
- libsqlite=3.44.2=h2797004_0
- libuuid=2.38.1=h0b41bf4_0
- libzlib=1.2.13=hd590300_5
- ncurses=6.4=h59595ed_2
- openssl=3.2.0=hd590300_1
- pip=23.3.2=pyhd8ed1ab_0
- python=3.10.13=hd12c33a_0_cpython
- readline=8.2=h8228510_1
- setuptools=68.2.2=pyhd8ed1ab_0
- tk=8.6.13=noxft_h4845f30_101
- xz=5.2.6=h166bdaf_0
- pip:
- accelerate==0.25.0
- aiofiles==23.2.1
- aiohttp==3.9.1
- aioprometheus==23.3.0
- aiosignal==1.3.1
- altair==5.2.0
- anyio==3.7.1
- async-timeout==4.0.3
- attrs==23.1.0
- auto-gptq==0.6.0
- certifi==2023.11.17
- charset-normalizer==3.3.2
- click==8.1.7
- coloredlogs==15.0.1
- contourpy==1.2.0
- cycler==0.12.1
- datasets==2.15.0
- dill==0.3.7
- dropout-layer-norm==0.1
- einops==0.7.0
- exceptiongroup==1.2.0
- fastapi==0.105.0
- ffmpy==0.3.1
- filelock==3.13.1
- flash-attn==2.3.6
- fonttools==4.47.0
- frozenlist==1.4.1
- fschat==0.2.34
- fsspec==2023.10.0
- gekko==1.0.6
- gradio==3.50.2
- gradio-client==0.6.1
- h11==0.14.0
- httpcore==1.0.2
- httptools==0.6.1
- httpx==0.26.0
- huggingface-hub==0.20.1
- humanfriendly==10.0
- idna==3.6
- importlib-resources==6.1.1
- jinja2==3.1.2
- jsonschema==4.20.0
- jsonschema-specifications==2023.11.2
- kiwisolver==1.4.5
- latex2mathml==3.77.0
- markdown==3.5.1
- markdown-it-py==3.0.0
- markdown2==2.4.12
- markupsafe==2.1.3
- matplotlib==3.8.2
- mdtex2html==1.2.0
- mdurl==0.1.2
- mpmath==1.3.0
- msgpack==1.0.7
- multidict==6.0.4
- multiprocess==0.70.15
- networkx==3.2.1
- nh3==0.2.15
- ninja==1.11.1.1
- numpy==1.26.2
- optimum==1.16.1
- orjson==3.9.10
- packaging==23.2
- pandas==2.1.4
- peft==0.7.1
- pillow==10.1.0
- prompt-toolkit==3.0.43
- protobuf==4.25.1
- psutil==5.9.7
- pyarrow==14.0.2
- pyarrow-hotfix==0.6
- pydantic==1.10.13
- pydub==0.25.1
- pygments==2.17.2
- pyparsing==3.1.1
- python-dateutil==2.8.2
- python-dotenv==1.0.0
- python-multipart==0.0.6
- pytz==2023.3.post1
- pyyaml==6.0.1
- quantile-python==1.1
- ray==2.9.0
- referencing==0.32.0
- regex==2023.10.3
- requests==2.31.0
- rich==13.7.0
- rotary-emb==0.1
- rouge==1.0.1
- rpds-py==0.15.2
- safetensors==0.4.1
- scipy==1.11.4
- semantic-version==2.10.0
- sentencepiece==0.1.99
- shortuuid==1.0.11
- six==1.16.0
- sniffio==1.3.0
- starlette==0.27.0
- svgwrite==1.4.3
- sympy==1.12
- tiktoken==0.5.2
- tokenizers==0.15.0
- toolz==0.12.0
- torch==2.1.2+cu121
- torchaudio==2.1.2+cu121
- torchvision==0.16.2+cu121
- tqdm==4.66.1
- transformers==4.36.2
- transformers-stream-generator==0.0.4
- triton==2.1.0
- typing-extensions==4.9.0
- tzdata==2023.3
- urllib3==2.1.0
- uvicorn==0.24.0.post1
- uvloop==0.19.0
- vllm==0.2.6
- watchfiles==0.21.0
- wavedrom==2.0.3.post3
- wcwidth==0.2.12
- websockets==11.0.3
- wheel==0.41.3
- xformers==0.0.23.post1
- xxhash==3.4.1
- yarl==1.9.4
prefix: /home/user/.conda/envs/Qwen_vllm |
是否可以发起个远程协助,请 @jklj077 在我们 5 张 A6000 的机器上看看情况,前面提到通过 A10 没有复现,而我们目前应该算是有稳定的复现场景 |
这个环境我重建总报错,有不在官方源中的软件包,也有些依赖不满足;删掉后能重建成功,但就不是提供的环境了。 排除软件环境问题还有一个办法,如果有docker的话,可以pull一下我们提供的docker镜像看看多卡是否还能复现。 |
我也遇到了同样的报错问题。 OS: Windows 10.0.19045.2006 我把整个运行环境打了个包,希望能对复现问题有帮助: |
目前测下来的情况应该和环境没关系。Qwen1.8B、Qwen72B int4单卡都可以正常推,多卡(device_map="auto")就会出现这个问题。重新搭环境部署baichuan2-13B,也出现了这种情况(单卡正常推,多卡tensor异常)。debug出现的问题与baichuan-inc/Baichuan2#291 比较相似,应该是forward,output生成中的某一步有问题,不知道是和卡(A6000)有关,还是其他情况。有哪些函数/方法/config和多卡推理相关吗?模型是正常均匀加载的,推理报错,具体的问题还在继续排查。 |
测试代码:
问题:
经过所有block后() hidden_states值变得很奇怪,并换了机器:
经过多次forward ,generate循环,变成空 :
Qwen-72B-Chat: |
|
您好, 我这边一样的问题, 四卡3090, 环境的话 用native和 你们的docker都试过, 单卡推理没有问题, 多卡就会报错, 模型可以加载到指定的卡上去, 但是chat 就不行 |
尝试禁用部分计算卡:
|
同样问题,自己服务器运行72B,用6张v100S报和楼主一样的错误,乱码报错;相同的软件环境用单张4090+大内存,chat一句话成功了。魔塔还是huggingface的都下载试过了,而且文件做了校验是对的,都是一样的问题,是不是对老显卡的多卡支持有问题? 现在我又在6*v100s试过了千问14B,device_map=cuda:0 可以正常运行,设置为auto就会复现错误。 |
@lpy86786 感谢提供信息!可以看下禁用卡前后 |
@chopin1998 您用提供的docker image也会有问题的话,个人感觉硬件配置问题的可能性更大。但我们的环境都复现不出来这个问题,我们也没什么解决办法。 |
@xfcoms 感觉基本排除软件环境的问题了。因为相对新的显卡(A6000)也有报这个问题,似乎跟显卡新旧关系有限。 |
各位的显卡之间有SLI之类的连接吗 |
没有哈,直接插的超微服务器 |
没有。用的组装机 |
用cmd执行此命令报错 ERROR: Option -m is missing its value. |
我已经在自己机器上解决了此问题。
如果从缺少显示输出的角度出发来考虑:对于仅有计算卡的机器,如果接个亮机卡到机器上,再配一个显示器或者显卡欺骗器能否解决问题?如果有3090,接个显示器或者显卡欺骗器有没有可能解决?如果不接,仅靠修改计算卡的模式为WDDM能否解决?Linux下与Windows下的WDDM模式有何区别? |
如果Windows下的WDDM可以、TCC不可以,怀疑是NVIDIA Driver有BUG. |
但是我就是在linux下用的呀。。也是这个问题。。。 |
重装了系统,win11,问题解决了 :) |
@matianlongg ubuntu转windows了嘛,也是个办法 😂 。 如果是专业卡的话,NVIDIA有data center系列的driver,见https://docs.nvidia.com/datacenter/tesla/index.html |
好的 😂 我试试 |
换A40之后,一切正常。。 |
@lpy86786 我按照您的方式操作了一番,我也是P40*4,我发现正常模型可以,但是INT4、INT8都不行,还是会出现之前那个错误,这个您有试过吗? |
@306404391 在我的机器上能够正常使用官方案例运行未量化模型、int4与int8,都没问题的。 |
谢谢哈,我再试试 |
我没有更新驱动,但是我部署chatglm2-6b-int4是没有问题的,但是我部署qwen系列的量化模型无论单卡还是多卡都是报相同的错误,我还用了qwen的docker镜像试过了,一样的问题 @jklj077 可以帮忙看看吗? |
However, for quantized models, this error could arise due to changes in hyper-parameters in generation like It's worth noting that Qwen(1.0) models and associated codes are no longer under active development or receiving feature updates. The project has evolved into Qwen1.5, which offers better integration with the |
请问您那边的P40可以使用VLLM吗?我这边也是P40的机器安装VLLM后加载模型就会报错了,不知道什么原因,用的是qwen72-gptq版本的 |
@yuhp-zts |
4090用官方docker镜像,跑Qwen1.5-14B-Chat-GPTQ-Int8单卡正常,双卡就报这个错误。 Driver Version: 530.30.02 CUDA Version: 12.1 |
设置do_sample=False可以解决 |
目前排查结果,4张显卡,单卡运行14B模型都没问题,双卡运行72B-int8-Chat时,双卡之间通信协议如果是PXB,就会乱回,双卡通信协议为SYS就可以正常使用 |
确实是这样,我的输出如下,通过测试也确认0,2 0,3 1,2 1,3这种SYS的可以,PXB则不行。 而jklj077 给出的可用环境中GPU之间没有PXB。 #848 (comment) matianlongg和chopin1998通过重装系统和修改注册表解决问题,是否说明可以通过驱动解决这个问题。 |
/cc @JingyiChang @chopin1998 |
这个问题可以结束了。 qwen已经停止, 转向qwen 1.5 |
是的,我就是在跑qwen1.5出现这个问题的。 |
我这边解决的方式是:(我用的是qwen2-7b-instruct) 安装方式参考的官网建议方式:https://pytorch.org/get-started/locally/ |
我用的是glm,报这个错看到是在transformers库里的utils.py中,所以以为是库版本的问题,或者glm代码的问题,尝试了很久很久依然没有解决。。。 |
是否已有关于该错误的issue或讨论? | Is there an existing issue / discussion for this?
该问题是否在FAQ中有解答? | Is there an existing answer for this in FAQ?
当前行为 | Current Behavior
执行web_demo.py,本地加载模型,问答框界面是:回复内容是多种语言随机组合,生成部分无语义、无逻辑文字后,报该错误。
1.部署Qwen_1.8B-Chat 也遇到该问题,参考其他issue,设置device_map="cuda:0",该问题消失。
2.部署Qwen72B,再次遇到该问题,参考其他相关issue修改do_sample,topk,temperature均未解决。
后台显卡占用:
-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.116.04 Driver Version: 525.116.04 CUDA Version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
| 0 NVIDIA RTX A6000 Off | 00000000:01:00.0 Off | Off |
| 30% 39C P2 93W / 300W | 27262MiB / 49140MiB | 99% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 1 NVIDIA RTX A6000 Off | 00000000:23:00.0 Off | Off |
| 30% 38C P2 76W / 300W | 29882MiB / 49140MiB | 3% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 2 NVIDIA RTX A6000 Off | 00000000:81:00.0 Off | Off |
| 30% 38C P2 70W / 300W | 29882MiB / 49140MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 3 NVIDIA RTX A6000 Off | 00000000:C1:00.0 Off | Off |
| 30% 39C P2 80W / 300W | 29882MiB / 49140MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
| 4 NVIDIA RTX A6000 Off | 00000000:E1:00.0 Off | Off |
| 30% 37C P2 76W / 300W | 28926MiB / 49140MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
结合1.8B部署考虑是不是transformer架构模型并行,但单卡推理引发的问题?尝试使用vllm框架,设置tensor_parallel_size=4,后台:
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.146.02 Driver Version: 535.146.02 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA RTX A6000 Off | 00000000:01:00.0 Off | Off |
| 30% 46C P2 99W / 300W | 1060MiB / 49140MiB | 100% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 1 NVIDIA RTX A6000 Off | 00000000:23:00.0 Off | Off |
| 30% 47C P2 99W / 300W | 1068MiB / 49140MiB | 100% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 2 NVIDIA RTX A6000 Off | 00000000:81:00.0 Off | Off |
| 30% 46C P2 91W / 300W | 1068MiB / 49140MiB | 100% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 3 NVIDIA RTX A6000 Off | 00000000:C1:00.0 Off | Off |
| 30% 50C P2 104W / 300W | 1028MiB / 49140MiB | 100% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 4 NVIDIA RTX A6000 Off | 00000000:E1:00.0 Off | Off |
| 30% 27C P8 7W / 300W | 3MiB / 49140MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
显存占用太少了,这是模型没完全加载?等待很久后报错:
期望行为 | Expected Behavior
能够正常运行Qwen-72B-Chat
复现方法 | Steps To Reproduce
除了generation_config修改,其他代码未动,执行web_demo.py,设置本地加载模型。(模型是hugging face下载的)flash_attn=false.
generation_config:
运行环境 | Environment
备注 | Anything else?
No response
The text was updated successfully, but these errors were encountered: