-
Notifications
You must be signed in to change notification settings - Fork 47
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
BiLLa-7B-LLM生成文本问题 #16
Comments
不太正常 |
确实看起来有点奇怪。我得到周日才能抽出时间来再验证一下。 |
不过我也发现这个LLM,非sft,已转换embedding,生成结果不太对 总是会输出: 可以指: 或者输入Hi, Hello,返回空,或者返回world的情形。 楼主麻烦check一下是不是传错了模型。。。。 |
上传的模型应该是对的,但观察输出结果时,看到的现象跟你们一致。 我这边对比了原始的模型文件和上传的模型文件,确认两边参数是一致的。同时计算了两个模型的perplexity,跟README里结果也是一致的(甚至更低一点)。 目前推测这种现象跟模型训练方式有关:
所以,大概率可以通过提升prompt长度(至100~200字)来避免该现象的出现。 |
我这边训的好几个LORA基本上都是崩溃的,根本无法正常输出,训练数据就sft常用的coig alpaca_zn等数据,都是较长的输出。 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
用BiLLA-7b-LLM,根据issues# 8, 采用commit id=887dd5e259104ed6fe7816cd0c0997ab68bbb94e版本的pytorch_model-33-of-33.bin替换原来的权重,并且没有用embedding_convery.py。
测试代码如下
from transformers import LlamaForCausalLM, LlamaTokenizer
CKPT = 'BiLLa-7B-LLM'
DEVICE = 'cuda:0'
tokenizer = LlamaTokenizer.from_pretrained(CKPT, add_special_tokens=True)
model = LlamaForCausalLM.from_pretrained(CKPT).to(DEVICE)
prompts = ["我看见一群人走在大", "今天是个阳光明媚的", "这件事情的发展出乎意"]
for prompt in prompts:
生成结果如下:
<s> 我看见一群人走在大马路可以指:</s>
<s> 今天是个阳光明媚的日子,可以指:</s>
<s> 这件事情的发展出乎意料 </s>
请问这个结果是正常的吗
The text was updated successfully, but these errors were encountered: