Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

与展示效果存在差距(无连续对话效果,回答不匹配) #8

Closed
pengxiao-song opened this issue Jun 1, 2023 · 11 comments

Comments

@pengxiao-song
Copy link

感谢您的工作,如图:
image

@wabyking
Copy link
Contributor

wabyking commented Jun 1, 2023

你好,感谢“你的感谢”。

可能我语文比较差,我得为HuatuoGPT打个抱不平,从这个例子中,我感觉她做地很棒,值得我为她鼓掌!我为HuatuoGPT做到这样感到骄傲!

您提到的“展示效果”,您能给我分享一下吗?

“没有连续对话能力”?你是认真说的?

Best,
Benyou

@pengxiao-song
Copy link
Author

image

  1. 关于“展示效果”:刚拜读文章,发现“机器之心”公众号的第一张图片(如上图)右侧回答并不是 HuatuoGPT 模型效果,而是人类医生效果。
  2. 关于“没有连续对话效果”:并非“没有连续对话能力”,而是误以为 HuatuoGPT 已经在类似“我肚子痛”的简单问题上初步具备了人类医生的连续问询效果。

@wabyking
Copy link
Contributor

wabyking commented Jun 1, 2023

  1. 所以您确认,没有发现我们模型的展示效果,对吧?我们没有误导读者。就算我们展示医生的效果误导读者,也已经在论文题目里加了“towards”。
  2. 语言模型生成具有随机性,并不能保证每次都可以反问。模型本身回复可能就应该是参差多态,才是生活本色——我们是单一的模型,研究为主;不是产品,也离落地差很远对特定场景我们可以优化。不然我把温度调低,每次反问,没有多大意思。Anyway, 我愿意相信[HuatuoGPT 已经在类似“我肚子痛”的简单问题上初步具备了人类医生的连续问询效果。],但是她没有义务每次都反问!

@pengxiao-song
Copy link
Author

您的工作很有价值,您确实可以认为上述效果”感觉她做地很棒,值得我为她鼓掌,我为HuatuoGPT做到这样感到骄傲!”,然而客观来讲,演示结果也有进步空间。关于“温度调低,每次反问”的真实性、医疗模型“模型本身回复可能就应该是参差多态”等问题,真理会越辩越明。

HuatuoGPT 确实没有义务每次都反问,正如它没有义务回答正确。但是作为科研人员,或许有义务发现问题、提出问题、解决问题,我认为这是值得鼓励的,鄙见如此。

Keep calm and carry on

@wabyking
Copy link
Contributor

wabyking commented Jun 2, 2023 via email

@pengxiao-song
Copy link
Author

我可能语文差,您提到的“演示效果”到底是什么?您自己也承认,那是医生的回复,不是HuatuoGPT的回复!
您跟人聊天,对方每句都反问你?这是流畅的对话?您去医院,医生就只能反问,别的不能说?您就用一个例子就说我们模型不能反问? 这就是真理? --
你觉得我这样反问您,这个对话您听着很舒服。您希望我们HuatuoGPT这样,我不喜欢。您要是喜欢这样的100%反问GPT,您去开发。

  1. 关于“您就用一个例子就说我们模型不能反问? 这就是真理?”:从没有说模型不能反问,请不要混淆视听,这也当然不是真理.....具体解释请见上一条回复。如果您想系统评估反问对话能力,请便,期待您的工作!
  2. 关于“你觉得我这样反问您,这个对话您听着很舒服。您希望我们HuatuoGPT这样,我不喜欢。您要是喜欢这样的100%反问GPT,您去开发。”:无中生有。

真理是越辩越明,HuatuoGPT可能不站在整理这边,但是我们的技术报告全部是都是客观的,都是定量的和系统的。您的真理就一个例子,就说“与展示效果存在差距(无连续对话效果,回答不匹配) ”1. 您提到的“展示效果”不是我们模型的,是医生的 2. “无连续对话效果”,您解释说没有反问能力,我要是给您一个反问能力的例子,您的“真理”就破了。 3. “回答不匹配”,其他的例子不匹配就算了,您这个例子叫“不匹配”?

前两点请仔细阅读上述回复。关于第三点,参考公众号的第一张图的回复,“肚子疼”的问题和“胃疼”的回复为什么不能叫不匹配呢...

我没法平静,也没有义务。我们熬夜干活儿,开源技术方案,写技术报告,分享社区,宣传全部都是客观定量的。您一个例子就否定了,给了三个结论,没有一个结论让我能平静。

  1. “我们熬夜干活儿,开源技术方案,写技术报告,分享社区,宣传全部都是客观定量的。”:从未否定这份优秀的工作,向默默辛勤付出的同学表示敬意。我相信踏实工作的同学是希望收到反馈,让自己辛勤培育的项目慢慢变好的,而您作为 repo maintainer,提交了 4 个只有 README 的 commit,却在这里对着一条反馈 issue “不平静”的时候,是不是考虑一下多做点实际工作呢?

image

image

“您一个例子就否定了,给了三个结论,没有一个结论让我能平静”

从未否定/质疑工作价值,只针对模型效果礼貌地提出积极的反馈,不过你好像不太欢迎。

同学或老师,我建议你打开这个issue,别关掉。也惊醒一下我们开发HuatuoGPT的团队,以后多往真理的道路上靠一靠。

从未否定工作价值,会虚心学习这份工作。不过您个人能代表团队吗? 前述只是针对您个人的回复就事论事地讨论科研问题。我不是真理,我也没资格提醒。退一万步,即便需要提醒,也不需要提醒整个团队。

issue 的目的是:跟踪项目问题,协作处理问题和讨论改进。

您不欢迎出现问题,那就关闭。

不然留着干嘛呢?浪费所有人的时间吗?

祝好,
期待幕后工作的同学们让 HuatuoGPT 更优秀。

@wabyking
Copy link
Contributor

wabyking commented Jun 2, 2023

不管如何,我不想让这个讨论变得攻击性太强。

如果您还有时间,避免我的语文成绩太差,我想请你披露您以您机构的名义或者代表您个人解释一下“与展示效果存在差距(无连续对话效果,回答不匹配)”的内涵。我的语文太差,解读的都和您的不符,对您也不友好。我将不会再回复您的内容,避免无意义的键盘行为升级。

请用无歧义的语言解释一下:

  1. “展示效果” 是什么? 具体指的是什么? 医生的?还是HuatuoGPT?
  2. “无连续对话效果”的意思到底是什么?
  3. “回答不匹配”意味着什么?

您这绝对不是“礼貌的反馈”! 至少作为项目维护者之一,我觉得它不是!我还没问项目组其他人,我也不想因为这个打扰大家。您自己说的礼貌,听的人可不是这么认为的,您又不是说给自己听的。您这样的反馈和标题,我作为开发者之一,不仅仅是不舒服,还觉得非常冒犯和生气,这个已经无法挽回。

您这么重要的issuse,我想它能够代表您的机构或者个人的批判精神,留在open 的issues里面。我们issues里面欢迎所有人提出负面的反馈。但是讨论了几遍都不知道您论点的反馈,以及一个例子就否定的例子,我非常愤怒。

我当然能代表团队!但是这条issue里面我代表的是我自己,不代表团队!

我做不做实际工作,不需要您的指导。我摸鱼用您家鱼塘了吗?

王本友
香港中文大学(深圳)数据科学学院

@wabyking
Copy link
Contributor

wabyking commented Jun 2, 2023

这个讨论先告一段落,欢迎大家提issue,我们接受批评和负面的反馈。

@wabyking
Copy link
Contributor

wabyking commented Jun 2, 2023

关于“没有连续对话效果”:并非“没有连续对话能力”,而是误以为 HuatuoGPT 已经在类似“我肚子痛”的简单问题上初步具备了人类医生的连续问询效果。

如下图,HuatuoGPT当然初步具备了人类医生的连续问询效果,只是它不会每次都连续问询。

image

@zhangyanbo2007
Copy link

吃瓜的我,看完了,哎!

@Stardust-hyx
Copy link

Stardust-hyx commented Jun 9, 2023 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants