第三章习题 #633
Unanswered
EverySeptember
asked this question in
💬 Exercises & Q&A
第三章习题
#633
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
习题1:
n-gram将词视为孤立的、离散的符号,造成了以下的问题
数据稀缺性:如果一个词序从未在语料库中出现过,那么n-gram的预测概率就是0
泛化能力差:无法理解近义词
上下文窗口固定:只能记住固定长度的前文内容
Transformer:自注意力机制,通过计算词在融合上下文后的权重,来与其他词产生关联,解决孤立问题;位置编码解决离散型问题
习题2
位置编码是用来给词元提供位置信息的,位置编码不会直接参与处理多头拆分与合并事项,而是在编码阶段就参与到编码计算中
当前的大模型,并不需要理解问题是什么,它做的内容是根据已有的内容预测接下来的内容;那么用户的问题将不再是问题,而是大模型输出内容的一部分:大模型要做的是根据用户提供的内容进行“接龙”就好
习题3
词表爆炸:每一个语言的词汇量都是巨大的,将所有的词汇都录入词表是非常大非常难以实现的工程
按照字符录入:单个字符大多不具备独立语义,模型需要花费更多的成本去处理和学习字符的组合,效率非常低;
BPE可以在满足词表阈值限制的情况下,将语料库中的出现频次最高的词组录入词表,保证了当前资源限制情况下最高词频词汇的学习效果
习题4
最重要的是,企业客户会接触大量的客户数据,用于跟客户进行沟通,在数据安全性的问题上,只能考虑私有化部署。
习题5
(ii)增加了一个事实意识空白,强调具有明显正确性差异的配对,同时当两个回答都具有相同的事实性时,减少到标准DPO。
习题6
其次模型需要具有推理能力,能够根据论文内容进行推断论证,能够理解并生成逻辑合理的大纲;
再次,模型需要具有多模态的能力,大多论文都具有大量图表,需要模型能够识别图表进行辅助理解与信息提取;
再次,模型的幻觉一定要少,论文是严谨的内容,在不懂的时候一定可以反馈或者终止,不能胡编乱造;性能、部署方式、开源或者闭源影像都不是很大,可以让AI在阅读理解的时候让客户在合理时间范围等待;
最后综上,满足上述条件后,选在一个在成本可控范围内最便宜的
(单智能体模式)首先阅读论文大纲和论文目录,将论文内容进行拆分,然后按照拆分结果逐一阅读理解;每完成一次阅读,将当前结果生成结构型文档,然后压缩上下文进行下一部分阅读,如果在候选部分的阅读过程中有不懂的地方,首先到上一部分生成的文档中寻找相关内容,如果没有找到再到互联网进行搜索;最后完成所有内容的分析后,将所有已经生成的文档进行汇总并形成报告给我
Beta Was this translation helpful? Give feedback.
All reactions