第三章习题 #633

EverySeptember · 2026-05-27T02:50:11Z

EverySeptember
May 27, 2026

习题1:

0.167

# --- 第一步:计算 P(datawhale) ---
count_agent = tokens.count('agent')
p_agent = count_agent / total_tokens
print(f"第一步: P(agent) = {count_agent}/{total_tokens} = {p_agent:.3f}")

# --- 第二步:计算 P(works|agent) ---
# 先计算 bigrams 用于后续步骤
bigrams = zip(tokens, tokens[1:])
bigram_counts = collections.Counter(bigrams)
count_agent_works = bigram_counts[('agent', 'works')]
# count_agent 已在第一步计算
p_works_given_agent = count_agent_works / count_agent
print(f"第二步: P(works|agent) = {count_agent_works}/{count_agent} = {p_works_given_agent:.3f}")

# --- 最后:将概率连乘 ---
p_sentence = p_agent * p_works_given_agent
print(f"最后: P('datawhale agent learns') ≈ {p_agent:.3f} * {p_works_given_agent:.3f} = {p_sentence:.3f}")

一个句子中，第n个词出现的概率仅与前n-1个词有关
n-gram将词视为孤立的、离散的符号，造成了以下的问题
数据稀缺性：如果一个词序从未在语料库中出现过，那么n-gram的预测概率就是0
泛化能力差：无法理解近义词
上下文窗口固定：只能记住固定长度的前文内容
神经网络语言模型使用向量表示词，使用余弦相似度计算词与词之间的关联关系，这解决了孤立的问题；使用循环架构来解决离散性问题
Transformer：自注意力机制，通过计算词在融合上下文后的权重，来与其他词产生关联，解决孤立问题；位置编码解决离散型问题

习题2

通过计算权重来解释词与词之间的关联关系
RNN使用的是循环架构，它的短期记忆依靠隐藏状态循环传递，并行处理会造成状态传递混乱；Transformer架构使用的是多头注意力机制，它是对单头注意力机制的组合，每一次单头注意力计算都只计算单一关系，多种关系之间没有顺序关系，所以可以并行计算；
位置编码是用来给词元提供位置信息的，位置编码不会直接参与处理多头拆分与合并事项，而是在编码阶段就参与到编码计算中
Decoder-Only架构舍弃了编码器，只保留了解码器，其架构简单，训练成本低，天然适合生成式任务
当前的大模型，并不需要理解问题是什么，它做的内容是根据已有的内容预测接下来的内容；那么用户的问题将不再是问题，而是大模型输出内容的一部分：大模型要做的是根据用户提供的内容进行“接龙”就好

习题3

未登录词：无法处理没有在预训练语料库中出现过的词语
词表爆炸：每一个语言的词汇量都是巨大的，将所有的词汇都录入词表是非常大非常难以实现的工程
按照字符录入：单个字符大多不具备独立语义，模型需要花费更多的成本去处理和学习字符的组合，效率非常低；
BPE可以在满足词表阈值限制的情况下，将语料库中的出现频次最高的词组录入词表，保证了当前资源限制情况下最高词频词汇的学习效果

习题4

from modelscope import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-0.6B"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switches between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

prompt = """
文本:使用Java生成一个从当前的user对象中获取sex字段的函数
输出:public String getSex() {
        return this.user == null ? null : this.user.getSex();
    }
    
文本:使用Java生成一个从当前的user对象中获取age字段的函数
输出:public int getAge() {
        return this.user == null ? 0 : this.user.getAge();
    }

文本:使用Java生成一个从当前的user对象中获取name字段的函数
输出:
"""

prompt = """
有若干只鸡兔同在一个笼子里，从上面数，有35个头，从下面数，有94只脚。问笼中各有多少只鸡和兔？
请逐步思考。
"""

项目	开源	闭源
性能	无需考虑服务商负载降智等问题,性能表现比较稳定	当前闭源性能大多优于开源性能,但考虑到网络与服务商负载问题,性能表现会有波动
成本	自建资源成本高,后续使用成本低	无自建成本,每次使用时产生费用,调用成本高
可控性	自己搭建,私有化部署,权重开源,完全可控	控制权在服务商手中
隐私性	私有化部署,数据不外流	数据控制权在服务商手中,隐私性依赖法律监管

我会考虑私有化部署的开源模型
最重要的是，企业客户会接触大量的客户数据，用于跟客户进行沟通，在数据安全性的问题上，只能考虑私有化部署。

习题5

检索增强生成，在生成回答之前，通过检索外部知识库，将检索到的相关信息嵌入到上下文中，引导模型基于事实生成回答
F-DPO（事实感知直接偏好优化），这是DPO的一个简单扩展，只使用二进制事实标签。（i）应用标签翻转变换来纠正排序错误的偏好对，这样所选的回答就永远不会比被拒绝的回答更不真实。
（ii）增加了一个事实意识空白，强调具有明显正确性差异的配对，同时当两个回答都具有相同的事实性时，减少到标准DPO。

习题6

首先，上下文窗口尽可能要大，论文内容量庞大，如果没有足够大的上下文窗口，及其容易造成前脚读完后脚就忘，或者大规模压缩记忆造成关键记忆丢失；
其次模型需要具有推理能力，能够根据论文内容进行推断论证，能够理解并生成逻辑合理的大纲；
再次，模型需要具有多模态的能力，大多论文都具有大量图表，需要模型能够识别图表进行辅助理解与信息提取；
再次，模型的幻觉一定要少，论文是严谨的内容，在不懂的时候一定可以反馈或者终止，不能胡编乱造；性能、部署方式、开源或者闭源影像都不是很大，可以让AI在阅读理解的时候让客户在合理时间范围等待；
最后综上，满足上述条件后，选在一个在成本可控范围内最便宜的
（多智能体模式）首先阅读论文大纲和论文目录，将论文内容拆分给多个子智能体去阅读分析，然后各个子智能体汇总之后将结论提供给你，你综合汇总后形成报告给我
（单智能体模式）首先阅读论文大纲和论文目录，将论文内容进行拆分，然后按照拆分结果逐一阅读理解；每完成一次阅读，将当前结果生成结构型文档，然后压缩上下文进行下一部分阅读，如果在候选部分的阅读过程中有不懂的地方，首先到上一部分生成的文档中寻找相关内容，如果没有找到再到互联网进行搜索；最后完成所有内容的分析后，将所有已经生成的文档进行汇总并形成报告给我
提示智能体进行逻辑推理，判断论文的推理逻辑是否正确；让智能体去找该领域内的类似论文，阅读论文并对内容进行交叉比对，增强可信度

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

第三章习题 #633

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

第三章习题 #633

Uh oh!

EverySeptember May 27, 2026

习题1:

习题2

习题3

习题4

习题5

习题6

Replies: 0 comments

EverySeptember
May 27, 2026