大语言模型发展很快,**7.4 Empirical Evaluation** 中的模型和能力,已经难以作为今天模型的参考了,时隔一年后,无论是开源模型还是闭源模型都有了长足的进展,特别是关于开源模型的 **Human Alignment** 和 **Tool Manipulation**。  因此建议更新这一节所使用的模型以及对应数据。