## 1. 走进生成式AI
本章介绍生成式AI的基本概念，现状未来，使用场景及其局限性等问题。
### 1.1 生成式AI概述
广义上说，生成式AI（Generative AI）就是能够生成新事物的人工智能。现代意义上的生成式AI仍然属于机器学习范畴，本质上是基于概率与统计实现的人工智能。所以掌握机器学习的基础知识，对于理解生成式AI的概念和原理是很有必要的。这一小节介绍了机器学习的一些基本知识，重点是介绍了机器学习中广泛使用的梯度下降算法，以及在神经网络中使用的反向传播算法。
#### 1.1.1 机器学习概览
介绍机器学习的一些基本知识，如模型、权重、偏置、训练和推理等等。这些概念会在全书反复提到，它们是理解机器学习和生成式AI相关理论和算法的基础。
#### 1.1.2 梯度下降与反向传播
介绍梯度下降算法和反向传播算法，但限于篇幅，这里只简单介绍了它们的基本思想。笔者正在准备一篇关于梯度下降算法和反向传播算法的详细文章，后面会在下一本书中详细介绍。
#### 1.1.3 生成式与判别式
与生成式AI相对应的就是判别式AI（Discriminative AI），前者能够生成新的内容，而后者则主要以判断输入类别为主。相应的，人工智能任务也分为生成式任务（Generative tasks）和判别式任务（Discriminative tasks），而模型也分为生成式模型（Generative models）和判别式模型（Discriminative models）。以往人工智能多是生成式模型执行生成式任务，判别式模型执行判别式任务；但在这一轮人工智能发展过程中，生成式模型也开始执行判别式任务，并且执行效果比判别式模型更好。换句话说，生成式模型逐渐展现出来通用人工智能（General AI，GAI）的潜力。笔者认为能够区分模型的类别是选取模型的重要基础，而只有选择了正确的模型才能更好地解决各类人工智能问题。
#### 1.1.4 小模型与大模型
笔者认为，虽然学术界对模型大小并没有一个明确标准，但对于自然语言处理模型来说，当参数规模达到十亿级别时就可以称为大语言模型了。这主要基于以下两点：
- GPT-2的参数规模在这一量级上，并且大语言模型这一称呼也是在介绍GPT-2的论文中首次使用的
- 语言模型在达到这个量级之后，展现出来的超强泛化能力，这种能力在以往模型中从未观察到过，可以说是大语言模型独有的重要特征
但以上标准并不严谨，参数规模对普通人来说是最直观的一个参考标准，但训练数据集的大小、训练投入的算力（即训练的轮数、批次大小）等等都对模型性能有重要影响，本书第8章会更为精准的介绍。

### 1.2 解锁大模型
这一节主要从两个方面介绍解锁大模型的过程和方法，一是从整个人工智能的发展历程来看大模型是如何发展起来的，二是从应用大模型的角度介绍如何利用工程解锁大模型的涌现能力。
#### 1.2.1 从大数据到大模型
笔者曾在互联网大厂工作过几年，彼时在讨论大数据应用时经常面临如何挖掘大数据价值的问题。但没曾想才过了不到十年，大数据就成就了现在的大模型。不可否认，人工智能理论、模型和算法的提升是本轮生成式AI取得突破的重要基础，但大数据、算力基础设施的不断发展，也是成就大模型的关键基础。这一小节主要就是在讲数据、模型和算力之间的关系，以及它们的发展如何解锁了当代的大模型。
#### 1.2.2 涌现能力
涌现能力（Emergent Abilities）是大模型展现出来的重要特征，它表明大模型具有极强的泛化能力。下图展示了模型大小和模型性能之间的关系，可以看到当模型大小达到一个临界值后，模型性能会有一个明显的跃升：
![涌现能力](../res/images/ea.png)
#### 1.2.3 提示工程
介绍解锁大模型涌现能力的方法，即提示工程（Prompt Engineering）。提示工程就是在提示中以样例的形式让大模型明白任务意图。这种在提示中包含样例的提示方法称为上下文学习（In-context Learning，ICL）[ Brown et al. 2020, OpenAI: Language Models are Few-Shot Learners]，大体可分为零样本学习（Zero-shot Learning）、单样本学习（One-shot Learning）和多样本学习（Few-shot Learning）等三种方法。

### 1.3 拥抱生成式AI
本节主要介绍普通人如何在工作和生活中使用生成式AI。
#### 1.3.1 获取智能
由于训练成本高昂，从零开始训练自己的大模型并不现实，更可行的方式是使用预预训练的大模型。获取基于大模型的人工智能可通过以下三种方法：
- 使用面向公众的AI助手、聊天机器人、手机APP等等；适用于普通用户的一般应用
- 调用大模型服务接口，如OpenAI GPT-3等；适用于开发商业化应用
- 本地加载大模型，如Hugging Face Transformers；适用于定制化应用
以上三种方法，成本逐一递增。
#### 1.3.2 应用智能
这一小节主要介绍了生成式AI的一些应用场景，如：
- 获取知识，答疑解惑，提供建议
- 翻译、摘要和生成内容
- 创意、起名、头脑风暴
- 编码、视频和图像生成，即AIGC
- 逻辑推理、AI Agent等
要知识生成式AI和AIGC的区别，AIGC是基于生成式AI生成内容，它只是生成式AI的一个应用场景。
#### 1.3.3 知识截止与幻觉
主要介绍大模型的一些问题，以及如何避免这些问题的具体手段。

### 1.4 本章小结
本章介绍了生成式AI的基本概念和基本特征，同时还介绍了三种获取和应用生成式AI的方法及其注意事项。

生成式AI是相对于判别式AI的人工智能分支，只要是具备生成新事物能力的人工智能都可以认为是生成式AI。机器学习模型也可按此分为生成式模型和判别式模型两类，对应的人工智能任务同样可分为生成式任务和判别式任务两种。在传统机器学习模型中，生成式模型一般只能执行生成式任务，而判别式模型也只能执行判别式任务。现代生成式AI具有极强的泛化能力，不仅可以执行生成式任务，也可执行几乎所有类型的判别式任务。现代生成式AI模型具有两个典型特征，一是基于以转换器架构为主的深度神经网络，二是模型参数规模巨大。研究表明，基于转换器架构的大模型，在参数规模达到10亿级别以上时，会展现出惊人的涌现能力。大模型之所以称为大模型并非单纯因为参数多，而是在性能上也展现出以往模型所不具有的全新突破。
获取和应用生成式AI有三种主要方式，一是通过AI助手、聊天机器人等方式直接应用智能，二是利用模型发布的服务接口将智能集成到应用系统中，三是通过模型参数文件直接在本地加载和运行模型。对于普通大众来说，AI助手、聊天机器人等方式是最直接最简单，也是最快的了解生成式AI的方式。在生成式AI的时代背景下，人们获取知识的方式会发生根本性的改变。AI能够随时随提供专业级别的知识辅导，知识和经验在未来会变得越来越廉价。除了获取经验和知识以外，AI助手还在文本生成、内容摘要和语言翻译等方面能力非凡。而在代码编写、内容生成等方面，生成式AI更是大有实现“创造业”工业化的趋势。

生成式AI的各种应用正在悄然改变着人们的生活，但在应用生成式AI时也需掌握一些技巧和注意事项。最主要的技巧就是在给模型的提示中明确需求或是给出样本，从而引导模型生成高质量的内容。同时，还应该注意生成式AI知识截止、幻觉和偏见等问题，在关键问题上做交叉验证与核实，避免因模型误导作出错误的判断或决定。