## 2. 开发生成式AI
本章主要介绍开发生成式AI所需的编程语言、开发环境、开发步骤和工具等等。尽管生成式AI的理论和技术看上去很深奥，但生成式AI的开发却远没有想像中那么困难。只要稍微具备一些编程知识，并且对机器学习理论有所了解，借助第三方开源库就可以轻松开发基于生成式AI的应用。示例2.1所示的代码就是基于HuggingFace Transformers库开发的一段实现中英翻译的代码：

In [None]:
from transformers import pipeline
translator = pipeline("translation", model="Helsinki-NLP/opus-mt-zh-en")
result = translator("我喜欢这套人工智能丛书")
print(result)

读者通过本章学习，只要能够搭建起Python开发环境，并且可以运行上述代码就达到目的了。

### 2.1 搭建生成式AI项目
本书推荐使用Python语言并创建虚拟环境，推荐读者使用VSCode作为开发工具完成书中示例。
#### 2.1.1 安装Python
Python语言安装参考官方文档：https://www.python.org/downloads/，本书代码基于Python 3.12。
Python使用pip（Pip Installs Package）下载和安装第三方库，正常情况下pip已经包含在安装包中，安装Python后在命令行键入pip就可以看到pip命令的帮助信息。如果pip没有被正常安装，一般可通过如下方式手工安装：

```shell
# 下载安装pip的Python脚本get-pip.py
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
# 执行脚本以安装pip
python get-pip.py
```

默认情况下，pip会从Python Package Index（一般简称为PyPi，地址https://pypi.org/）下载第三方库。为加快下载速度，可以将下载地址更改为国内镜像：
```shell
# 设置清华大学PyPi镜像
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
# 查看配置
pip config list
```
#### 2.1.2 安装VSCode
VSCode下载地址：https://code.visualstudio.com/Download。
VSCode安装完成后，打开VSCode，点击左下角的扩展图标，搜索并安装Python扩展。

#### 2.1.3 配置虚拟环境
推荐通常建议使用venv（或Anaconda）为每个项目创建单独的虚拟环境，当然读者也可以使用Poetry等工具来管理虚拟环境。

#### 2.1.4 执行代码
执行代码有几点需要注意的事项：
- 需要使用pip install安装第三方库
- HuggingFace的模型加载有限制，需要设置镜像
- 模型需要下载至本地，最好设置单独的模型保存路径，以避免磁盘空间爆满
- 模型加载需要时间，请耐心等待
一般来说，可通过设置环境变量**HF_ENDPOINT**和**HF_HOME**分别设置镜像地址和模型保存路径。


### 2.2 Python机器学习编程
这一节主要介绍Python机器学习编程中用的一些语法，重点是张量、推导式和可调用对象的语法。

### 2.2.1 从类型到张量

Python是一种强类型的语言，每个变量在运行时都有一个确定的类型。但Python同时也是一种动态类型语言，变量的类型是在运行时确定的，而不需要在编码时声明类型。

In [1]:
# 赋值为整数类型
x = 100
# 赋值为字符串类型
x = "Hello Python"
# 以上体现了动态类型，下面一行体现了强类型，字符串不能与数值相加
# print(x+1)

Python类型系统大致可分为数值（Number）、序列（Sequence）、集合（Set）和映射（Map）等几个大类：

In [None]:
# 字符串是不可变序列
a = "Hello, Generative AI"
# 使用方括号访问第0个元素，第2~10（不含）个元素
print(a[0], a[2:10], sep="\n")
# 序列通过方括号创建，元素类型可以不相同
b = [1, "AI", 2.3, True, 1]
# 同上
print(b[1], b[2:3], sep="\n")
# 元组
c = (1, "AI", 2.1)
# 使用len计算长度
print(len(c))

下面是创建集合和映射的几个示例：

In [None]:
# 序列中元素不能重复
a = {1,"AI",1}
# 由于有重复元素，实际只保存一个1
print(a, len(a))
# 字典是由键值对组成的集合
b = {"a":1,"b":2,"a":3}
# 通过键访问值，由于键a被声明了两次，后一次会覆盖前一次
print(b["a"])

在以上这些类型中，序列应该是在机器学习中最常用的一种数据类型了。这是因为任何一种模型的输入输出数据，都可以看成是以序列保存的多维数组。它们在机器学习中一般被统称为张量（Tensor），这是对各种维度数据的一种泛化类型。依据数据维度（Dimension）的个数，可将数据分为标量（Scalar）、向量（Vector）、矩阵（Matrix）等多种形式。维度个数在张量中称为阶（Rank），是集合中元素可变化方向的数量，体现了集合在结构上的复杂程度。比如，标量是一个独立的元素，不存在增加或减少元素的问题，也就没有可以变化的方向，所以标量就是0阶张量。依此类推还可以扩展到更高维度的空间，一个n维数组就是一个n阶张量。总的来说，张量就是标量、向量、矩阵和多维数组的统一概念。机器学习中存在大量向量、矩阵或多维数组的运算，它们均可通过张量运算的形式实现。有不少支持张量运算的第三方库，比如Numpy中的ndarray就可以认为是张量，可实现张量的加减乘除等基本运算。

#### 2.2.2 从控制语句到数据处理
首先需要知道缩进在Python编程中的重要性，缩进在Python中定义了代码块，如函数、循环、分支等都要借助缩进分隔块。除了缩进以外，Python的语句结束也没有特殊的符号，而是通过换行符来结束一个语句。
Python控制语句大致也分为分支和循环两类，分支语句使用的关键字if、elif（即else if的缩写）和else，大体的语法结构如下：
```python
if condition1:
    # 如果 condition1 为真，则执行这里的代码块
elif condition2:
    # 如果 condition1 为假且 condition2 为真，则执行这里的代码块
else:
    # 如果所有前面的条件都为假，则执行这里的代码块
```

Python循环语句分为for循环和while循环两种:
```python
myset = {1,2,"AI",1,2}
for item in myset:
    # 对myset中的每个元素执行这里的代码块
    print(item)
```
Python有些用于生成序列、集合和映射的方法非常有趣，但它们在其它编程语言中并不常见。这些方法通常是在处理数据时嵌入到其它结构中，Python称它们为推导式（Comprehension）：

In [None]:
# 序列推导式：生成0~9的平方
l1 = [x**2 for x in range(10)]
print(l1)
# 字典推导式：以整数1为例，键为字符串num1，值为整型1
d1 = {f"num{n}":n for n in range(10)}
print(d1)
# 集合推导式：生成偶数集合，是典型的for与if相结合的用法
even_list = {x for x in range(10) if x%2==0}
print(even_list)
# 生成even,odd序列，另一种for与if相结合的方式
even_or_odd = ["even" if x%2==0 else "odd" for x in range(10)]
print(even_or_odd)
# 元组序列的推导式
tuple_list = [(k,v) for k,v in d1.items()]
print(tuple_list)
# 下面的式子并不是元组推导式，它生成的是生成器
generator = (x*2 for x in range(5))
print(generator)
# 生成器在迭代时才生成数值
for num in generator:
    print(num, end=",")

#### 2.2.3  从函数到可调用对象
函数在Python中实际上也是一种类型，它们被称为可调用类型（Callable Type）。

In [None]:
def my_func(param1:str, param2:int, *args, param3:int=200, **kwargs):
    '''带有各种参数形式的函数示例
    Args:
        param1 (str): 字符串参数
        param2 (int): 整型参数
        args: 可变位置参数
        param3 (int, optional): 带默认值的整型参数
        kwargs: 可变关键字参数
    '''
    # 依次打印参数
    print(param1, param2, param3, args, kwargs, sep="\n")

# 按位置传入参数
my_func("hello", 100, 1, 2, x=1, y=2)
# 按关键字传入参数
my_func(param2=200, param1="python", x=1, y=2)

Python可调用类型并非只有函数一种，像类、方法等也属于可调用类型。机器学习的一些Python框架库中，使用比较多的一种可调用类型是类的实例。类成为可调用类型需要声明一个名为__call__的方法，该方法就是类实例作为可调用对象使用时的入口。下面的代码片段展示了如何将类定义成可调用类型：
```python
# 父类_ScikitCompat
class _ScikitCompat:
    def __init__(self):
        super().__init__()
        print("_ScikitCompat is initializing")
# 父类PushToHubMixin
class PushToHubMixin:
    def __init__(self):
        super().__init__()
        print("PushToHubMixin is initializing")
# 流水线类继承自_ScikitCompat, PushToHubMixin
class Pipeline(_ScikitCompat, PushToHubMixin):
    # 构造方法
    def __init__(self, model, tokenizer, **kwargs):
        super().__init__()
        self.model = model
        self.tokenizer = tokenizer
    # 调用时执行的方法
    def __call__(self, input:str, *args, **kwds):
        print(f"user input: {input}")
        return "this is a fake implementation"

p = Pipeline("model", "tokenizer")
result = p("my input")
print(result)
```

#### 2.2.4 模块与包
Python中的模块（Module）与包（Package）也非常重要，它们是Python中实现模块化编程和代码复用的重要方式。一个模块就是一个Python源文件，其中包含了按Python语法声明的各种对象；而一个包则是一个目录，其中必须包含有一个名为__init__.py的文件。下面的代码展示了几种常用的标准库模块及其引入方法：

In [None]:
import math
from os import getcwd
import datetime

sqrt_value = math.sqrt(16)
current_dir = getcwd()
now = datetime.datetime.now()
print(sqrt_value, current_dir, now, sep="\n")

### 2.3 生成式AI项目的生命周期
图2-4展示的是由AWS人工智能专家推荐的、开发生成式AI项目的生命周期，它基本上囊括开发生成式AI项目的主要步骤：

![生成式AI项目生命周期](../res/images/dev_step.png)

### 2.4 本章小结
本章从一个基于transformers库的示例入手，介绍了开发生成式AI项目所需的环境、Python语法知识以及项目迭代周期等。
对于开发环境来说，需要读者提前安装好Python解释器、VSCode并设置好venv虚拟环境。为了能够更快地执行本书示例，读者要特别注意设置好以下参数：
- 为pip设置好国内镜像以加速第三方依赖下载速度
- 通过HF_ENDPOINT环境变量设置Hugging Face国内镜像
- 通过HF_HOME环境变量设置本地模型、数据集等资源的保存路径
虽然Python语法比较简单，但在机器学习开发中有一些概念和惯用编程手法也要特别留意一下。读者可比照下面的列表，看看自己是否知道这些概念或编程手法。如果有所遗漏可重新阅读本章2.2节中的相关内容：
- 张量是对标量、向量、矩阵和多维数组的统称，机器学习运算以张量运算为主
- Python推导式常用于处理训练数据，Numpy和Pandas是常用的数据处理库
- PyTorch、TensorFlow和transformers库都大量使用可调用对象实现模型调用
最后，生成式AI项目的生命周期是一个不断迭代的过程，包括选择或训练模型、适配与对齐、评估与测试、增强与集成等几个主要步骤。一般来说，前两个步骤涉及模型选型与改良，需要理解各种模型的结构特征及其区别等等；而最后一个步骤是与应用集成的核心步骤，需要对模型的能力范围有所了解。现在越来越多项目会选择使用第三方开放的模型服务，因此并不一定存在迭代优化模型的过程。这种方法可以极大加快大模型应用的落地，但对于专业领域或存在敏感数据的应用场景并不适用。本书后续章节会陆续讲解以上步骤所涉及的具体技术细节，相信对生成式AI项目的开发会有所帮助。